收藏本站
《NCIRCS2004第一届全国信息检索与内容安全学术会议论文集》2004年
收藏 | 手机打开
二维码
手机客户端打开本文

基于SDD算法的特定网页采集技术

周国民  丘耘  郑彦妍  曾枝连  樊景超  
【摘要】:SDD算法可以用来构建数据量大和变化快的文档集的隐含语义索引。利用SDD 算法来建立特定网页采集模型需要两步,即建立训练网页集和生成SDD 阵,其中SDD 阵的生成过程包括中文网页预处理、中文分词、建立词表、构建文档——词矩阵、计算SDD 阵、压缩SDD 阵。在windows 平台上构建了中文特定网页的采集实验系统,运行结果表明系统设计是可行的,并且具有良好性能。

手机知网App
【引证文献】
中国期刊全文数据库 前2条
1 李蕾;周国民;;基于Ajax与向量空间模型的个性化搜索引擎[J];计算机工程与应用;2007年19期
2 李蕾;周国民;;一种个性化搜索引擎系统[J];现代图书情报技术;2007年01期
【参考文献】
中国期刊全文数据库 前2条
1 冯项云;LSI潜在语义标引方法在情报检索中的应用[J];现代图书情报技术;1998年04期
2 周水庚,关佶红,胡运发;隐含语义索引及其在中文文本处理中的应用研究[J];小型微型计算机系统;2001年02期
【共引文献】
中国期刊全文数据库 前10条
1 王琦;;自动分类技术研究[J];河南财政税务高等专科学校学报;2008年04期
2 毕静;;自动分类技术研究[J];电脑知识与技术;2009年04期
3 杨梁彬;文本检索的潜在语义索引法初探[J];大学图书馆学报;2003年06期
4 郑思婷;杨烜会;王周敬;;网络店铺信息自动提取[J];福建电脑;2011年02期
5 钱晓东,王正欧;基于改进KNN的文本分类方法[J];情报科学;2005年04期
6 郝占刚;王正欧;;基于潜在语义索引和遗传算法的文本特征提取方法[J];情报科学;2006年01期
7 刘海峰;王元元;张学仁;;基于潜在语义空间的文本检索问题研究[J];情报科学;2007年05期
8 陶蕾;一种智能型的信息检索方法:隐含语义索引法[J];情报理论与实践;2004年03期
9 衡中青;基于Hopfield网络的主题索引[J];情报杂志;2003年11期
10 刘海峰;王元元;张学仁;刘守生;;一种基于聚类和LSA相结合的文本特征降维方法[J];情报杂志;2008年02期
中国博士学位论文全文数据库 前10条
1 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
2 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
3 钱晓东;基于神经网络等技术的数据与文本聚分类研究[D];天津大学;2005年
4 王明春;基于粗糙集的数据及文本挖掘方法研究[D];天津大学;2005年
5 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
6 郝占刚;基于遗传算法等技术的数据与文本聚分类研究[D];天津大学;2006年
7 王煜;基于决策树和K最近邻算法的文本分类研究[D];天津大学;2006年
8 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
9 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
10 徐新文;基于内容的新闻视频挖掘方法研究[D];国防科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 王洋;基于潜在语义分析的智能搜索技术研究[D];哈尔滨工程大学;2010年
2 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
3 何文涛;基于分类文本库的文本分类系统的应用研究及实现[D];中国地质大学(北京);2011年
4 吴秀梅;基于潜在语义分析和最大熵的中文情感分析研究[D];北京交通大学;2011年
5 李帅;基于语义相似度的查询扩展优化[D];杭州电子科技大学;2011年
6 李国佳;汉语全文相似度计算的研究及应用[D];电子科技大学;2011年
7 盛魁;基于SVM的中文网页自动分类技术研究[D];安徽大学;2011年
8 张炼;基于图模型的Web文档分类方法研究[D];内蒙古科技大学;2010年
9 冯元勇;智能搜索器的概念库设计及其文档评价策略[D];中南大学;2002年
10 宗士强;潜在语义索引在飞机故障案例检索的中应用[D];南京航空航天大学;2003年
【二级引证文献】
中国期刊全文数据库 前6条
1 陈智;钱言玉;;基于用户兴趣的个性化搜索引擎研究[J];合肥师范学院学报;2010年03期
2 张瑞藜;;个性化搜索引擎中用户兴趣提取技术的研究[J];科技信息;2012年24期
3 吴飞;金士尧;胡浩民;;基于用户属性的个性化教学智能辅助研究和设计[J];计算机工程与科学;2012年09期
4 刘高勇;汪会玲;;基于Ajax的交互式检索[J];情报科学;2008年09期
5 赖茂生;屈鹏;;用户需求模式协同构建的初步探索[J];情报科学;2009年09期
6 杨曙红;;基于个性化文件的个性化搜索引擎设计探究[J];兰台世界;2011年12期
中国硕士学位论文全文数据库 前10条
1 蒋祥杰;基于用户情境本体的个性化知识服务研究[D];武汉理工大学;2010年
2 朱洪涛;垂直门户网站产品搜索系统的设计与实现[D];北京邮电大学;2010年
3 谢文玲;个性化信息服务系统中用户建模技术研究[D];上海师范大学;2011年
4 马升军;浙江电信114系统技术改造方案的设计[D];北京邮电大学;2011年
5 王岩;可爬取Ajax数据的搜索引擎爬虫研究与设计[D];长春理工大学;2011年
6 孙鑫;元搜索引擎结果个性化排序的研究与实现[D];中国石油大学;2008年
7 徐泼;一种轻量级个性化搜索引擎的研究[D];哈尔滨工程大学;2008年
8 肖卓磊;基于Ajax技术的搜索引擎研究[D];武汉理工大学;2009年
9 罗颖;基于用户词典的搜索个性化研究[D];重庆大学;2009年
10 杨永毅;基于Lucene的二手汽车交易信息垂直搜索引擎的研究与实现[D];重庆大学;2009年
【相似文献】
中国期刊全文数据库 前10条
1 李俊华;;基于Web文本挖掘的高校教师个人主页系统研究与开发[J];大理学院学报;2011年04期
2 丁晟春,岑咏华,顾德访;基于Ontology的语义检索研究[J];情报学报;2005年06期
3 何琳;曹玲;;农业古籍本体的构建及其检索机制研究[J];现代图书情报技术;2006年12期
4 刘震;邓苏;黄宏斌;;基于混合P2P网络模型的语义检索方法研究[J];计算机科学;2009年12期
5 徐泉清;代亚非;崔斌;;一种无结构P2P系统中基于层次兴趣树的语义检索机制[J];北京大学学报(自然科学版);2010年01期
6 王映,于满泉,李盛韬,王斌,余智华;JavaScript引擎在动态网页采集技术中的应用[J];计算机应用;2004年02期
7 汪材印;崔琳;李鸿;;P2P网络中基于语义的资源检索方案的实现[J];湖北民族学院学报(自然科学版);2011年02期
8 吴定明;赵东岩;;一种互联网新闻网页的采集分析方法[J];计算机工程与应用;2007年36期
9 汪材印;杨杰;;基于语义P2P技术的资源共享和检索系统研究[J];电脑开发与应用;2010年02期
10 蔡欣宝;郭若飞;赵朋朋;崔志明;;Web论坛数据源增量爬虫的研究[J];计算机工程;2010年09期
中国重要会议论文全文数据库 前3条
1 周国民;丘耘;郑彦妍;曾枝连;樊景超;;基于SDD算法的特定网页采集技术[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 樊景超;周国民;周义桃;;基于SDD改进算法的中文农业搜索引擎的研究[A];农业工程科技创新与建设现代农业——2005年中国农业工程学会学术年会论文集第三分册[C];2005年
3 房江太;黄映辉;李冠宇;;基于WSDL-S的Web服务语义标注方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
中国重要报纸全文数据库 前1条
1 四川 陈伟;用“Ctrl+C”组合键复制加密的网页[N];电脑报;2004年
中国博士学位论文全文数据库 前1条
1 周竹荣;基于语义的教学网格门户研究[D];西南大学;2008年
中国硕士学位论文全文数据库 前10条
1 张智鹏;基于语义检索的结构化P2P网络模型研究[D];西华大学;2010年
2 杨玲贤;基于Ontology的非结构化信息访问机制研究[D];武汉科技大学;2004年
3 邹景华;语义万维网在智能信息检索中的应用研究[D];重庆大学;2005年
4 贾春鑫;面向主题的双约束网页采集方法的研究和实现[D];上海交通大学;2011年
5 白红霞;支持JavaScript解析的网页采集系统设计与实现[D];东北大学;2008年
6 杨超;基于网格的大规模网页采集技术研究[D];哈尔滨工业大学;2007年
7 朱志宁;基于Web的企业竞争情报智能搜集平台中页面分析存储的研究[D];昆明理工大学;2006年
8 牟帅;语义Web服务的OWL-S描述及其应用[D];大连海事大学;2008年
9 李丽莉;网络信息监控分析系统的研究与设计[D];江西师范大学;2008年
10 王晓萌;基于本体的语义网格的推理查询[D];山东大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026