收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于SDD算法的特定网页采集技术

周国民  丘耘  郑彦妍  曾枝连  樊景超  
【摘要】:SDD算法可以用来构建数据量大和变化快的文档集的隐含语义索引。利用SDD 算法来建立特定网页采集模型需要两步,即建立训练网页集和生成SDD 阵,其中SDD 阵的生成过程包括中文网页预处理、中文分词、建立词表、构建文档——词矩阵、计算SDD 阵、压缩SDD 阵。在windows 平台上构建了中文特定网页的采集实验系统,运行结果表明系统设计是可行的,并且具有良好性能。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李俊华;;基于Web文本挖掘的高校教师个人主页系统研究与开发[J];大理学院学报;2011年04期
2 丁晟春,岑咏华,顾德访;基于Ontology的语义检索研究[J];情报学报;2005年06期
3 何琳;曹玲;;农业古籍本体的构建及其检索机制研究[J];现代图书情报技术;2006年12期
4 刘震;邓苏;黄宏斌;;基于混合P2P网络模型的语义检索方法研究[J];计算机科学;2009年12期
5 徐泉清;代亚非;崔斌;;一种无结构P2P系统中基于层次兴趣树的语义检索机制[J];北京大学学报(自然科学版);2010年01期
6 王映,于满泉,李盛韬,王斌,余智华;JavaScript引擎在动态网页采集技术中的应用[J];计算机应用;2004年02期
7 汪材印;崔琳;李鸿;;P2P网络中基于语义的资源检索方案的实现[J];湖北民族学院学报(自然科学版);2011年02期
8 吴定明;赵东岩;;一种互联网新闻网页的采集分析方法[J];计算机工程与应用;2007年36期
9 汪材印;杨杰;;基于语义P2P技术的资源共享和检索系统研究[J];电脑开发与应用;2010年02期
10 蔡欣宝;郭若飞;赵朋朋;崔志明;;Web论坛数据源增量爬虫的研究[J];计算机工程;2010年09期
11 樊景超,周国民;SDD算法在中文农业网页信息检索的应用[J];农业网络信息;2005年11期
12 苏志军;郭立帆;翁丹丹;;InfoQuilt系统中P2P语义web技术应用研究[J];江西图书馆学刊;2007年03期
13 梁苑苑;王佳;;TRS网络信息雷达系统在新闻网站数据自动化迁移中的应用[J];气象研究与应用;2010年04期
14 徐守坤;薛浩;李宁;马正华;;一种基于本体服务索引的Web服务扩展方法[J];常州大学学报(自然科学版);2011年01期
15 肖建鹏;张来顺;任星;;直推式支持向量机在Web信息抽取中的应用研究[J];计算机工程与应用;2009年02期
16 刘磊;宋雅娟;任平;;一种面向组合服务的语义Web服务发现方法[J];吉林大学学报(理学版);2010年02期
17 曹锐,陈刚,蔡铭;基于本体的网络化制造资源检索[J];计算机工程;2004年03期
18 张博;蔡皖东;;面向主题的网络蜘蛛技术研究及系统实现[J];微电子学与计算机;2009年05期
19 王若曈;张辉;杨家海;黄桂奋;;P2P网络管理系统信息模型的设计与实现[J];通信学报;2010年01期
20 陈定权;Web结构挖掘研究[J];情报理论与实践;2003年01期
中国重要会议论文全文数据库 前3条
1 周国民;丘耘;郑彦妍;曾枝连;樊景超;;基于SDD算法的特定网页采集技术[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 樊景超;周国民;周义桃;;基于SDD改进算法的中文农业搜索引擎的研究[A];农业工程科技创新与建设现代农业——2005年中国农业工程学会学术年会论文集第三分册[C];2005年
3 房江太;黄映辉;李冠宇;;基于WSDL-S的Web服务语义标注方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
中国博士学位论文全文数据库 前1条
1 周竹荣;基于语义的教学网格门户研究[D];西南大学;2008年
中国硕士学位论文全文数据库 前10条
1 张智鹏;基于语义检索的结构化P2P网络模型研究[D];西华大学;2010年
2 杨玲贤;基于Ontology的非结构化信息访问机制研究[D];武汉科技大学;2004年
3 邹景华;语义万维网在智能信息检索中的应用研究[D];重庆大学;2005年
4 贾春鑫;面向主题的双约束网页采集方法的研究和实现[D];上海交通大学;2011年
5 白红霞;支持JavaScript解析的网页采集系统设计与实现[D];东北大学;2008年
6 杨超;基于网格的大规模网页采集技术研究[D];哈尔滨工业大学;2007年
7 朱志宁;基于Web的企业竞争情报智能搜集平台中页面分析存储的研究[D];昆明理工大学;2006年
8 牟帅;语义Web服务的OWL-S描述及其应用[D];大连海事大学;2008年
9 李丽莉;网络信息监控分析系统的研究与设计[D];江西师范大学;2008年
10 王晓萌;基于本体的语义网格的推理查询[D];山东大学;2006年
中国重要报纸全文数据库 前1条
1 四川 陈伟;用“Ctrl+C”组合键复制加密的网页[N];电脑报;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978