收藏本站
《第四届全国信息检索与内容安全学术会议论文集(上)》2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Web链接的主题爬行虫初始URL的研究

王玉婷  杜亚军  涂腾涛  
【摘要】:主题爬虫根据用户查询确定主题信息,通过网页间的超链接,有选择性的在Web上遍历,获取与主题相关网页。它遍历的是整个Web中特定的部分区域。因此为了在较短时间内获取更多的主题信息,起始地址的选择显得异常重要。超链接,作为整个Web网络的连接者,隐含着大量的主题信息。本文使用一个关于网页链接的文本集来模拟Web结构,通过实验结果分析主题区域在Web上的分布规律,验证根据查询主题选择初始URL对主题爬行虫有重大意义。最后结合图论中的相关知识,针对目前初始URL选择所存在的问题给出相应的解决方案。

【参考文献】
中国期刊全文数据库 前1条
1 张宇,张宏莉,方滨兴;Internet拓扑建模综述[J];软件学报;2004年08期
【共引文献】
中国期刊全文数据库 前10条
1 赵海;徐野;苏威积;李超;;Internet网络效能及其物理特征量分析[J];东北大学学报(自然科学版);2006年11期
2 王艳辉,吴斌,王柏;电信社群网络静态几何性质分析研究[J];复杂系统与复杂性科学;2005年02期
3 邱均平,张洋;网络信息计量学综述[J];高校图书馆工作;2005年01期
4 徐林昊,杨文柱,张绍华,薛文玲,李天柱;Web信息查询研究进展[J];河北大学学报(自然科学版);2001年03期
5 张永;方滨兴;叶建伟;田志宏;;时间同步网的可生存性增强[J];计算机研究与发展;2006年09期
6 王杉;庄钊文;魏急波;;基于节点位置和密度修正的自组网区域路由[J];计算机工程与应用;2006年03期
7 喻海飞;汪定伟;;人工生命与人工生命计算[J];计算机工程与应用;2007年01期
8 王柏;吴巍;徐超群;吴斌;;复杂网络可视化研究综述[J];计算机科学;2007年04期
9 王凤霞,张景,常晓;电子教务门户研究与设计[J];计算机工程;2005年08期
10 高琰;谷士文;唐琎;;基于链接分析的Web社区发现技术的研究[J];计算机应用研究;2006年07期
中国重要会议论文全文数据库 前4条
1 马彪;;基于Markov链的动态网络拓扑生成模型[A];2005中国控制与决策学术年会论文集(下)[C];2005年
2 许欢庆;王永成;孙强;;基于遗传算法的定题信息搜索策略[A];第一届学生计算语言学研讨会论文集[C];2002年
3 张冉;卡米力毛依丁;;基于论文参考文献引用分析的专业文献查询库[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
4 杨宇航;赵铁军;郑德权;于浩;;基于链接分析的重要Blog信息源发现[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 李常洪;多Agent合作机制与合作结构研究[D];天津大学;2003年
2 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
3 苟先太;下一代网络中支持多媒体通信任务的多代理技术研究[D];西南交通大学;2005年
4 张运凯;网络蠕虫传播与控制研究[D];西安电子科技大学;2005年
5 袁江;小卫星组网路由方法研究[D];中国科学院研究生院(空间科学与应用研究中心);2006年
6 李江涛;对等网络性能测量与改善[D];北京邮电大学;2006年
7 张文波;Internet宏观拓扑结构的生命特征研究[D];东北大学;2006年
8 王俊伟;粒子群优化算法的改进及应用[D];东北大学;2006年
9 喻海飞;食物链算法及其在供应链管理中的应用[D];东北大学;2005年
10 乐小虬;非结构化网络空间信息智能搜索与服务研究[D];中国科学院研究生院(遥感应用研究所);2006年
中国硕士学位论文全文数据库 前10条
1 谢东;Internet链路时延推测的研究[D];北京邮电大学;2006年
2 吴巍;复杂网络可视化与Link OLAP[D];北京邮电大学;2007年
3 朱凌;基于GPath-Tree的Gnutella网络搜索法[D];江西师范大学;2005年
4 罗清磊;引入本体机制的Web智能信息Agent[D];广东工业大学;2003年
5 张必勇;强化学习在用户学习中的应用研究[D];太原理工大学;2003年
6 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
7 王凤霞;研究生电子教务信息门户研究与开发[D];西安理工大学;2004年
8 董志勇;Web信息检索中基于超链接的网页评估算法的研究[D];河海大学;2004年
9 卢方国;强化学习在个性化信息Agent的应用研究[D];广东工业大学;2004年
10 刘翠娟;Web应用中静态测试的研究[D];西北大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 倪靖;;一种基于云计算的Web结构挖掘算法[J];电脑知识与技术;2011年24期
2 贾志洋;李伟伟;高炜;夏幼明;;基于支持向量机的搜索引擎垃圾网页检测研究[J];云南民族大学学报(自然科学版);2011年03期
3 成亿;朱庆华;;社会网络分析方法在IT博客中的实证研究[J];中国科技资源导刊;2010年06期
4 刘惜吾;刘昊朋;程青燕;;一种WiCAN传输平台的软件重配置方法[J];科学技术与工程;2011年19期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 褚静波;王轶彤;汪卫;;一种有效的自动识别与过滤噪链的方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
3 张刚;王斌;程学旗;;基于链接的分布式信息检索文档划分研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
4 薛宇飞;刘奕群;张敏;马少平;茹立云;;基于用户浏览图的网页质量评估方法的比较分析[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 杨宇航;赵铁军;郑德权;于浩;;基于链接分析的重要Blog信息源发现[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
6 杨宇航;郑德权;于浩;赵铁军;;基于内容分析的作弊评论自动识别[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
7 杨建武;陈晓鸥;;XML文档集的聚类研究[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
8 刘菁菁;林鸿飞;;基于结构和链接扩展的中文网页分类研究[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
9 王灿辉;张敏;马少平;;Web作弊与反作弊技术综述[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
10 鄂梅;王剑钊;;下一代网络业务控制能力的分析[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
中国重要报纸全文数据库 前10条
1 钱留宽;乡镇零户统管操作技巧[N];中国财经报;2008年
2 叶彩霞;出境货物电子转单信息丢失的原因及预防[N];中国国门时报;2005年
3 朱静芬;Excel在财务中的运用[N];财会信报;2007年
4 四川 刘昌松;用Excel合并会计报表[N];电脑报;2001年
5 昌文 程柳 本报记者 张锋;数据链的五大特征[N];解放军报;2004年
6 记者 李剑军、通讯员 徐剑平、何剑;襄樊电子政务提档升级[N];湖北日报;2006年
7 刘 勇;网络链接中侵权行为的界定[N];人民法院报;2005年
8 本报记者 王凌;网络出版,侵权诉案多几许?[N];中国新闻出版报;2005年
9 记者 刘巍 通讯员 卢金祥 王秀敏;涿州以服务促增收[N];河北经济日报;2006年
10 胡尧熙 黄俊杰 胡斐;2006年创意生活十潮流[N];中国社会报;2006年
中国博士学位论文全文数据库 前10条
1 李丽娜;基于链接的网络数据分类和链接预测新方法研究[D];吉林大学;2012年
2 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
3 董飚;Internet发布/订阅技术研究[D];南京理工大学;2011年
4 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
5 董威;面向UML的模型检验研究[D];中国人民解放军国防科学技术大学;2002年
6 徐明;对等网络中的查询路由与重构机制[D];复旦大学;2010年
7 刘毅捷;视频社区中海量数据管理方法研究[D];中国科学技术大学;2011年
8 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
9 马瑞新;基于粒子群的网络社区动态角色挖掘研究[D];大连理工大学;2012年
10 路遥;用户交互式问答系统中问题推荐机制的研究[D];中国科学技术大学;2012年
中国硕士学位论文全文数据库 前10条
1 郑国庆;针对链接语料的主题社区挖掘[D];上海交通大学;2012年
2 谢宛洋;社会网络图数据隐私攻击研究[D];东北师范大学;2012年
3 李栋才;基于链接重要性的动态链接预测算法研究[D];华中科技大学;2011年
4 郭宏伟;基于矩阵的多特征链接预测方法研究[D];燕山大学;2010年
5 云颖;复杂网络中的社区发现及进化研究[D];河北大学;2011年
6 殷涵;社会网络的链接预测[D];吉林大学;2012年
7 伍成志;基于维基百科的知识查找系统的研究与实现[D];华南理工大学;2012年
8 李恒训;网络论坛采集及热点话题发现研究[D];首都师范大学;2011年
9 胡满玉;基于链接关系的有向加权复杂网络关键节点识别技术研究[D];南京理工大学;2012年
10 刘发明;社会网络分析与社团发现[D];山东大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026