收藏本站
《第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集》2005年
收藏 | 手机打开
二维码
手机客户端打开本文

天罗Web信息采集系统中的性能优化

吴丽辉  张凯  张刚  王斌  
【摘要】:随着Web信息的爆炸性增长,对Web信息采集的性能提出了巨大的挑战。本文介绍了天罗Web信息采集的总体结构和性能优化策略。在性能优化策略中详细分析了优雅采集、页面采集、页面刷新和分布式采集。在页面采集中分析了多线程、重复网页、采集器陷阱和网页的存储。实验结果表明,天罗Web信息采集系统具有较高的性能。

手机知网App
【参考文献】
中国硕士学位论文全文数据库 前1条
1 李盛韬;基于主题的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2002年
【共引文献】
中国期刊全文数据库 前2条
1 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
2 祝宇;夏诏杰;聂峰光;郭力;;支持向量机在化学主题爬虫中的应用[J];计算机与应用化学;2006年04期
中国重要会议论文全文数据库 前3条
1 白硕;程学旗;郭莉;王斌;余智华;刘群;;大规模内容计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 张凯;李魁;张刚;王斌;;基于站点的Web信息采集器研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 刘莉;肖诗斌;王涛;施水才;;基于RSS的分布式博客搜索引擎设计[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前5条
1 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
2 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年
3 吴丽辉;个性化的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2005年
4 王辉;基于质心具有增量性质的主题爬行[D];吉林大学;2007年
5 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 姚斌;设计和实现一个主题搜索引擎[D];内蒙古大学;2004年
2 王军;中文搜索引擎的设计与实现[D];华中科技大学;2004年
3 丁一;基于Web挖掘的个性化推荐服务研究[D];华中科技大学;2004年
4 何华;搜索引擎中的数据存储问题研究[D];浙江大学;2005年
5 胡卓颖;专题型网页搜集器关键算法的研究及实现[D];江西师范大学;2005年
6 王斐;基于增量反馈和自适应机制的主题爬虫系统的设计与实现[D];南京理工大学;2005年
7 欧歌;专题式Web信息获取技术研究[D];北京化工大学;2005年
8 刘宇波;面向可下载资源的WEB搜索引擎的设计与实现[D];湖南大学;2005年
9 周晔;一种增量式并行Web信息采集系统[D];暨南大学;2005年
10 姜杰;专业搜索引擎分布式Robot设计研究[D];南京师范大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 朱克勤;数据库系统性能优化方法[J];警察技术;2004年06期
2 李泽平;SQL查询语句的性能优化与索引[J];福建电脑;2005年09期
3 张南平,陈小倩;ASP.NET性能优化[J];微机发展;2005年08期
4 史长琼;基于ORACLE的GIS数据实时处理系统的性能优化[J];长沙交通学院学报;2001年03期
5 张华;;查询优化技术在MIS中的应用[J];潍坊学院学报;2005年06期
6 唐沙;唐慧佳;李东琦;;电子商务系统的性能优化方案研究[J];微计算机信息;2007年27期
7 袁慧颖;翁盛鑫;程少平;魏冰;;ORACLE数据库性能优化[J];海军总医院学报;2007年03期
8 王勇;;基于SQL数据库的性能优化问题分析[J];电脑知识与技术;2008年15期
9 陈一明;;SQL Server数据库应用技巧探讨[J];科学技术与工程;2008年12期
10 高平;;虚拟轴数控机床关键技术研究[J];石家庄铁道学院学报(自然科学版);2008年03期
中国重要会议论文全文数据库 前10条
1 吴丽辉;张凯;张刚;王斌;;天罗Web信息采集系统中的性能优化[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
2 方奇;袁茂森;刘志强;;三聚吲哚化合物的选位异构及双光子性能优化:长程与短程电荷转移[A];全国第八届有机固体电子过程暨华人有机光电功能材料学术讨论会摘要集[C];2010年
3 陈建松;;IBM大型机应用系统性能优化[A];中国计量协会冶金分会2011年会论文集[C];2011年
4 曹燕;;ORACLE数据库系统的性能优化[A];数据库技术在气象领域的应用学术会议论文集[C];2001年
5 高明星;;DB2数据库应用性能优化问题浅谈[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年
6 李昱;;DB2 SQL性能优化准则在武钢物流管理系统中的实践[A];中国计量协会冶金分会2011年会论文集[C];2011年
7 高俊;;浅谈企业内部局域网的维护[A];计算机技术在工程建设中的应用——第十二届全国工程建设计算机应用学术会议论文集[C];2004年
8 冯春燕;张晨;周继成;丁炜;;基于多协议标记交换MPLS的因特网流量工程[A];中国航空学会信号与信息处理专业全国第八届学术会议论文集[C];2004年
9 冯立;王良勇;钱晓龙;;冗余控制系统的原理及性能优化[A];中国仪器仪表学会第五届青年学术会议论文集[C];2003年
10 陳正士;徐華陽;陳曉強;馬闖;;直流磁控反应溅镀NiCr-CN薄膜性能研究[A];第六届华东三省一市真空学术交流会论文集[C];2009年
中国重要报纸全文数据库 前10条
1 陈翔;性能优化只能救火[N];中国计算机报;2007年
2 奥创利高级开发工程师 Robert A. Aekins 奥创利高级产品经理 Gregg Lafontaine;六类系统性能优化“秘笈”[N];计算机世界;2002年
3 北京日讯在线科技有限公司;GPRS/EDGE支撑数据业务增长[N];通信产业报;2007年
4 陈洪康 郭宝群 李雪梅;浅谈VLDB性能优化与维护[N];人民邮电;2001年
5 本报记者 张旭军;渐入佳境[N];网络世界;2006年
6 ;安图特引入新型数据加速解决方案[N];人民邮电;2008年
7 爱立信(中国)通信有限公司服务产品部 刘浩;EDGE网规网优夯实数据业务基础[N];通信产业报;2007年
8 田光富;SQL语句不当 也会影响性能[N];中国计算机报;2008年
9 爱立信(中国)有限公司;爱立信助深圳移动提升EDGE网络性能[N];通信产业报;2007年
10 ;天时科技DGTime NAServer9000主打中小企业[N];中国计算机报;2002年
中国博士学位论文全文数据库 前10条
1 张雷;嵌入式系统性能优化若干问题研究[D];电子科技大学;2010年
2 何倩;P2P系统性能优化若干关键技术研究[D];北京邮电大学;2010年
3 吴长泽;数据网格中高可用性副本管理及性能优化研究[D];重庆大学;2007年
4 吴钊;保证服务质量的动态Web服务组合及其性能分析研究[D];武汉大学;2007年
5 朱正林;电站辅机及辅机系统性能优化[D];东南大学;2005年
6 张国义;水科学应用网格的若干关键技术研究[D];中国科学技术大学;2007年
7 李衍杰;扩展Markov决策过程的性能灵敏度分析与优化[D];中国科学技术大学;2006年
8 宁静红;R290/CO_2自然工质复叠式制冷循环系统的理论分析与实验研究[D];天津大学;2007年
9 鲍秉坤;基于梯度逼近方法的Markov系统及其在通信中的应用[D];中国科学技术大学;2009年
10 张颖星;面向复杂系统应用的并行离散事件仿真性能优化技术研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 林树新;SmartOSEK的系统设计和时间性能优化[D];浙江大学;2005年
2 熊远生;网络控制系统的滑模预估变结构控制器设计及性能优化[D];浙江工业大学;2004年
3 徐慧君;基于JSP平台的信息发布系统的设计与实现[D];北京工业大学;2004年
4 吕栗;邮件过滤系统中数据库的性能优化[D];哈尔滨工程大学;2005年
5 石鹏飞;J2EE企业门户网站技术研究[D];浙江大学;2006年
6 陆琳琳;MD5算法的技术研究及性能优化[D];吉林大学;2006年
7 徐永军;基于视频压缩新标准H.264的软件编码器及其性能优化的研究[D];山东大学;2005年
8 梁海波;R6160ZC柴油机增压系统优化设计[D];山东大学;2005年
9 宋龙甫;B231柴油机降低排放及性能优化的研究[D];清华大学;2005年
10 廖玲;无盘教学办公网络的研究与开发[D];中南大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026