收藏本站
《第九届沈阳科学学术年会论文集(信息科学与工程技术分册)》2012年
收藏 | 手机打开
二维码
手机客户端打开本文

基于分布式结构的Deep Web结构化数据抽取系统

韩子扬  李贵  李征宇  王凤英  
【摘要】:Deep Web网站提供了大量的专业领域数据,单机系统抽取Deep Web数据效率低,抽取周期长,不能保证数据的时效性;本文提出了一种基于分布式结构的Deep Web结构化数据抽取系统,采用服务器/客户端架构搭建系统,设计作业调度算法,平衡客户端之间任务量,保证各个客户端之间的任务平衡;设定任务库及任务状态,通过任务状态实现对任务的进度监控;使用客户端分担服务器的分析工作,减轻服务器的计算压力;选用Java工具实现系统,完成系统设计。通过对单机和分布式抽取实验分析,分布式Deep Web数据抽取系统综合利用了多计算机并行处理能力和分散的网络资源,提高了Deep Web数据抽取效率,保证了数据抽取的时效性。
【作者单位】:沈阳建筑大学信息与控制工程学院计算机系
【分类号】:TP393.09

【参考文献】
中国期刊全文数据库 前6条
1 许笑;张伟哲;张宏莉;方滨兴;;广域网分布式爬虫中的Agent协同与Web划分研究[J];高技术通讯;2010年03期
2 周德懋;李舟军;;高性能网络爬虫:研究综述[J];计算机科学;2009年08期
3 刘伟;孟小峰;孟卫一;;Deep Web数据集成研究综述[J];计算机学报;2007年09期
4 李明;李秀兰;;基于结果模式的Deep Web数据标注方法[J];计算机应用;2011年07期
5 池勇敏;郝泳涛;;分布式主题爬虫的设计与实现[J];计算机应用与软件;2010年12期
6 许笑;张伟哲;张宏莉;方滨兴;;广域网分布式Web爬虫[J];软件学报;2010年05期
【共引文献】
中国期刊全文数据库 前10条
1 陆余良;房珊瑶;刘金红;施凡;;Deep Web站点分类研究进展[J];安徽大学学报(自然科学版);2010年01期
2 陶磊;莫倩;;基于CSS选择器的深网结果页抽取方法[J];北京工商大学学报(自然科学版);2009年02期
3 李颖;刘国华;佟冰;刘顺江;;基于素数的多源模式匹配方法的研究[J];燕山大学学报;2009年02期
4 于成龙;于洪波;;网络爬虫技术研究[J];东莞理工学院学报;2011年03期
5 王彩霞;高明;;Deep Web查询接口及其识别算法[J];电脑知识与技术;2011年22期
6 蒋莘;;基于知网的论文按需检索系统[J];电脑知识与技术;2012年02期
7 赵昊;卫刚;赵晓东;;基于主题Deep Web数据挖掘的研究与探索[J];电脑知识与技术;2012年16期
8 张志平;张云坤;李文骏;;Deep web在个性化信息服务中的应用[J];电子商务;2010年08期
9 郭少杰;陈雅冰;;Deep Web技术在科学数据共享平台中的应用[J];广东科技;2010年14期
10 李晓鑫;;XiaoQBot网络爬虫设计与实现[J];硅谷;2011年13期
中国重要会议论文全文数据库 前5条
1 蔡彪;廖闻剑;彭艳兵;;Deep Web数据集成和关键技术综述[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
2 李鹏;朱青;任安建;胡伟;杜小勇;;支持短语识别的关系数据库关键词查询算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
3 陶然;江锦华;吴羽;陈刚;;基于树合并的Deep Web查询接口集成[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 闫中敏;李庆忠;彭朝晖;董永权;丁艳辉;张永新;徐秀星;;DWDIS:面向分析的Deep Web数据集成系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
5 韩子扬;李贵;李征宇;王凤英;;基于分布式结构的Deep Web结构化数据抽取系统[A];第九届沈阳科学学术年会论文集[C];2012年
中国博士学位论文全文数据库 前10条
1 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
2 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
3 黎方正;关系数据库的关键词检索技术研究[D];中南大学;2010年
4 张卓;基于形式概念分析的Web数据库抽取研究[D];武汉大学;2011年
5 王颜新;非常规突发事件情境重构模型研究[D];哈尔滨工业大学;2011年
6 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
7 孟祥福;Web数据库柔性查询关键技术研究[D];东北大学;2010年
8 聂铁铮;Deep Web中Web数据库集成关键技术的研究[D];东北大学;2009年
9 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
10 徐和祥;Deep Web集成中若干技术研究[D];复旦大学;2008年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 商翠珍;数据资源汇聚的可视化建模技术研究与应用[D];山东科技大学;2010年
3 朱静;数据资源汇聚中嵌套表格模型的研究与应用[D];山东科技大学;2010年
4 夏怀楠;支持跨域数据汇聚的关系数据访问服务研究[D];山东科技大学;2010年
5 刘富江;网络数据源模式识别方法及策略研究[D];哈尔滨工程大学;2010年
6 周建斌;基于J2EE Web应用的科学数据共享平台的研究与实现[D];华南理工大学;2010年
7 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年
8 彭媛媛;Deep Web数据清洗方法研究及应用[D];长春工业大学;2010年
9 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年
10 杨晓丹;基于Lucene的主题搜索引擎模板的设计与实现[D];浙江工商大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 崔继馨,张鹏,杨文柱;基于DOM的Web信息抽取[J];河北农业大学学报;2005年03期
2 叶允明,于水,马范援,宋晖,张岭;分布式Web Crawler的研究:结构、算法和策略[J];电子学报;2002年S1期
3 张敏,高剑峰,马少平;基于链接描述文本及其上下文的Web信息检索[J];计算机研究与发展;2004年01期
4 张三峰;吴国新;;一种面向动态异构网络的容错非对称DHT方法[J];计算机研究与发展;2007年06期
5 马安香;张斌;高克宁;齐鹏;张引;;基于结果模式的Deep Web数据抽取[J];计算机研究与发展;2009年02期
6 余锦,史树明;分布式网页排序算法及其传输模式分析[J];计算机工程与应用;2004年29期
7 万源;万方;王大震;;一种并行Crawler系统中的URL分配算法设计[J];计算机工程与应用;2006年S1期
8 周雪忠;吴朝晖;;文本知识发现:基于信息抽取的文本挖掘[J];计算机科学;2003年01期
9 钱榕;徐新华;郑莹;杨炳儒;;智能专题化信息搜集Crawler[J];计算机工程;2006年03期
10 白鹤;汤迪斌;王劲林;;分布式多主题网络爬虫系统的研究与实现[J];计算机工程;2009年19期
【相似文献】
中国期刊全文数据库 前10条
1 王爽;华庆一;;Web系统维护中的逆向工程研究[J];计算机技术与发展;2008年01期
2 陈洪平;方巍;李林;崔志明;;复杂Web页的Wrapper自动化生成技术研究[J];微电子学与计算机;2010年04期
3 高明;王继成;李江峰;;基于语义支持的Deep Web数据抽取[J];计算机科学;2010年03期
4 王放,顾宁,吴国文;基于本体的WEB表格信息抽取[J];小型微型计算机系统;2003年12期
5 何莹;;基于KPS的HTML数据抽取[J];网络安全技术与应用;2009年03期
6 杨舟;卓林;赵朋朋;崔志明;;一种针对商品数据记录的自动抽取方法[J];计算机工程;2010年23期
7 何雪利;;数字化校园建设中ETL技术实现数据集成[J];电脑知识与技术;2010年08期
8 欧建雄,张礼平;HTML数据内容的抽取与集成[J];华东理工大学学报;2003年06期
9 任世闯;薛贺;;基于企业网格的ETL技术的应用研究[J];科学技术与工程;2008年05期
10 谢维成,吕先竞,宋玉忠;基于HTML或MXL描述的Web页信息抽取技术研究[J];情报科学;2005年09期
中国重要会议论文全文数据库 前10条
1 王英;左万利;王鑫;彭涛;;基于多分类器的Deep Web入口发现[A];第六届全国信息检索学术会议论文集[C];2010年
2 王英;左万利;彭涛;赫枫龄;彭钊;;特定领域Deep Web查询接口的集成[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
3 张文东;袁春风;武港山;;基于视觉的网页数据抽取[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
4 鲜学丰;方巍;赵朋朋;崔志明;胡鹏昱;;一种Deep Web数据源质量评估模型[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
5 王增权;王慧强;;基于移动代理的入侵响应系统的研究与设计[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
6 王洪肖;刘威;于贺玲;;基于XML技术的WEB数据收集模型的研究[A];低碳经济与科学发展——吉林省第六届科学技术学术年会论文集[C];2010年
7 武兴悦;石丽梅;王钢;;SOA在应急数据交换、共享平台中的实践研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
8 左广斌;朱军;;SSN大容量电子邮局系统介绍[A];第十一届全国煤矿自动化学术年会论文专辑[C];2001年
9 蔡彪;廖闻剑;彭艳兵;;Deep Web数据集成和关键技术综述[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
10 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
中国重要报纸全文数据库 前10条
1 邮电数据网络集成开发中心 张颖辉 施海舟;TotalBilling数据业务计费系统(Windows 2000版)[N];计算机世界;2001年
2 中科院计算所 罗杰文;P2P网络的拓扑结构[N];计算机世界;2006年
3 ;下一代网络服务管理系统eSM[N];人民邮电;2001年
4 ;实现全面监控和审计[N];中国计算机报;2008年
5 ;软件防火墙[N];计算机世界;2002年
6 顾卫民;Array Networks网络安全方案为银行“补钙”[N];中国高新技术产业导报;2005年
7 ;IDS:网络安全不可或缺的一环[N];网络世界;2002年
8 李安;安软EverLink分布式防火墙[N];计算机世界;2002年
9 ;D-Link强力出击城域网[N];计算机世界;2003年
10 长沙国防科技大学计算机学院博士生队 吴作顺;新思维:基于免疫学的IDS[N];计算机世界;2002年
中国博士学位论文全文数据库 前8条
1 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
2 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
3 丁艳辉;面向Web数据集成的数据抽取问题研究[D];山东大学;2010年
4 徐和祥;Deep Web集成中若干技术研究[D];复旦大学;2008年
5 方巍;基于本体的Deep Web信息集成关键技术研究[D];苏州大学;2009年
6 马安香;基于结果模式的Deep Web数据集成关键技术研究[D];东北大学 ;2009年
7 潘乔;网络测量中的抽样技术研究[D];西安电子科技大学;2008年
8 刘乃文;Internet环境下的资源管理模型及算法研究[D];山东师范大学;2009年
中国硕士学位论文全文数据库 前10条
1 齐鹏;基于结果模式的Deep Web数据抽取机制的研究[D];东北大学;2008年
2 刘为;Deep Web环境下数据抽取及模式识别的研究[D];东北大学;2008年
3 魏勇刚;Deep Web数据抽取及语义标注研究[D];河北大学;2009年
4 高亚;Deep Web数据集成系统中数据抽取与语义标注研究[D];河北大学;2010年
5 吴相智;基于XML的Web数据抽取技术的研究[D];中南大学;2005年
6 彭媛媛;Deep Web数据清洗方法研究及应用[D];长春工业大学;2010年
7 陈尚安;林业企业黄页Deep Web数据集成研究[D];北京林业大学;2012年
8 刘桂峰;Deep Web数据抽取及集成技术研究[D];苏州大学;2009年
9 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年
10 马也;Deep Web环境下查询松弛技术的研究[D];东北大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026