收藏本站
《第三届全国信息检索与内容安全学术会议论文集》2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于模板的网页主题信息抽取

冯少卿  都云程  施水才  
【摘要】:快速准确地抽取网页主题信息是影响 Web 应用服务质量的关键。网页模板就是已经做好的网页框架,由模板生成的网页结构布局是基本一致的。本文提出了利用模板技术进行网页主题信息抽取的算法。该方法充分考虑了网页的结构特征,能够明显改善信息抽取的性能。实验结果表明,该方法准确率可达99.6%。

【参考文献】
中国期刊全文数据库 前2条
1 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
2 胡国平;张巍;王仁华;;基于双层决策的新闻网页正文精确抽取[J];中文信息学报;2006年06期
【共引文献】
中国期刊全文数据库 前3条
1 赵欣欣;索红光;刘玉树;;基于标记窗的网页正文信息提取方法[J];计算机应用研究;2007年03期
2 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
3 吴鹏飞;孟祥增;刘俊晓;马凤娟;;基于结构与内容的网页主题信息提取研究[J];山东大学学报(理学版);2006年03期
中国重要会议论文全文数据库 前3条
1 李连霞;马军;陈竹敏;;基于多特征的网页内容提取研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
2 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
3 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前4条
1 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
2 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
3 高琰;基于多特征的Web社区发现关键技术研究[D];中南大学;2007年
4 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 程书红;基于XML的Web信息抽取设计与实现[D];重庆大学;2007年
2 雷庆;识别和抽取Web中的关系信息及其出现模式[D];华侨大学;2005年
3 卢睿;基于XML的Web信息抽取研究[D];大连海事大学;2005年
4 杨春瑜;基于塑料产品意象认知模型的图像检索技术研究[D];浙江大学;2006年
5 贺智平;Web信息自动抽取技术研究[D];西安电子科技大学;2006年
6 朱南丽;基于DOM的网页主体信息块抽取[D];昆明理工大学;2006年
7 苟全登;基于XML的半结构化Web信息提取的研究[D];电子科技大学;2006年
8 刘飚;基于新型坐标树的页面分析和内容提取框架[D];北京邮电大学;2006年
9 张晓卫;Web全文信息检索系统的研究与实现[D];苏州大学;2006年
10 王玉平;基于视觉特征的Web页面信息抽取算法[D];上海海事大学;2006年
【同被引文献】
中国期刊全文数据库 前10条
1 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期
2 赫枫龄,左万利;利用超链接信息改进网页爬行器的搜索策略[J];吉林大学学报(信息科学版);2005年01期
3 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
4 张力生,李生林;海量数据装入技术研究[J];后勤工程学院学报;2004年02期
5 邹涛,王继成,朱华宇,金翔宇,张福炎;WWW上的信息挖掘技术及实现[J];计算机研究与发展;1999年08期
6 赫枫龄;左万利;张雪松;;高性能网页索引器JU_Indexer的实现[J];吉林大学学报(理学版);2006年01期
7 许建潮,侯锟;Web信息的自主抽取方法[J];计算机工程与应用;2005年14期
8 张茂元;邹春燕;卢正鼎;;一种基于语义匹配的Web信息提取方法研究[J];计算机工程与应用;2006年23期
9 朱永盛;武港山;;基于Web的新闻信息抽取[J];计算机工程;2006年10期
10 贡正仙;朱巧明;李培峰;;基于相似页面的Web信息抽取系统的实现[J];计算机应用;2006年08期
中国博士学位论文全文数据库 前1条
1 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前4条
1 贺智平;Web信息自动抽取技术研究[D];西安电子科技大学;2006年
2 黄晓彤;高可靠性海量公安基础数据查询分析系统的设计与实现[D];同济大学;2007年
3 张秉强;数据库优化技术在海量数据下的研究与应用[D];同济大学;2007年
4 罗丽俊;中文信息处理中若干技术的研究与实现[D];辽宁科技大学;2008年
【二级参考文献】
中国期刊全文数据库 前4条
1 张绍华,徐林昊,杨文柱,薛文玲,李天柱;基于样本实例的Web信息抽取[J];河北大学学报(自然科学版);2001年04期
2 许勇,荀恩东,贾爱平,宋柔;基于互连网的术语定义获取系统[J];中文信息学报;2004年04期
3 孙承杰,关毅;基于统计的网页正文信息抽取方法的研究[J];中文信息学报;2004年05期
4 邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇;面向Internet的中文新词语检测[J];中文信息学报;2004年06期
【相似文献】
中国期刊全文数据库 前10条
1 何友全;徐澄;徐小乐;唐华姣;;一种基于统计学特征和DOM树的网页去噪技术[J];重庆理工大学学报(自然科学版);2011年01期
2 彭文滔;叶飞跃;李霞;员红娟;;信息抽取中基于DOM树的过滤器方法的研究[J];微计算机信息;2008年30期
3 杨敬伟;杨文柱;高悦;;基于DOM的Web信息抽取规则的构造与实现[J];河北大学学报(自然科学版);2007年02期
4 朱红灿;龙朝阳;;基于熵的新闻网页抽取方法的研究[J];现代图书情报技术;2007年04期
5 罗建利;;基于DOM的Web文本分割[J];图书情报工作;2009年04期
6 徐中华;;Web信息抽取方法概述[J];经营管理者;2008年09期
7 陈传波,赵婷;SVG与XML的集成技术在动态Web图象上的应用[J];计算机工程与科学;2002年03期
8 张慧颖;曲著伟;;基于子树匹配的交互式Web数据抽取方法[J];计算机工程;2006年09期
9 李京,庄成三,徐彧,陈华英;利用XML DOM创建强大的XML应用[J];计算机应用研究;2002年02期
10 李煜,陆建德;通用网上商店自动数据采集引擎的设计[J];计算机应用研究;2001年11期
中国重要会议论文全文数据库 前10条
1 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
2 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 白清源;林锦贤;谢丽聪;;信息自动获取系统的研究[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
4 冯艳卉;洪宇;颜振祥;姚建民;朱巧明;;基于搜索引擎的双语混合网页识别新方法[A];第六届全国信息检索学术会议论文集[C];2010年
5 江志纲;丁增喜;刘洋;王大玲;鲍玉斌;于戈;;基于面向属性规约方法的网页和超链的分类[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
6 孔辉;梁洪亮;辛阳;杨义先;陈林顺;;一种高性能的网页篡改检测与恢复机制[A];2010年全国通信安全学术会议论文集[C];2010年
7 刘晖;赵萍;;新疆环境气象中心网站的总体规划及建设[A];信息技术在气象领域的开发应用论文集(一)[C];2005年
8 李立宗;高铁杠;陈蓉;陈超;;基于混沌系统的web信息隐藏研究与实现[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年
9 王玉龙;叶新铭;李秀华;;网页优化策略的模糊C均值(FCM)聚类算法研究(英文)[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
10 朱建国;孙钟德;刘婷;;地市级网络管理监控初探[A];“推进气象科技创新,提高防灾减灾和应对气候变化能力”——江苏省气象学会第七届学术交流会论文集[C];2011年
中国重要报纸全文数据库 前10条
1 任悦采写 本报记者 方妍;照片买家说,网页繁复不招喜欢[N];中国摄影报;2009年
2 鸣涧;走近3D梦幻网页(3)[N];中国电脑教育报;2002年
3 湖南 Ringfo;防止你的网页被“偷拍”[N];电脑报;2002年
4 路人甲;在网页上圈圈点点[N];电脑报;2004年
5 湖南 郭荣辉;网页图片保存四法[N];电子报;2005年
6 鸣涧;初次握手3D网页[N];中国电脑教育报;2002年
7 李芳香;和网页垃圾说再见[N];中国电脑教育报;2002年
8 马淑芬 记者 吴岳福;宝清 率先启动“村村通网页”工程[N];黑龙江日报;2010年
9 鸣涧;网页的编辑[N];中国电脑教育报;2002年
10 辽宁 张策;滚动的字幕 滚动的网页[N];中国电脑教育报;2002年
中国博士学位论文全文数据库 前10条
1 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
2 张玉涛;光照和DOM对水体中汞转化的影响机制及动力学研究[D];西南大学;2011年
3 覃健诚;网络多层纵深防御体系的关键技术研究[D];北京邮电大学;2011年
4 刘凯鹏;社会性标注关键技术及其在信息检索中的应用研究[D];哈尔滨工业大学;2010年
5 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
6 周斌;河水漫溢对荒漠河岸林植被及土壤的影响[D];新疆大学;2011年
7 黄小广;港美经济关系研究[D];暨南大学;2008年
8 窦平安;电子商务语义信息共享模式[D];吉林大学;2009年
9 王壮;四种人工纳米颗粒物在水相中的转化行为及生态毒理效应[D];大连理工大学;2013年
10 李光荣;面向虚拟企业的零件工艺信息系统关键技术研究[D];南京理工大学;2005年
中国硕士学位论文全文数据库 前10条
1 连小刚;基于DOM的Web信息抽取系统设计与实现[D];华中科技大学;2009年
2 朱南丽;基于DOM的网页主体信息块抽取[D];昆明理工大学;2006年
3 曲杰涛;基于DOM的智能网页信息抽取技术研究[D];中国海洋大学;2009年
4 李猛;基于DOM的Web信息抽取技术的研究与实现[D];大连理工大学;2008年
5 王旭东;基于Web的信息抽取技术研究[D];西南交通大学;2008年
6 Mostafa Alli;移动搜索系统中基于DOM的自动网页卷滚[D];华中科技大学;2012年
7 朱汉超;基于网页结构的Web数据抽取方法研究[D];武汉科技大学;2009年
8 张步泰;嵌入式浏览器的设计与实现[D];天津大学;2008年
9 张文;一种新型原生XML数据库——MyNXD的设计与实现[D];华东师范大学;2006年
10 李娟娟;用三维荧光技术研究DOM在人工湿地中的降解及其与染料的结合作用[D];西南大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026