收藏本站
《第二十一届中国数据库学术会议论文集(研究报告篇)》2004年
收藏 | 手机打开
二维码
手机客户端打开本文

基于DOM的网页主题信息自动提取

王琦  唐世渭  杨冬青  王腾蛟  
【摘要】:Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中,使用户不能迅速获取主题信息,限制了Web的可用性,信息提取有助于解决这一问题.基于DOM规范,针对HTML的半结构化特征和缺乏语义描述的不足,提出含有语义信息的STU-DOM树模型.将HTML文档转换为STU-DOM树,并对其进行基于结构的过滤和基于语义的剪枝,能够准确地提取出主题信息.方法不依赖于信息源,而且不改变源网页的结构和内容,是一种自动、可靠和通用的方法.具有可观的应用价值,可应用于PAD和手机上的Web浏览以及信息检索系统.

【共引文献】
中国期刊全文数据库 前10条
1 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期
2 何章鸿;董守斌;;基于XPath的广告数据提取研究[J];江西师范大学学报(自然科学版);2008年02期
3 何友全;徐澄;徐小乐;唐华姣;;一种基于统计学特征和DOM树的网页去噪技术[J];重庆理工大学学报(自然科学版);2011年01期
4 李绍英;;基于代理技术的比较购物研究[J];当代经理人;2006年10期
5 孙铁利;教巍巍;刘淑华;;Web-Based Information Extraction Technology[J];Journal of Donghua University(English Edition);2007年02期
6 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期
7 刘军;;基于支持向量机的网页主题信息提取算法[J];电脑知识与技术(学术交流);2007年02期
8 李向阳,陆建江,张亚非;基于竞争分类的Web信息抽取[J];电子学报;2004年11期
9 柳佳刚;刘高嵩;贺令亚;陈山;;基于Web的信息抽取技术现状与发展[J];福建电脑;2007年07期
10 魏晶晶;于然;廖祥文;;基于分隔符的中文论坛信息抽取[J];福建电脑;2011年06期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
3 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
4 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
5 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
6 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 钟涛;陈群秀;;基于层式有限状态自动机的灾难事件抽取系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 左南;李涓子;唐杰;;基于SVM的肖像照片抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 丁晟春;刘逶迤;熊霞;梅健;;基于领域本体和语块分析的信息抽取的研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
2 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
3 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
4 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
5 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
6 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
7 俞方桦;互联网信息资源整合研究[D];东华大学;2001年
8 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
9 郑桂华;基于网络的语文校本课程研究与实践[D];华东师范大学;2004年
10 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
4 王浩;NetFlow数据处理与异常检测研究[D];哈尔滨工程大学;2010年
5 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年
6 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
7 王葛;Deep Web接口集成与数据标注方法研究[D];长春工业大学;2010年
8 黄亮;知识产权预警机制在服务外包平台中的应用研究[D];南昌大学;2010年
9 赛子龙;日志分析数据同步机制在区域微软技术中心营运平台中的应用研究[D];南昌大学;2010年
10 胡少荣;一种舆情信息预处理平台的研究与实现[D];北京交通大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 赵彦斌;李庆华;赵峰;;Web网页语义树的构造与利用[J];华中科技大学学报(自然科学版);2005年S1期
2 许文;都云程;李渝勤;施水才;;一种通用HTML网页主题信息提取方法[J];现代图书情报技术;2007年01期
3 杨厚群;XML在ASP服务端的应用研究[J];计算机系统应用;2002年02期
4 李勇军,冀汶莉,马光思;用DOM解析XML文档[J];计算机应用;2001年S1期
5 陆楠,周春光;WEB数据挖掘中异构数据集成问题的研究[J];深圳大学学报(理工版);2002年03期
6 逯鹏,吴壮志,陈峰,吕良双;可视化智能化XML编辑器CPWORD的设计与实现[J];计算机工程;2003年12期
7 牛艳芳;利用XML技术生成的Web Tree Folder[J];计算机时代;2003年04期
8 叶晓彤;基于XML部分加密的局部安全通信的实现[J];四川师范大学学报(自然科学版);2003年04期
9 彭文滔;叶飞跃;李霞;员红娟;;信息抽取中基于DOM树的过滤器方法的研究[J];微计算机信息;2008年30期
10 蔚笑檀;如何用DHTML编制网页[J];铁路计算机应用;1998年05期
中国重要会议论文全文数据库 前10条
1 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 韩杰;廖闻剑;彭艳兵;;基于楼层分割的BBS信息提取[A];中国通信学会第六届学术年会论文集(上)[C];2009年
3 韩杰;廖闻剑;彭艳兵;;基于楼层分割的BBS信息提取[A];中国通信学会第六届学术年会论文集(中)[C];2009年
4 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
5 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
6 张晓明;奈一雄;齐炯明;安媛媛;张建楠;王静娴;;基于信息隐藏的网页入侵检测技术与实现[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
7 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
8 梁勇;张文;;网络舆情采集系统的设计[A];2011年全国通信安全学术会议论文集[C];2011年
9 刘世杰;唐世渭;杨冬青;王腾蛟;姚小波;;自动的WEB信息提取和集成[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
10 陈成;岳志伟;;浅谈政府门户网站的网络安全[A];中国航海学会航标专业委员会沿海航标学组、无线电导航学组、内河航标学组年会暨学术交流会论文集[C];2009年
中国重要报纸全文数据库 前10条
1 记者 向杰;微软最新IE Dom Oday漏洞曝光[N];科技日报;2010年
2 王晓峰;随时更新的校园信息板[N];中国电脑教育报;2003年
3 刘成富;编辑网页有妙法[N];计算机世界;2004年
4 ;网站安全必不可少的保护神[N];中国计算机报;2005年
5 陶秋丰;万事俱备,只欠东风[N];电脑报;2007年
6 启明星辰安全专家 吴凡;专家解读Web安全防御[N];中国计算机报;2008年
7 何咏明 尹有仁;用VFP管理网页文件[N];中国计算机报;2001年
8 广西 钟复有;用Dreamweaver测试主页[N];中国电脑教育报;2001年
9 ;新蠕虫用“令人震惊消息”引诱用户[N];计算机世界;2005年
10 江苏 素静;巧用Dreamweaver测试主页[N];电脑报;2001年
中国博士学位论文全文数据库 前6条
1 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
2 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
3 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
4 余俊丰;Web程序与数据安全研究[D];华中科技大学;2011年
5 谢兴;社会网络中兴趣发现与信息组织的研究[D];复旦大学;2011年
6 任祖杰;非合作性环境下的P2P搜索技术研究[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 屠辉;中文重复网页的检测算法研究[D];北京邮电大学;2010年
2 黄伟光;网页木马的防御与检测技术研究[D];北京交通大学;2011年
3 易方昶;基于网页后门木马监测系统的研究和设计[D];北京化工大学;2010年
4 连小刚;基于DOM的Web信息抽取系统设计与实现[D];华中科技大学;2009年
5 苏小鲁;基于DOM的HTML网页正文信息抽取模块的设计与实现[D];北京邮电大学;2011年
6 尹力;网页防篡改系统在校园网中的应用研究[D];河北科技大学;2011年
7 梁建飞;网络环境下获取汉维篇章级平行语料的研究[D];新疆大学;2011年
8 孔辉;一种网页防篡改系统的设计与实现[D];北京邮电大学;2011年
9 王征;基于布隆过滤器算法的网页消重技术的实现与应用[D];北京交通大学;2010年
10 苏秀芝;网页去噪与特征提取算法的研究及实现[D];西南交通大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026