收藏本站
收藏 | 论文排版

基于新型坐标树的页面分析和内容提取方法

刘飚  刘艳敏  封化民  方勇  宋国森  
【摘要】:Web页面中“噪音”是影响基于网页内容的Web分类质量的一个重要因素,快速而准确的识别网页的主题内容是提高分类准确率的关键技术之一。针对HTML的半结构化特征和DOM缺乏位置信息的不足,本文提出了一种新型的Web页面分析和内容提取框架,该框架既包括一种新型的含有位置信息的页面坐标树模型,还包括能反映空间关系的图形模型。通过将HTML文档转换为坐标树,并结合位置特征和空间关系可对网页进行分析和提取内容。对来自120个网站的5000个网页进行测试后的结果表明该方法可达到93.78%的准确率。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 杨鑫阁,冯岩,宋晓燕,刘文捷,王慧强;XML技术在J2EE中的应用[J];自动化技术与应用;2001年05期
2 陈庆章,胡同森;以XML文件为例实现在CORBA结构下对异质性数据的访问[J];计算机工程;2002年01期
3 孙荣胜,李志华,施明辉,徐天鹏;XML与汽车零部件信息采集系统的研究与实现[J];计算机应用;2002年02期
4 韩桂英,李锡祚;基于XML的网络课件标准化问题的研究与设计[J];微电子学与计算机;2002年11期
5 熊光彩,莫 蓉,赵歆波,张定华;XML文档对象模型研究与应用[J];计算机工程与设计;2002年05期
6 于野,刘士明,王闯,徐辉;省级政务信息化地理信息支撑平台的建设与信息共享[J];测绘通报;2003年06期
7 屈志杰,郑衍衡,韩冬;XML自动阅卷系统的设计与实现[J];计算机工程;2003年16期
8 卢方国,李卫华;使用SAX2分析XML文档[J];计算机与现代化;2003年09期
9 季卫卫,张美凤,张之磊;XML技术在ERP中的应用[J];微型电脑应用;2003年05期
10 白连军,蒋式勤;XML在构建企业信息系统中的应用[J];微型电脑应用;2003年10期
11 王芳,李正凡;用SAX解析XML文档的实现方法[J];华东交通大学学报;2004年01期
12 孙霞,程宏斌;基于Java的DOM解析技术[J];计算机时代;2004年07期
13 杨敬伟;杨文柱;高悦;;基于DOM的Web信息抽取规则的构造与实现[J];河北大学学报(自然科学版);2007年02期
14 徐畅;;浅析基于XML的门户网站首页的快速访问技术[J];福建电脑;2009年04期
15 郭瑞华;XML在虚拟图书馆中的应用及其处理技术[J];图书情报工作;2002年07期
16 李文武,金远平,童咪娜;半结构化数据到结构化数据的无损映射(英文)[J];Journal of Southeast University;2002年01期
17 洪志国,黄晓;利用DOM类库检索XML文档[J];计算机工程与设计;2004年06期
18 朱卫斌;;浅谈XML技术与高级语言间的数据交换[J];科技经济市场;2006年03期
19 张庆生;;小议如何实现XML与VB之间的数据交换[J];今日科苑;2008年10期
20 李军;;XML文档的加密[J];华北水利水电学院学报;2008年03期
中国重要会议论文全文数据库 前10条
1 刘飚;刘艳敏;封化民;方勇;宋国森;;基于新型坐标树的页面分析和内容提取方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
2 封盛;张铭;;基于DOM树的半指导科技文献元数据自动抽取[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
3 周巍;孙冰;战立明;吕建华;王国仁;于戈;;基于DOM模型的XML查询处理器的设计与实现[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 王宏生;赵文;张路;;基于DOM解析的OWL本体关系数据库存储模式设计[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
5 余祖锋;蔡启先;刘明;;远程电力抄表系统中XML解析模块的设计[A];广西计算机学会2009年年会论文集[C];2009年
6 陈珠兰;;Java与XML结合应用[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
7 熊彬;刘云;鲍林;;在CorlDRAW中Dom套合图廓的批处理(脚本运行)[A];江苏省测绘学会2007'学术年会论文集[C];2008年
8 游文杰;;用Javascript实现XML文档数据检索[A];福建师大福清分校2003年会议论文汇编[C];2003年
9 杨玉梅;高炳浩;展洪涛;;集安市三维地形模型制作与实现[A];吉林省测绘学会2008年学术年会论文集(上)[C];2008年
10 曲杰涛;贾东宁;张涛;;基于Ajax的工程项目管理平台的研究与应用[A];全国冶金自动化信息网2009年会论文集[C];2009年
中国博士学位论文全文数据库 前2条
1 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
2 李巍;半结构化数据挖掘若干问题研究[D];吉林大学;2013年
中国硕士学位论文全文数据库 前10条
1 刘艳敏;Web内容抽取及语义识别算法研究[D];燕山大学;2006年
2 张文;一种新型原生XML数据库——MyNXD的设计与实现[D];华东师范大学;2006年
3 王鑫;基于线特征的DOM与DLG配准方法的研究[D];武汉大学;2005年
4 赵静;基于XML和多层结构理论的营养咨询系统的设计与实现[D];山东大学;2005年
5 姚跃;中职信息技术技能考核系统设计与实现[D];湖南师范大学;2007年
6 曲杰涛;基于DOM的智能网页信息抽取技术研究[D];中国海洋大学;2009年
7 孟瑜;基于Schema验证的XML解析器中解析子系统的设计与实现[D];西安电子科技大学;2005年
8 万倩;移动空间信息动态服务与分发研究[D];成都理工大学;2005年
9 钟东;基于Web Service的电子病历整合技术研究[D];西北大学;2006年
10 汪宣忠;可伸缩向量图形(SVG)在中药指纹图谱数据描述中的应用研究[D];上海师范大学;2007年
中国重要报纸全文数据库 前1条
1 本报记者 周源;IE 9释放网络之美[N];网络世界;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978