收藏本站
《第三届学生计算语言学研讨会论文集》2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于网页框架和规则的网页噪音去除方法

时达明  林鸿飞  杨志豪  
【摘要】:随着Internet的迅猛发展,Web网页上的信息呈现爆炸式的增长,而网页噪音是任何网页都不可避免的部分,它也是影响阅读网页和进行Web信息处理的一个重要因素。本文提出了一种基于网页框架和规则的网页去噪方法,该方法根据网页中HTML标签table将网页分成若干部分,并对各个table的长宽比属性进行比较,去掉长宽比很大的部分,然后对其余table 中的内容进行分析,根据内部是否存在和段落文字有关的标签p或br等来区分主题内容和噪音内容,并在此基础上,去除噪音内容。对来自CWT200G(Chinese Web Test collection with 200 GB web pages)中的125个站点的132559个网页进行测试后的结果表明,该方法可以有效的去除网页噪音,将该方法应用于检索,索引文件可以减少约75%,这大大地提高了检索速度。同时,准确度也得到一定提高。

【参考文献】
中国期刊全文数据库 前4条
1 荆涛,左万利;基于可视布局信息的网页噪音去除算法[J];华南理工大学学报(自然科学版);2004年S1期
2 孙承杰,关毅;基于统计的网页正文信息抽取方法的研究[J];中文信息学报;2004年05期
3 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
4 封化民,刘飚,刘艳敏,方勇,宋国森;含有位置坐标树的Web页面分析和内容提取框架[J];清华大学学报(自然科学版);2005年S1期
【共引文献】
中国期刊全文数据库 前10条
1 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
2 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
3 高博;朱东华;韩士雄;;一种智能化的信息采集系统的研究与实现[J];兵工学报;2009年S1期
4 翟东升;杨洋;;基于XML技术的USPTO专利抽取系统[J];北京工业大学学报;2011年04期
5 冯少卿;都云程;;网页结构模板生成新方法研究[J];北京机械工业学院学报;2007年03期
6 王楠;;一种实现Web数据到XML文档的转换算法[J];大连海事大学学报;2010年03期
7 宋明秋;张瑞雪;吴新涛;李文立;;网页正文信息抽取新方法[J];大连理工大学学报;2009年04期
8 赵文;唐建雄;高庆锋;;基于统计的中文网页正文抽取的研究[J];电脑知识与技术;2008年01期
9 王强;战忠丽;张凤君;;基于语义分组向量空间模型的Web新闻检索算法[J];电子科技;2011年04期
10 张志强;;基于分块频繁集抽取的Web文本关联分类[J];福建电脑;2011年11期
中国重要会议论文全文数据库 前5条
1 胡飞;;一种Web页面的主题区域搜索方法[A];2008年计算机应用技术交流会论文集[C];2008年
2 李连霞;马军;陈竹敏;;基于多特征的网页内容提取研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
3 王春元;张韬;;一种获取网页主要中文信息的方法[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
4 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
5 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
2 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
3 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年
4 高琰;基于多特征的Web社区发现关键技术研究[D];中南大学;2007年
5 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
6 王春元;公共网络信息系统安全管理的研究[D];合肥工业大学;2009年
7 刘丹;大成组技术中的若干关键技术研究[D];浙江大学;2010年
8 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年
9 张彦超;社交网络服务中信息传播模式与舆论演进过程研究[D];北京交通大学;2012年
10 王欣;WEB应用系统安全检测关键技术研究[D];北京邮电大学;2011年
中国硕士学位论文全文数据库 前10条
1 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
2 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
3 范春晓;基于XML的Web信息抽取技术研究[D];沈阳理工大学;2010年
4 李元乾;基于移动搜索用户关联的信息检索研究[D];北京交通大学;2010年
5 汪涵;金融投资数据仓库中数据融合的设计与实现[D];电子科技大学;2010年
6 李琼琼;网络文本自动分类器的设计与实现[D];电子科技大学;2010年
7 孟祥燕;问答对自动获取的研究[D];昆明理工大学;2008年
8 甄涛;基于社团发现的Blog信息收集原型系统的研究[D];解放军信息工程大学;2009年
9 吕楠;话题追踪与演化分析技术研究[D];解放军信息工程大学;2009年
10 刘继勇;网络舆情预警辅助决策支持系统模型及关键技术研究[D];石家庄经济学院;2010年
【相似文献】
中国期刊全文数据库 前10条
1 任宁;;XML技术研究[J];黑龙江科技信息;2010年18期
2 ;Golive5.0新特性(上)[J];桌面出版与设计;2000年06期
3 叶德建 ,张颖 ,陈晓明 ,孙路;XML:人性化的美好未来[J];微电脑世界;2000年41期
4 董莉敏,李志兰;动态图编辑器框架设计与实现[J];小型微型计算机系统;2001年10期
5 庄明;标记语言发展综述[J];现代计算机;2001年06期
6 侯迪,黄朝阳,齐勇,沈钧毅,赵季中;CORBA安全对象系统模型框架研究[J];小型微型计算机系统;2002年10期
7 陈传波,唐咸峰;领域框架的设计[J];计算机工程与科学;2002年06期
8 袁绍欣,葛玮;设计模式思想在构建软件框架过程中应用的探讨[J];微机发展;2003年12期
9 徐向英,周重益,陈华;动态ERP系统的研究与展望[J];微计算机应用;2004年01期
10 LOLI;FlyakiteOSX 2.0 SE专为中文造[J];电脑爱好者;2005年10期
中国重要会议论文全文数据库 前10条
1 时达明;林鸿飞;杨志豪;;基于网页框架和规则的网页噪音去除方法[A];第三届学生计算语言学研讨会论文集[C];2006年
2 张诚洁;;中小企业办公自动化系统的设计[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
3 嵇晓宇;郝志明;莫军;孙乐;王柯颖;;面向对象有限元分析平台数值解法器构件化设计与集成方法研究[A];中国力学学会学术大会'2009论文摘要集[C];2009年
4 刘兵;黄小原;潘虹艳;;BPR分析与应用研究[A];2005中国控制与决策学术年会论文集(下)[C];2005年
5 廉成洋;毛宇光;;一种基于二叉树的HTML到XML的转换方法研究[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
6 王娟;席传裕;李芬;王建;;基于PHP、SQLServer的环境管理系统应用与开发[A];第六届全国计算机应用联合学术会议论文集[C];2002年
7 朱凯;周杰;何婷婷;;因特网语料自动下载分析软件的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
8 戴月明;朱习军;;框架制导法计算机辅助建模的设计与实现[A];第二十三届中国控制会议论文集(上册)[C];2004年
9 孙策;孙劲光;訾玲玲;;基于虚拟现实技术的电子超市系统的研究[A];系统仿真技术及其应用(第7卷)——'2005系统仿真技术及其应用学术交流会论文选编[C];2005年
10 李选民;欧阳光辉;;“数字仙桃”的总体框架及发展规划[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年
中国重要报纸全文数据库 前10条
1 江苏 周勇生;用VB把数据库文件转换成Html格式[N];电脑报;2001年
2 小珍;把图书馆揣进兜里[N];电脑报;2005年
3 山东 丁涛;“网页颜色设计师”——HTMLcolor v1.4[N];电脑报;2002年
4 重庆 机械猫;用HTML编制应用程序[N];电脑报;2001年
5 于翔;HTML 5缔造Web应用新世界?[N];网络世界;2009年
6 俞伟明;HTML表单元素覆盖样式元素问题及其补救之道[N];中国电脑教育报;2004年
7 L.n;让Html编辑器更适合自己[N];电脑报;2002年
8 李继华;ML令网疯狂令我醉[N];中华建筑报;2000年
9 河南 张金贵;HTML字体设计[N];电脑报;2001年
10 ;WebEditor网页制作新客[N];中国电脑教育报;2000年
中国博士学位论文全文数据库 前10条
1 陈志刚;企业数字化管理系统框架构建及其实证研究[D];武汉理工大学;2008年
2 杨娟;国内新一代电信业务支撑系统软件体系结构的研究[D];北京邮电大学;2008年
3 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年
4 张海英;跳跃值的计算与框架多尺度分析的刻画[D];湖南师范大学;2009年
5 张永进;面向防汛抗旱指挥系统的应用集成中间件平台研究[D];西北大学;2007年
6 杨波;基于小波的像素级图像融合算法研究[D];上海交通大学;2008年
7 李宏友;基于视频的目标检测与跟踪方法研究[D];重庆大学;2009年
8 赵海武;数字音视频压缩技术、标准与应用研究[D];华东师范大学;2005年
9 王勇;WEB数据挖掘研究[D];西北工业大学;2006年
10 李瑞轩;异构信息集成中的查询处理与优化研究[D];华中科技大学;2004年
中国硕士学位论文全文数据库 前10条
1 姜明霞;MVC设计模式及Struts框架的研究与应用[D];大连海事大学;2005年
2 叶东泉;J2EE上基于框架的电信增值业务系统的研究和实现[D];华东师范大学;2007年
3 贾士强;面向中小企业的信息管理系统的设计与实现[D];北京邮电大学;2007年
4 李刚;网络协作式学习资源库的研究与实现[D];第四军医大学;2005年
5 丁晓波;基于嵌入式Linux系统的BSP技术研究[D];电子科技大学;2005年
6 段其国;WebIS系统框架构件自动组装模型的研究与实现[D];昆明理工大学;2005年
7 丰励;单元测试技术研究与应用[D];华中师范大学;2008年
8 耿妍;基于主题资源开发网络信息系统的研究与实现[D];国防科学技术大学;2005年
9 黄磊;基于J2EE平台企业应用框架的研究[D];山东大学;2005年
10 王树杰;MVC框架的研究及M-Struts实现[D];首都经济贸易大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026