收藏本站
《第六届全国信息检索学术会议论文集》2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于视觉特征的网页信息提取

吴倩  杨逍  张兆心  
【摘要】:在互联网技术高速发展的时代,Web成为全球最大的信息数据库,如何有效管理、利用Web信息是当前的热点问题,本文主要探讨了Web网页信息提取问题。传统的网页信息提取主要基于DOM树及HTML标签分析,文中在基于网页视觉特征分块算法VIPS基础上,通过归纳Web网页视觉特征及视觉块特征信息,提出了基于视觉块的定位算法的Web页面信息提取方法。分别将主题型网页和BBS型网页作为VIPS算法的输入,分析VIPS算法输出的视觉分块树中视觉分块,定义纯文本密度和链接文本密度等视觉特征量,提出了视觉块定位算法VBPA,定位主题信息块到VBT中的某一个节点,进而提取主题信息。实验结果表明,基于视觉特征的视觉块定位算法要优于传统网页信息提取算法,可以得到较高的信息提取质量。

手机知网App
【共引文献】
中国期刊全文数据库 前2条
1 黄文蓓;杨静;顾君忠;;基于分块的网页正文信息提取算法研究[J];计算机应用;2007年S1期
2 吴鹏飞;孟祥增;刘俊晓;马凤娟;;基于结构与内容的网页主题信息提取研究[J];山东大学学报(理学版);2006年03期
中国硕士学位论文全文数据库 前6条
1 张晓卫;Web全文信息检索系统的研究与实现[D];苏州大学;2006年
2 王麒;基于领域本体的Web文档自动摘要关键技术研究与实现[D];华东师范大学;2007年
3 张海波;面向主题的网页过滤机制研究[D];兰州大学;2007年
4 徐冉;网页信息净化方法的研究与实现[D];哈尔滨工程大学;2007年
5 吴鹏飞;面向Web的多媒体信息提取及其教育应用[D];山东师范大学;2007年
6 张恒;基于军事应用的网络情报智能搜索技术[D];第四军医大学;2007年
【同被引文献】
中国期刊全文数据库 前1条
1 王芙蓉,童则余;拦截和转发网络数据包的设计与实现[J];电信快报;2005年04期
中国硕士学位论文全文数据库 前4条
1 陈美云;基于XML的柔性信息集成技术研究[D];山东科技大学;2005年
2 黄笑鹏;可分级视频编解码技术的研究与实现[D];浙江大学;2006年
3 李国俊;基于XML-RPC的分布式网络管理的研究与设计[D];西安电子科技大学;2007年
4 宿兴华;基于P2P的视频下载系统的设计与实现[D];浙江大学;2007年
【二级参考文献】
中国期刊全文数据库 前9条
1 唐良瑞,蔡安妮,孙景鳌;从认知心理及人机界面谈网页设计[J];工程图学学报;2000年02期
2 曲国先,蔡丽娟;从互联网络到视觉传达[J];桂林电子工业学院学报;2000年02期
3 余义虎;视觉传达设计多元特征与表现[J];甘肃联合大学学报(社会科学版);2004年03期
4 唐昌乔;视觉设计中的符号[J];贵州大学学报(艺术版);2004年02期
5 鬲波飞;网页设计之视觉信息传达分析[J];湖南大学学报(社会科学版);2001年S2期
6 聂森;网页设计中平面视觉传达分析[J];吉林商业高等专科学校学报;2004年04期
7 孙伟;网络时代的视觉传达设计[J];吉林艺术学院学报;2005年02期
8 曹红艳;;论视觉传达设计的传播功能[J];武汉科技学院学报;2005年12期
9 吕文静;;视觉传达设计中的网页艺术设计[J];郑州铁路职业技术学院学报;2006年04期
中国硕士学位论文全文数据库 前3条
1 鬲波飞;网络媒体的视觉传达设计研究[D];湖南大学;2002年
2 王山;基于网络媒体的现代设计视觉传达方式[D];西安美术学院;2007年
3 卢毅;新媒体—视觉传达设计[D];南京艺术学院;2007年
【相似文献】
中国期刊全文数据库 前10条
1 张鑫;陈梅;王翰虎;王嫣然;;基于视觉特征和领域本体的Web信息抽取[J];计算机技术与发展;2011年02期
2 康诵诗;;人的视觉特征及其与再现图象的关系[J];电视技术;1986年02期
3 刘兴;刘庆祥;;一种彩色图像转换为灰度图像的算法[J];现代电子技术;2007年06期
4 曾义;彭真明;;一种基于视觉特征的多分辨率快速图像融合方法[J];成都信息工程学院学报;2007年04期
5 ;《ISPY视觉大发现》畅销百万[J];出版广角;2008年08期
6 刘洋;唐向宏;余志卫;;基于子块分类的BP神经网络图像压缩[J];杭州电子科技大学学报;2009年02期
7 李桂香;刘立;;高斯尺度参数自适应算法研究[J];计算机工程与应用;2010年14期
8 钟世通;;C++Builder编程访问网页信息的方法[J];科技资讯;2007年19期
9 韦伟;杨育彬;林金杰;阮佳彬;;基于神经网络的三维模型视觉特征分析[J];计算机工程与应用;2008年21期
10 李嘉;张朋柱;邓莎莎;蒋御柱;;基于视觉的网页数据表格定位方法研究[J];情报科学;2009年06期
中国重要会议论文全文数据库 前10条
1 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
4 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
5 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
6 刘鹏;王作英;;多模式汉语连续语音识别中视觉特征的提取和应用[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
7 赵玉芳;张一鸣;;基于网页信息的印象形成的初步研究[A];第十届全国心理学学术大会论文摘要集[C];2005年
8 沈模卫;李忠平;朱祖祥;;视觉特征信息和字形信息对汉字特征加工的影响[A];第八届全国心理学学术会议文摘选集[C];1997年
9 卢惠民;张辉;郑志强;;基于视觉的移动机器人自定位问题[A];2009年中国智能自动化会议论文集(第六分册)[中南大学学报(增刊)][C];2009年
10 张弘;卢奕南;;基于内容的图像检索技术在医学领域中的应用[A];第七届青年学术会议论文集[C];2005年
中国重要报纸全文数据库 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 东方早报记者 李伟;要名还是要利,这是个问题[N];东方早报;2011年
3 金山软件副总裁 杨桓;着力“三大系统” 构筑网络安全屏障[N];中国电子报;2009年
4 郭京霞;枫叶之都状告百度恶意排名一审败诉[N];中国知识产权报;2007年
5 路人甲;请个专家来贴图[N];电脑报;2005年
6 夏凌;搜索引擎排名纠纷百度胜出[N];中华工商时报;2007年
7 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
8 郭京霞;百度胜诉搜索引擎排名纠纷案[N];中国企业报;2007年
9 章森 王伟;搜索引擎的工作机制[N];计算机世界;2006年
10 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
中国博士学位论文全文数据库 前10条
1 焦斌星;用于搜索的网页可视化摘要技术研究[D];中国科学技术大学;2012年
2 康锋;基于视觉特征的早期农林火灾检测方法的基础研究[D];浙江大学;2010年
3 吴磊;视觉语言分析:从底层视觉特征表达到语义距离学习[D];中国科学技术大学;2010年
4 黄元元;基于视觉特征的图像检索技术研究[D];南京理工大学;2003年
5 赵涓涓;图像视觉特征与情感语义映射的相关技术研究[D];太原理工大学;2010年
6 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
7 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
8 柳稼航;基于视觉特征的高分辨率光学遥感影像目标识别与提取技术研究[D];上海交通大学;2011年
9 王楠;基于多视觉特征融合的后方车辆检测技术研究[D];东北大学 ;2009年
10 赵亚琴;基于内容的视频片段检索技术研究[D];南京理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
2 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
3 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年
4 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年
5 邓科;智能搜索中的中文网页分类研究[D];兰州理工大学;2011年
6 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年
7 马伟瑜;基于改进的PageRank的网页信息可信度评估方法研究[D];河北大学;2011年
8 薛惠;基于JAVA的移动新闻搜索引擎的研究与设计[D];河北科技大学;2010年
9 任斌;基于本体的主动学习主题爬行的研究与实现[D];吉林大学;2010年
10 曾兵;基于空间数据库和视觉特征的钓鱼网页检测[D];南京邮电大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026