收藏本站
《第二十四届中国数据库学术会议论文集(研究报告篇)》2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于简单树匹配算法的Web页面结构相似性度量

何昕  谢志鹏  
【摘要】:网页结构相似性的度量是Web信息处理中的一项重要任务,在数据抽取和搜索引擎等研究领域有着潜在的重要研究价值.好的相似性度量方法可以提高数据抽取的准确率和速度,还可以提高搜索引擎的速度,提高返回数据的质量,减少大量冗余数据占据的存储空间.实现该任务的已有算法往往存在着计算复杂度过高的问题,针对这一问题研究HTML文档标签特点,减少传统算法中使用的算子,进而采用简单树匹配算法来计算Web文档之间的结构相似度.简单树匹配不允许结点的替换和跨层匹配,从而大大提高了算法的运行效率.实验结果表明,所提出的方法不论在速度还是精度上都优于著名的Bag of XPaths方法.
【作者单位】:复旦大学计算机与信息技术系
【基金】:国家自然科学基金项目(60503025)
【分类号】:TP391.3

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 林川;潘盛辉;李梦和;;考虑图像边界的分块立体匹配算法[J];信息技术;2011年08期
2 邓小清;;网格资源语义匹配研究[J];科技信息;2011年18期
3 林川;潘盛辉;韩峻峰;谭光兴;李梦和;;基于区域的立体匹配优化方法[J];计算机工程与设计;2011年08期
4 秦伟;王兆青;;基于局部和全局结构的指纹细节点匹配算法[J];浙江理工大学学报;2011年05期
5 于辉;张忠秋;王丽芳;;一种有效的无序多图像分组及其拓扑有序化的算法[J];西北工业大学学报;2011年03期
6 郑成文;韩柯;张海粟;;一种改进的软件自适应随机测试策略[J];计算机工程;2011年16期
7 冯宇平;赵文仓;;基于局部灰度值编码的图像匹配[J];青岛科技大学学报(自然科学版);2011年04期
8 郭晓娟;李长江;梁玉琪;;多特征融合中自动调整权值的图像检索方法[J];河南科技学院学报(自然科学版);2011年04期
9 王雪蓉;万年红;;云模式用户行为关联聚类的协同过滤推荐算法[J];计算机应用;2011年09期
10 贾旭;薛定宇;崔建江;刘晶;;基于分块脊波变换的手背静脉识别算法[J];模式识别与人工智能;2011年03期
中国重要会议论文全文数据库 前10条
1 何昕;谢志鹏;;基于简单树匹配算法的Web页面结构相似性度量[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
2 李瑜;郭俊波;虎嵩林;;一种基于发布订阅模型的博客搜索系统[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
3 应捷;袁一方;张仁杰;;一种新的实时指纹特征点匹配算法[A];第七届青年学术会议论文集[C];2005年
4 何芳芳;孙继银;孙向东;郭文普;孙振;;基于模糊集的神经网络景象匹配算法[A];中国系统仿真学会第五次全国会员代表大会暨2006年全国学术年会论文集[C];2006年
5 潘景昌;程马勇;阎峥;黄垚;黄晓选;;相似度可调的匹配算法的分析与设计[A];2005年全国理论计算机科学学术年会论文集[C];2005年
6 王翠茹;高丽鲜;;发布订阅系统中匹配算法的研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
7 卢达;浦炜;谢铭培;;基于SEART网和模糊相似测量的手写汉字预分类法[A];2005年全国自动化新技术学术交流会论文集[C];2005年
8 卢达;浦炜;谢铭培;;基于SEART网和模糊相似测量的手写汉字预分类法[A];2005全国自动化新技术学术交流会论文集(二)[C];2005年
9 姚辰松;鲁昌华;;指纹匹配算法的研究[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(上册)[C];2008年
10 郭勤;;景象匹配技术发展概述[A];2007年光电探测与制导技术的发展与应用研讨会论文集[C];2007年
中国重要报纸全文数据库 前7条
1 特约作者:Relen;分栏结构的排版[N];电脑报;2005年
2 窦毅;精明存储方案比拼[N];中国经营报;2006年
3 山东 小宇;网页布局理念[N];电脑报;2002年
4 飘零剑客;网站结构和页面规划[N];中国电脑教育报;2004年
5 甘仞初(中国):北京理工大学管理与经济学院首席教授,IFIP中国计算机辅助生产管理专委会主席;基于案例推理的信息系统总体设计[N];中国计算机报;2000年
6 中科院自动化所生物特征认证与测评中心 李江伟;知人知面 知身份[N];计算机世界;2003年
7 本报记者 那罡;东方文辉:网站群的集中管理[N];中国计算机报;2009年
中国博士学位论文全文数据库 前10条
1 李珊珊;计算机视觉中特征与相似性度量研究[D];中国科学技术大学;2010年
2 胡洋;最大间隔方法及其在图像检索中的应用[D];中国科学技术大学;2009年
3 黎刚果;基因模块识别与分析相关问题研究[D];国防科学技术大学;2010年
4 池凌鸿;立体匹配算法的研究和应用[D];中国科学技术大学;2011年
5 韦娜;基于内容图像检索关键技术研究[D];西北大学;2006年
6 周石林;非规则碎片匹配关键技术的研究及实现[D];南京航空航天大学;2005年
7 吉锋;基于语义Web的协同制造链快速构建研究[D];西北工业大学;2006年
8 刘而云;指纹加密域匹配算法研究[D];西安电子科技大学;2011年
9 回红;基于结构的指纹表达及其匹配算法研究[D];浙江大学;2002年
10 邵峰;XML数据管理中的结构查询技术研究[D];浙江大学;2008年
中国硕士学位论文全文数据库 前10条
1 宋婷;线性骨架相似性度量研究[D];华中科技大学;2004年
2 周斌;基于内容的图像检索[D];南京理工大学;2004年
3 陈希;基于内容的图像检索技术及其应用研究[D];武汉理工大学;2008年
4 李飚;自动指纹识别系统中匹配算法研究与应用[D];湖北工业大学;2011年
5 贾鹏;基于Mojette变换和Gabor小波的三维表面纹理方向性研究[D];中国海洋大学;2009年
6 卢子奎;基于颜色与空间特征的图像检索研究[D];华侨大学;2005年
7 王芳;基于内容的图像检索技术研究[D];黑龙江大学;2005年
8 贾艳翠;基于颜色特征的图像检索技术研究[D];吉林大学;2009年
9 李朋杰;基于形状直方图的三维模型检索算法的研究[D];燕山大学;2009年
10 任俊杰;快速星像匹配算法的比较[D];暨南大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026