收藏本站
《第26届中国数据库学术会议论文集(B辑)》2009年
收藏 | 手机打开
二维码
手机客户端打开本文

一种应用于Deep Web环境下的重复记录识别模型

朱命冬  申德荣  寇月  聂铁铮  于戈  
【摘要】:随着Web数据库数量和其蕴含数据量飞速的增长,对Deep Web数据的集成越来越成为研究领域关注的问题.然而由于Web上的信息以半结构化及无结构化的数据信息居多,导致了抽取的结果中包含诸多的不确定性.如有噪音数据、重复字符、简写与全称混合等问题.这给识别重复记录带来了很大不便,导致传统的去重算法无法达到很好的效果.为此,提出了一种面向deep Web结果整合的重复记录识别模型.在该模型中,提出了一种基于编辑距离的改进算法,基于该算法实现字符串匹配;通过构建属性匹配图,并采用二次确认机制实现识别重复记录.应用该模型,既提高了识别效率又保证了识别精确度,并通过实验证明了提出的算法和模型的可行性.

【相似文献】
中国期刊全文数据库 前10条
1 佘春红;数据清理方法[J];计算机应用;2002年12期
2 钟嘉庆;张义芳;卢志刚;;数据仓库中重复记录清理算法研究[J];信息化纵横;2009年07期
3 肖满生;江力;刘有势;;一种识别相似重复记录的模糊匹配方法[J];计算机应用与软件;2009年11期
4 申德荣;刘丽楠;寇月;聂铁铮;于戈;;一种面向Deep Web数据源的重复记录识别模型[J];电子学报;2010年02期
5 段晓飞;张素智;马红;;基于Deep Web的模式匹配算法研究[J];郑州轻工业学院学报(自然科学版);2008年03期
6 侯毅;;基于Deep Web的主题搜索引擎的系统设计[J];数字技术与应用;2011年02期
7 金灵芝;王小玲;朱守中;;Deep Web数据源自动分类[J];微计算机信息;2009年12期
8 金库;聂培尧;林培光;;一种Web数据库大小估算新方法[J];信息技术与信息化;2010年02期
9 王贤;苏晓珂;黄青松;;基于Zipf Estimator的Deep Web最佳查询词选择[J];计算机技术与发展;2007年03期
10 方丽;李锡辉;;基于Deep Web挖掘的搜索策略[J];福建电脑;2008年03期
中国重要会议论文全文数据库 前10条
1 朱命冬;申德荣;寇月;聂铁铮;于戈;;一种应用于Deep Web环境下的重复记录识别模型[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 余伟;李石君;洪辉;田建伟;;基于覆盖关系的Deep Web数据源排名[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
3 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 梁浩;左万利;任斐;赫枫龄;;基于启发式信息的Deep Web查询接口属性抽取[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
5 王英;左万利;王鑫;彭涛;;Deep Web查询转换研究[A];第六届全国信息检索学术会议论文集[C];2010年
6 闫中敏;李庆忠;彭朝晖;董永权;丁艳辉;张永新;徐秀星;;DWDIS:面向分析的Deep Web数据集成系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
7 王英;左万利;彭涛;赫枫龄;彭钊;;应用领域本体知识库自动填充Deep Web入口表单[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
8 陶然;江锦华;吴羽;陈刚;;基于树合并的Deep Web查询接口集成[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
9 艾静;王仲远;孟小峰;;C-Rank:一种Deep Web数据记录可信度评估方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
10 凌妍妍;刘伟;王仲远;艾静;孟小峰;;Deep Web数据集成中的实体识别方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
中国博士学位论文全文数据库 前10条
1 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
2 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
3 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
4 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
5 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
6 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
7 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
8 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
9 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
10 赵朋朋;Deep Web信息集成若干关键技术研究[D];苏州大学;2008年
中国硕士学位论文全文数据库 前10条
1 刘丽楠;Deep Web数据源下重复记录识别模型的研究[D];东北大学;2009年
2 陈文;Deep Web入口识别和个性化搜索研究与设计[D];江苏大学;2010年
3 李秀兰;基于结果模式的Deep Web语义标注研究[D];兰州理工大学;2011年
4 桑银邦;Deep Web集成系统中同类主题数据源选择方法研究[D];重庆大学;2011年
5 刘凯;Deep Web数据集成关键技术研究[D];长春工业大学;2012年
6 李三义;基于模型匹配的Deep Web数据库分类[D];吉林大学;2010年
7 谢莹;Deep Web查询结果抽取及注释[D];吉林大学;2010年
8 张成奇;支持Ajax的Deep Web爬虫设计与实现[D];上海交通大学;2010年
9 杜鑫;Deep Web数据源发现与采样研究[D];山东大学;2011年
10 朱旭东;基于本体学习的Deep Web语义标注关键问题研究[D];苏州大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026