收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向信息检索需要的网络数据清理研究

刘奕群  张敏  马少平  
【摘要】:Web数据中的质量参差不齐、可信度不高以及冗余现象造成了网络信息检索工具存储和运算资源的极大浪费,并直接影响着检索性能的提高。现有的网络数据清理方式并非专门针对网络信息检索的需要,因而存在着较大不足。本文根据对检索用户的查询行为分析,提出了一种利用查询无关特征分析和先验知识学习的方法计算页面成为捡索结果页面的概率,从而进行网络数据清理的算法。基于文本信息检索会议标准测试平台的实验结果证明,此算法可以在保留近95%检索结果页面的基础上清理占语料库页面总数45%以上的低质量页面,这意味着使用更少的存储和运算资源获取更高的检索性能将成为可能。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 倪莉;;网络环境下的自然语言检索[J];当代图书馆;1999年04期
2 王勇;;网络信息检索对图书馆信息服务的影响[J];现代情报;2006年04期
3 杨玉焕;;网络信息检索对图书馆信息服务的影响[J];长沙民政职业技术学院学报;2007年02期
4 邱宏,付琼;联机检索与网络信息检索的比较研究[J];东北电力学院学报;2001年02期
5 许芳,徐国虎;网络信息检索智能AGENT技术探讨[J];现代情报;2005年04期
6 薛琳;;网络信息检索与图书馆信息服务的变革与创新[J];焦作师范高等专科学校学报;2006年04期
7 黄珍;;浅析网络环境下的信息检索[J];情报探索;2010年08期
8 郝善勇,刘玉树,丁亚军,张健;实时数据采集中的数据清理技术[J];微电子学与计算机;2000年01期
9 彭华;网络时代如何优化文献检索课教学[J];图书馆学研究;2001年01期
10 陈业奎;通过网络信息检索辅助判断期刊真假[J];新世纪图书馆;2004年04期
11 鞠同心;孙琦;;轻舟巧过万重山[J];华北电业;2010年01期
12 程艳林;庞燕;;网络信息污染程度检测模型初探[J];传媒观察;2010年05期
13 黄如花,张春蕾;网络信息检索的发展趋势[J];图书情报知识;2002年04期
14 陈新颜;;网络信息浩如海,检索得法风助帆——评严大香主编《社会科学信息检索》[J];科技信息(科学教研);2007年32期
15 朱明莉;浅谈网络信息检索[J];通化师范学院学报;2001年04期
16 庄晓青,徐立臻,董逸生;数据清理及其在数据仓库中的应用[J];计算机应用研究;2003年06期
17 韩双梅;网络环境下文献检索课的改革对策[J];哈尔滨学院学报;2003年02期
18 蔡代纯;;网络信息检索中的搜索引擎使用技巧[J];湖南城市学院学报;2006年04期
19 刘亚楠;;网络信息检索在统计中的应用[J];现代营销(学苑版);2011年08期
20 常雅红;网络环境下的高校文献检索课[J];图书馆学研究;2002年07期
中国重要会议论文全文数据库 前10条
1 刘奕群;张敏;马少平;;面向信息检索需要的网络数据清理研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
2 岑荣伟;刘奕群;张敏;茹立云;马少平;;网络搜索引擎用户行为分析和研究[A];第五届全国信息检索学术会议论文集[C];2009年
3 刘奕群;张敏;马少平;;用户行为分析在网络信息检索中的应用概述[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 陈堃;李心科;;基于可扩展数据清理框架的元数据的研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
5 向坚;俞坚;叶绿;;一种高效的大规模RFID数据集合清理方法[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年
6 向坚;俞坚;叶绿;;一种基于RFID的新传感器数据流在线清理框架[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年
7 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的网络搜索引擎用户行为研究[A];第三届学生计算语言学研讨会论文集[C];2006年
8 王桂芹;黄道;;数据预处理技术研究[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
9 刘奕群;马少平;;利用虚拟站点定位技术的网络信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 叶绿;;基于J2EE的公交停车场管理实现与研究[A];2008’“先进集成技术”院士论坛暨第二届仪表、自动化与先进集成技术大会论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 刘杰;面向数据集成的数据清理关键技术研究[D];中国科学技术大学;2010年
2 陈伟;数据清理关键技术及其软件平台的研究与应用[D];南京航空航天大学;2005年
3 张旭峰;ETL若干关键技术研究[D];复旦大学;2006年
4 黄莉;基于语义关联的重复数据清理技术研究[D];华中科技大学;2011年
5 白爱民;基于客户集群和拓扑理论的CRM模型与算法研究[D];天津大学;2006年
6 满江虹;基于粗糙集的分类知识发现方法及其应用研究[D];东南大学;2005年
7 李绍滋;非结构化对等网络中的信息检索若干关键技术研究[D];国防科学技术大学;2009年
8 陈雯;基于本体框架的交通出行语义轨迹建模、标记及数据库研究[D];华东师范大学;2011年
9 余建桥;基于云理论与数据场的空间孤立点挖掘研究[D];西南农业大学;2005年
10 马骋宇;新型农村合作医疗信息系统辅助决策方法及应用研究[D];山东大学;2010年
中国硕士学位论文全文数据库 前10条
1 钟莉云;利用数据沿袭改进数据清理质量的机制的研究[D];西南师范大学;2004年
2 曾理;Hadoop的重复数据清理模型研究与实现[D];南华大学;2010年
3 闫晓妍;Web2.0环境下网络信息检索模式研究[D];郑州大学;2009年
4 叶振春;实兵对抗演习评估系统中数据清理方法研究[D];解放军信息工程大学;2011年
5 熊回香;网络信息检索及其发展趋势研究[D];华中师范大学;2003年
6 伍丁辉;教务管理信息系统伪缺失值检测研究[D];南华大学;2010年
7 王轶讴;个性化网络信息检索系统的研究、设计与实现[D];大连理工大学;2004年
8 朱世顺;WWW上基于内容的多媒体数据挖掘[D];南京理工大学;2002年
9 司卫国;基于移动Agent的Web信息检索系统的研究[D];西安电子科技大学;2005年
10 赵夷平;传统搜索引擎与语义搜索引擎比较研究[D];吉林大学;2009年
中国重要报纸全文数据库 前10条
1 陈家运;认真开展台站数据清理登记[N];江苏法制报;2007年
2 杨景;进一步做细做实统计数据清理核查工作[N];天水日报;2007年
3 程颖;切实维护空中电波秩序[N];平顶山日报;2007年
4 记者 曹云;我市召开无线电台(站)数据清理登记工作会[N];长治日报;2007年
5 鞠同心;轻舟巧过万重山[N];国家电网报;2009年
6 见习记者 禹超 实习生 杨柳;为奥运会做好通信保障[N];秦皇岛日报;2006年
7 张虹;我国无线电台站数据清理登记全面启动[N];人民邮电;2007年
8 吴德胜 李宏一;数据上收 湖北分行力争安全高效 广西分行启动差异分析[N];中国城乡金融报;2006年
9 李硕;我市开展无线电频率台站数据清理登记工作[N];周口日报;2007年
10 彭文怡记者 傅小冰;数据清理三步走 特种设备监管好[N];中国质量报;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978