收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于聚类语言模型的生物文献检索技术研究

文健  李舟军  
【摘要】:近年来研究表明使用主题语言模型增强了信息检索的性能,但是仍然不能解决信息检索存在的一些难点问题,如数据稀疏问题,同义词问题,多义词问题,对文档中不可见项和可见项的平滑问题。这些问题在一些领域相关文献检索中显得尤其重要,比如大规模的生物文献检索。本文提出了一种新的基于聚类的主题语言模型方法进行生物文献检索,这主要包括两个方面工作,一是采用本体库中的概念表示文档,并在此基础上进行模糊聚类,把聚类的结果作为数据集中的主题,文档属于某个主题的概率由文档与聚类的模糊相似度决定。二是采用 EM 算法来估计主题产生项的概率。把上述方法集成到语言模型中就得到本文的语言模型。本文的语言模型能够准确描述项在不同主题中的分布概率,以及文档属于某个主题的概率,并且利用本体中概念部分地解决了同义词问题,而且项可以由不同的主题产生,这也能够部分解决词的多义问题。我们的方法在 TREC 2004/05 Genomics Track 数据集上进行了测试,与简单语言模型以及现有主题语言模型相比,检索性能得到一定的提高。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 吴谋硕;;基于用户信息的信息检索效果提高策略[J];电脑知识与技术;2011年21期
2 曹传东;秦怀斌;郭理;;基于元搜索引擎技术的科研项目信息服务系统[J];科技信息;2008年32期
3 李优;;Web搜索结果组织与展示的一种机制[J];信息安全与技术;2011年06期
4 朱小波;杨玲;关忠仁;;基于牙科PACS系统的信息检索技术研究[J];西南民族大学学报(自然科学版);2007年04期
5 黄鹏;卜佳俊;陈纯;康志明;陈伟;胡洪涛;;利用加权特征模型改进问句分类[J];浙江大学学报(工学版);2009年06期
6 韦雄观;吴立德;王文欣;;基于关系图的篇章分析方法[J];模式识别与人工智能;1997年02期
7 马力;;用自适应蚁群算法求解集中网站的WEB搜索优化策略[J];沈阳航空工业学院学报;2010年02期
8 叶鹰,马景娣,黄晨,朱聪,胡晓珍,刘琼;信息检索网上自助教学探索[J];大学图书馆学报;2000年02期
9 赖俊;周琳;张学平;;基于Web挖掘的主题式搜索引擎的设计[J];军事通信技术;2004年03期
10 彭波,闫宏飞;搜索引擎检索系统质量评估[J];计算机研究与发展;2005年10期
11 王国金,康耀红;基于布尔检索策略的问答系统性能研究[J];科技广场;2005年10期
12 李雷;;常用医学搜索引擎简介[J];西北医学教育;2005年05期
13 张选平;蒋宇;袁明轩;马琮;梁平;;一种基于概念的信息检索查询扩展[J];微电子学与计算机;2006年04期
14 刘策;;垂直搜索——电子商务领域的新秀[J];软件导刊;2006年11期
15 吴红;;网上免费农业信息资源的检索挖掘策略[J];农业网络信息;2006年09期
16 唐利;蓝强;;对网络搜索引擎的比较研究[J];重庆文理学院学报(自然科学版);2006年04期
17 韩建福;卢苇;;文档聚类在Web搜索结果中的应用研究[J];中国科技信息;2006年23期
18 郭学娟;;超文本检索特点研究[J];中国科技信息;2007年09期
19 和海莲;曾玉华;;向量空间模型中的用户模型建立方法探讨[J];福建电脑;2007年07期
20 吕月娥;李信利;;基于信息类别的元搜索引擎设计[J];微计算机信息;2007年21期
中国重要会议论文全文数据库 前10条
1 文健;李舟军;;基于聚类语言模型的生物文献检索技术研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 李恒训;张华平;秦鹏;于满泉;刘金刚;;基于主题词的网络热点话题发现[A];第五届全国信息检索学术会议论文集[C];2009年
3 吴立德;黄萱菁;;前言[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 ;内容简介[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 吴京慧;余珊珊;王明文;;基于用户日志聚类的查询扩展模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 刘海波;郑德权;赵铁军;;基于相似度线性加权方法的检索结果聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 张健沛;李连江;杨静;;个性化搜索引擎排序算法的研究与改进[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 武森;金海燕;高学东;;数据挖掘中CABOSFV聚类算法的实现与应用[A];全国第八届工业工程与企业信息化学术会议论文集[C];2004年
9 ;编者的话[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
10 米晓红;;一种基于LSI的用户兴趣模型构建方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
中国博士学位论文全文数据库 前10条
1 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
2 陈毅恒;文本检索结果聚类及类别标签抽取技术研究[D];哈尔滨工业大学;2010年
3 马赓宇;基于HMM的时间序列聚类与识别[D];清华大学;2004年
4 蔡维玲;基于聚类的图像分割和分类器设计的研究[D];南京航空航天大学;2008年
5 吴定峰;基于本体的语义搜索模型研究[D];中国农业科学院;2012年
6 李晓黎;WEB信息检索与分类中的数据采掘研究[D];中国科学院研究生院(计算技术研究所);2001年
7 董道国;高维数据索引结构研究[D];复旦大学;2005年
8 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
9 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
10 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 顾振宇;基于点击的用户聚类的研究[D];电子科技大学;2011年
2 乔智勇;Web数据挖掘系统的设计及关键技术研究[D];西安电子科技大学;2002年
3 杨才峰;基于自动分类的元搜索引擎的研究与应用[D];华北电力大学(河北);2005年
4 宋海林;基于语言模型的信息检索中负反馈技术的研究与实现[D];内蒙古大学;2011年
5 杭月芹;基于文档查询信息的检索系统研究与实现[D];扬州大学;2005年
6 史锦荣;基于多Agent智能搜索引擎模型研究[D];太原理工大学;2005年
7 吴媛媛;移动终端上个人信息检索核心子系统的设计与实现[D];北京邮电大学;2011年
8 王斌;双层数据流聚类框架的设计与实现[D];吉林大学;2004年
9 罗建利;基于用户兴趣的概念查询扩展研究[D];扬州大学;2005年
10 蔡博文;高维数据集中离群数据挖掘方法的研究[D];合肥工业大学;2006年
中国重要报纸全文数据库 前10条
1 希安;微软试水信息检索[N];经济日报;2004年
2 柏荣;国家973项目在因特网大规模信息检索领域取得突破[N];中国高新技术产业导报;2003年
3 本报记者 潘永花;组件化平台提升信息检索效率[N];网络世界;2003年
4 微软中国研究院 陈正 李明镜 马维英;互联网上图像信息检索[N];计算机世界;2001年
5 于振海;Microsoft Office 2003的翻译服务你用了吗?[N];中国电脑教育报;2004年
6 高丽华;信息化遭遇新雷区[N];计算机世界;2007年
7 李茂 编译;创新是技术素养的第一要求[N];中国教师报;2007年
8 武德锋 李国辉 林洪文 姚作梁;图像世界任我行[N];计算机世界;2002年
9 涂序彦 陈泓娟;在网络信息海洋中淘金[N];计算机世界;2001年
10 西安 张树忠 时剑;如何使用Word 2003翻译功能[N];电子报;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978