收藏本站
《第五届全国信息检索学术会议论文集》2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于关键词提取的搜索结果聚类研究

秦鹏  李恒训  张华平  刘金刚  
【摘要】:信息检索的结果往往庞杂,缺乏有效地加工整理,对搜索结果进行聚类是一种普遍的需求,而传统的文本聚类方法不能提供有效的类别标签,且速度较慢,不适用于在线搜索结果的聚类。本文针对性地提出了基于关键词提取的搜索结果聚类算法,基本思想为:结合信息检索的特点,将词频(TF)、词性和互信息等特征进行融合计算,综合实现关键词的提取;最终以筛选出的关键词作为基础特征,实现层次聚类。经实验验证,该方法P@10达到80%,用户满意度达到85%。实验结果表明,基于关键词提取的搜索结果聚类算法优于目前已知的所有系统。

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 莫倩;苑峥;张华平;;互联网证券资讯监测系统[J];计算机系统应用;2013年01期
中国硕士学位论文全文数据库 前1条
1 严平勇;基于微博的灾害信息聚合方法研究[D];福建师范大学;2013年
【参考文献】
中国期刊全文数据库 前2条
1 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
2 张刚;刘悦;郭嘉丰;程学旗;;一种层次化的检索结果聚类方法[J];计算机研究与发展;2008年03期
【共引文献】
中国期刊全文数据库 前10条
1 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
2 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
3 贾荣飞;金茂忠;王晓博;;基于用户查询日志的查询聚类[J];北京航空航天大学学报;2010年04期
4 于洪;谌强;;一种结合K-Means的层次化的搜索结果聚类方法[J];重庆邮电大学学报(自然科学版);2010年03期
5 傅鹂;孙坚;付春雷;;基于语义的音乐检索系统[J];重庆理工大学学报(自然科学版);2011年01期
6 高东平;;基于类型论的汉语分词系统TTCS[J];重庆理工大学学报(社会科学);2011年08期
7 曲维光;唐旭日;俞敬松;;超大规模语料库精加工技术研究[J];当代语言学;2009年02期
8 张利;张立勇;张晓淼;耿铁锁;岳宗阁;;基于改进BP网络的中文歧义字段分词方法研究[J];大连理工大学学报;2007年01期
9 孙晓;黄德根;;基于最长次长匹配分词的一体化中文词法分析[J];大连理工大学学报;2010年06期
10 鲁强;金伟祖;;基于FMM和CRFs双层分词模型的研究[J];电脑知识与技术;2008年28期
中国重要会议论文全文数据库 前8条
1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 余骁捷;邵阳;吴及;王侠;;基于SVM和MMR融和的自动文摘方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
3 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
4 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
5 王芳;万常选;;基于可信度的中文完整词自动识别[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 李恒训;张华平;秦鹏;于满泉;刘金刚;;基于主题词的网络热点话题发现[A];第五届全国信息检索学术会议论文集[C];2009年
7 刘力;皮德常;;基于词性的文本挖掘算法在IDS日志中的应用[A];2009年中国智能自动化会议论文集(第三分册)[C];2009年
8 刘善峰;李雅;陶建华;;基于词位信息的HMM中文分词算法[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
中国博士学位论文全文数据库 前10条
1 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
2 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
3 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
4 周世兵;聚类分析中的最佳聚类数确定方法研究及应用[D];江南大学;2011年
5 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
6 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
7 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
8 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
9 傅魁;基于Web的本体学习研究[D];武汉理工大学;2007年
10 秦颖;汉语词和短语的歧义消解研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
2 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
3 陈旭;地理编码引擎的设计与实现[D];辽宁工程技术大学;2009年
4 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
5 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
6 常富国;高技术虚拟企业谈判支持问题处理系统研究[D];哈尔滨理工大学;2010年
7 张庐颖;基于粗糙集的K-means研究[D];北京交通大学;2011年
8 邱艳霞;领域术语自动抽取及关系分类研究[D];昆明理工大学;2009年
9 戴霖;网络舆情信息挖掘关键技术研究与应用[D];浙江工商大学;2011年
10 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 李善平,尹奇韡,胡玉杰,郭鸣,付相君;本体论研究综述[J];计算机研究与发展;2004年07期
2 周炎涛;唐剑波;王家琴;;基于信息熵的改进TFIDF特征选择算法[J];计算机工程与应用;2007年35期
3 张玉芳;彭时名;吕佳;;基于文本分类TFIDF方法的改进与应用[J];计算机工程;2006年19期
4 文坤梅;卢正鼎;叶卫国;;Web-MIND:基于特定主题的Web信息挖掘系统[J];计算机工程与科学;2007年06期
5 索红光;刘玉树;曹淑英;;一种基于词汇链的关键词抽取方法[J];中文信息学报;2006年06期
6 姚天昉;程希文;徐飞玉;汉思·乌思克尔特;王睿;;文本意见挖掘综述[J];中文信息学报;2008年03期
7 沈志斌;白清源;;文本分类中特征权重算法的改进[J];南京师范大学学报(工程技术版);2008年04期
8 王锋;;灾难性事件中的“微”力量——青海玉树地震中微博应用探析[J];新闻世界;2010年S2期
9 徐文海;温有奎;;一种基于TFIDF方法的中文关键词抽取算法[J];情报理论与实践;2008年02期
10 周斌;;火爆的中国证券市场[J];上海经济;2007年11期
中国硕士学位论文全文数据库 前1条
1 周建芳;RSS技术在图书馆网络信息服务中的应用研究[D];四川大学;2006年
【二级参考文献】
中国期刊全文数据库 前1条
1 王志梅,张俊林,李秋山;Web检索结果快速聚类方法的研究与实现[J];计算机工程与设计;2004年12期
中国重要会议论文全文数据库 前1条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【相似文献】
中国期刊全文数据库 前10条
1 杜秀亭;杨晨光;;基于最短主干道距离的零售户聚类研究[J];内蒙古大学学报(自然科学版);2012年03期
2 王华秋;;和声搜索的半监督聚类研究与应用[J];计算机工程与设计;2012年07期
3 孔敏;陈思宝;赵海峰;罗斌;;结构图的谱分解及聚类研究[J];模式识别与人工智能;2006年05期
4 刘涛,蔡莲红;基于基频包络的音节聚类研究[J];小型微型计算机系统;2004年07期
5 孔敏;汤进;罗斌;;基于拉普拉斯图的谱特征的图像聚类研究[J];中国科学技术大学学报;2007年09期
6 刘建晓;何克清;王健;冯在文;宁达;;面向领域核心服务定制的部分语义互操作聚类研究[J];小型微型计算机系统;2011年09期
7 吴振华;陈晓苏;肖道举;;基于特征标权的中文签字核聚类研究[J];小型微型计算机系统;2006年11期
8 谢红薇;颜小林;余雪丽;;基于本体的Web页面聚类研究[J];计算机科学;2008年09期
9 吴俊杰;刘耀军;陈俊杰;;基于频繁访问页组的路径聚类研究[J];计算机工程与应用;2010年33期
10 聂斌;王卓;杜建强;余日跃;徐国良;朱明峰;;基于偏最小二乘法的信息粒降维及聚类研究[J];江西师范大学学报(自然科学版);2012年05期
中国重要会议论文全文数据库 前2条
1 秦鹏;李恒训;张华平;刘金刚;;基于关键词提取的搜索结果聚类研究[A];第五届全国信息检索学术会议论文集[C];2009年
2 史金成;胡学钢;;基于约束的数据流聚类研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
中国硕士学位论文全文数据库 前3条
1 张俊三;基于事件词和参考链的Web新闻事件聚类研究[D];北京交通大学;2008年
2 张梦笑;基于LDA模型的观点聚类研究[D];山西大学;2012年
3 万德稳;藏文搜索和搜索结果聚类研究及系统实现[D];西南交通大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026