收藏本站
《中国计算语言学研究前沿进展(2009-2011)》2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于LDA模型的文本聚类研究

董婧灵  李芳  何婷婷  涂新辉  万剑  
【摘要】:LDA(Latent Dirichlet Allocation)是近年来提出的一种具有文本主题表示能力的非监督学习模型。本文提出了一种基于LDA主题模型的文本聚类和聚簇描述方法。利用LDA模型挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布;并将此分布作为特征融入到传统的向量空间模型来计算相似度进而对文本进行聚类;再利用主题信息对聚类结果进行聚簇描述。实验结果表明本文的方法能够明显地提高聚类的效果。

【参考文献】
中国期刊全文数据库 前1条
1 景丽萍;恽佳丽;于剑;;领域知识在文本聚类应用中的机遇和挑战[J];计算机工程与科学;2010年06期
【共引文献】
中国期刊全文数据库 前1条
1 王静婷;;基于语义相似度的Web文本分类研究[J];图书馆学研究;2012年09期
中国硕士学位论文全文数据库 前1条
1 董婧灵;基于LDA模型的文本聚类研究[D];华中师范大学;2012年
【二级参考文献】
中国期刊全文数据库 前1条
1 卜东波,白硕,李国杰;文本聚类中权重计算的对偶性策略[J];软件学报;2002年11期
【相似文献】
中国期刊全文数据库 前10条
1 袁伟;朱山风;;基于距离学习的生物医学文本聚类算法研究[J];计算机应用与软件;2010年11期
2 尉景辉,何丕廉,孙越恒;基于K-Means的文本层次聚类算法研究[J];计算机应用;2005年10期
3 马晓佳;;基于潜在语义标引的文本聚类研究[J];情报探索;2010年07期
4 姚清耘;刘功申;李翔;;基于向量空间模型的文本聚类算法[J];计算机工程;2008年18期
5 李刚;史向东;;基于Google搜索结果的重名消解方法[J];信息与电脑(理论版);2011年02期
6 陈嘉勇;;基于WEKA平台的文本聚类研究与实现[J];中国管理信息化;2009年21期
7 刘鑫;张曾杰;李晓城;钱松荣;;主题兴趣度提取方法及其在用户兴趣模型中的应用研究[J];微型电脑应用;2011年03期
8 孙桂煌;;一种基于n-gram短语的文本聚类方法研究[J];现代计算机(专业版);2011年14期
9 李华云;;基于潜在语义分析的中文文本聚类方法研究[J];科技情报开发与经济;2008年27期
10 朱红灿,孟志青;一种基于SOM和层次凝聚的中文文本聚类方法[J];湘潭大学自然科学学报;2005年03期
中国重要会议论文全文数据库 前10条
1 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
3 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
5 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 邱立坤;程葳;龙志祎;孙娇华;;面向BBS的话题挖掘初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 罗娜;左万利;袁福宇;张靖波;张慧杰;;使用本体语义提高文本聚类(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
9 颜端武;李晓鹏;王磊;成晓;;文本聚类中基于本体的相似性测度(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
10 彭怡;;从数据挖掘文章聚类分析看其发展趋势[A];现代工业工程与管理研讨会会议论文集[C];2006年
中国重要报纸全文数据库 前2条
1 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
2 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
中国博士学位论文全文数据库 前10条
1 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
2 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
3 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
4 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
5 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
6 王永恒;海量短语信息挖掘技术的研究与实现[D];国防科学技术大学;2006年
7 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
8 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
9 王乐;短语消息聚类相关技术研究[D];国防科学技术大学;2008年
10 胡熠;面向信息检索的文本内容分析[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
2 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
3 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
4 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
5 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
6 李洋;企业注册登记文件聚类软件设计与实现[D];大连理工大学;2007年
7 肖杰;基于频繁项集的文本聚类方法研究[D];中南大学;2009年
8 马玉静;基于群体智能的文本聚类技术研究[D];燕山大学;2009年
9 董婧灵;基于LDA模型的文本聚类研究[D];华中师范大学;2012年
10 刘延亮;一种文本聚类原型系统的设计与实现[D];大连理工大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026