基于重复串的短文本聚类研究
【摘要】:随着信息技术迅速发展和通讯手段的多样化,人们之间相互交流所产生的邮件、BBS论坛、即时消息等短文本在网络信息流中的地位日益突出。对于此类信息的组织和分析挖掘在话题检测与跟踪,在线社区发现以及信息安全等方面有着十分重要的意义。文本聚类分析是组织文本的一种有效方法,在传统研究中被广泛应用于未知话题的自动发现并取得了不错的效果。本文分析了短文本这种特定语料的内在特性,提出一种新的基于重复串的特征提取算法,并将其应用于短文本的聚类。实验结果证明了该方法可行并且比传统方法更有效。