收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

一种新颖的词聚类算法

袁里驰  钟义信  
【摘要】:基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法。传统的统计方法基于贪婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准。这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优。本文提出了一种新颖的词相似度定义,在词相似度的基础上,还首次给出了词集合相似度的定义。基于相似度,提出了一种自下而上的分层聚类算法,这种方法不但能改善聚类效果,而且可根据不同的模型选择不同的相似度定义,因而提高聚类的使用效果。实验证明,该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 吴夙慧;成颖;郑彦宁;潘云涛;;K-means算法研究综述[J];现代图书情报技术;2011年05期
2 赵洁;董振宁;张沙清;肖南峰;;一种基于粒度原理的多指标综合Web用户聚类算法[J];计算机应用研究;2011年07期
3 李静;;社会化标注的语义聚类[J];情报科学;2011年07期
4 潘锋;王建东;牛奔;;基于谱分析的无监督特征选择算法[J];计算机应用;2011年08期
5 张宇;邵良杉;邱云飞;刘威;;基于竞争学习的K质心组合聚类算法[J];计算机工程;2011年15期
6 袁里驰;;基于词聚类的依存句法分析[J];中南大学学报(自然科学版);2011年07期
7 李展;彭进业;温超;;基于EMD距离的多示例聚类[J];计算机科学;2011年07期
8 何拥军;龚发根;;基于用户辅助估计的相关网页搜索聚类[J];计算机技术与发展;2011年07期
9 王国辉;林果园;;基于图聚类的入侵检测算法[J];计算机应用;2011年07期
10 吴勇;李仁发;刘钰峰;;基于Ant-Tree算法的短文本聚类研究[J];软件;2011年04期
11 赵杰;;基于聚类算法的硬件维护求解方法初探[J];太原城市职业技术学院学报;2011年07期
12 李黎;阮留照;;一种合理的数字水印相似度评价公式[J];杭州电子科技大学学报;2011年03期
13 刘犇;毛燕琴;沈苏彬;;一种基于数据挖掘技术的入侵检测方法的设计[J];计算机技术与发展;2011年08期
14 彭宇;罗清华;彭喜元;;UIDK-means:多维不确定性测量数据聚类算法[J];仪器仪表学报;2011年06期
15 周爱武;崔丹丹;潘勇;;一种优化初始聚类中心的K-means聚类算法[J];微型机与应用;2011年13期
16 王清;赵勇;韩守东;;基于案例决策的产品概念设计方法[J];计算机集成制造系统;2011年06期
17 史迎春;刘继超;;基于分类聚类技术的影视数据挖掘研究[J];软件导刊;2011年06期
18 李杨;檀柏红;;基于点击流的频繁模式聚类算法研究[J];天津科技大学学报;2011年03期
19 张桂芬;;数据挖掘技术在图书馆中的应用研究[J];煤炭技术;2011年07期
20 黄韬;刘胜辉;谭艳娜;;基于k-means聚类算法的研究[J];计算机技术与发展;2011年07期
中国重要会议论文全文数据库 前10条
1 袁里驰;钟义信;;一种新颖的词聚类算法[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
2 刘强;林世平;;基于蚁群聚类算法的中文本体学习[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
3 盛振华;吴羽;江锦华;寿黎但;陈刚;;InfoSigs:一种面向WEB对象的细粒度聚类算法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
4 魏昕路;洪志令;姜青山;;一种基于样本缩减策略的新窗口式聚类算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
5 王守强;朱大铭;史士英;;基于输入点集求解k-Means聚类算法[A];第二十六届中国控制会议论文集[C];2007年
6 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
7 吴继兵;李心科;;基于分治融合的混合属性数据聚类算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
8 李世峰;黄磊;刘昌平;;几种聚类方法的比较[A];第八届全国汉字识别学术会议论文集[C];2002年
9 刘洋;江志纲;丁增喜;王大玲;鲍玉斌;于戈;;一种基于图的聚类算法GB-Cluster[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
10 邓敏;刘启亮;李光强;程涛;;一种基于场模型的空间聚类算法[A];现代测量技术与地理信息系统科技创新及产业发展研讨会论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 万淼;基于群智能和随机索引的网络聚类算法研究[D];北京邮电大学;2011年
2 刘位龙;面向不确定性数据的聚类算法研究[D];山东师范大学;2011年
3 管仁初;半监督聚类算法的研究与应用[D];吉林大学;2010年
4 顾本柏;客体相似性表征的认知和发展机制研究[D];西南大学;2011年
5 叶镇清;自适应聚类算法挖掘网络模块结构及其在酵母蛋白作用网络中的应用[D];浙江大学;2008年
6 张鸿雁;基于DNA计算的聚类算法研究[D];山东师范大学;2011年
7 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
8 钱鹏江;大规模数据集聚类方法研究及应用[D];江南大学;2011年
9 孙鹏岗;聚类算法研究及其在网络模块性分析中的应用[D];西安电子科技大学;2011年
10 曹付元;面向分类数据的聚类算法研究[D];山西大学;2010年
中国硕士学位论文全文数据库 前10条
1 李长进;基于蚁群算法的混合聚类算法研究[D];中国石油大学;2010年
2 王蓓金;蛋白质网络模块分解的密度聚类算法研究[D];西安电子科技大学;2010年
3 杜晨阳;分布式聚类算法研究与应用[D];浙江大学;2011年
4 张立;基于新闻评论数据的K-means聚类算法的研究[D];太原理工大学;2010年
5 武彩丽;基于规范切和分水岭的聚类算法研究[D];西安电子科技大学;2010年
6 卜德云;自适应谱聚类算法的研究与应用[D];南京航空航天大学;2010年
7 刘荣辉;基于主动学习的半监督谱聚类算法研究[D];重庆大学;2011年
8 石洪竺;量子进化聚类算法研究[D];西安电子科技大学;2010年
9 温程;并行聚类算法在MapReduce上的实现[D];浙江大学;2011年
10 张珠玉;聚类算法及其在日志数据处理中的应用研究[D];山东师范大学;2011年
中国重要报纸全文数据库 前10条
1 证券时报记者  韩如冰;基金投资相似度趋高[N];证券时报;2006年
2 聂磊 曹进 罗国安;中药指纹图谱相似度评价方法各有千秋[N];中国医药报;2006年
3 孟祥宁 张亚萌 郭青剑;山寨文化:是一种什么样的文化[N];中国艺术报;2009年
4 聂磊;曹进;罗国安;中药指纹图谱相似度评价方法作用各一[N];中国医药报;2005年
5 海潮;俄研究发现妊娠中毒症疑与夫妇HLA基因相似度有关[N];中国医药报;2007年
6 栾海;妊娠中毒症可能与夫妇 HLA基因相似度有关[N];医药经济报;2007年
7 沈阳药科大学药学院 孙国祥;中药指纹图谱研究新进展[N];中国中医药报;2007年
8 记者 李学梅;研究证实:父亲“偏爱”与自己相像的孩子[N];新华每日电讯;2009年
9 小新;妊娠中毒症与夫妇HLA基因相似度有关[N];中国医药报;2007年
10 天相投顾 王聃聃;投资同质化 基金繁荣背后的痛[N];证券时报;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978