收藏本站
《第二十四届中国数据库学术会议论文集(研究报告篇)》2007年
收藏 | 手机打开
二维码
手机客户端打开本文

一个并行的文本聚类混合算法

王乐  田李  贾焰  韩伟红  
【摘要】:针对海量文本聚类中面临的海量性、高维性以及聚类结果的可描述性难题,提出了一个并行的文本聚类混合算法parSHDC.该算法采用纵向的方式在多个处理机间划分数据集,根据频繁词集生成粗聚类,然后利用并行k-means算法精化粗聚类从而得到最终结果,并由k个频繁词集对聚簇提供描述.与另外两个并行聚类算法通过实验进行比较,parSHDC具有更好的并行性和对数据规模的适应性,且可以生成更高质量的聚类.

【相似文献】
中国期刊全文数据库 前10条
1 冯霞;闫冠男;李娟娟;;一种基于潜在语义索引的谱聚类方法研究[J];中国民航大学学报;2011年03期
2 钟雪灵;王雄志;;开放式车辆路径问题的混合算法[J];计算机仿真;2011年08期
3 王春腾;符传谊;邢洁清;;一种改进的谱聚类方法及其在文本分析中的应用[J];电脑知识与技术;2011年16期
4 张军丽;周永权;;一种基于混沌优化的混合人口迁移算法[J];计算机工程与应用;2011年24期
5 何峰;丁晓青;;结合文本聚类和文本检索的语料选取方法[J];高技术通讯;2010年12期
6 范小勤;汪小红;;求解多峰值问题的改进混合遗传算法[J];甘肃联合大学学报(自然科学版);2011年04期
7 钟将;刘龙海;梁传伟;;基于成对约束的主动半监督文本聚类[J];计算机工程;2011年13期
8 赵耀锋;;基于混合算法的智能排课系统[J];现代电子技术;2011年12期
9 周鑫;郝志峰;蔡瑞初;温雯;;带噪声的文本聚类及其在反垃圾邮件中的应用[J];广西师范大学学报(自然科学版);2011年02期
10 苏喻;郑诚;马中杰;;基于语义的VSM模型改进[J];计算机应用与软件;2011年08期
中国重要会议论文全文数据库 前10条
1 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
2 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
3 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 游波;张明敏;;基于MFP/LTI积分混合算法的贝叶斯检测阈问题研究[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
5 史琰;梁昌洪;;应用傅立叶伪谱时域算法与高阶时域有限差分方法的混合算法到2.5维问题中[A];2005'全国微波毫米波会议论文集(第二册)[C];2006年
6 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
7 贾宁;陈庚;郭中源;陈岩;;混合算法在分数判决反馈均衡器中的应用[A];2008年全国声学学术会议论文集[C];2008年
8 余建军;孙树栋;;模拟退火免疫混合算法[A];全国第16届计算机科学与技术应用(CACIS)学术会议论文集[C];2004年
9 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国重要报纸全文数据库 前5条
1 唐慧;让电子邮件更安全[N];网络世界;2002年
2 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
3 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
4 记者 宋广平;多方联手进军IPTV市场[N];计算机世界;2005年
5 曹秀敏;物料平衡的控制核算系统[N];中国石化报;2002年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
3 汤炜;ADI-FDTD及其混合算法在电磁散射中的应用[D];西安电子科技大学;2005年
4 朱剑;复杂电磁问题的有限元、边界积分及混合算法的快速分析技术[D];南京理工大学;2011年
5 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
6 李晓明;一种新型混合优化算法及其在优化油田开发中的应用[D];西南石油学院;2004年
7 王蕊;粗糙面及其与目标复合电磁散射中的相关问题研究[D];西安电子科技大学;2009年
8 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
9 朱明达;时域积分方程及其混合算法在电磁脉冲效应中的研究与应用[D];上海交通大学;2012年
10 宋亚男;二维排样系统的图形匹配、入排控制与碰靠算法研究[D];华南理工大学;2004年
中国硕士学位论文全文数据库 前10条
1 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
2 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
3 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
4 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
5 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
6 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
7 盛江涛;网络论坛话题发现与跟踪技术研究[D];哈尔滨工业大学;2010年
8 刘延亮;一种文本聚类原型系统的设计与实现[D];大连理工大学;2006年
9 谷波;基于粗集模型的聚类方法及其在文献过滤系统中的应用[D];山西大学;2004年
10 胡海龙;基于改进的后缀树算法的中英文聚类引擎的实现[D];吉林大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026