收藏本站
收藏 | 论文排版

大规模短文本的不完全聚类

彭泽映  俞晓明  许洪波  
【摘要】:聚类分析是机器学习的一个重要手段,人们可以通过聚类发现信息中潜在的热点或规律。至今,已经有大量聚类算法被研究和提出。随着互联网的日益普及,查询日志、twitter等短文本信息逐渐在人们生活中起着越来越重要的作用。这类短文本信息数量巨大,通常可达到千万乃至亿级,现有的聚类算法在对这类大规模短文本信息进行聚类分析时往往显得异常无力。本文通过对实际应用中的短文本信息进行实验分析,发现了这类数据所具有的"长尾分布",并由此提出了不完全聚类思想,可以有效地提高这类短文本信息的聚类性能。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张欣欣,薛冰冰;基于数据挖掘技术的BBS的安全管理[J];洛阳工业高等专科学校学报;2003年04期
2 张婧;李珏峰;;数据挖掘技术在BBS管理中的应用[J];福建电脑;2008年04期
3 大鱼儿;;自动扩展大小的TEdit[J];软件;2001年07期
4 赵春红;刘国华;王柠;何玲玲;;外包数据库模型中文本数据的完整性检测方案[J];小型微型计算机系统;2010年09期
5 仲志平;刘渝妍;翟从鸿;;基于BWC的XML文本数据索引技术[J];安徽师范大学学报(自然科学版);2011年03期
6 仲志平;刘渝妍;孙建洪;;基于BWC的XML文本数据索引技术研究[J];昆明学院学报;2011年03期
7 杜德生;田小军;;Lucene应用中Pdf文档文本数据提取方法研究[J];自动化技术与应用;2009年03期
8 孙开放;使用通信控件实现字节通信方式[J];微计算机信息;2002年03期
9 薛冰冰,普杰信;数据挖掘技术及其在电子邮件中的应用[J];信息技术;2003年07期
10 崔时珍;;纯文本数据在VFP中导入导出[J];电脑学习;2009年01期
11 王爱胜;“文本信息加工”到底要加工什么[J];信息技术教育;2005年03期
12 王东兴,冷惠文;大量编程用文本数据的统一处理[J];鞍山钢铁学院学报;1997年06期
13 ;保护文本数据安全的巧妙方法[J];电脑知识与技术;2003年13期
14 李文龙;保护文本数据安全的巧妙方法[J];网络与信息;2003年04期
15 李文龙;保护文本数据案例的巧妙方法[J];计算机安全;2003年04期
16 刘明吉;饶一梅;王秀峰;黄亚楼;;基于模糊近似度的Web文本过滤模型[J];计算机科学;2001年12期
17 于得海;王银;;巧借表格向Excel中导入文本数据[J];电脑迷;2006年09期
18 吴晓茜;;一样的文本 不一样的精彩——《文本信息的表达与加工》教学偶拾[J];中国信息技术教育;2011年11期
19 杨喜敏;曾广平;;信息系统中非结构化文本数据的输入技术研究[J];微计算机信息;2006年12期
20 王静;;面向语义文本的WEB数据挖掘研究[J];硅谷;2009年14期
中国重要会议论文全文数据库 前10条
1 彭泽映;俞晓明;许洪波;;大规模短文本的不完全聚类[A];第六届全国信息检索学术会议论文集[C];2010年
2 陈光强;杨树强;张晓辉;李润恒;贾焰;;面向海量文本数据的多任务并行调度加载技术研究与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年
3 羌鑫林;刘许清;杨洁;高剑锋;;浅谈DGN数据中的文本信息到SHP格式的转换[A];地理信息与物联网论坛暨江苏省测绘学会2010年学术年会论文集[C];2010年
4 曹剑芬;陈方炘;;基于文本信息的韵律结构预测及其在合成系统中的应用[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
5 丁兆云;贾焰;周斌;;基于文本数据的多维层次式舆情计算模型的研究与实现[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
7 蔡嘉荣;印鉴;刘玉葆;黄志兰;;一种有效的文本聚类算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
8 杨艳;李巍;玄萍;;数字图书馆中基于Ontology的文本模型[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
9 李虎;邹鹏;贾焰;周斌;;一种基于Map Reduce的分布式文本数据过滤模型研究[A];第26次全国计算机安全学术交流会论文集[C];2011年
10 李广原;冯嘉礼;;基于属性坐标的文本信息检索模型[A];广西计算机学会2005年学术年会论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
2 王智慧;可还原式数据嵌入技术的研究[D];大连理工大学;2010年
3 杜伟夫;文本倾向性分析中的情感词典构建技术研究[D];哈尔滨工业大学;2010年
4 向凌云;文本信息隐藏和隐藏信息检测研究[D];湖南大学;2011年
5 眭新光;文本信息隐藏及分析技术研究[D];解放军信息工程大学;2007年
6 李丽洁;视频中文本信息提取技术研究[D];哈尔滨工程大学;2012年
7 刘春辰;基于本体的企业搜索优化技术研究[D];吉林大学;2012年
8 孙巧榆;复杂背景图像的文本信息提取研究[D];华东师范大学;2012年
9 朱岩;面向文本数据的半监督学习研究[D];北京交通大学;2012年
10 郝立柱;汉语文本自动分类[D];吉林大学;2008年
中国硕士学位论文全文数据库 前10条
1 朱敏;基于丰心工学的情感信息可视化与充实度分析[D];北京邮电大学;2011年
2 徐淑坦;基于改进RBF神经网络的文本情感分类研究[D];吉林大学;2011年
3 曹亚辉;非结构文本最佳近似匹配系统的研究与实现[D];东华大学;2011年
4 文星;基于位置感知的Web文本搜索技术研究[D];大连海事大学;2011年
5 暴艳;多领域的文本情感倾向分类方法研究[D];山西大学;2012年
6 周振煜;基于审计知识库的文本关联分析研究[D];哈尔滨工程大学;2012年
7 李正林;中文文本数据分类研究[D];上海师范大学;2004年
8 韩红斌;医学影像中文本信息嵌入技术研究与实现[D];沈阳航空工业学院;2010年
9 罗晖霞;网络舆情监测系统研究与开发[D];中北大学;2010年
10 陈鸿;Web网页的时态文本索引研究[D];中国科学技术大学;2011年
中国重要报纸全文数据库 前10条
1 闫洁;咱的信息:运营商保留那么久干啥?[N];新华每日电讯;2008年
2 蒋秀娟;常发短信会使人变笨吗?[N];科技日报;2007年
3 童岱;手机短信稳私安全吗[N];北京科技报;2008年
4 吴辰光;三大厂商抢食07年游戏机市场[N];北京商报;2007年
5 山东 牟晓东;三种清除空格的方法[N];电子报;2008年
6 周蓉蓉;移动时代的变迁[N];计算机世界;2006年
7 山东 牟晓东;加密文字信息技巧两则[N];电子报;2008年
8 王朝选;讯飞语音助力中国航天[N];中国高新技术产业导报;2008年
9 曾华燊;化繁为简: 提升NGI服务质量[N];计算机世界;2006年
10 实习生 赵静记者 黄雪英;自贡馆藏文物数据库系统建立[N];自贡日报;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978