收藏本站
《第二十一届中国数据库学术会议论文集(研究报告篇)》2004年
收藏 | 手机打开
二维码
手机客户端打开本文

一种基于自动阈值发现的文本聚类方法

张猛  王大玲  于戈  
【摘要】:文本聚类随着网上文本的激增以及实际应用中的需求,引起了人们越来越多的重视.通过分析文本的持征以及常用的文本聚类方法,提出了一种对文本进行细致划分获取细化簇、并在细化簇基础上进行聚类的文本聚类方法.在聚类过程中,采用曲线的多项式拟合技术提出了一种自动发现阈值的方法,并把该方法应用于细化簇的寻找步骤中.与凝聚的层次聚类方法的实验比较结果表明,使用自动阈值发现的方法在时间消耗、聚类效果、以及对孤立点的容忍性方面都具有更优的性能.
【作者单位】:东北大学信息科学与工程学院
【基金】:国家自然科学基金项目(60173051)
【分类号】:TP311.13

【共引文献】
中国期刊全文数据库 前10条
1 姜园,张朝阳,仇佩亮,戚玉鹏;对聚类算法普遍存在问题的解决办法[J];电路与系统学报;2004年03期
2 谷波,张永奎;文本聚类算法的分析与比较[J];电脑开发与应用;2003年11期
3 索红光;杨涛;;基于互信息的Web文档聚类方法[J];广西师范大学学报(自然科学版);2007年02期
4 龚静;李英杰;;文本聚类算法的分析与比较[J];湖南环境生物职业技术学院学报;2006年03期
5 章勤;康达祥;陶文兵;何儒汉;;一种基于自适应模糊聚类的高效图像索引方法[J];华中科技大学学报(自然科学版);2005年S1期
6 张猛,王大玲,于戈;一种基于自动阈值发现的文本聚类方法[J];计算机研究与发展;2004年10期
7 易高翔;胡和平;;一种基于容错粗糙集的Web搜索结果聚类方法[J];计算机研究与发展;2006年02期
8 郭岩;白硕;于满泉;;Web使用信息挖掘综述[J];计算机科学;2005年01期
9 朱克斌,唐菁,杨炳儒;Web文本挖掘系统及聚类分析算法[J];计算机工程;2004年13期
10 谢寰红;数据挖掘在证券公司CRM客户细分中的应用[J];计算机工程;2004年S1期
中国重要会议论文全文数据库 前1条
1 冯迪;李晋宏;曹原;;基于网页的数据挖掘研究[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
中国博士学位论文全文数据库 前10条
1 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
2 许增福;DL环境下的信息资源管理及知识发现研究[D];哈尔滨工程大学;2005年
3 杜亚军;搜索引擎智能行为的研究及实现[D];西南交通大学;2005年
4 韩冰;基于智能软计算的视频镜头分割算法研究[D];西安电子科技大学;2006年
5 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
6 李成安;分布式环境下聚类分析新方法的研究[D];浙江大学;2006年
7 任世锦;基于区间数的不确定性数据挖掘及其应用研究[D];浙江大学;2006年
8 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年
9 常娥;古籍智能处理技术研究[D];南京农业大学;2007年
10 罗会兰;聚类集成关键技术研究[D];浙江大学;2007年
中国硕士学位论文全文数据库 前10条
1 高法钦;非频繁关联规则挖掘的研究[D];山东科技大学;2003年
2 段晓峰;网站日志的数据挖掘[D];重庆大学;2003年
3 张新生;基于Web数据挖掘技术构建自适应站点研究[D];西安建筑科技大学;2004年
4 宋礼鹏;大规模语料库分词质量评价方法研究[D];山西大学;2004年
5 栾丽华;聚类算法研究[D];南京师范大学;2004年
6 裴云霞;基于Web对象流行度的预取模型[D];郑州大学;2005年
7 张猛;文本聚类中参数自动设置技术的研究与实现[D];东北大学;2005年
8 张炜玮;基于Web日志的用户访问模式挖掘的研究[D];武汉理工大学;2006年
9 赵晶;非负稀疏信号分解及在单声道声音分离中的应用[D];电子科技大学;2006年
10 杨成福;非负稀疏信号分析理论及在文本聚类中的应用[D];电子科技大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 汪丹平;唐勇;;基于直方图的迭代式自动阈值分割技术研究[J];软件导刊;2011年08期
2 冯霞;闫冠男;李娟娟;;一种基于潜在语义索引的谱聚类方法研究[J];中国民航大学学报;2011年03期
3 王春腾;符传谊;邢洁清;;一种改进的谱聚类方法及其在文本分析中的应用[J];电脑知识与技术;2011年16期
4 何峰;丁晓青;;结合文本聚类和文本检索的语料选取方法[J];高技术通讯;2010年12期
5 钟将;刘龙海;梁传伟;;基于成对约束的主动半监督文本聚类[J];计算机工程;2011年13期
6 周鑫;郝志峰;蔡瑞初;温雯;;带噪声的文本聚类及其在反垃圾邮件中的应用[J];广西师范大学学报(自然科学版);2011年02期
7 苏喻;郑诚;马中杰;;基于语义的VSM模型改进[J];计算机应用与软件;2011年08期
8 孙桂煌;;一种基于n-gram短语的文本聚类方法研究[J];现代计算机(专业版);2011年14期
9 刘海峰;庞秀梅;张学仁;;一种聚类模式下基于密度的改进KNN算法[J];微电子学与计算机;2011年07期
10 刘海峰;姚泽清;刘守生;;一种基于模糊加权的改进文本聚类方法[J];微电子学与计算机;2011年09期
中国重要会议论文全文数据库 前10条
1 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
5 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
8 黎琳;;Web内容挖掘在数字图书馆中的应用[A];中国工程物理研究院第七届电子技术青年学术交流会论文集[C];2005年
9 彭怡;;从数据挖掘文章聚类分析看其发展趋势[A];现代工业工程与管理研讨会会议论文集[C];2006年
10 朱强生;田英;周延泉;何华灿;;基于非负因子分析的模糊文本挖掘[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
中国重要报纸全文数据库 前2条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
3 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
4 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
5 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
6 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
7 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
8 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
9 王乐;短语消息聚类相关技术研究[D];国防科学技术大学;2008年
10 杨创新;基于机器学习的高性能中文文本分类研究[D];华南理工大学;2009年
中国硕士学位论文全文数据库 前10条
1 简艳;基于潜在语义的中文文本聚类及其应用[D];东北大学;2008年
2 俞文明;Web中文文本聚类研究[D];杭州电子科技大学;2009年
3 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
4 梁维铿;基于Hadoop的分布式文本聚类研究[D];华南理工大学;2011年
5 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
6 于丽丽;基于DK-Means算法的文本聚类的研究与实现[D];东北大学;2008年
7 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
8 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
9 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
10 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026