收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

一种新的基于kNN和Rocchio的文本分类方法

张政  周水庚  周傲英  
【摘要】:自动文本分类技术是一种对电子文档进行管理的有效方法,到现在为止,国内外学者提出了许多文本分类的方法,其中kNN和Rocchio是两种比较常见的方法.kNN的特点是有很好的分类效果,但是分类的效率比较差;而Rocchio的特点是有很好的分类效率,但是分类效果却不理想.首先对kNN和Rocchio的算法进行深入的研究和比较,然后提出了一种新的基于kNN和Rocchio的文本分类方法,命名为Rocchio-kNN方法.这种分类方法先用Rocchio为测试文档产生候选类别,然后再用kNN从候选类别中为测试文档选择出最终类别.这种方法既有kNN分类效果好的特点,又有接近Rocchio的分类效率.同时,还研究了用两种不同的方法来决定候选类别的数目.在中文文档库上的实验表明,新的文本分类方法的效果比单独的kNN和Rocchio的效果都要好,同时分类效率要比kNN好并且接近Rocchio.

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 陈可华;;文本自动分类新探究[J];赤峰学院学报(自然科学版);2011年04期
2 李荣陆,胡运发;基于密度的kNN文本分类器训练样本裁剪方法[J];计算机研究与发展;2004年04期
3 李永平,程莉,叶卫国;基于隐含语义的kNN文本分类研究[J];计算机工程与应用;2004年06期
4 李杨,曾海泉,刘庆华,胡运发;基于kNN的快速WEB文档分类[J];小型微型计算机系统;2004年04期
5 宋晓宇;孙业挺;孙焕良;;支持动态负载的移动对象最近邻查询算法[J];计算机工程与应用;2007年27期
6 孙丽华,张积东,李静梅;一种改进的kNN方法及其在文本分类中的应用[J];应用科技;2002年02期
7 杨丽华;戴齐;郭艳军;;KNN文本分类算法研究[J];微计算机信息;2006年21期
8 陈益军;;一种基于元数据方法的KNN网页分类器的设计与实现[J];福建电脑;2007年06期
9 刘慧;杨宏光;;应用于中文文本分类的改进KNN算法[J];今日科苑;2010年08期
10 来羽;;基于分类算法的可视化技术研究[J];煤炭技术;2010年10期
11 杜尔斌;李翔;林祥;;改进的KNN文本分类算法[J];信息安全与通信保密;2011年04期
12 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
13 杨建良,王永成;基于KNN与自动检索的迭代近邻法在自动分类中的应用[J];情报学报;2004年02期
14 林琛;李弼程;;一种有效的垃圾邮件过滤新方法[J];计算机应用;2006年08期
15 崔彩霞;张朝霞;;文本分类方法对比研究[J];太原师范学院学报(自然科学版);2007年04期
16 王煜;白石;王正欧;;用于Web文本分类的快速KNN算法[J];情报学报;2007年01期
17 刘海博;郗亚辉;王煜;;用于文本分类的快速KNN算法[J];河北大学学报(自然科学版);2008年03期
18 吕震宇;赵爽;林永民;;kNN在文本分类中的应用研究[J];计算机与现代化;2008年11期
19 闭小梅;闭瑞华;;KNN算法综述[J];科技创新导报;2009年14期
20 李鑫;张黎烁;;文本分类方法比较研究[J];光盘技术;2009年05期
中国重要会议论文全文数据库 前10条
1 张政;周水庚;周傲英;;一种新的基于kNN和Rocchio的文本分类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 宋晓宇;孙业挺;孙焕良;;基于双层网格索引的移动对象KNN查询算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
3 殷晓岚;丁治明;李京;;移动对象在空间网络数据库上的kNN查询[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 魏萌芽;李翠平;陈红;;一种基于kNN的控制关系分析方法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
5 李斌阳;赵志滨;于戈;姚兰;杨晓春;刘阳;;一种基于过滤器的无线传感器网络近似kNN查询优化算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
6 刘玲;王冠;;可视化技术在分类算法中的应用研究[A];第四届中国智能计算大会论文集[C];2010年
7 郝继功;徐志军;初瑞清;;柠檬酸法制备(K_(1/2)Na_(1/2))NbO_3无铅压电陶瓷及其性能研究[A];第六届中国功能材料及其应用学术会议论文集(2)[C];2007年
8 丁琳琳;乔百友;王国仁;陈忱;;SMR:一种支持高维数据KNN查询的P2P语义覆盖网络[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
9 刘俊岭;孙焕良;;多维度量空间中发现相互kNN(英文)[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
10 沈志斌;白清源;;基于加权修正的KNN文本分类算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
中国博士学位论文全文数据库 前8条
1 江民红;KNN基无铅压电陶瓷的改性与机理研究[D];中南大学;2010年
2 吕宁;PMN和KNN铁电材料的电子显微学及第一性原理研究[D];清华大学;2010年
3 钱晓东;基于神经网络等技术的数据与文本聚分类研究[D];天津大学;2005年
4 郭颖;森林地上生物量的非参数化遥感估测方法优化[D];中国林业科学研究院;2011年
5 叶正;基于网络挖掘与机器学习技术的相关反馈研究[D];大连理工大学;2011年
6 曹庆先;北部湾沿海红树林生物量和碳贮量的遥感估算[D];中国林业科学研究院;2010年
7 钟茂生;基于内容相关度计算的文本结构分析方法研究[D];上海交通大学;2010年
8 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
中国硕士学位论文全文数据库 前10条
1 杜尔斌;基于改进KNN的文本分类算法的设计与实现[D];上海交通大学;2010年
2 郝继功;KNN基无铅压电陶瓷的制备及其性能研究[D];聊城大学;2010年
3 刘慧;基于KNN的中文文本分类算法研究[D];西南交通大学;2010年
4 黄樑昌;kNN填充算法的分析和改进研究[D];广西师范大学;2010年
5 杨营辉;基于密度的样本裁剪算法的改进及在kNN中的应用研究[D];重庆大学;2010年
6 童先群;基于属性值信息熵的KNN算法改进研究[D];漳州师范学院;2010年
7 闫晨;KNN文本分类研究[D];燕山大学;2010年
8 夏青松;基于改进哈希算法的快速KNN文本分类方法[D];安徽大学;2012年
9 赵小华;KNN文本分类中特征词权重算法的研究[D];太原理工大学;2010年
10 李伦;织构型KNN基无铅压电陶瓷的流延成型工艺和性能研究[D];武汉理工大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978