收藏本站
《第二十一届中国数据库学术会议论文集(研究报告篇)》2004年
收藏 | 手机打开
二维码
手机客户端打开本文

一种新的基于kNN和Rocchio的文本分类方法

张政  周水庚  周傲英  
【摘要】:自动文本分类技术是一种对电子文档进行管理的有效方法,到现在为止,国内外学者提出了许多文本分类的方法,其中kNN和Rocchio是两种比较常见的方法.kNN的特点是有很好的分类效果,但是分类的效率比较差;而Rocchio的特点是有很好的分类效率,但是分类效果却不理想.首先对kNN和Rocchio的算法进行深入的研究和比较,然后提出了一种新的基于kNN和Rocchio的文本分类方法,命名为Rocchio-kNN方法.这种分类方法先用Rocchio为测试文档产生候选类别,然后再用kNN从候选类别中为测试文档选择出最终类别.这种方法既有kNN分类效果好的特点,又有接近Rocchio的分类效率.同时,还研究了用两种不同的方法来决定候选类别的数目.在中文文档库上的实验表明,新的文本分类方法的效果比单独的kNN和Rocchio的效果都要好,同时分类效率要比kNN好并且接近Rocchio.
【作者单位】:复旦大学计算机科学与工程系
【基金】:国家自然科学基金项目(60373019)
【分类号】:TP391.1

【共引文献】
中国期刊全文数据库 前7条
1 檀林,张永奎;一种基于迭代学习的文本分类器构造方法[J];电脑开发与应用;2004年02期
2 刘茂旺;林世平;;BOOSTING算法在多类多标签文本分类中的应用[J];福建电脑;2006年03期
3 姚志湘;杨锦瑜;张倩;刘雪颖;陈晓伟;;Boosting算法及其在化学数据挖掘中的应用[J];广西工学院学报;2006年04期
4 肖江,张亚非;Boosting算法在文本自动分类中的应用[J];解放军理工大学学报(自然科学版);2003年02期
5 姜远;周志华;;基于词频分类器集成的文本分类方法[J];计算机研究与发展;2006年10期
6 刘风成;黄德根;姜鹏;;基于AdaBoost.MH算法的汉语多义词消歧[J];中文信息学报;2006年03期
7 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
中国重要会议论文全文数据库 前9条
1 SHI Yong-feng, ZHAO Yan-ping~+ School of Management and Economics, Beijing Institute of Technology, Beijing 100081, China;Comparison of Text Categorization Algorithms[A];Proceedings of the First Conference on Web Information System and Applications(WISA 2004)[C];2004年
2 SHI Yong-feng. ZHAO Yan-ping School of Management and Economics, Beijing Institute of Technology , Beijing 100081, China;Comparison of Text Categorization Algorithms[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
3 陈庆轩;郑德权;赵铁军;;多分类器融合的文本分类技术研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
4 Yongwook Yoon;Changki Lee;Gary Geunbae Lee;;Systematic Construction of Hierarchical Classifier in SVM-based Text Categorization[A];Proceedings of the Conference First International Joint Conference on Natural Language Processing[C];2004年
5 Dragomir Radev;;Combining Labeled and Unlabeled Data for Learning Cross-document Structural Relationships[A];Proceedings of the Conference First International Joint Conference on Natural Language Processing[C];2004年
6 Grace NGAI;Marine CARPUAT;;N-fold Templated Piped Correction[A];Proceedings of the Conference First International Joint Conference on Natural Language Processing[C];2004年
7 Changqin QUAN Tingting HE Po HU Donghong JI Department of Computer Science Huazhong Normal University, Wuhan, 430079 Institution of Software Engineering Tsing Hua University, Beijing, 100084 Institute for Infocomm Research Heng Mui Keng Terrace, 21 Singapore 119613;Application of Boosting to Chinese Word Sense Disambiguation[A];Proceedings of 2005 IEEE International Conference on Natural Language Processing and Knowledge Engineering[C];2005年
8 Huizhen WANG Jingbo ZHU Duo JI Na YE Bin ZHANG Natural Language Processing Laboratory, Institute of Computer Software and Theory Institute of Computer Applications, Northeastern University, Shenyang;Time Adaptive Boosting Model for Topic Tracking[A];Proceedings of 2005 IEEE International Conference on Natural Language Processing and Knowledge Engineering[C];2005年
9 Dingsheng LUO, Xinhao WANG, Xihong WU, Huisheng CHI National Laboratory on Machine Perception, School of Electronics Engineering & Computer Science, Peking University, No.5 Summer Palace Road, Handian District, Beijing, 100871;Learning Effective Features for Chinese Text Categorization[A];Proceedings of 2005 IEEE International Conference on Natural Language Processing and Knowledge Engineering[C];2005年
中国博士学位论文全文数据库 前10条
1 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
2 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
3 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
4 胡明;Web中文信息智能获取与分类研究[D];吉林大学;2005年
5 沈掌泉;神经网络集成技术及其在土壤学中应用的研究[D];浙江大学;2005年
6 王泉德;机器学习及其在多Agent对策学习中的应用研究[D];武汉大学;2005年
7 陈久军;基于统计学习的图像语义挖掘研究[D];浙江大学;2006年
8 于玲;基于数据的复杂系统集成建模方法及其应用研究[D];浙江大学;2006年
9 刘悦;神经网络集成及其在地震预报中的应用研究[D];上海大学;2005年
10 张亮;面向开放域的中文问答系统问句处理相关技术研究[D];南京理工大学;2006年
中国硕士学位论文全文数据库 前10条
1 苏伟峰;基于概念的文本自动分类研究[D];厦门大学;2002年
2 卢忠良;基于多类的汉语文本自动分类研究[D];中国人民解放军国防科学技术大学;2002年
3 乐斌;Boosting算法研究及其在光谱分析中的应用[D];浙江大学;2004年
4 蒋伟贞;基于类别的特征选择算法的文本分类系统[D];西南交通大学;2004年
5 栾悉道;互联网公开情报收集与处理技术研究[D];国防科学技术大学;2003年
6 周鹏;神经网络集成算法研究及在基因表达数据分析中的应用[D];华中科技大学;2004年
7 全昌勤;基于语料库的汉语词义消歧方法研究[D];华中师范大学;2005年
8 侯小静;贝叶斯分类器研究及其在Web文档分类中的应用[D];郑州大学;2005年
9 巩玉玺;基于文本挖掘的垃圾邮件过滤技术研究[D];中国海洋大学;2005年
10 马宏伟;基于SVM的中文文本分类系统的建模与实现[D];大连理工大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 陈可华;;文本自动分类新探究[J];赤峰学院学报(自然科学版);2011年04期
2 李荣陆,胡运发;基于密度的kNN文本分类器训练样本裁剪方法[J];计算机研究与发展;2004年04期
3 李永平,程莉,叶卫国;基于隐含语义的kNN文本分类研究[J];计算机工程与应用;2004年06期
4 李杨,曾海泉,刘庆华,胡运发;基于kNN的快速WEB文档分类[J];小型微型计算机系统;2004年04期
5 宋晓宇;孙业挺;孙焕良;;支持动态负载的移动对象最近邻查询算法[J];计算机工程与应用;2007年27期
6 孙丽华,张积东,李静梅;一种改进的kNN方法及其在文本分类中的应用[J];应用科技;2002年02期
7 杨丽华;戴齐;郭艳军;;KNN文本分类算法研究[J];微计算机信息;2006年21期
8 陈益军;;一种基于元数据方法的KNN网页分类器的设计与实现[J];福建电脑;2007年06期
9 刘慧;杨宏光;;应用于中文文本分类的改进KNN算法[J];今日科苑;2010年08期
10 来羽;;基于分类算法的可视化技术研究[J];煤炭技术;2010年10期
中国重要会议论文全文数据库 前10条
1 张政;周水庚;周傲英;;一种新的基于kNN和Rocchio的文本分类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 宋晓宇;孙业挺;孙焕良;;基于双层网格索引的移动对象KNN查询算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
3 殷晓岚;丁治明;李京;;移动对象在空间网络数据库上的kNN查询[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 魏萌芽;李翠平;陈红;;一种基于kNN的控制关系分析方法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
5 李斌阳;赵志滨;于戈;姚兰;杨晓春;刘阳;;一种基于过滤器的无线传感器网络近似kNN查询优化算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
6 刘玲;王冠;;可视化技术在分类算法中的应用研究[A];第四届中国智能计算大会论文集[C];2010年
7 郝继功;徐志军;初瑞清;;柠檬酸法制备(K_(1/2)Na_(1/2))NbO_3无铅压电陶瓷及其性能研究[A];第六届中国功能材料及其应用学术会议论文集(2)[C];2007年
8 丁琳琳;乔百友;王国仁;陈忱;;SMR:一种支持高维数据KNN查询的P2P语义覆盖网络[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
9 刘俊岭;孙焕良;;多维度量空间中发现相互kNN(英文)[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
10 沈志斌;白清源;;基于加权修正的KNN文本分类算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
中国博士学位论文全文数据库 前8条
1 江民红;KNN基无铅压电陶瓷的改性与机理研究[D];中南大学;2010年
2 吕宁;PMN和KNN铁电材料的电子显微学及第一性原理研究[D];清华大学;2010年
3 钱晓东;基于神经网络等技术的数据与文本聚分类研究[D];天津大学;2005年
4 郭颖;森林地上生物量的非参数化遥感估测方法优化[D];中国林业科学研究院;2011年
5 叶正;基于网络挖掘与机器学习技术的相关反馈研究[D];大连理工大学;2011年
6 曹庆先;北部湾沿海红树林生物量和碳贮量的遥感估算[D];中国林业科学研究院;2010年
7 钟茂生;基于内容相关度计算的文本结构分析方法研究[D];上海交通大学;2010年
8 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
中国硕士学位论文全文数据库 前10条
1 杜尔斌;基于改进KNN的文本分类算法的设计与实现[D];上海交通大学;2010年
2 郝继功;KNN基无铅压电陶瓷的制备及其性能研究[D];聊城大学;2010年
3 刘慧;基于KNN的中文文本分类算法研究[D];西南交通大学;2010年
4 黄樑昌;kNN填充算法的分析和改进研究[D];广西师范大学;2010年
5 杨营辉;基于密度的样本裁剪算法的改进及在kNN中的应用研究[D];重庆大学;2010年
6 童先群;基于属性值信息熵的KNN算法改进研究[D];漳州师范学院;2010年
7 闫晨;KNN文本分类研究[D];燕山大学;2010年
8 夏青松;基于改进哈希算法的快速KNN文本分类方法[D];安徽大学;2012年
9 赵小华;KNN文本分类中特征词权重算法的研究[D];太原理工大学;2010年
10 李伦;织构型KNN基无铅压电陶瓷的流延成型工艺和性能研究[D];武汉理工大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026