收藏本站
《第二十五届中国数据库学术会议论文集(一)》2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于加权修正的KNN文本分类算法

沈志斌  白清源  
【摘要】:随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。KNN方法作为一种简单、有效、非参数的分类方法。本文分析了KNN算法在文本分类中存在的不足——分布密度和训练样本数对KNN分类效果的影响,并针对这些不足,对KNN算法进行了改进。改进后的方法使训练样本的分布密度趋于均匀,降低了样本数的不均对分类效果的影响,提高了文本分类的准确率。实验结果显示,这种改进后的方法具有很好的性能。

手机知网App
【参考文献】
中国期刊全文数据库 前3条
1 乔玉龙,潘正祥,孙圣和;一种改进的快速k-近邻分类算法[J];电子学报;2005年06期
2 陈晓云;陈袆;王雷;李荣陆;胡运发;;基于分类规则树的频繁模式文本分类[J];软件学报;2006年05期
3 张国英;沙芸;江慧娜;;基于粒子群优化的快速KNN分类算法[J];山东大学学报(理学版);2006年03期
【共引文献】
中国期刊全文数据库 前10条
1 赵晶莹;郭海;孙兴滨;;基于小波分析及改进KNN的红虫识别研究[J];安徽农业科学;2009年29期
2 王金凤;一种基于特征聚合理论和LSI的文本分类新方法[J];北京理工大学学报(社会科学版);2004年05期
3 张兢;候旭东;吕和胜;;基于朴素贝叶斯和支持向量机的短信智能分析系统设计[J];重庆理工大学学报(自然科学版);2010年01期
4 张晓辉,李莹,王华勇,赵宏;应用特征聚合进行中文文本分类的改进KNN算法[J];东北大学学报;2003年03期
5 朱颢东;李红婵;;关于Top-N最频繁项集挖掘的研究[J];电子科技大学学报;2010年05期
6 樊兴华;王鹏;;基于两步策略的中文短文本分类研究[J];大连海事大学学报;2008年03期
7 郭玉琴;袁方;刘海博;;基于模糊分类规则树的文本分类(英文)[J];Journal of Southeast University(English Edition);2008年03期
8 宁慧;吕志龙;;中文文本分类中特征选择方法的研究[J];电脑知识与技术(学术交流);2007年21期
9 张东娜;刘博;;一个基于加权和组合降维的web文本分类系统[J];电脑知识与技术;2008年07期
10 王俊艳;;浅析分类方法的发展[J];电脑知识与技术;2008年15期
中国重要会议论文全文数据库 前10条
1 毛承胜;胡斌;;普适环境下基于EEG的身份识别方法[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
2 单大甫;周斌;黄九鸣;;基于CAAR算法的文本倾向性分析技术[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
3 罗海飞;虞立群;章志凌;邵晓敏;陈林;汪更生;陈弈秋;何伟杰;;一种改进型CHI的特征抽取方法[A];第二十四届中国控制会议论文集(下册)[C];2005年
4 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
5 冯祎;李霞;;一种K最近邻分类的改进算法及应用[A];2011年全国通信安全学术会议论文集[C];2011年
6 陈庆轩;郑德权;赵铁军;;多分类器融合的文本分类技术研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
7 邬郑;吕晓莉;晋耀红;;将HNC领域引入文本分类的尝试与探讨[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 王孟;白清源;谢丽聪;谢伙生;张莹;;一种含有负项的关联文本分类[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
10 王孟;白清源;谢丽聪;谢伙生;张莹;;基于信息增益规则排序的关联文本分类[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
中国博士学位论文全文数据库 前10条
1 王修君;高效数据流和海量文本处理算法研究[D];中国科学技术大学;2011年
2 高雅田;基于MAS的数据挖掘模型自动选择方法研究[D];东北石油大学;2011年
3 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
4 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
5 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
6 王明春;基于粗糙集的数据及文本挖掘方法研究[D];天津大学;2005年
7 袁方;面向智能信息检索的Web挖掘关键技术研究[D];东北大学;2006年
8 王煜;基于决策树和K最近邻算法的文本分类研究[D];天津大学;2006年
9 李冠军;电子政务服务理论及其支撑技术的研究[D];天津大学;2006年
10 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
2 李琼琼;网络文本自动分类器的设计与实现[D];电子科技大学;2010年
3 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
4 贾俊凯;公安业务文本信息挖掘的研究与实现[D];东华大学;2011年
5 许世明;中文网页分类技术研究及预分类算法实现[D];西安电子科技大学;2009年
6 宋晓旭;基于语义网的文本分类研究[D];沈阳工业大学;2011年
7 李原;中文文本分类中分词和特征选择方法研究[D];吉林大学;2011年
8 丁若尧;基于博客的网络话题发现及追踪的研究[D];北京交通大学;2011年
9 曾洪波;基于类别裁剪和模糊理论的文本分类算法研究[D];暨南大学;2011年
10 田宇;基于XML的WEB信息抽取系统研究与实现[D];内蒙古大学;2011年
【二级参考文献】
中国期刊全文数据库 前2条
1 乔玉龙,潘正祥,孙圣和;一种改进的快速k-近邻分类算法[J];电子学报;2005年06期
2 薛翠芳,郭炳炎;汉语文本特征词的抽取方法[J];情报学报;2000年03期
【相似文献】
中国期刊全文数据库 前10条
1 ;《文本之星3.3测试版》[J];电子计算机与外部设备;2001年07期
2 杨英;处理文本用的软件[J];管理科学文摘;1996年04期
3 王毅;Windows 98中渐变彩色文本的实现[J];微电脑世界;1999年07期
4 张均东,孙宏;Word 2000中的几则常用技巧[J];微电脑世界;2000年21期
5 东东;轻松文本[J];网络与信息;2004年04期
6 李建生!云南;EmEditor──文本飞扬[J];电子科技;2001年11期
7 柴振荣;文本管理程序[J];管理科学文摘;1995年04期
8 石磊,周敏;用Borland C++设计CAI课件的文本和图形[J];华北科技学院学报;1999年02期
9 董广超;在VB中画文本[J];电脑编程技巧与维护;1996年03期
10 黄昆;为AutoCAD增加文本编排功能[J];微计算机应用;1996年01期
中国重要会议论文全文数据库 前10条
1 沈志斌;白清源;;基于加权修正的KNN文本分类算法[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
2 李晓栋;胡清华;;汽轮机故障诊断文本支持系统的研究与建立[A];2004电站自动化信息化学术技术交流会议论文集[C];2004年
3 易绵竹;南振兴;李绍哲;薛恩奎;;文本生成与理解的语言学模拟——伊戈尔·梅里丘克《意思(?)文本》模型评介[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 张鹏;李国臣;李茹;刘海静;石向荣;;基于FrameNet框架关系的文本蕴含识别[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 单大甫;周斌;黄九鸣;;基于CAAR算法的文本倾向性分析技术[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
6 徐代刚;唐常杰;于中华;;从Web文档中采掘语言知识[A];第十五届全国数据库学术会议论文集[C];1998年
7 杨敏;杜小勇;;hRIPPER:一种基于层次规则学习的文本分类算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
8 曾青青;杨尔弘;;事件词驱动的文本事件信息结构初探[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
9 曾青青;杨尔弘;朱丹青;;基于信息结构的突发事件文本事件信息自动抽取策略研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
10 刘艳民;;中文网页分类方法的研究[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
中国重要报纸全文数据库 前10条
1 刘福旺;让文本动起来[N];中国电脑教育报;2002年
2 安徽 高伟;文本批量替换好帮手[N];电脑报;2004年
3 李岩;怎样快速录入报表[N];建筑报;2000年
4 李永波;实现滚动文本一例[N];中国电脑教育报;2004年
5 浙江省绍兴县职业教育中心 何永胜;让文本发声[N];中国电脑教育报;2004年
6 宋志明;文本也能转成MP3[N];中国电脑教育报;2004年
7 7star;动态文本变变变[N];中国电脑教育报;2002年
8 重庆 雪飞;文本也能批量翻译[N];电脑报;2001年
9 dogQ;网页中的文本自动输出[N];中国电脑教育报;2002年
10 重庆 常笑;从方正飞腾输出文本[N];电脑报;2004年
中国博士学位论文全文数据库 前10条
1 罗纲;文本隐藏信息检测技术研究[D];湖南大学;2008年
2 宋万鹏;短文本相似度计算在用户交互式问答系统中的应用[D];中国科学技术大学;2010年
3 陶冶;文本语音匹配的研究和应用[D];山东大学;2009年
4 韦世奎;基于信息融合的多媒体内容搜索[D];北京交通大学;2010年
5 薛俊韬;基于大规模数据库的多级指纹分类研究[D];天津大学;2010年
6 刘刚;数据挖掘技术与分类算法研究[D];中国人民解放军信息工程大学;2004年
7 周英华;位置相关Web搜索的检索技术研究[D];中国科学技术大学;2006年
8 吴磊;视觉语言分析:从底层视觉特征表达到语义距离学习[D];中国科学技术大学;2010年
9 杨雄;图像解译数据库与物体识别的计算机理研究[D];华中科技大学;2010年
10 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
中国硕士学位论文全文数据库 前10条
1 潘莹;基于需求文本的GIS语义挖掘初步研究[D];南京师范大学;2004年
2 汪正中;基于英文博客空间文本的情感分析研究[D];温州大学;2011年
3 刘云中;基于隐马尔可夫模型的文本信息抽取算法研究[D];湖南大学;2004年
4 王振浩;基于情感字典与机器学习相结合的文本情感分类[D];哈尔滨工业大学;2010年
5 霍宗凡;基于语义的文本倾向性分析与研究[D];南京邮电大学;2011年
6 宋勋超;文本聚类算法的语义性改进与实现[D];浙江大学;2011年
7 李本阳;句子和篇章文本倾向分析[D];哈尔滨工业大学;2010年
8 方明;基于Web的评论文本倾向性分析技术研究[D];山东师范大学;2012年
9 姚延栋;国际化文本竖排机制研究和实现[D];中国科学院研究生院(软件研究所);2005年
10 马焱炜;可视化集成开发环境研究[D];武汉理工大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026