收藏本站
《第三届全国信息检索与内容安全学术会议论文集》2007年
收藏 | 手机打开
二维码
手机客户端打开本文

知识增益:文本分类中一种新的特征选择方法

徐燕  王斌  李锦涛  孙春明  
【摘要】:特征选择在文本分类中起重要的作用。文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用。已有的实验结果表明,IG 是最有效的特征选择算法之一,该方法基于申农提出的信息论。本文基于粗糙集理论,提出了一种新的特征选择方法(KG 算法),该方法依据粗糙集理论关于知识的观点,即知识是分类事物的能力,将知识进行量化,提出知识增益的概念,得到基于知识增益的特征选择方法。在两个通用的语料集 OHSUMED 和 NewsGroup 上进行分类实验发现:KG 算法均超过 IG 的性能,特别是在特征空间的维数降到低维时尤其明显,可见 KG 算法有较好的性能。

【参考文献】
中国期刊全文数据库 前4条
1 尚文倩;黄厚宽;刘玉玲;林永民;瞿有利;董红斌;;文本分类中基于基尼指数的特征选择算法研究[J];计算机研究与发展;2006年10期
2 单松巍,冯是聪,李晓明;几种典型特征选取方法在中文网页分类上的效果比较[J];计算机工程与应用;2003年22期
3 徐燕,怀进鹏,王兆其;基于区分能力大小的启发式约简算法及其应用[J];计算机学报;2003年01期
4 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
【共引文献】
中国期刊全文数据库 前10条
1 蔡莉;胡学钢;;一种基于粗集的决策表求核算法[J];安徽大学学报(自然科学版);2007年06期
2 周玉华;李景杰;;不完备决策表的一种属性约简方法[J];安徽大学学报(自然科学版);2009年04期
3 杨萍,万上海,陈耿;一种基于可变支持度的缺省规则挖掘算法[J];安徽工程科技学院学报(自然科学版);2004年02期
4 梅灿华;孟庆全;祁炯;李明;;分辨矩阵构成与约简同步的方法[J];安徽工程科技学院学报(自然科学版);2008年02期
5 孙全玲;基于粗集和神经网络的建模方法研究[J];安徽建筑工业学院学报(自然科学版);2005年02期
6 孙虹;方敏;;基于Rough集和RBF网络的车牌字符识别方法[J];安徽建筑工业学院学报(自然科学版);2006年04期
7 孙虹;;粗糙集神经网络系统在车牌字符识别中的研究[J];安徽建筑工业学院学报(自然科学版);2007年04期
8 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
9 时雷;席磊;虎晓红;段其国;;基于支持向量机的农业数据分类研究[J];安徽农业科学;2009年05期
10 时雷;虎晓红;席磊;;基于Naive Bayes算法的大豆病害诊断研究[J];安徽农业科学;2009年11期
中国重要会议论文全文数据库 前10条
1 ;Application of Rough Sets in Intelligent Control[A];Proceedings of 4th International Symposium on Test and Measurement(Volume 1)[C];2001年
2 ;A Reduction Method About Fuzzy Rules Based on Rough Sets[A];Proceedings of 4th International Symposium on Test and Measurement(Volume 1)[C];2001年
3 ;The Method of the Intelligent Decision Based on the Rough Set[A];Proceedings of 4th International Symposium on Test and Measurement(Volume 1)[C];2001年
4 ;Study of Rough Set Fault Diagnosis System Based on Wavelet Packet Analysis[A];第七届国际测试技术研讨会论文集[C];2007年
5 ;The Constructing Algorithm of Classification Knowledge Model Based on Information Entropy[A];第七届国际测试技术研讨会论文集[C];2007年
6 殷积东;刘博;王少辉;;基于粗糙集理论和关联规则的腐蚀区域纹理特征检测算法研究[A];图像图形技术研究与应用(2010)[C];2010年
7 HONGSHENG SU;;ROUGH SETS APPROACHES FOR EQUIPMENT SERVING STRATEGIES BASED ON DISCRETE MARKOV CONTROL AND DECISION PROCESS[A];Proceedings of the 4th International Conference on Quality and Reliability[C];2005年
8 庞清乐;曹银杰;穆健;郎丰法;;基于粗集理论的小电流接地系统故障选线研究[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
9 GRZYMAL A-BUSSE Jerzy W;;Mining incomplete data—A rough set approach[A];Proceedings of 2008 International Forum on Knowledge Technology[C];2008年
10 HERBER T Joseph P;;A game-theoretic perspective on rough set analysis[A];Proceedings of 2008 International Forum on Knowledge Technology[C];2008年
中国博士学位论文全文数据库 前10条
1 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
2 姜延吉;多传感器数据融合关键技术研究[D];哈尔滨工程大学;2010年
3 苏煜;基于SCF范式的在线P300脑机接口研究[D];浙江大学;2010年
4 郭戈;数字视频语义信息提取与分析[D];解放军信息工程大学;2010年
5 朱小栋;基于扩展预测模型标记语言的数据流挖掘系统建模研究[D];南京航空航天大学;2009年
6 李绍成;基于静电感应和显微图像的油液磨粒监测技术研究[D];南京航空航天大学;2009年
7 文振华;基于静电感应的航空发动机气路监测技术研究[D];南京航空航天大学;2009年
8 戴毓;石油期货市场波动性与风险管理研究[D];南京航空航天大学;2009年
9 刘慧君;用户浏览模式挖掘方法与应用研究[D];重庆大学;2010年
10 邹艳;基于不同个体偏好表现形式的多阶段投票选择方法研究[D];重庆大学;2010年
中国硕士学位论文全文数据库 前10条
1 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
2 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
3 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
4 张晓冬;基于全矢谱的智能诊断技术研究[D];郑州大学;2010年
5 李昕哲;关系邻域系统的属性约简[D];郑州大学;2010年
6 刘琪;正态云模型模糊推理系统及其应用研究[D];郑州大学;2010年
7 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
8 冯为军;基于粗糙集理论的数据挖掘算法的研究[D];哈尔滨工程大学;2010年
9 陈晶;基于词片网格的语音文档主题分类[D];哈尔滨工程大学;2010年
10 白喜朋;基于作业的钢铁企业成本分析[D];大连理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前7条
1 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
2 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
3 苗夺谦,胡桂荣;知识约简的一种启发式算法[J];计算机研究与发展;1999年06期
4 朱寰,阮彤,于庆喜;文本分割算法对中文信息过滤影响研究[J];计算机工程与应用;2002年13期
5 何新贵,彭甫阳;中文文本的关键词自动抽取和模糊分类[J];中文信息学报;1999年01期
6 苗夺谦,王珏;粗糙集理论中概念与运算的信息表示[J];软件学报;1999年02期
7 孙丽华,张积东,李静梅;一种改进的kNN方法及其在文本分类中的应用[J];应用科技;2002年02期
中国重要会议论文全文数据库 前1条
1 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
【相似文献】
中国期刊全文数据库 前10条
1 吴克寿;陈玉明;谢荣生;王晓栋;;基于粗糙集与蚁群优化算法的特征选择方法研究[J];计算机应用研究;2011年07期
2 冯林;原永乐;;一种基于(μ+λ)-ES进化策略的特征选择方法[J];计算机科学;2011年08期
3 朱颢东;李红婵;;基于互信息和粗糙集理论的特征选择[J];计算机工程;2011年15期
4 许明英;尉永清;赵静;;一种结合反馈信息的贝叶斯分类增量学习方法[J];计算机应用;2011年09期
5 吴谋硕;;基于遗传算法的文本分类技术[J];电脑知识与技术;2011年22期
6 夏火松;刘建;朱慧毅;;中文情感分类挖掘预处理关键技术比较研究[J];情报杂志;2011年09期
7 邓松;王映龙;何火娇;罗东平;袁威;;粗糙集在销售决策系统中的应用[J];计算机技术与发展;2011年09期
8 严冬梅;;粗糙集在农业决策支持系统中的应用[J];广东农业科学;2011年09期
9 洪智勇;王天擎;刘灿涛;;一种新的互信息特征子集评价函数[J];计算机工程与应用;2011年22期
10 刘德银;刘文奇;;一种增量式属性最小约简的粗糙集算法[J];计算机应用与软件;2011年08期
中国重要会议论文全文数据库 前10条
1 徐燕;王斌;李锦涛;孙春明;;知识增益:文本分类中一种新的特征选择方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
3 包剑;冀明;冯军;;基于模糊支持向量机的文本分类[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年
4 张长利;左万利;彭涛;赫枫龄;彭钊;邵慧勇;;基于无监督聚类的PU文本分类方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
5 朱江华;潘丰;;基于蚁群算法的粗糙集知识约简[A];2005年全国自动化新技术学术交流会论文集[C];2005年
6 朱江华;潘丰;;基于蚁群算法的粗糙集知识约简[A];2005全国自动化新技术学术交流会论文集(二)[C];2005年
7 田库;王俊松;刘玉敏;刘玉亮;李建国;;基于粗糙集理论的神经网络优化设计及网络拥赛控制[A];第25届中国控制会议论文集(中册)[C];2006年
8 陈媛媛;李晓;田二明;;基于粗糙集和BP网络的车牌字符识别[A];2008中国仪器仪表与测控技术进展大会论文集(Ⅰ)[C];2008年
9 李晓丽;王彤;杜振龙;;基于粗糙集理论的流数据最优特征选择[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
10 易国华;;基于粗糙集和模糊集理论的数字图像增强方法[A];第二届全国信息获取与处理学术会议论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 吴正江;L模糊粗糙集研究[D];西南交通大学;2009年
2 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
3 张颖;基于群集智能模式识别方法的研究[D];大连理工大学;2008年
4 赵晨;过程控制中的数据挖掘技术研究及其智能控制策略探讨[D];浙江大学;2005年
5 张勇;粗糙集—神经网络智能系统在浮选过程中的应用研究[D];大连理工大学;2006年
6 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
7 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年
8 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
9 杨创新;基于机器学习的高性能中文文本分类研究[D];华南理工大学;2009年
10 王向阳;面向不确定性推理和数据分析的模式识别方法研究[D];上海交通大学;2006年
中国硕士学位论文全文数据库 前10条
1 杜圣东;基于多类支持向量机的文本分类研究[D];重庆大学;2007年
2 张亚平;基于粗糙集和神经网络的数据分类技术研究[D];大连理工大学;2008年
3 叶振宇;基于关联规则和向量空间模型的文本分类研究[D];东南大学;2005年
4 林宏正;基于粗糙集和神经网络的邮件分类研究[D];暨南大学;2008年
5 王懿;基于自然语言处理和机器学习的文本分类及其应用研究[D];中国科学院研究生院(成都计算机应用研究所);2006年
6 孟祥国;多类文本分类的支持向量机网络[D];山东大学;2007年
7 张青枝;基于粗糙集的专家系统研究[D];武汉理工大学;2003年
8 张腾飞;基于粗糙集和RBF网络的动态建模方法研究[D];上海海事大学;2004年
9 余从津;非线性维数约减的研究及其应用[D];天津大学;2004年
10 李鸿;基于粗糙集的知识粗糙性研究[D];合肥工业大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026