收藏本站
收藏 | 论文排版

基于类别分布的特征选择框架

靖红芳  王斌  杨雅辉  
【摘要】:极高的特征维数使文本分类变得复杂和费时,为此非常需要有效的特征降维方法。目前已有很多种特征选择方法,但据我们所知,没有一种独立的特征选择方法能够在非平衡语料上取得很好的效果。本文依据特征在类别间的分布特点提出了基于类别分布的特征选择框架。该框架能够利用特征的分布信息选出具有较强区分能力的特征,同时可以给类别灵活地分配权重,分配较大的权重给稀有类别则提高稀有类别的分类效果,所以它适合于非平衡语料,也具有很好的扩展性。另外,文中解释说明了OCFS和基于类别分布差异的特征过滤方法是该框架的特例。基于该框架文中给出了具体的特征选择方法,Retuers-21578语料及复旦大学语料等两个非平衡语料上的实验表明,它们的宏平均和微平均F1效果都好于IG,CHI和OCFS。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 孟佳娜;林鸿飞;李彦鹏;;基于特征贡献度的特征选择方法在文本分类中应用[J];大连理工大学学报;2011年04期
2 徐峻岭;徐宝文;张卫丰;崔自峰;;一种启发式聚类特征选择方法(英文)[J];东南大学学报(英文版);2006年02期
3 胡强;;优化的互信息特征选择方法[J];湖南师范大学自然科学学报;2010年03期
4 史岳鹏;张明慧;朱颢东;;新的结合互信息和粗糙集的特征选择[J];计算机工程与应用;2011年16期
5 龚静;曾建一;;文本聚类中的特征选择方法[J];吉首大学学报(自然科学版);2008年02期
6 朱颢东;陈宁;李红婵;;优化的互信息特征选择方法[J];计算机工程与应用;2010年26期
7 龚静;曾莉;;用于文本分类的特征选择方法[J];湖南环境生物职业技术学院学报;2008年03期
8 符会涛;卡米力·木衣丁;;一种改进的文本特征选择方法的研究与设计[J];计算机应用与软件;2011年04期
9 符发;;中文文本分类中特征选择方法的比较[J];现代计算机(专业版);2008年06期
10 康岚兰;董丹丹;;一种改进的互信息特征选择方法[J];电脑知识与技术;2009年35期
11 伍建军;康耀红;;文本分类中特征选择方法的比较和改进[J];郑州大学学报(理学版);2007年02期
12 肖婷;唐雁;;改进的χ~2统计文本特征选择方法[J];计算机工程与应用;2009年14期
13 贾瑞玉;宁再早;耿锦威;查丰;;基于佳点集遗传算法的特征选择方法[J];计算机技术与发展;2011年01期
14 刘洋;;中文文本分类中特征选择方法的比较研究[J];科技信息;2007年03期
15 孙霞;郑庆华;;一种面向非平衡数据的邻居词特征选择方法[J];小型微型计算机系统;2008年12期
16 陈素萍;谢丽聪;;一种文本特征选择方法的研究[J];计算机技术与发展;2009年02期
17 洪亮;;文本分类中特征选择方法研究及分析[J];科技广场;2009年07期
18 詹德川;周志华;;基于相关投影分的特征选择算法[J];计算机科学与探索;2007年02期
19 林永民;朱卫东;;基尼指数在文本特征选择中的应用研究[J];计算机应用;2007年10期
20 王晓微;;两种分类方法特征选择的比较[J];电子技术;2007年Z3期
中国重要会议论文全文数据库 前10条
1 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 王秀娟;郭军;郑康锋;;基于互信息可信度的特征选择方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
3 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
4 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 李娜;曾向阳;;目标识别中的样本选择和特征选择联合算法研究[A];2009年西安-上海声学学术会议论文集[C];2009年
6 刘怡;高玥;;一种基于文本关键字模型的Audio音乐情感分类方法[A];第四届和谐人机环境联合学术会议论文集[C];2008年
7 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
8 胡玉娴;;基于《知网》和遗传算法的中文文本聚类特征选择[A];2009全国计算机网络与通信学术会议论文集[C];2009年
9 伍建军;康耀红;;关于文本分类中特征降维方式的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
10 于江德;王希杰;余正涛;;基于最大熵模型的语义角色标注[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 韦娜;基于内容图像检索关键技术研究[D];西北大学;2006年
2 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
3 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
4 李勇明;尿沉渣图像自动识别算法的研究[D];重庆大学;2007年
5 杨水山;冷轧带钢表面缺陷机器视觉自动检测技术研究[D];哈尔滨工业大学;2009年
6 刘华文;基于信息熵的特征选择算法研究[D];吉林大学;2010年
7 熊文;基于群智的特征选择、分类与聚类挖掘的研究[D];北京邮电大学;2010年
8 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年
9 裴志利;数据挖掘技术在文本分类和生物信息学中的应用[D];吉林大学;2008年
10 王素格;基于Web的评论文本情感分类问题研究[D];上海大学;2008年
中国硕士学位论文全文数据库 前10条
1 张鹏招;基于X~2统计的中文文本分类特征选择方法研究[D];重庆大学;2008年
2 董梅;文本内容的信息过滤技术研究[D];合肥工业大学;2006年
3 肖婷;基于X~2统计的中文文本分类特征选择方法研究[D];西南大学;2009年
4 熊小草;文本分类中特征选择的理论分析和算法研究[D];清华大学;2007年
5 龚静;中文文本聚类中特征选择算法的研究[D];湘潭大学;2006年
6 杨瑞请;基于BPSO的生理信号的情感状态识别[D];西南大学;2008年
7 王新丽;中文文本分类系统的研究与实现[D];天津大学;2007年
8 赵环宇;中文专利自动分类技术的研究[D];沈阳航空工业学院;2009年
9 马玉静;基于群体智能的文本聚类技术研究[D];燕山大学;2009年
10 孟杰;基于构造性覆盖算法的中文文本分类[D];安徽大学;2007年
中国重要报纸全文数据库 前8条
1 北京 张贵岭;什么是决策时最重要的?[N];电脑报;2010年
2 贾培武;一次打印多个Word文档[N];解放日报;2000年
3 程爱娟;旅行推销员问题(TSP)的人工智能解法及其应用[N];新疆科技报(汉);2001年
4 浙江 饶俊;选择文件的几种方法[N];电脑报;2003年
5 四川 周鸣扬;用VC制作动态弹出的对话框[N];中国计算机报;2001年
6 王庚;如何选购网络版防病毒软件[N];中国计算机报;2007年
7 飞鱼;快速切换常用中文输入法[N];中国电脑教育报;2003年
8 魏玲;用邮件合并编辑通知单[N];中国电脑教育报;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978