收藏本站
《第四届全国信息检索与内容安全学术会议论文集(上)》2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于类别分布的特征选择框架

靖红芳  王斌  杨雅辉  
【摘要】:极高的特征维数使文本分类变得复杂和费时,为此非常需要有效的特征降维方法。目前已有很多种特征选择方法,但据我们所知,没有一种独立的特征选择方法能够在非平衡语料上取得很好的效果。本文依据特征在类别间的分布特点提出了基于类别分布的特征选择框架。该框架能够利用特征的分布信息选出具有较强区分能力的特征,同时可以给类别灵活地分配权重,分配较大的权重给稀有类别则提高稀有类别的分类效果,所以它适合于非平衡语料,也具有很好的扩展性。另外,文中解释说明了OCFS和基于类别分布差异的特征过滤方法是该框架的特例。基于该框架文中给出了具体的特征选择方法,Retuers-21578语料及复旦大学语料等两个非平衡语料上的实验表明,它们的宏平均和微平均F1效果都好于IG,CHI和OCFS。

【参考文献】
中国期刊全文数据库 前5条
1 刘桃;刘秉权;徐志明;王晓龙;;领域术语自动抽取及其在文本分类中的应用[J];电子学报;2007年02期
2 吴迪;张亚平;殷福亮;李明;;基于类别分布差异和VPRS特征选择的文本分类方法[J];电子与信息学报;2007年12期
3 曾雪强,王明文,陈素芬;一种基于潜在语义结构的文本分类模型[J];华南理工大学学报(自然科学版);2004年S1期
4 周茜,赵明生,扈旻;中文文本分类中的特征选择研究[J];中文信息学报;2004年03期
5 徐燕;李锦涛;王斌;孙春明;;基于区分类别能力的高性能特征选择方法[J];软件学报;2008年01期
【共引文献】
中国期刊全文数据库 前10条
1 蒋宗礼;李宪雷;徐学可;;基于主题Hub值的元搜索[J];北京工业大学学报;2009年03期
2 文翰;肖南峰;;基于特征分布的半监督分类[J];北京工业大学学报;2012年01期
3 王成;吕学强;王弘蔚;王涛;;基于信息熵与词语活跃度的领域词抽取[J];北京信息科技大学学报(自然科学版);2011年05期
4 易军凯;孟庆庆;;基于意群的计算机证据倾向性研究[J];北京化工大学学报(自然科学版);2010年01期
5 高影繁;马润波;刘玉树;;一种快速文本归类算法的设计与实现[J];北京理工大学学报;2006年12期
6 傅继彬;樊孝忠;毛金涛;余正涛;;基于语言特性的中文领域术语抽取算法[J];北京理工大学学报;2010年03期
7 朱颢东;周姝;钟勇;;结合ODF和辨识集的特征选择[J];重庆邮电大学学报(自然科学版);2010年01期
8 张兢;候旭东;吕和胜;;基于朴素贝叶斯和支持向量机的短信智能分析系统设计[J];重庆理工大学学报(自然科学版);2010年01期
9 殷宏威;赵伟;杨志伟;;蚁群算法在KNN文本分类中的应用[J];长春理工大学学报(自然科学版);2010年01期
10 孟佳娜;林鸿飞;李彦鹏;;基于特征贡献度的特征选择方法在文本分类中应用[J];大连理工大学学报;2011年04期
中国重要会议论文全文数据库 前7条
1 董学春;胡学钢;谢飞;吴共庆;;基于词向量空间模型的文本分类方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
2 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 赵纪元;罗霄;;面向中图法的学术文献自动分类研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
4 宁海燕;刘秉权;张德园;刘远超;王晓龙;;基于统计的中文领域术语自动抽取方法的比较研究[A];第五届全国信息检索学术会议论文集[C];2009年
5 王海雄;郭剑毅;余正涛;毛存礼;张朝胜;雷春雅;;基于CRFs的中文领域术语自动抽取研究[A];第六届全国信息检索学术会议论文集[C];2010年
6 李月伦;李湘;常宝宝;袁毓林;;一种基于认知情景框架的文本分类方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
7 庞秀丽;冯玉强;姜维;;电子商务个性化文档推荐技术研究[A];第十届中国管理科学学术年会论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 陆满君;通信辐射源个体识别与参数估计[D];哈尔滨工程大学;2010年
2 卓莹;基于拓扑·流量挖掘的网络态势感知技术研究[D];国防科学技术大学;2010年
3 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
4 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
5 刘铭;大规模文档聚类中若干关键问题的研究[D];哈尔滨工业大学;2010年
6 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
7 郑立斌;联合式制造资源发现与集成方法的研究[D];江苏大学;2011年
8 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
9 钱铁云;关联文本分类关键技术研究[D];华中科技大学;2006年
10 易明;基于Web挖掘的电子商务个性化推荐机理与方法研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
2 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
3 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
4 井志强;基于扩展的VSM中文文本分类方法[D];哈尔滨工程大学;2010年
5 汪政;基于支持向量机的改进的密度聚类算法研究[D];辽宁工程技术大学;2010年
6 周登;基于N-Gram模型的藏文文本分类技术研究[D];西北民族大学;2010年
7 杨鼎;基于朴素贝叶斯的中文文本情感倾向分类研究[D];湖南工业大学;2010年
8 王雅菲;文本分类中特征降维方法的研究[D];长春工业大学;2010年
9 李琼琼;网络文本自动分类器的设计与实现[D];电子科技大学;2010年
10 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年
【二级参考文献】
中国期刊全文数据库 前5条
1 陈治平,林亚平,彭雅,王雷,童调生;基于最小类差异的无关信息预处理算法[J];电子学报;2003年11期
2 王梦云,曹素青;基于字频向量的中文文本自动分类系统[J];情报学报;2000年06期
3 鲁明羽,李凡,庞淑英,陆玉昌,周立柱;基于权值调整的文本分类改进方法[J];清华大学学报(自然科学版);2003年04期
4 范焱,郑诚,王清毅,蔡庆生,刘洁;用Naive Bayes方法协调分类Web网页[J];软件学报;2001年09期
5 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
中国重要会议论文全文数据库 前1条
1 陈文亮;朱靖波;姚天顺;张宇新;;基于Bootstrapping的领域词汇自动获取[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
【相似文献】
中国期刊全文数据库 前10条
1 孟佳娜;林鸿飞;李彦鹏;;基于特征贡献度的特征选择方法在文本分类中应用[J];大连理工大学学报;2011年04期
2 徐峻岭;徐宝文;张卫丰;崔自峰;;一种启发式聚类特征选择方法(英文)[J];东南大学学报(英文版);2006年02期
3 胡强;;优化的互信息特征选择方法[J];湖南师范大学自然科学学报;2010年03期
4 史岳鹏;张明慧;朱颢东;;新的结合互信息和粗糙集的特征选择[J];计算机工程与应用;2011年16期
5 龚静;曾建一;;文本聚类中的特征选择方法[J];吉首大学学报(自然科学版);2008年02期
6 朱颢东;陈宁;李红婵;;优化的互信息特征选择方法[J];计算机工程与应用;2010年26期
7 龚静;曾莉;;用于文本分类的特征选择方法[J];湖南环境生物职业技术学院学报;2008年03期
8 符会涛;卡米力·木衣丁;;一种改进的文本特征选择方法的研究与设计[J];计算机应用与软件;2011年04期
9 符发;;中文文本分类中特征选择方法的比较[J];现代计算机(专业版);2008年06期
10 康岚兰;董丹丹;;一种改进的互信息特征选择方法[J];电脑知识与技术;2009年35期
中国重要会议论文全文数据库 前10条
1 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 王秀娟;郭军;郑康锋;;基于互信息可信度的特征选择方法[A];2006通信理论与技术新进展——第十一届全国青年通信学术会议论文集[C];2006年
3 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
4 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 李娜;曾向阳;;目标识别中的样本选择和特征选择联合算法研究[A];2009年西安-上海声学学术会议论文集[C];2009年
6 刘怡;高玥;;一种基于文本关键字模型的Audio音乐情感分类方法[A];第四届和谐人机环境联合学术会议论文集[C];2008年
7 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
8 胡玉娴;;基于《知网》和遗传算法的中文文本聚类特征选择[A];2009全国计算机网络与通信学术会议论文集[C];2009年
9 伍建军;康耀红;;关于文本分类中特征降维方式的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
10 于江德;王希杰;余正涛;;基于最大熵模型的语义角色标注[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
中国重要报纸全文数据库 前8条
1 北京 张贵岭;什么是决策时最重要的?[N];电脑报;2010年
2 贾培武;一次打印多个Word文档[N];解放日报;2000年
3 程爱娟;旅行推销员问题(TSP)的人工智能解法及其应用[N];新疆科技报(汉);2001年
4 浙江 饶俊;选择文件的几种方法[N];电脑报;2003年
5 四川 周鸣扬;用VC制作动态弹出的对话框[N];中国计算机报;2001年
6 王庚;如何选购网络版防病毒软件[N];中国计算机报;2007年
7 飞鱼;快速切换常用中文输入法[N];中国电脑教育报;2003年
8 魏玲;用邮件合并编辑通知单[N];中国电脑教育报;2004年
中国博士学位论文全文数据库 前10条
1 韦娜;基于内容图像检索关键技术研究[D];西北大学;2006年
2 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
3 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
4 李勇明;尿沉渣图像自动识别算法的研究[D];重庆大学;2007年
5 杨水山;冷轧带钢表面缺陷机器视觉自动检测技术研究[D];哈尔滨工业大学;2009年
6 刘华文;基于信息熵的特征选择算法研究[D];吉林大学;2010年
7 熊文;基于群智的特征选择、分类与聚类挖掘的研究[D];北京邮电大学;2010年
8 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年
9 裴志利;数据挖掘技术在文本分类和生物信息学中的应用[D];吉林大学;2008年
10 王素格;基于Web的评论文本情感分类问题研究[D];上海大学;2008年
中国硕士学位论文全文数据库 前10条
1 张鹏招;基于X~2统计的中文文本分类特征选择方法研究[D];重庆大学;2008年
2 董梅;文本内容的信息过滤技术研究[D];合肥工业大学;2006年
3 肖婷;基于X~2统计的中文文本分类特征选择方法研究[D];西南大学;2009年
4 熊小草;文本分类中特征选择的理论分析和算法研究[D];清华大学;2007年
5 龚静;中文文本聚类中特征选择算法的研究[D];湘潭大学;2006年
6 杨瑞请;基于BPSO的生理信号的情感状态识别[D];西南大学;2008年
7 王新丽;中文文本分类系统的研究与实现[D];天津大学;2007年
8 赵环宇;中文专利自动分类技术的研究[D];沈阳航空工业学院;2009年
9 马玉静;基于群体智能的文本聚类技术研究[D];燕山大学;2009年
10 孟杰;基于构造性覆盖算法的中文文本分类[D];安徽大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026