收藏本站
《中国计算语言学研究前沿进展(2009-2011)》2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于不平衡数据的中文情感分类

王中卿  李寿山  朱巧明  李培峰  周国栋  
【摘要】:近些年来,情感分类在自然语言处理研究领域获得了显著的发展。然而,大部分已有的研究都假设参与分类的正类样本和负类样本一样多,而实际情况中正负类数据的分布往往是不平衡的。本文收集四个产品领域的中文评论文本,发现正类样本的数目远远多于负类样本。针对不平衡数据的中文情感分类,我们提出了一种基于欠采样和多分类算法的集成学习框架。在四个不同领域的实验结果表明,我们的方法能够显著提高分类性能,并明显优于目前主流的多种不平衡分类方法。

【参考文献】
中国期刊全文数据库 前2条
1 翟云;杨炳儒;曲武;;不平衡类数据挖掘研究综述[J];计算机科学;2010年10期
2 李寿山;黄居仁;;基于Stacking组合分类方法的中文情感分类研究[J];中文信息学报;2010年05期
【共引文献】
中国期刊全文数据库 前10条
1 刘明;袁保宗;苗振江;唐晓芳;李昆仑;;从局部分类精度到分类置信度的变换[J];计算机研究与发展;2008年09期
2 李琳娜;陈海蕊;王映龙;;基于高阶逻辑的复杂结构数据半监督聚类[J];计算机科学;2009年09期
3 李寿山;黄居仁;;基于Stacking组合分类方法的中文情感分类研究[J];中文信息学报;2010年05期
4 李寿山;黄居仁;宗成庆;;Multi-Domain Sentiment Classification with Classifier Combination[J];Journal of Computer Science & Technology;2011年01期
5 王伟;薛安荣;刘峰;;改进的SVM解决背景知识数据中的类不平衡[J];计算机应用研究;2011年08期
6 王金彪;周伟;;飞机燃油系统油量传感器故障诊断方法研究[J];科技信息;2011年22期
7 魏韡;向阳;陈千;;中文文本情感分析综述[J];计算机应用;2011年12期
8 谢丽星;周明;孙茂松;;基于层次结构的多策略中文微博情感分析和特征抽取[J];中文信息学报;2012年01期
9 张慧;王中卿;李寿山;杨欣欣;李培峰;朱巧明;;基于状态和行为描述的情感分类方法[J];计算机工程;2012年08期
10 于化龙;高尚;赵靖;秦斌;;基于过采样技术和随机森林的不平衡微阵列数据分类方法研究[J];计算机科学;2012年05期
中国重要会议论文全文数据库 前1条
1 Sophia Yat Mei Lee;;Sentiment Classification and Polarity Shifting[A];The 23~(rd) International Conference on Computational Linguistics Proceedings of the Main Conference (Volume 1)[C];2010年
中国博士学位论文全文数据库 前10条
1 沈国华;基于描述逻辑的语义Web服务建模及推理研究[D];南京航空航天大学;2009年
2 朱小栋;基于扩展预测模型标记语言的数据流挖掘系统建模研究[D];南京航空航天大学;2009年
3 郭嘉良;海岸带渔业生态经济系统的随机梯度和规则集成评价预测[D];天津大学;2010年
4 王彦;中医证候的数据挖掘[D];上海交通大学;2009年
5 肖海军;基于SVM和无指导学习的入侵检测研究[D];华中科技大学;2007年
6 谢元澄;分类器集成研究[D];南京理工大学;2009年
7 夏俊峰;蛋白质相互作用及其结合面热点残基的预测方法研究[D];中国科学技术大学;2010年
8 彭飞;实值演化算法投资组合研究[D];中国科学技术大学;2011年
9 王飞;入侵检测分类器设计及其融合技术研究[D];南京理工大学;2011年
10 韩露;面向智能移动监控辅助的可穿戴视觉研究[D];重庆大学;2011年
中国硕士学位论文全文数据库 前10条
1 龚涛;多维教育免疫艾真体的研究[D];中南大学;2003年
2 臧艺;基于面向对象和集成学习的高分辨率地物要素半自动提取方法与实现[D];中国测绘科学研究院;2008年
3 蔡楹;基于机器学习的磁浮列车故障综合评估技术研究[D];国防科学技术大学;2007年
4 孙丽伟;民办高校大学生元学习能力的调查性研究[D];南京师范大学;2008年
5 叶志飞;并行化最小最大模块化支持向量机及其在专利分类中的应用[D];上海交通大学;2009年
6 陈圣青;基于本体的知识发现系统框架研究[D];南京航空航天大学;2009年
7 丁爽;一种基于小波变换特征提取的集成学习算法[D];河南大学;2010年
8 裴玉红;目标跟踪中在线boosting学习算法的研究[D];北京理工大学;2010年
9 郑利雄;基于多视图集成的多关系分类方法研究[D];华南理工大学;2010年
10 刘立元;基于集成学习的蛋白质亚细胞定位预测[D];济南大学;2011年
【二级参考文献】
中国期刊全文数据库 前7条
1 张琦;吴斌;王柏;;非平衡数据训练方法概述[J];计算机科学;2005年10期
2 毕华;梁洪力;王珏;;重采样方法与机器学习[J];计算机学报;2009年05期
3 韩慧;王路;温明;王文渊;;不均衡数据集学习中基于初分类的过抽样算法[J];计算机应用;2006年08期
4 朱嫣岚;闵锦;周雅倩;黄萱菁;吴立德;;基于HowNet的词汇语义倾向计算[J];中文信息学报;2006年01期
5 徐琳宏;林鸿飞;杨志豪;;基于语义理解的文本倾向性识别机制[J];中文信息学报;2007年01期
6 唐慧丰;谭松波;程学旗;;基于监督学习的中文情感分类技术比较研究[J];中文信息学报;2007年06期
7 徐军;丁宇新;王晓龙;;使用机器学习方法进行新闻的情感自动分类[J];中文信息学报;2007年06期
【相似文献】
中国期刊全文数据库 前10条
1 端木艺;网上中文学位论文数据库简评[J];现代情报;2003年01期
2 沈殊璇;Linux平台中文化的实现方案[J];微处理机;2003年01期
3 刘其成,肖明,高坚;Java编程中的中文问题及其解决方法[J];计算机系统应用;2003年06期
4 华强;中西文文本压缩的LZWCH算法[J];计算机工程与应用;1999年03期
5 史廷春;中文文字ASCⅡ码识别与应用系统开发[J];计算机工程;1999年10期
6 贺宏朝,何丕廉,高剑峰,黄昌宁;利用一种衰减的共现模型进行中文信息检索查询扩展(英文)[J];Transactions of Tianjin University;2002年03期
7 华强;中文文本压缩的 LZSSCH 算法[J];中文信息学报;1998年01期
8 王永成,许慧敏;OA-1.4 版中文自动摘要系统[J];高技术通讯;1998年01期
9 卢永奇;信息编码与汉字处理原理[J];云南师范大学学报(自然科学版);2004年02期
10 蔡瑞平;ILAS中文机读书目数据处理规程的变化[J];琼州大学学报;2002年04期
中国重要会议论文全文数据库 前10条
1 王中卿;李寿山;朱巧明;李培峰;周国栋;;基于不平衡数据的中文情感分类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 张伟男;张宇;刘挺;;基于中心理论的中文对话省略恢复研究[A];第六届全国信息检索学术会议论文集[C];2010年
3 金朝;蒋宗礼;;中文机构名的识别讨论[A];2011高等职业教育电子信息类专业学术暨教学研讨会论文集[C];2011年
4 吴法洲;苏昊;周明;李春平;;利用英文搜索日志建立中文新词同义词词表[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
5 计峰;邱锡鹏;黄萱菁;;中文不确定性句子的识别研究[A];第六届全国信息检索学术会议论文集[C];2010年
6 张小衡;;一个支持人工校对的中文简繁体转换工具[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 周学广;张焕国;;一种柔性中文字符串匹配算法[A];第二十七届中国控制会议论文集[C];2008年
8 李乐强;唐常杰;左劼;邱源枞;段磊;李川;;基于同现度和自学习的中文字符组合发现[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
9 张红春;何婷婷;涂新辉;周琨峰;;中文维基百科的结构化信息抽取及词语相关度计算[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 于淼;吕雅娟;苏劲松;李贤华;;规则和统计相结合的中文地址翻译方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国重要报纸全文数据库 前10条
1 本报记者 原小瑛;欧特克发布中文工厂设计软件[N];中国化工报;2010年
2 李炳胜;雨林木风转向Linux 作秀还是新开拓?[N];电脑报;2009年
3 罗强;WinXP简体中文家庭版降价超50%[N];中国计算机报;2008年
4 记者 向杰;网络化中文办公平台获“核高基”立项[N];科技日报;2011年
5 王文;中文家庭版仅售399元[N];江苏科技报;2008年
6 本报记者 赵垒;手机中文上网助百万企业上3G[N];中华工商时报;2009年
7 记者 于士凯;海外网购“抢滩”中国市场[N];北京商报;2009年
8 记者 姜云飞;大连软件借“开源”打开创新突破口[N];大连日报;2009年
9 本报记者 尹一捷;微软 宇宙漫游制作大赛促进“全民科学”[N];计算机世界;2010年
10 利川市教育局 梅文平;山里娃的“空中课堂”[N];湖北日报;2008年
中国博士学位论文全文数据库 前10条
1 李世奇;面向文景转换的中文浅层语义分析方法研究[D];哈尔滨工业大学;2011年
2 方育柯;集成学习理论研究及其在个性化推荐中的应用[D];电子科技大学;2011年
3 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年
4 沈道义;基于最小化训练误差的子空间分类算法研究[D];中国科学技术大学;2008年
5 陶晓燕;基于支持向量机和流形学习的分类方法研究[D];西安电子科技大学;2008年
6 薛安荣;空间离群点挖掘技术的研究[D];江苏大学;2008年
7 关菁华;基于贝叶斯网数据挖掘若干问题研究[D];吉林大学;2009年
8 李旭;基于指纹和语义知识表示的中文文档复制检测方法[D];燕山大学;2010年
9 向坚;基于三维捕获数据的人体运动分析关键技术研究[D];浙江大学;2007年
10 李成安;分布式环境下聚类分析新方法的研究[D];浙江大学;2006年
中国硕士学位论文全文数据库 前10条
1 刘冬平;面向中文歌词的音乐情感分类研究[D];广东工业大学;2011年
2 李丽娜;中文专家检索关键技术研究[D];昆明理工大学;2011年
3 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年
4 汤明达;基于近邻传播算法的中文文本聚类的研究[D];广西师范大学;2012年
5 张山山;中文XML压缩技术研究[D];华中科技大学;2011年
6 张家红;集成分类学习算法研究[D];山东师范大学;2011年
7 叶得学;基于语音界面的中文问答系统设计与实现[D];兰州大学;2011年
8 孙宏;中文地名的自动识别和标准化[D];天津大学;2010年
9 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
10 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026