收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于不平衡数据的中文情感分类

王中卿  李寿山  朱巧明  李培峰  周国栋  
【摘要】:近些年来,情感分类在自然语言处理研究领域获得了显著的发展。然而,大部分已有的研究都假设参与分类的正类样本和负类样本一样多,而实际情况中正负类数据的分布往往是不平衡的。本文收集四个产品领域的中文评论文本,发现正类样本的数目远远多于负类样本。针对不平衡数据的中文情感分类,我们提出了一种基于欠采样和多分类算法的集成学习框架。在四个不同领域的实验结果表明,我们的方法能够显著提高分类性能,并明显优于目前主流的多种不平衡分类方法。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 端木艺;网上中文学位论文数据库简评[J];现代情报;2003年01期
2 沈殊璇;Linux平台中文化的实现方案[J];微处理机;2003年01期
3 刘其成,肖明,高坚;Java编程中的中文问题及其解决方法[J];计算机系统应用;2003年06期
4 华强;中西文文本压缩的LZWCH算法[J];计算机工程与应用;1999年03期
5 史廷春;中文文字ASCⅡ码识别与应用系统开发[J];计算机工程;1999年10期
6 贺宏朝,何丕廉,高剑峰,黄昌宁;利用一种衰减的共现模型进行中文信息检索查询扩展(英文)[J];Transactions of Tianjin University;2002年03期
7 华强;中文文本压缩的 LZSSCH 算法[J];中文信息学报;1998年01期
8 王永成,许慧敏;OA-1.4 版中文自动摘要系统[J];高技术通讯;1998年01期
9 卢永奇;信息编码与汉字处理原理[J];云南师范大学学报(自然科学版);2004年02期
10 蔡瑞平;ILAS中文机读书目数据处理规程的变化[J];琼州大学学报;2002年04期
11 方洁;独创的中文压缩代码——全息压缩码[J];现代图书情报技术;2004年02期
12 史百战,官绪潢;文本编辑中实现光标制表的方法[J];兰州铁道学院学报;1998年01期
13 黄晓斌;朱滔;;中文数字图书馆开发平台的比较与选择[J];图书馆论坛;2006年02期
14 宋立峰;;中文分词算法在专利文献中的应用研究[J];海峡科学;2011年07期
15 李仲;;教Premiere Pro识中文[J];数字世界;2003年11期
16 华强;在文本压缩中联合使用LZSS和LZW[J];计算机应用与软件;2002年01期
17 章强;谈3DS中文字型制作及应注意的几个问题[J];计算机系统应用;1997年09期
18 龙治理;李西南;;开机自动设定中文输入法的方法[J];中国教育技术装备;2003年01期
19 ;在GB系统下看BIG5中文的常用方法[J];软件;2003年02期
20 马怀新;;APPLEⅡ中文FP BASIC状态下打印格式定位的一种新方法[J];电子技术应用;1988年10期
中国重要会议论文全文数据库 前10条
1 王中卿;李寿山;朱巧明;李培峰;周国栋;;基于不平衡数据的中文情感分类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 张伟男;张宇;刘挺;;基于中心理论的中文对话省略恢复研究[A];第六届全国信息检索学术会议论文集[C];2010年
3 金朝;蒋宗礼;;中文机构名的识别讨论[A];2011高等职业教育电子信息类专业学术暨教学研讨会论文集[C];2011年
4 吴法洲;苏昊;周明;李春平;;利用英文搜索日志建立中文新词同义词词表[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
5 计峰;邱锡鹏;黄萱菁;;中文不确定性句子的识别研究[A];第六届全国信息检索学术会议论文集[C];2010年
6 张小衡;;一个支持人工校对的中文简繁体转换工具[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 周学广;张焕国;;一种柔性中文字符串匹配算法[A];第二十七届中国控制会议论文集[C];2008年
8 李乐强;唐常杰;左劼;邱源枞;段磊;李川;;基于同现度和自学习的中文字符组合发现[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
9 张红春;何婷婷;涂新辉;周琨峰;;中文维基百科的结构化信息抽取及词语相关度计算[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 于淼;吕雅娟;苏劲松;李贤华;;规则和统计相结合的中文地址翻译方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
中国博士学位论文全文数据库 前10条
1 李世奇;面向文景转换的中文浅层语义分析方法研究[D];哈尔滨工业大学;2011年
2 方育柯;集成学习理论研究及其在个性化推荐中的应用[D];电子科技大学;2011年
3 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年
4 沈道义;基于最小化训练误差的子空间分类算法研究[D];中国科学技术大学;2008年
5 陶晓燕;基于支持向量机和流形学习的分类方法研究[D];西安电子科技大学;2008年
6 薛安荣;空间离群点挖掘技术的研究[D];江苏大学;2008年
7 关菁华;基于贝叶斯网数据挖掘若干问题研究[D];吉林大学;2009年
8 李旭;基于指纹和语义知识表示的中文文档复制检测方法[D];燕山大学;2010年
9 向坚;基于三维捕获数据的人体运动分析关键技术研究[D];浙江大学;2007年
10 李成安;分布式环境下聚类分析新方法的研究[D];浙江大学;2006年
中国硕士学位论文全文数据库 前10条
1 刘冬平;面向中文歌词的音乐情感分类研究[D];广东工业大学;2011年
2 李丽娜;中文专家检索关键技术研究[D];昆明理工大学;2011年
3 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年
4 汤明达;基于近邻传播算法的中文文本聚类的研究[D];广西师范大学;2012年
5 张山山;中文XML压缩技术研究[D];华中科技大学;2011年
6 张家红;集成分类学习算法研究[D];山东师范大学;2011年
7 叶得学;基于语音界面的中文问答系统设计与实现[D];兰州大学;2011年
8 孙宏;中文地名的自动识别和标准化[D];天津大学;2010年
9 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
10 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
中国重要报纸全文数据库 前10条
1 本报记者 原小瑛;欧特克发布中文工厂设计软件[N];中国化工报;2010年
2 李炳胜;雨林木风转向Linux 作秀还是新开拓?[N];电脑报;2009年
3 罗强;WinXP简体中文家庭版降价超50%[N];中国计算机报;2008年
4 记者 向杰;网络化中文办公平台获“核高基”立项[N];科技日报;2011年
5 王文;中文家庭版仅售399元[N];江苏科技报;2008年
6 本报记者 赵垒;手机中文上网助百万企业上3G[N];中华工商时报;2009年
7 记者 于士凯;海外网购“抢滩”中国市场[N];北京商报;2009年
8 记者 姜云飞;大连软件借“开源”打开创新突破口[N];大连日报;2009年
9 本报记者 尹一捷;微软 宇宙漫游制作大赛促进“全民科学”[N];计算机世界;2010年
10 利川市教育局 梅文平;山里娃的“空中课堂”[N];湖北日报;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978