收藏本站
《2017年中国卫生统计学学术年会论文集》2017年
收藏 | 手机打开
二维码
手机客户端打开本文

随机森林算法对文本情感分析的应用与R软件实现

郑志伟  邱佳玲  阳庆玲  龚晓春  郭山清  贾忠伟  郝春  
【摘要】:目的文本数据与日俱增。本文旨在阐述如何通过随机森林算法和R软件实现文本情感分析,为学者提供方法学参考。方法人工标注1200例文本情感类别,然后用"RWordseg"包对文本进行中文分词,用词频-逆向文件频率量化特征词权重。用卡方法进行特征词选择。按照不同参数组合,用"randonForest"包对数据进行建模,并用准确率、查准率、查全率和F1得分来评估模型性能,用统计量FF比较模型优劣。结果 1149条文本纳入分析,正向、负向和中立情感各占34.3%、31.3%和34.4%。共构建18个模型,其中模型16最优。特征选择后的模型2的运行时间(5秒)远少于模型5(535秒)。最优模型有190个特征词,mtry=13,ntree=2500,准确率0.60,95%置信区间(0.53,0.68)。中立情感的查全率相对较高(0.79),正向情感的查准率相对较高(0.66)。影响准确率的主要原因有样本量大小、特征词选择、算法选择和参数调整。R软件能实现情感分析。

【相似文献】
中国期刊全文数据库 前3条
1 王怀亮;;R软件在对应分析中应用研究[J];现代商贸工业;2011年17期
2 熊炳忠;;基于R软件的金融资产收益波动率建模分析[J];电脑知识与技术;2014年01期
3 张超;徐畅;曾宪涛;;网状Meta分析中网状关系图的绘制[J];中国循证医学杂志;2013年11期
中国硕士学位论文全文数据库 前1条
1 崔灿;R软件在供配电系统负荷计算中的应用[D];重庆大学;2016年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026