收藏本站
《2019年(第六届)全国大学生统计建模大赛优秀论文集》2019年
收藏 | 手机打开
二维码
手机客户端打开本文

基于未标注数据的餐饮业网络虚假好评识别

姜金懿  江南  李沁怡  
【摘要】:本文的研究主题是建立一定的模型对Yelp网站上餐饮业评论中的虚假好评进行识别。由于虚假评论先验标记的缺失,给有监督学习造成了困难,而无监督学习稳定性又较差,本文希望尝试在无标注数据集上建立拟先验标记的方式将无标注数据集转化为有标注数据集,将无监督学习转化为有监督学习,再进行最终模型的拟合。本文的研究目的是探索这种建立拟先验标记方法的可行性,以及采用本文中的交集方法所建立的拟先验标记的可信性。在拟先验标记的建立阶段,本文尝试通过情感极性分析(采用TF_IDF方法建立语料库,并结合LASSO方法建立Ordinal Logit模型)、聚类分析、文本词频分析的方法,将无监督学习和有监督学习的结果进行交互验证,在最小化第一类错误概率的前提下,建立拟先验虚假评论标注。在最终模型的拟合阶段,本文根据上述建立的标注进行有监督学习模型拟合,比较带随机项与不带随机项的广义线性模型与支持向量机方法,并在最小化第一类概率错误的目的下建立最优的最终模型。最终建立的模型在样本量为200的测试集上进行检验,发现本文所建立的模型可以最小化真实评论误判为虚假评论的概率,而虚假评论被识别出的概率大约为43%。
【作者单位】:复旦大学
【分类号】:F719.3;TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前4条
1 邓松;万常选;关爱浩;陈辉;;基于行为与内容的科技产品虚假评论识别[J];小型微型计算机系统;2015年11期
2 邸鹏;李爱萍;段利国;;基于转折句式的文本情感倾向性分析[J];计算机工程与设计;2014年12期
3 宋海霞;严馨;余正涛;石林宾;苏斐;;基于自适应聚类的虚假评论检测[J];南京大学学报(自然科学版);2013年04期
4 谭文堂;朱洪;葛斌;李芳芳;肖卫东;;垃圾评论自动过滤方法[J];国防科技大学学报;2012年05期
【共引文献】
中国期刊全文数据库 前10条
1 邓松;万常选;关爱浩;陈辉;;基于行为与内容的科技产品虚假评论识别[J];小型微型计算机系统;2015年11期
2 宋海霞;严馨;余正涛;石林宾;郭剑毅;;基于半监督主动学习的虚假评论检测[J];昆明理工大学学报(自然科学版);2015年05期
3 赵衍;;基于“文本-主题”双层次分析的网络虚假评论检测法研究——以电子商务网站为例[J];数字图书馆论坛;2015年09期
4 富越;董保华;;电子商务垃圾评论者识别研究[J];科学决策;2015年09期
5 皇苏斌;修宇;赵森严;汪千松;;基于多维特征权重的虚假评论识别方法[J];长江大学学报(自科版);2015年16期
6 汪建成;严馨;余正涛;宋海霞;石林宾;;基于主题-对立情感依赖模型的虚假评论检测方法[J];山西大学学报(自然科学版);2015年01期
7 管睿;孙权森;沈肖波;;分数阶嵌入的广义多重集典型相关分析[J];南京大学学报(自然科学);2015年01期
8 郑春东;郭伟倩;王寒;;负面网络消费者评论及商家回复对潜在消费者的影响[J];北京工商大学学报(社会科学版);2015年01期
9 郑春东;孙为政;王寒;;虚假网络评论对消费者在线搜索与购买决策的影响[J];大连海事大学学报(社会科学版);2014年06期
10 任亚峰;尹兰;姬东鸿;;基于语言结构和情感极性的虚假评论识别[J];计算机科学与探索;2014年03期
【二级参考文献】
中国期刊全文数据库 前10条
1 任亚峰;尹兰;姬东鸿;;基于语言结构和情感极性的虚假评论识别[J];计算机科学与探索;2014年03期
2 宋海霞;严馨;余正涛;石林宾;苏斐;;基于自适应聚类的虚假评论检测[J];南京大学学报(自然科学版);2013年04期
3 阳爱民;林江豪;周咏梅;;中文文本情感词典构建方法[J];计算机科学与探索;2013年11期
4 郑丹;田文霞;张锐;;转折关系的预设研究[J];外语学刊;2013年03期
5 李艳姣;蒋同海;;基于改进权重贝叶斯的维文文本分类模型[J];计算机工程与设计;2012年12期
6 谭文堂;朱洪;葛斌;李芳芳;肖卫东;;垃圾评论自动过滤方法[J];国防科技大学学报;2012年05期
7 宋艳雪;张绍武;林鸿飞;;基于语境歧义词的句子情感倾向性分析[J];中文信息学报;2012年03期
8 韦向峰;张全;缪建明;池毓焕;;基于语义块的事件倾向性分析研究[J];中文信息学报;2012年03期
9 解晓敏;李云;;最小最大模块化网络中基于聚类的数据划分方法研究[J];南京大学学报(自然科学版);2012年02期
10 樊娜;安毅生;李慧贤;;基于K-近邻算法的文本情感分析方法研究[J];计算机工程与设计;2012年03期
【相似文献】
中国期刊全文数据库 前10条
1 房晓楠;;从监督学习到强化学习,四种深度学习方式原理知多少[J];机器人产业;2017年04期
2 汪力新;费越;戴汝为;;基于人机结合的竞争监督学习[J];模式识别与人工智能;1997年03期
3 蔡洪民;陆华成;;基于有监督学习算法的恶意程序分类识别研究[J];网络安全技术与应用;2019年01期
4 刘子书;;妈妈,你让我自豪[J];读与写(初中版);2018年02期
5 郝苗苗;徐秀娟;于红;赵小薇;许真珍;;基于中文微博的情绪分类与预测算法[J];计算机应用;2018年S2期
6 费越,汪力新,戴汝为;竞争监督学习法在集成型识别系统中的应用[J];自动化学报;1999年03期
7 王继升;南柄飞;李淑芝;;一种基于有监督学习原理的Web服务选择方法[J];江西理工大学学报;2006年06期
8 林建浩;陈良源;宋登辉;;如何测度央行行长的口头沟通信息——一种基于监督学习的文本分析方法[J];统计研究;2019年08期
9 孙震;王敬东;茅天诒;魏雪迎;;基于自监督学习的河流分割方法[J];计算机与现代化;2017年10期
10 陈立玮;冯岩松;赵东岩;;基于弱监督学习的海量网络数据关系抽取[J];计算机研究与发展;2013年09期
中国重要会议论文全文数据库 前3条
1 姜金懿;江南;李沁怡;;基于未标注数据的餐饮业网络虚假好评识别[A];2019年(第六届)全国大学生统计建模大赛优秀论文集[C];2019年
2 俞嘉旭;吴帮玉;刘乃豪;朱小三;任浩然;;基于局部成像矩阵的监督学习散射点识别[A];中国石油学会2019年物探技术研讨会论文集[C];2019年
3 张绍瑞;革明新;胡卫君;耿显志;;基于传感器的驾驶模式识别及屏保路况[A];卫星导航定位与北斗系统应用2019——北斗服务全球 融合创新应用[C];2019年
中国重要报纸全文数据库 前4条
1 常佩琦;一味模仿人脑将阻碍人工智能发展[N];人民邮电;2017年
2 本报记者 王尚封;加强监督学习整改促进又好又快发展[N];黔西南日报;2009年
3 Martin Heller 编译 Charles;机器学习之监督学习释义[N];计算机世界;2019年
4 Facebook首席AI科学家 Yann LeCun;如何让AI学习常识 未来又在何方[N];中国信息化周报;2018年
中国博士学位论文全文数据库 前6条
1 夏应策;对偶学习的理论和实验研究[D];中国科学技术大学;2018年
2 程圣军;基于带约束随机游走图模型的弱监督学习算法研究[D];哈尔滨工业大学;2014年
3 乌达巴拉(Odbal);基于监督学习的文本情感分析研究[D];中国科学技术大学;2017年
4 包胜华;基于Web的实体信息搜索与挖掘研究[D];上海交通大学;2008年
5 NAJAM NAZAR;基于监督学习的bug报告和源代码摘要[D];大连理工大学;2016年
6 孙宇;针对含有概念漂移问题的增量学习算法研究[D];中国科学技术大学;2017年
中国硕士学位论文全文数据库 前10条
1 邓一平;文本分割关键技术研究[D];哈尔滨工业大学;2019年
2 刘园;基于监督学习的单通道语音增强算法研究[D];重庆邮电大学;2019年
3 季江舟;弱监督学习在计算机视觉中的应用研究[D];电子科技大学;2019年
4 印佳明;图书虚假评论的识别方法研究[D];北方工业大学;2019年
5 冯景义;时间相关性和弱监督学习对猕猴手指移动位置的神经解码研究[D];云南民族大学;2019年
6 周凌婧;基于有监督学习的“三高”检测的研究与实现[D];北京邮电大学;2019年
7 王菡苑;基于弱监督学习的目标检测技术研究[D];电子科技大学;2019年
8 李佳;基于监督学习的网络优化问题求解研究[D];电子科技大学;2019年
9 赵晋欢;基于弱监督学习的属性约简方法[D];渤海大学;2019年
10 沈凡琦;基于梯度下降的脉冲神经网络在线监督学习研究[D];西北师范大学;2018年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026