收藏本站
《全国第八届计算语言学联合学术会议(JSCL-2005)论文集》2005年
收藏 | 手机打开
二维码
手机客户端打开本文

决策树模型和最大熵模型在文本分类中的比较研究

谷波  刘开瑛  
【摘要】:比较研究了决策树模型和最大熵模型在中文文本分类中的应用。利用分类训练集的文档类别标号已知,按类别进行文本的特征选择,去除了对分类任务作用不大的词语特征。在上述得到的特征集合下,对目前应用较多的决策树模型和最大熵模型,分别进行了特征词的二值情况下和加入特征词的频率信息的情况下的中文文本分类实验。实验结果显示,在相同的条件下最大熵的分类性能要优于决策树,最大熵模型的分类准确率要比决策树高近20%。另外当在分类过程中引入词语频率信息时,反而使分类器的性能略有下降,对最大熵分类准确率下降1%-2%,对决策树影响基本不大。这表明引入新的信息未必总能提高分类性能。

【引证文献】
中国期刊全文数据库 前1条
1 郝晓燕;常晓明;;中文文本分类研究[J];太原理工大学学报;2006年06期
中国博士学位论文全文数据库 前1条
1 韩开旭;基于支持向量机的文本情感分析研究[D];东北石油大学;2014年
中国硕士学位论文全文数据库 前1条
1 伍岳;基于SVM的文本分类应用研究[D];电子科技大学;2014年
【参考文献】
中国期刊全文数据库 前1条
1 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
【共引文献】
中国期刊全文数据库 前10条
1 李建华;刘功申;林祥;;情感倾向性分析及应用研究综述[J];信息安全学报;2017年02期
2 胡龙茂;;中文在线评论的用户性别判定研究[J];通化师范学院学报;2016年12期
3 李涛;刘斌;;Spark平台下的高效Web文本分类系统的研究[J];计算机应用与软件;2016年11期
4 肖江;王晓进;;基于SVM的在线商品评论的情感倾向性分析[J];信息技术;2016年07期
5 杨全海;;一种新的文本分类算法设计与实验研究[J];信息技术;2016年04期
6 江国荐;顾乃杰;张旭;任开新;;基于SAE-LBP的网页分类研究[J];小型微型计算机系统;2016年04期
7 高俊平;张晖;赵旭剑;杨春明;李波;;基于特征词的Web领域知识分类研究[J];软件导刊;2016年02期
8 王琦琪;袁强;王亚强;文立玉;;循证医学的移动诊疗关键技术的研究和应用[J];信息与电脑(理论版);2015年05期
9 王琦琪;袁强;王亚强;文立玉;;循证医学的移动诊疗关键技术的研究和应用[J];信息与电脑(理论版);2015年10期
10 罗晓川;袁海文;马钊;;设备可靠性评测仿真系统[J];计算机系统应用;2015年04期
【同被引文献】
中国博士学位论文全文数据库 前6条
1 李鹏;图像型垃圾邮件过滤关键技术研究[D];哈尔滨工业大学;2013年
2 王超;三类不确定支持向量机及其应用[D];河北大学;2013年
3 张冬梅;文本情感分类及观点摘要关键问题研究[D];山东大学;2012年
4 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
5 王秀红;文本相似度计算核函数的构造及其在分布式信息检索中的应用研究[D];江苏大学;2012年
6 秦玉平;基于支持向量机的文本分类算法研究[D];大连理工大学;2008年
中国硕士学位论文全文数据库 前2条
1 李慧娟;基于粗糙集的文本分类算法研究[D];东北师范大学;2007年
2 李东林;中文信息过滤技术的研究与应用[D];辽宁科技大学;2006年
【二级引证文献】
中国期刊全文数据库 前4条
1 曾立梅;;基于文本数据挖掘的硕士论文分类技术[J];重庆邮电大学学报(自然科学版);2010年05期
2 殷宏威;赵伟;杨志伟;;蚁群算法在KNN文本分类中的应用[J];长春理工大学学报(自然科学版);2010年01期
3 马春华;朱颢东;;一种有效的特征词获取方法[J];计算机工程与应用;2009年17期
4 姚兴山;;基于词频的中文文本分类研究[J];现代情报;2009年02期
中国硕士学位论文全文数据库 前3条
1 赵宝钰;基于内外部数据结合的港口客户风险控制系统研究[D];北京交通大学;2016年
2 孙秋韵;基于改进GA优化参数的SVR股价预测研究[D];福建师范大学;2015年
3 刘垚;皮肤瘢痕的胶原二次谐波图像的纹理分析[D];福建师范大学;2015年
【二级参考文献】
中国期刊全文数据库 前1条
1 李荣陆,胡运发;基于密度的kNN文本分类器训练样本裁剪方法[J];计算机研究与发展;2004年04期
【相似文献】
中国期刊全文数据库 前10条
1 王素格;杨军玲;张武;;基于最大熵模型与投票法的汉语动词与动词搭配识别[J];小型微型计算机系统;2007年07期
2 李济洪;王瑞波;王凯华;李国臣;;基于最大熵模型的中文阅读理解问题回答技术研究[J];中文信息学报;2008年06期
3 谢法奎;张全;;基于最大熵模型的语义块切分[J];计算机工程与应用;2009年26期
4 樊娜;蔡皖东;赵煜;;基于最大熵模型的观点句主观关系提取[J];计算机工程;2010年02期
5 葛斌;封孝生;谭文堂;肖卫东;;基于多层最大熵模型的句子主干分析[J];计算机科学;2010年12期
6 方明;刘培玉;;基于最大熵模型的评价搭配识别[J];计算机应用研究;2011年10期
7 陆铭;康雨洁;俞能海;;简约语法规则和最大熵模型相结合的混合实体识别[J];小型微型计算机系统;2012年03期
8 董晓凯;莫苏宁;李博;陆伟;;基于最大熵模型下复合特征模板的产品属性挖掘研究[J];苏州科技学院学报(自然科学版);2012年01期
9 高燕;张维维;张艳红;谢燕萍;苏凝;;最大熵模型在最长地点实体识别中的应用[J];广东石油化工学院学报;2012年04期
10 余正涛,樊孝忠;基于最大熵模型的汉语问句语义组块分析[J];计算机工程;2005年17期
中国重要会议论文全文数据库 前10条
1 赵伟;赵法兴;王东海;韩达奇;;一种基于改进的最大熵模型的汉语词性自动标注的新方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
2 王素格;张武;李德玉;杨军玲;彭其伟;;基于最大熵模型的汉语动词与动词搭配识别[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 李济洪;王凯华;王瑞波;;基于最大熵模型的中文阅读理解技术研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
4 李军辉;朱巧明;李培峰;;一个基于最大熵模型的文本分类方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 谷波;刘开瑛;;决策树模型和最大熵模型在文本分类中的比较研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 朱江涛;赵丽奎;蔡东风;;基于最大熵模型的中文姓名识别方法初探[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 刘方舟;施勤;陶建华;;基于最大熵模型的多音字消歧[A];第九届全国人机语音通讯学术会议论文集[C];2007年
8 王凯华;李济洪;张国华;王瑞波;;基于最大熵模型的中文阅读理解问答系统技术研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 游斓;周雅倩;黄萱菁;吴立德;;基于最大熵模型的QA系统置信度评分算法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
10 陈文亮;朱慕华;朱靖波;姚天顺;;基于Bootstrapping的文本分类模型[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国博士学位论文全文数据库 前1条
1 孙承杰;基于判别式模型的生物医学文本挖掘相关问题研究[D];哈尔滨工业大学;2008年
中国硕士学位论文全文数据库 前10条
1 王梦;基于主题情感纺一最大熵模型的观点挖掘研究[D];华中师范大学;2015年
2 李杰骏;数据挖掘方法在评论分类中的应用研究[D];广东工业大学;2016年
3 王煦祥;面向问答的问句关键词提取技术研究[D];哈尔滨工业大学;2016年
4 司琪;基于云模型理论的LDA最大熵模型观点挖掘研究[D];华中师范大学;2016年
5 杨振磊;基于最大熵模型的智能提问系统研究[D];天津大学;2008年
6 贾丽洁;基于最大熵模型的分词技术研究[D];山东师范大学;2007年
7 付琳;利用非广延最大熵模型进行文本分类[D];天津大学;2009年
8 步海慧;基于最大熵模型的中文姓名识别研究[D];山东大学;2006年
9 谭文堂;基于统计模型的汉语句子主干分析[D];国防科学技术大学;2008年
10 王慧;最大熵模型的语义句法分析在问答系统中的应用研究[D];大连交通大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026