收藏本站
《全国第八届计算语言学联合学术会议(JSCL-2005)论文集》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

决策树模型和最大熵模型在文本分类中的比较研究

谷波  刘开瑛  
【摘要】:比较研究了决策树模型和最大熵模型在中文文本分类中的应用。利用分类训练集的文档类别标号已知,按类别进行文本的特征选择,去除了对分类任务作用不大的词语特征。在上述得到的特征集合下,对目前应用较多的决策树模型和最大熵模型,分别进行了特征词的二值情况下和加入特征词的频率信息的情况下的中文文本分类实验。实验结果显示,在相同的条件下最大熵的分类性能要优于决策树,最大熵模型的分类准确率要比决策树高近20%。另外当在分类过程中引入词语频率信息时,反而使分类器的性能略有下降,对最大熵分类准确率下降1%-2%,对决策树影响基本不大。这表明引入新的信息未必总能提高分类性能。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王素格;杨军玲;张武;;基于最大熵模型与投票法的汉语动词与动词搭配识别[J];小型微型计算机系统;2007年07期
2 李济洪;王瑞波;王凯华;李国臣;;基于最大熵模型的中文阅读理解问题回答技术研究[J];中文信息学报;2008年06期
3 谢法奎;张全;;基于最大熵模型的语义块切分[J];计算机工程与应用;2009年26期
4 樊娜;蔡皖东;赵煜;;基于最大熵模型的观点句主观关系提取[J];计算机工程;2010年02期
5 葛斌;封孝生;谭文堂;肖卫东;;基于多层最大熵模型的句子主干分析[J];计算机科学;2010年12期
6 方明;刘培玉;;基于最大熵模型的评价搭配识别[J];计算机应用研究;2011年10期
7 陆铭;康雨洁;俞能海;;简约语法规则和最大熵模型相结合的混合实体识别[J];小型微型计算机系统;2012年03期
8 董晓凯;莫苏宁;李博;陆伟;;基于最大熵模型下复合特征模板的产品属性挖掘研究[J];苏州科技学院学报(自然科学版);2012年01期
9 高燕;张维维;张艳红;谢燕萍;苏凝;;最大熵模型在最长地点实体识别中的应用[J];广东石油化工学院学报;2012年04期
10 余正涛,樊孝忠;基于最大熵模型的汉语问句语义组块分析[J];计算机工程;2005年17期
11 冯冲;陈肇雄;黄河燕;王江伟;;最大熵模型的树-栅格最优N解码算法[J];计算机科学;2005年10期
12 陈雪天,李荣陆;使用最大熵模型进行文本分类[J];计算机工程与应用;2004年35期
13 刘贵全;曾宇斌;;基于最大熵模型的汉语依存分析[J];计算机工程;2006年11期
14 贾宁;张全;;基于最大熵模型的中文姓名识别[J];计算机工程;2007年09期
15 赵法兴;赵伟;;平滑的最大熵模型在汉语词性自动标注中的应用[J];长春工业大学学报(自然科学版);2007年02期
16 于江德;李学钰;樊孝忠;庞文博;;最大熵模型的事件分类[J];电子科技大学学报;2010年04期
17 李可桢;黄日朋;;基于最大熵模型的英语词义标注[J];咸宁学院学报;2012年09期
18 李素建,刘群,杨志峰;基于最大熵模型的组块分析[J];计算机学报;2003年12期
19 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
20 张惠春;;基于最大熵模型的中文名词短语识别[J];电脑知识与技术;2009年08期
中国重要会议论文全文数据库 前10条
1 赵伟;赵法兴;王东海;韩达奇;;一种基于改进的最大熵模型的汉语词性自动标注的新方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
2 王素格;张武;李德玉;杨军玲;彭其伟;;基于最大熵模型的汉语动词与动词搭配识别[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 李济洪;王凯华;王瑞波;;基于最大熵模型的中文阅读理解技术研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
4 李军辉;朱巧明;李培峰;;一个基于最大熵模型的文本分类方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 谷波;刘开瑛;;决策树模型和最大熵模型在文本分类中的比较研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 朱江涛;赵丽奎;蔡东风;;基于最大熵模型的中文姓名识别方法初探[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 刘方舟;施勤;陶建华;;基于最大熵模型的多音字消歧[A];第九届全国人机语音通讯学术会议论文集[C];2007年
8 王凯华;李济洪;张国华;王瑞波;;基于最大熵模型的中文阅读理解问答系统技术研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 游斓;周雅倩;黄萱菁;吴立德;;基于最大熵模型的QA系统置信度评分算法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
10 陈文亮;朱慕华;朱靖波;姚天顺;;基于Bootstrapping的文本分类模型[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国博士学位论文全文数据库 前1条
1 孙承杰;基于判别式模型的生物医学文本挖掘相关问题研究[D];哈尔滨工业大学;2008年
中国硕士学位论文全文数据库 前10条
1 王梦;基于主题情感纺一最大熵模型的观点挖掘研究[D];华中师范大学;2015年
2 李杰骏;数据挖掘方法在评论分类中的应用研究[D];广东工业大学;2016年
3 王煦祥;面向问答的问句关键词提取技术研究[D];哈尔滨工业大学;2016年
4 司琪;基于云模型理论的LDA最大熵模型观点挖掘研究[D];华中师范大学;2016年
5 杨振磊;基于最大熵模型的智能提问系统研究[D];天津大学;2008年
6 贾丽洁;基于最大熵模型的分词技术研究[D];山东师范大学;2007年
7 付琳;利用非广延最大熵模型进行文本分类[D];天津大学;2009年
8 步海慧;基于最大熵模型的中文姓名识别研究[D];山东大学;2006年
9 谭文堂;基于统计模型的汉语句子主干分析[D];国防科学技术大学;2008年
10 王慧;最大熵模型的语义句法分析在问答系统中的应用研究[D];大连交通大学;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978