收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

一个基于最大熵模型的文本分类方法

李军辉  朱巧明  李培峰  
【摘要】:本文提出了一种应用最大熵模型进行中文文本分类的方法,该方法重点在于特征函数的构建和文本的预处理这两个方面。本文把文档的预处理分为网页去标记、分词、去虚词和去停用词四个步骤,从而使得特征项的提取更加合理。另外,本文提出了一种基于特征模板的方法,并将其与特征项的权重相结合的特征函数构建方法,提高了分类器的分类精度。实验结果发现,基于特征模板和权重相结合的最大熵模型的微平均准确率达到96.67%,分类效果要好于基于词频的最大熵模型。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 潘炜;沈超;;面向层次分类标签的词性标注系统[J];计算机工程;2009年21期
2 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
3 牛晓妍;;基于最大熵的汉语人名识别方法研究[J];福建电脑;2008年04期
4 李响;才藏太;姜文斌;吕雅娟;刘群;;最大熵和规则相结合的藏文句子边界识别方法[J];中文信息学报;2011年04期
5 张晓艳;王挺;陈火旺;;基于混合统计模型的汉语命名实体识别方法[J];计算机工程与科学;2006年06期
6 曹波;苏一丹;邓琦;;基于最大熵模型的中国人名自动识别[J];计算机工程与应用;2009年04期
7 张立岩;吕玲;王井阳;;基于最大熵算法的全文检索研究[J];河北科技大学学报;2009年02期
8 李诺;张全;;利用地名用字分析的中文地名识别处理[J];计算机工程与应用;2009年28期
9 梅丰;孙承杰;孙珂;程明波;林磊;;面向网络文本的中文产品命名实体识别[J];郑州大学学报(理学版);2010年01期
10 李跃进;赵晶;林鸿飞;;基于Internet的军事演习信息抽取系统[J];计算机工程与应用;2006年14期
11 陈文庆;;基于独立分量分析和最大熵模型的人脸自动识别方法[J];计算机与数字工程;2006年07期
12 赵法兴;赵伟;;平滑的最大熵模型在汉语词性自动标注中的应用[J];长春工业大学学报(自然科学版);2007年02期
13 陈光;刘宗田;;基于特征聚合与最大熵的文本分类算法[J];计算机应用与软件;2008年03期
14 韦小丽;孙涌;张书奎;苗艳军;;基于最大熵模型的本体概念获取方法[J];计算机工程;2009年24期
15 贺兴时;杨成成;;基于最大熵的文本分类算法的改进[J];西安石油大学学报(自然科学版);2009年06期
16 于江德;王希杰;樊孝忠;;基于最大熵模型的词位标注汉语分词[J];郑州大学学报(理学版);2011年01期
17 仲其智;姚建民;;低频词的中文词性标注研究[J];计算机应用与软件;2011年03期
18 贾宁;张全;;基于最大熵模型和规则的中文姓名识别[J];计算机工程与应用;2007年35期
19 刘小可;王云兰;;一个改进的基于最大熵原理的汉语词性标注系统[J];光盘技术;2007年06期
20 屈志毅;李一伟;张延堂;杨曙光;张菲菲;;一种基于关键重复语义的最大熵文本分类[J];广西师范大学学报(自然科学版);2007年04期
中国重要会议论文全文数据库 前10条
1 李军辉;朱巧明;李培峰;;一个基于最大熵模型的文本分类方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
2 赵伟;赵法兴;王东海;韩达奇;;一种基于改进的最大熵模型的汉语词性自动标注的新方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
3 朱江涛;赵丽奎;蔡东风;;基于最大熵模型的中文姓名识别方法初探[A];第二届全国学生计算语言学研讨会论文集[C];2004年
4 冯娟娟;李晗静;李生;;基于句法分析的中文语义角色标注实现[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 孙涌;韦小丽;;领域本体构建研究及在专利信息服务中的应用[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
6 刘方舟;施勤;陶建华;;基于最大熵模型的多音字消歧[A];第九届全国人机语音通讯学术会议论文集[C];2007年
7 于江德;王希杰;余正涛;;基于最大熵模型的语义角色标注[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
8 陈文亮;朱慕华;朱靖波;姚天顺;;基于Bootstrapping的文本分类模型[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 谢永康;周雅倩;黄萱菁;;一种基于谱聚类的共指消解方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 李济洪;王凯华;王瑞波;;基于最大熵模型的中文阅读理解技术研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国博士学位论文全文数据库 前8条
1 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
2 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
3 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
4 李茹;汉语句子框架语义结构分析技术研究[D];山西大学;2012年
5 李济洪;汉语框架语义角色的自动标注技术研究[D];山西大学;2010年
6 赵京雷;汉语动词名物化复合结构的语义解释[D];上海交通大学;2008年
7 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
8 刘宇鹏;机器翻译中系统融合技术的研究[D];哈尔滨工业大学;2011年
中国硕士学位论文全文数据库 前10条
1 王慧;最大熵模型的语义句法分析在问答系统中的应用研究[D];大连交通大学;2010年
2 马蓉平;网站搜索引擎的设计与实现[D];沈阳工业大学;2006年
3 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
4 乔羽;基于最大熵模型的中文人名识别方法研究[D];山西大学;2005年
5 步海慧;基于最大熵模型的中文姓名识别研究[D];山东大学;2006年
6 郭家清;基于条件随机场的命名实体识别研究[D];沈阳航空工业学院;2007年
7 叶娜;面向信息抽取的文本预处理和规则自动学习技术研究[D];东北大学;2005年
8 杨军玲;汉语动词词语搭配自动获取方法研究[D];山西大学;2006年
9 彭其伟;基于统计方法的中文文本情感倾向分类研究[D];山西大学;2007年
10 汪红林;基于依存分析的语义角色标注研究[D];苏州大学;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978