收藏本站
《第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集》2005年
收藏 | 手机打开
二维码
手机客户端打开本文

一个基于最大熵模型的文本分类方法

李军辉  朱巧明  李培峰  
【摘要】:本文提出了一种应用最大熵模型进行中文文本分类的方法,该方法重点在于特征函数的构建和文本的预处理这两个方面。本文把文档的预处理分为网页去标记、分词、去虚词和去停用词四个步骤,从而使得特征项的提取更加合理。另外,本文提出了一种基于特征模板的方法,并将其与特征项的权重相结合的特征函数构建方法,提高了分类器的分类精度。实验结果发现,基于特征模板和权重相结合的最大熵模型的微平均准确率达到96.67%,分类效果要好于基于词频的最大熵模型。

【参考文献】
中国期刊全文数据库 前5条
1 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
2 余芳;一个基于朴素贝叶斯方法的web文本分类系统:WebCAT[J];计算机工程与应用;2004年13期
3 陈雪天,李荣陆;使用最大熵模型进行文本分类[J];计算机工程与应用;2004年35期
4 李素建,刘群,杨志峰;基于最大熵模型的组块分析[J];计算机学报;2003年12期
5 李素建,王厚峰,俞士汶,辛乘胜;关键词自动标引的最大熵模型应用研究[J];计算机学报;2004年09期
【共引文献】
中国期刊全文数据库 前10条
1 徐文莉;;基于最大熵方法的DaR风险度量模型[J];安徽师范大学学报(自然科学版);2007年01期
2 都云程;周伟;韩艳铧;吕学强;;基于字同现频率的关键词自动抽取[J];北京信息科技大学学报(自然科学版);2011年06期
3 吕琳;刘玉树;;最大熵和Brill方法结合识别英语BaseNPs[J];北京理工大学学报;2006年06期
4 谭咏梅;王小捷;周延泉;钟义信;;使用SVMs进行汉语浅层分析[J];北京邮电大学学报;2008年01期
5 王琦;;自动分类技术研究[J];河南财政税务高等专科学校学报;2008年04期
6 孙广路;王晓龙;郎非;刘远超;;条件随机域模型及在语言分析系统中的应用[J];电机与控制学报;2008年01期
7 于江德;李学钰;樊孝忠;庞文博;;最大熵模型的事件分类[J];电子科技大学学报;2010年04期
8 廖一星;潘雪增;;文本分类中基于逆云模型的特征选择方法[J];大连海事大学学报;2011年04期
9 黄明;王慧;梁旭;;最大熵模型的语义句法分析在陪护机器人中的应用[J];大连交通大学学报;2011年05期
10 高峰;张永奎;;基于最大熵模型的不良文本识别[J];电脑开发与应用;2009年01期
中国重要会议论文全文数据库 前10条
1 孙涌;韦小丽;;领域本体构建研究及在专利信息服务中的应用[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
2 章成志;周冬敏;苏新宁;;自动标引通用评价模型研究[A];2007年中国索引学会年会暨学术研讨会论文集[C];2007年
3 章成志;;基于集成学习的自动标引方法研究[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
4 方高林;于浩;;最大熵语言模型及其在模式识别中新的应用[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 谷波;刘开瑛;;决策树模型和最大熵模型在文本分类中的比较研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 张运良;张全;;概念优先组合判断研究[A];第八届全国人机语音通讯学术会议论文集[C];2005年
7 徐昉;宗成庆;;汉语base NP识别:错误驱动的组合分类器方法[A];第三届学生计算语言学研讨会论文集[C];2006年
8 王素格;张武;李德玉;杨军玲;彭其伟;;基于最大熵模型的汉语动词与动词搭配识别[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
9 王灿辉;金奕江;马少平;;基于文档中心内容快速提取的Web监控辅助系统[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 张玮;孙乐;冯元勇;吕元华;;一种结合分类模型的中文输入法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
2 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
3 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
4 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
5 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
6 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
7 孙珂;大规模文档标签自动标注技术研究[D];哈尔滨工业大学;2011年
8 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
9 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
10 刘启和;基于Rough集的知识发现及其在汉语处理中的应用[D];电子科技大学;2005年
中国硕士学位论文全文数据库 前10条
1 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
2 张军珲;基于统计的常用汉语副词用法自动识别研究[D];郑州大学;2010年
3 耿倩;基于文本相似度计算的文本聚类算法研究与实现[D];哈尔滨工程大学;2010年
4 孙群虎;基于空间分布和信息熵的特征词提取方法[D];大连理工大学;2010年
5 赵群;极小化标注的音频分类和句子切分的研究[D];中国海洋大学;2010年
6 杨芹;基于最大熵模型的中文网页分类器设计和实现[D];苏州大学;2010年
7 王雅菲;文本分类中特征降维方法的研究[D];长春工业大学;2010年
8 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
9 王慧;最大熵模型的语义句法分析在问答系统中的应用研究[D];大连交通大学;2010年
10 刘智慧;基于搜索引擎的自动问答系统[D];西安电子科技大学;2010年
【二级参考文献】
中国期刊全文数据库 前1条
1 周强,孙茂松,黄昌宁;汉语最长名词短语的自动识别[J];软件学报;2000年02期
【相似文献】
中国期刊全文数据库 前10条
1 潘炜;沈超;;面向层次分类标签的词性标注系统[J];计算机工程;2009年21期
2 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
3 牛晓妍;;基于最大熵的汉语人名识别方法研究[J];福建电脑;2008年04期
4 李响;才藏太;姜文斌;吕雅娟;刘群;;最大熵和规则相结合的藏文句子边界识别方法[J];中文信息学报;2011年04期
5 张晓艳;王挺;陈火旺;;基于混合统计模型的汉语命名实体识别方法[J];计算机工程与科学;2006年06期
6 曹波;苏一丹;邓琦;;基于最大熵模型的中国人名自动识别[J];计算机工程与应用;2009年04期
7 张立岩;吕玲;王井阳;;基于最大熵算法的全文检索研究[J];河北科技大学学报;2009年02期
8 李诺;张全;;利用地名用字分析的中文地名识别处理[J];计算机工程与应用;2009年28期
9 梅丰;孙承杰;孙珂;程明波;林磊;;面向网络文本的中文产品命名实体识别[J];郑州大学学报(理学版);2010年01期
10 李跃进;赵晶;林鸿飞;;基于Internet的军事演习信息抽取系统[J];计算机工程与应用;2006年14期
中国重要会议论文全文数据库 前10条
1 李军辉;朱巧明;李培峰;;一个基于最大熵模型的文本分类方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
2 赵伟;赵法兴;王东海;韩达奇;;一种基于改进的最大熵模型的汉语词性自动标注的新方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
3 朱江涛;赵丽奎;蔡东风;;基于最大熵模型的中文姓名识别方法初探[A];第二届全国学生计算语言学研讨会论文集[C];2004年
4 冯娟娟;李晗静;李生;;基于句法分析的中文语义角色标注实现[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 孙涌;韦小丽;;领域本体构建研究及在专利信息服务中的应用[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
6 刘方舟;施勤;陶建华;;基于最大熵模型的多音字消歧[A];第九届全国人机语音通讯学术会议论文集[C];2007年
7 于江德;王希杰;余正涛;;基于最大熵模型的语义角色标注[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
8 陈文亮;朱慕华;朱靖波;姚天顺;;基于Bootstrapping的文本分类模型[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 谢永康;周雅倩;黄萱菁;;一种基于谱聚类的共指消解方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 李济洪;王凯华;王瑞波;;基于最大熵模型的中文阅读理解技术研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国博士学位论文全文数据库 前8条
1 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
2 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
3 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
4 李茹;汉语句子框架语义结构分析技术研究[D];山西大学;2012年
5 李济洪;汉语框架语义角色的自动标注技术研究[D];山西大学;2010年
6 赵京雷;汉语动词名物化复合结构的语义解释[D];上海交通大学;2008年
7 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
8 刘宇鹏;机器翻译中系统融合技术的研究[D];哈尔滨工业大学;2011年
中国硕士学位论文全文数据库 前10条
1 王慧;最大熵模型的语义句法分析在问答系统中的应用研究[D];大连交通大学;2010年
2 马蓉平;网站搜索引擎的设计与实现[D];沈阳工业大学;2006年
3 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
4 乔羽;基于最大熵模型的中文人名识别方法研究[D];山西大学;2005年
5 步海慧;基于最大熵模型的中文姓名识别研究[D];山东大学;2006年
6 郭家清;基于条件随机场的命名实体识别研究[D];沈阳航空工业学院;2007年
7 叶娜;面向信息抽取的文本预处理和规则自动学习技术研究[D];东北大学;2005年
8 杨军玲;汉语动词词语搭配自动获取方法研究[D];山西大学;2006年
9 彭其伟;基于统计方法的中文文本情感倾向分类研究[D];山西大学;2007年
10 汪红林;基于依存分析的语义角色标注研究[D];苏州大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026