收藏本站
《第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集》2013年
收藏 | 手机打开
二维码
手机客户端打开本文

基于词位信息的HMM中文分词算法

刘善峰  李雅  陶建华  
【摘要】:由字构词的分词方法现在已经是中文分词中的常用的分词方法,隐马尔科夫模型(HiddenMarkovModel,HMM)也被广泛的应用于各种领域,其中包括中文信息处理。为了解决由字构词的分词方法与HMM相结合时所产生的问题,本文提出了一种改进的HMM分词方法,即加窗的HMM分词算法。该方法有效的解决了词位信息和HMM算法结合时由HMM算法自身的独立性问题所带来的分词的准确率不高的问题,能很好的结合上下文的统计信息,使基于词位信息的HMM分词在准确率和召回率上有了很大的提高,并且在未登录词的识别上也有了一定的提高。

手机知网App
【参考文献】
中国期刊全文数据库 前3条
1 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
2 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
3 于江德;王希杰;樊孝忠;;基于最大熵模型的词位标注汉语分词[J];郑州大学学报(理学版);2011年01期
【共引文献】
中国期刊全文数据库 前10条
1 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
2 杨尔弘;;媒体5年词语使用情况调查分析[J];北华大学学报(社会科学版);2011年04期
3 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
4 刘文华;康海燕;;领域问答系统生成器的研究[J];北京信息科技大学学报(自然科学版);2009年03期
5 傅鹂;孙坚;付春雷;;基于语义的音乐检索系统[J];重庆理工大学学报(自然科学版);2011年01期
6 高东平;;基于类型论的汉语分词系统TTCS[J];重庆理工大学学报(社会科学);2011年08期
7 田占霄;韩宪忠;王克俭;;一种改进的长词优先逆向最大匹配分词消歧策略[J];河北农业大学学报;2009年04期
8 李跃民;王浩;赵生慧;;有词典中文分词算法研究[J];滁州学院学报;2008年03期
9 曲维光;唐旭日;俞敬松;;超大规模语料库精加工技术研究[J];当代语言学;2009年02期
10 朱维彬;;语音合成中的语言学计算模型:现状及展望[J];当代语言学;2009年02期
中国重要会议论文全文数据库 前10条
1 李金;宋阳;梁洪;;语言残障患者医疗辅助系统设计[A];第九届全国信息获取与处理学术会议论文集Ⅱ[C];2011年
2 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 余骁捷;邵阳;吴及;王侠;;基于SVM和MMR融和的自动文摘方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
6 李玉梅;靳光瑾;黄昌宁;;中文分词规范中的歧义字段消解细则[A];第五届全国语言文字应用学术研讨会论文集[C];2007年
7 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
8 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 郑亚斌;曹嘉伟;刘知远;;基于最大匹配和马尔科夫模型的对联系统[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
10 王芳;万常选;;基于可信度的中文完整词自动识别[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
2 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
3 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
4 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
5 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
6 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
7 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
8 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
9 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
10 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
中国硕士学位论文全文数据库 前10条
1 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
2 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
3 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
4 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
5 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
6 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
7 陈旭;地理编码引擎的设计与实现[D];辽宁工程技术大学;2009年
8 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
9 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
10 常富国;高技术虚拟企业谈判支持问题处理系统研究[D];哈尔滨理工大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
2 张华平,刘群;基于角色标注的中国人名自动识别研究[J];计算机学报;2004年01期
3 姜维;王晓龙;关毅;赵健;;基于多知识源的中文词法分析系统[J];计算机学报;2007年01期
4 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
5 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
6 杨尔弘;方莹;刘冬明;乔羽;;汉语自动分词和词性标注评测[J];中文信息学报;2006年01期
7 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
8 赵海;揭春雨;;基于有效子串标注的中文分词[J];中文信息学报;2007年05期
9 罗彦彦;黄德根;;基于CRFs边缘概率的中文分词[J];中文信息学报;2009年05期
10 宋彦;蔡东风;张桂平;赵海;;一种基于字词联合解码的中文分词方法[J];软件学报;2009年09期
中国重要会议论文全文数据库 前1条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【相似文献】
中国期刊全文数据库 前10条
1 王坚,赵恒永;专业搜索引擎中文分词算法的实现与研究[J];福建电脑;2005年07期
2 谢红薇;王栋;;基于Web文本挖掘中的一种中文分词算法研究[J];电脑开发与应用;2007年07期
3 张辉丽;孟昭鹏;王慧芝;;汉语自动分词中的歧义处理[J];微计算机应用;2006年06期
4 亢临生,张永奎;利用分词属性解决歧义切分[J];电脑开发与应用;1994年04期
5 王永景;刘功申;李生红;荆涛;;用于文本校对的分词与词性标注一体化算法[J];计算机技术与发展;2008年08期
6 张立岩;吕玲;王井阳;;基于最大熵算法的全文检索研究[J];河北科技大学学报;2009年02期
7 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期
8 赵亚慧;;基于编辑距离的中文机构名简称检索方法研究[J];内蒙古科技与经济;2010年07期
9 周文刚;孙挺;;Web页文本信息语义过滤系统设计与实现[J];周口师范学院学报;2007年02期
10 吴振南;熊皓;徐爱萍;;GIS中文查询语句的未登录词识别算法研究[J];计算机工程与科学;2007年11期
中国重要会议论文全文数据库 前10条
1 王兰成;田梅;侯双;;PLS:一种基于信息自动标引的最小推进分词算法及其实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
3 黄居仁;;瓶颈,挑战,与转机:中文分词研究的新思维[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
4 姜文斌;王志洋;刘群;吕雅娟;;基于马尔可夫间隔标注的中文分词算法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
6 严海林;江荻;;一种基于三级分类器的藏文识别方法[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
7 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
9 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 菅小艳;郑家恒;;基于HMM的农作物信息抽取[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国重要报纸全文数据库 前2条
1 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年
2 高雪娟;企业搜索要为决策服务[N];中国计算机报;2006年
中国博士学位论文全文数据库 前10条
1 张京楣;基于统计方法的文本风格分析研究[D];山东大学;2012年
2 修驰;适应于不同领域的中文分词方法研究与实现[D];北京工业大学;2013年
3 段江娇;基于模型的时间序列数据挖掘[D];复旦大学;2008年
4 李超雷;交互式语言学习系统中的发音质量客观评价方法研究[D];中国科学院研究生院(电子学研究所);2007年
5 李虹;基于机器视觉路面状态识别关键技术研究[D];吉林大学;2009年
6 覃文军;基于视觉信息的手势识别算法与模型研究[D];东北大学;2010年
7 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
8 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
9 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
10 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
中国硕士学位论文全文数据库 前10条
1 林冬盛;中文分词算法的研究与实现[D];西北大学;2011年
2 刁毓;基于本体的中文分词算法的研究与实现[D];曲阜师范大学;2012年
3 付敏;一个改进的中文分词算法及其在Lucene中的应用[D];华中科技大学;2010年
4 韩雪冬;基于CRFs的中文分词算法研究与实现[D];北京邮电大学;2010年
5 王凯;中文分词算法在工程建设材料搜索中的研究与应用[D];大连交通大学;2010年
6 马东;基于Nutch搜索引擎的中文分词算法研究与实现[D];内蒙古农业大学;2011年
7 朱世猛;中文分词算法的研究与实现[D];电子科技大学;2011年
8 李畅;智能问答系统在高中物理教学中的应用[D];陕西师范大学;2011年
9 孙博雅;中文分词算法在GIS中的应用研究[D];中南大学;2011年
10 范敏敏;企业经营范围字段自动分类方法研究[D];哈尔滨工业大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026