收藏本站
《第八届全国人机语音通讯学术会议论文集》2005年
收藏 | 手机打开
二维码
手机客户端打开本文

语言模型训练语料处理方法及解码词典的设计

林小俊  田浩  王馨浩  杜蕴璇  许敏  吴玺宏  迟惠生  
【摘要】:语言模型是大词汇量连续语音识别系统的核心模块,其性能受建模所用训练语料的影响很大。本文基于自然语言处理技术,设计并实现了一个针对汉语语音识别的专用分词系统。同时,针对原有解码词典与分词结果存在不匹配的问题, 提出了一种将分词、语言模型训练及解码置于一个通用词典框架之下的新设计方案。最后,基于语言模型的分支度、以及语音识别结果对上述处理方法进行评价,取得了较好结果。

手机知网App
【参考文献】
中国期刊全文数据库 前1条
1 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
【共引文献】
中国期刊全文数据库 前10条
1 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
2 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
3 吴登堂;关于字母词的思考——兼谈中文信息处理对字母词自动切分的构想[J];丹东师专学报;2003年02期
4 吴静,蔡砥,王铮;地理信息系统中自然语言查询的分词处理与应用[J];地球信息科学;2005年03期
5 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
6 王挺;麦范金;刘忠;;自然语言处理及其应用前景的研究[J];桂林航天工业高等专科学校学报;2006年04期
7 刘晓英;汉语自动分词研究的发展趋势[J];高校图书馆工作;2005年04期
8 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
9 唐培丽,胡明,张勇;基于中文文本主题提取的分词方法研究[J];吉林工程技术师范学院学报;2005年02期
10 曹桂宏,何丕廉,吴光远,聂颂;中文分词对中文信息检索系统性能的影响[J];计算机工程与应用;2003年19期
中国重要会议论文全文数据库 前10条
1 胡清平;;受控语言及其在汉英机器翻译里的应用前景[A];国际译联第四届亚洲翻译家论坛论文集[C];2005年
2 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
3 邓攀;刘功申;;基于标引信息的网络新概念发现算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
4 陶建华;蔡莲红;赵晟;;汉语语音合成中的文本分析和韵律处理[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
5 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
6 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 李斌;;中文单字国名简称的自动识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 何中军;刘群;林守勋;;统计机器翻译中短语切分的新方法[A];第三届学生计算语言学研讨会论文集[C];2006年
10 陈晓苏;邹园斌;张文珂;;全切分图与路径表达式在分词算法中的应用[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
2 张蕾;概念结构及其应用[D];西北工业大学;2001年
3 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
4 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
5 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
6 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
7 甘瑞瑗;国别化“对外汉语教学用词表”制定的研究:以韩国为例[D];北京语言大学;2005年
8 刘伟;现代汉语代词隐现的动态研究[D];北京语言大学;2005年
9 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
10 额尔敦朝鲁;面向信息处理的蒙古语动词语义研究[D];内蒙古大学;2005年
中国硕士学位论文全文数据库 前10条
1 李晓丹;限定领域内基于web的智能问答系统[D];内蒙古大学;2005年
2 袁亮;一个基于WEB的信息组织与检索模型(WIORS)研究[D];武汉大学;2005年
3 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
4 葛强;亲属关系逻辑推理专家系统的研究[D];河南大学;2005年
5 颜伟;“不形”短语的自动识别方法和特征的大规模调查研究[D];北京语言大学;2005年
6 刘雪芹;单汉字全文检索技术研究[D];河北工业大学;2005年
7 朴点熙;七种汉语教材选词分析[D];北京语言文化大学;2000年
8 李卫亮;现代汉语分词系统中专名识别的实用策略[D];北京工业大学;2000年
9 李丽苹;教学电子信息资源管理研究[D];南京师范大学;2002年
10 关宏超;基于统计的开放式汉语自动分词[D];大连理工大学;2002年
【二级参考文献】
中国期刊全文数据库 前1条
1 周强;规则和统计相结合的汉语词类标注方法[J];中文信息学报;1995年03期
【相似文献】
中国期刊全文数据库 前10条
1 熊军军;李成荣;;实际场景语料和FSN语料的平衡方法[J];清华大学学报(自然科学版);2008年S1期
2 张润延;史晓东;陈毅东;;对IRSTLM的分析和改进[J];心智与计算;2008年01期
3 李雪涛;文茂平;杨鉴;;基于Web网页语料构建动态语言模型[J];信息技术;2006年08期
4 王韦华;徐波;;汉语语言模型的规模对统计机器翻译系统的影响[J];微计算机信息;2010年27期
5 张亚军;;维吾尔语的N-gram语言模型研究[J];电脑知识与技术;2011年17期
6 于浩;步丰林;高剑峰;;感知器在语言模型训练中的应用[J];计算机研究与发展;2006年02期
7 宋彦;蔡东风;张桂平;赵海;;一种基于字词联合解码的中文分词方法[J];软件学报;2009年09期
8 张强;陶宏才;;基于Web网页与PDF文档自动构建更新语言模型[J];成都信息工程学院学报;2009年05期
9 孙守安;杨根科;杨祖华;;基于受限语料库的语言平滑算法比较研究[J];微型电脑应用;2010年12期
10 侯宏旭;刘群;那顺乌日图;牧仁高娃;李锦涛;;基于统计语言模型的蒙古文词切分[J];模式识别与人工智能;2009年01期
中国重要会议论文全文数据库 前10条
1 陈振标;徐波;;限定领域的语言模型[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
2 林小俊;田浩;王馨浩;杜蕴璇;许敏;吴玺宏;迟惠生;;语言模型训练语料处理方法及解码词典的设计[A];第八届全国人机语音通讯学术会议论文集[C];2005年
3 付晓寅;魏玮;徐波;;一种基于状态转移的N元语言模型快速查询方法[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
4 韩中元;李生;杨沐昀;齐浩亮;;面向信息检索的近邻语言模型[A];第六届全国信息检索学术会议论文集[C];2010年
5 詹津明;牟晓隆;李树青;方棣棠;;一个大字表语音识别系统中的语言模型[A];第五届全国人机语音通讯学术会议论文集[C];1998年
6 熊军军;李成荣;;实际场景语料和FSN语料的平衡方法[A];第九届全国人机语音通讯学术会议论文集[C];2007年
7 任纪生;王作英;赵敏;;基于潜在语义信息的汉语语音识别方法[A];中文信息处理技术研讨会论文集[C];2004年
8 郑铁然;李海洋;韩纪庆;;汉语语音检索中基于音节和词语言模型的索引方法研究[A];第九届全国人机语音通讯学术会议论文集[C];2007年
9 奚宁;赵迎功;汤光超;李斌;罗春勇;戴新宇;陈家骏;;统计机器翻译中多种语言模型的融合[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
10 努尔艾力·喀迪尔;彭良瑞;;基于SRILM的阿拉伯和维吾尔文语言模型建立方法[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
中国重要报纸全文数据库 前10条
1 清华大学 刘加;识别语音的几种依据[N];计算机世界;2006年
2 清华大学 刘加;语音识别应用促进技术发展[N];计算机世界;2006年
3 何中军米海涛 刘群;统计机器翻译系统中的开源软件[N];计算机世界;2007年
4 本报记者 刘洪宇;当机器听懂了我们的声音[N];辽宁日报;2008年
5 郝亭;软件是怎样“炼”成的[N];工人日报;2000年
6 中科院计算技术研究所 吕雅娟付雷 黄瑾 何中军 刘群;化繁为简的统计机器翻译技术[N];中国计算机报;2007年
7 王向东 栾焕博 林守勋 钱跃良;语音识别:抗噪音能力有待加强[N];计算机世界;2006年
8 北京清华大学电子工程系副教授 刘加 教授 刘润生;让机器听懂我的话[N];科技日报;2001年
9 石天强;“凡客体”中的资本欲望[N];中国教育报;2010年
10 骆卫华 刘群 张俊林;搜索引擎:性能提高遇到瓶颈[N];计算机世界;2006年
中国博士学位论文全文数据库 前10条
1 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
2 肖镜辉;非时齐语言建模技术研究及实践[D];哈尔滨工业大学;2007年
3 刘鹏远;基于知识自动获取的无指导译文消歧方法研究[D];哈尔滨工业大学;2008年
4 熊英;中文自然语言理解中基于条件随机场理论的词法分析研究[D];上海交通大学;2009年
5 洪宇;基于语义结构和时序特征的话题检测与跟踪技术研究[D];哈尔滨工业大学;2009年
6 瞿仰;基于声调识别的汉语计算机辅助学习系统研究[D];华东师范大学;2012年
7 王欢良;基于混淆网络和辅助信息的语音识别技术研究[D];哈尔滨工业大学;2007年
8 胡熠;面向信息检索的文本内容分析[D];上海交通大学;2007年
9 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年
10 方淼;语义单元自动获取研究[D];大连理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 张润延;海量语言模型的研究及其在机器翻译中的应用[D];厦门大学;2009年
2 唐永明;基于关联词的复句语言模型[D];北京邮电大学;2009年
3 梁奇;语言模型自适应方法在嵌入式系统中应用的研究[D];清华大学;2006年
4 陈晶;维吾尔语连续语音识别系统中语言模型的研究[D];新疆大学;2009年
5 李新生;基于改进语言模型的相关反馈方法的检索系统设计[D];北京邮电大学;2011年
6 刘盈;大词表连续语音识别系统的研究与实现[D];清华大学;2005年
7 汤小娜;词义消歧在统计机器翻译中的应用研究[D];厦门大学;2007年
8 沈默;平板电脑上语言模型的开发与测试[D];清华大学;2005年
9 刘春泳;中文问答系统中信息检索模型的研究[D];重庆大学;2007年
10 康恺;定题信息检索关键技术研究[D];厦门大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026