收藏本站
《中国计算语言学研究前沿进展(2009-2011)》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

一种适用于机器翻译的汉语分词方法

李博渊  奚宁  黄书剑  张建兵  陈家骏  
【摘要】:汉语分词是构建汉语到其他语言机器翻译系统的一项重要工作。基于单语的分词不一定完全适合机器翻译,一个适合于机器翻译所需要的分词方法,应该考虑到机器翻译所具有的双语特点。本文提出了一种单语和双语知识相结合的适应于统计机器翻译系统的分词方法。首先利用对齐可信度的概念从双语平行语料中抽取可信对齐集合,然后根据可信对齐集合对双语语料中的中文部分重新分词;接着将可信对齐分词的结果和单语分词工具的结果相结合,构建出一个新的分词训练语料,并用CRF分词模型训练出一个融合了单双语信息的分词工具。本文用该工具对机器翻译所需的训练语料、开发语料和测试语料进行分词并在基于短语的统计机器翻译系统上进行实验。实验结果表明,本文所提的方法提高了系统性能。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李强,李侯润;半自动分词技术[J];计算机工程与设计;1992年01期
2 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
3 袁琦;中文信息技术和自然语言处理[J];中文信息学报;1986年01期
4 张艳,柏冈秀纪;基于长度的扩展方法的汉英句子对齐[J];中文信息学报;2005年05期
5 王挺;陈火旺;史晓东;;语料库和机器翻译[J];计算机科学;1996年02期
6 冯志伟;;机器翻译今昔谈[J];金秋科苑;1997年04期
7 李剑 ,王波 ,郭永辉 ,王炳锡;英汉机器翻译中基于模式的译文生成[J];微计算机信息;2005年20期
8 ;计算机检索、机器翻译编辑、自动标引、自动文摘等[J];电子科技文摘;2006年02期
9 冯冲;黄河燕;陈肇雄;张亮;;基于字符层马尔科夫模型的多语种识别[J];计算机科学;2006年01期
10 史晓亮;;英汉机器翻译中语言陷阱的自动检索标识方法[J];科技信息;2011年03期
11 龚文涛,徐国桓,武立莹,刘会霞,张世红;信息检索技术的发展概况及趋势[J];医学情报工作;2001年03期
12 刘晓英;汉语自动分词研究的发展趋势[J];高校图书馆工作;2005年04期
13 于江德;睢丹;樊孝忠;;基于字的词位标注汉语分词[J];山东大学学报(工学版);2010年05期
14 毛太田;傅佳;;通过Web数据挖掘为VILA语言搜集多语种词汇[J];中国科技信息;2011年16期
15 史树敏;机器翻译方法的研究现状[J];内蒙古师范大学学报(自然科学汉文版);2004年02期
16 邓曙光,曾朝晖;汉语分词中一种逐词匹配算法的研究[J];湖南城市学院学报(自然科学版);2005年01期
17 杨宪泽,雷开彬,吴守宪,张上游,宁爱华;一种句型转换和近似机器翻译方法及算法[J];计算机工程与科学;2005年11期
18 杨洵;;电子翻译工具实用漫谈[J];中国招标;2008年24期
19 王清;殷业;;基于Globish的旅游用英汉翻译系统的研究[J];企业科技与发展;2008年12期
20 张少恩;;论语境因素在机器翻译中的重要作用[J];农业网络信息;2008年07期
中国重要会议论文全文数据库 前10条
1 李博渊;奚宁;黄书剑;张建兵;陈家骏;;一种适用于机器翻译的汉语分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 奚宁;赵迎功;汤光超;李中华;刘友强;戴新宇;陈家骏;;南京大学第七届机器翻译研讨会评测技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
3 麦热哈巴.艾力;米日古.肉孜;撒依达;江阿古丽;吐尔根.伊布拉音;;新疆大学CWMT2011评测技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
4 梁芳丽;陈雷;李淼;何绵涛;刘绘;;第七届全国机器翻译研讨会中科院智能所评测技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
5 周玉;翟飞飞;张家俊;涂眉;陈钰枫;宗成庆;;多语言文本机器翻译系统——中科院自动化所CWMT2011评测技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
6 何彦青;石崇德;于薇;张均胜;王惠临;;中国科学技术信息研究所CWMT'2011技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
7 希夏姆.马利克;;汉阿机译研究(一) 从汉语单句若干结构谈论汉阿机译[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
8 肖桐;张浩;李强;路琦;朱靖波;任飞亮;王会珍;;CWMT2011东北大学参评系统NiuTrans介绍(英文)[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
9 李贤华;郑仲光;孟遥;于浩;;第七届全国机器翻译研讨会(CWMT2011)富士通研究开发中心技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
10 赵红梅;吕雅娟;贲国生;黄云;刘群;;第七届全国机器翻译研讨会(CWMT2011)评测报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
中国重要报纸全文数据库 前10条
1 ;机器翻译在电子政务系统建设中的应用[N];中国电脑教育报;2004年
2 ;机器翻译 在电子政务系统建设中的应用[N];中国电脑教育报;2004年
3 刘 莎;语义约定全文翻译: 机器翻译的“日心说”?[N];计算机世界;2002年
4 李佳师;拓展嵌入式空间 中软可借力微软[N];中国电子报;2007年
5 记者 侯梅竹;汉语语料检索系统问世[N];计算机世界;2004年
6 雨虹;翻译软件风云再起 智能“语神”横空出世[N];中国经营报;2006年
7 闫宏志;全文翻译技术发展脉络[N];中国计算机报;2003年
8 微软亚洲研究院副院长 张峥;你好,HAL[N];中国经营报;2010年
9 郝峥嵘;嵌入式让翻译软件绝处逢生[N];中国计算机报;2007年
10 中国科学院自动化研究所 徐波;回归到“通天塔”之前[N];计算机世界;2002年
中国博士学位论文全文数据库 前10条
1 刘宇鹏;机器翻译中系统融合技术的研究[D];哈尔滨工业大学;2011年
2 任飞亮;高适应性基于实例的机器翻译中关键技术研究[D];东北大学;2008年
3 赵世奇;基于统计的复述获取与生成技术研究[D];哈尔滨工业大学;2009年
4 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年
5 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
6 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
7 史树敏;基于领域本体的汉语共指消解及相关技术研究[D];南京理工大学;2008年
8 王君泽;基于大规模问答语料的问题检索系统[D];华中科技大学;2010年
9 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
10 刘东飞;智能双语搜索方法及搜索引擎的研究[D];武汉理工大学;2009年
中国硕士学位论文全文数据库 前10条
1 朱晓宁;基于语言学知识的机器翻译自动评价研究[D];哈尔滨工业大学;2011年
2 计丽丽;基于混合策略的机器翻译研究[D];安徽理工大学;2012年
3 苏勇;基于理解的汉语分词系统的设计与实现[D];电子科技大学;2011年
4 陈亮;基于英汉平行语料库的机器翻译知识获取研究[D];北京交通大学;2012年
5 惠聪;机器翻译中的高级对齐技术和开发集选择策略研究[D];上海交通大学;2012年
6 朱俊国;机器翻译自动评价计算粒度研究[D];哈尔滨工业大学;2010年
7 占飞;计算语言学领域英文辅助写作系统[D];哈尔滨工业大学;2011年
8 李平;基于Internet的人机互助机器翻译技术的研究[D];内蒙古大学;2012年
9 李志青;基于Internet的互动辅助翻译技术研究[D];内蒙古大学;2011年
10 任志敏;对齐技术的研究及其在译文自动评测中的应用[D];沈阳航空航天大学;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978