收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于句对质量和覆盖度的统计机器翻译训练语料选取

姚树杰  肖桐  朱靖波  
【摘要】:本文研究的目的是在待翻译文本未知的情况下,从已有的大规模平行语料中选取一个高质量的子集作为统计机器翻译系统的训练语料,以降低训练和解码代价。本文综合覆盖度和句对翻译质量两方面因素,提出一种从已有平行语料中获取高质量小规模训练子集的方法。在CWMT2008汉英翻译任务上的实验结果表明,利用本文的方法能够从现有大规模语料中选取高质量的子集,在减少80%训练语料的情况下达到与baseline系统(使用全部训练语料)相当的翻译性能(BLEU值)。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 孙广路;郎非;薛一波;;基于条件随机域和语义类的中文组块分析方法[J];哈尔滨工业大学学报;2011年07期
2 王志洋;吕雅娟;刘群;;面向形态丰富语言的多粒度翻译融合[J];中文信息学报;2011年04期
3 史晓东;卢亚军;;央金藏文分词系统[J];中文信息学报;2011年04期
4 仓玉;洪宇;姚建民;朱巧明;;基于时序话题模型的新事件检测[J];智能计算机与应用;2011年03期
5 刘里;刘小明;;基于分隔符和上下文术语的领域现象术语抽取[J];华南理工大学学报(自然科学版);2011年07期
6 张亚军;;汉语-维吾尔语机器翻译解码器研究[J];昌吉学院学报;2011年03期
7 于江德;谷川;葛文英;樊孝忠;;一种基于字和子串联合标注的汉语分词方法[J];山西大学学报(自然科学版);2011年03期
8 张亚军;;维吾尔语的N-gram语言模型研究[J];电脑知识与技术;2011年17期
9 方莹;;C-CRF模型在农作物名识别中的应用[J];广东农业科学;2011年06期
10 梁吉光;田俊华;熊玲;;基于二阶HMM的信息抽取研究[J];情报杂志;2011年07期
11 郭剑毅;雷春雅;余正涛;苏磊;赵君;田维;;基于信息熵的半监督领域实体关系抽取研究[J];山东大学学报(工学版);2011年04期
12 杨经;林世平;;基于SVM的文本词句情感分析[J];计算机应用与软件;2011年09期
13 余传明;黄建秋;郭飞;;从客户评论中识别命名实体——基于最大熵模型的实现[J];现代图书情报技术;2011年05期
14 李响;才藏太;姜文斌;吕雅娟;刘群;;最大熵和规则相结合的藏文句子边界识别方法[J];中文信息学报;2011年04期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 姚树杰;肖桐;朱靖波;;基于句对质量和覆盖度的统计机器翻译训练语料选取[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 于惠;谢军;熊皓;吕雅娟;刘群;林守勋;;基于篇章上下文的统计机器翻译方法[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
3 杜金华;王莎;;西安理工大学统计机器翻译系统技术报告(英文)[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
4 朱海;李淼;张建;乌达巴拉;;系统融合方法在汉蒙统计机器翻译上的应用[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 梁芳丽;李淼;李文;陈雷;乌达巴拉;;统计机器翻译中的源语言重排序方法研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 何彦青;张家俊;李茂西;陈钰枫;周玉;宗成庆;;CWMT'08统计机器翻译研讨会自动化所技术报告[A];机器翻译研究进展——第四届全国机器翻译研讨会论文集[C];2008年
7 董兴华;周俊林;郭树盛;吐尔洪·吾司曼;;基于短语的汉维(维汉)统计机器翻译研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
8 王春荣;宝美荣;王斯日古楞;;内蒙古师范大学CWMT2011蒙汉机器翻译系统评测技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
9 周可艳;宗成庆;;汉英统计翻译系统中未登录词的处理方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 张冬冬;李志灏;李沐;周明;;第四届机器翻译研讨会微软亚洲研究院技术报告[A];机器翻译研究进展——第四届全国机器翻译研讨会论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 蒋宏飞;基于同步树替换文法的统计机器翻译方法研究[D];哈尔滨工业大学;2010年
2 段楠;统计机器翻译的一致性解码方法研究[D];天津大学;2012年
3 刘水;融入头—修饰词调序模型的短语统计机器翻译方法研究[D];哈尔滨工业大学;2011年
4 黄书剑;统计机器翻译中的词对齐研究[D];南京大学;2012年
5 陈毅东;基于短语的统计机器翻译模型若干关键技术研究[D];厦门大学;2008年
6 瞿仰;基于声调识别的汉语计算机辅助学习系统研究[D];华东师范大学;2012年
7 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
8 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
9 熊英;中文自然语言理解中基于条件随机场理论的词法分析研究[D];上海交通大学;2009年
10 洪宇;基于语义结构和时序特征的话题检测与跟踪技术研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 李函章;统计机器翻译中语料选择方法研究[D];黑龙江大学;2010年
2 张育;基于依存语法的统计机器翻译研究[D];苏州大学;2011年
3 宋美娜;基于词缀特征的汉蒙统计机器翻译系统[D];内蒙古大学;2010年
4 李天宁;词对齐技术研究及统计机器翻译平台的构建[D];东北大学;2009年
5 张涛;面向特定领域的统计机器翻译研究与应用[D];昆明理工大学;2011年
6 银花;基于短语的蒙汉统计机器翻译研究[D];内蒙古师范大学;2011年
7 宝美荣;融入形态学分析的汉蒙统计机器翻译研究[D];内蒙古师范大学;2012年
8 应玉龙;汉蒙词法分析及其在统计机器翻译中的应用[D];中国科学技术大学;2010年
9 蓝翔;采用统计机器翻译模型的复述生成技术研究[D];哈尔滨工业大学;2010年
10 张春越;统计机器翻译中树到串对齐模板模型系统实现和比较研究[D];哈尔滨工业大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978