双语语料库段落重组对齐方法研究
【摘要】:网络上存在的大量双语资源,给构建大规模双语语料库提供了可能。双语对齐作为语料库加工过程中的关键技术,已经引起研究者的高度重视。针对目前可收集到的双语资源大都没有做到段落对齐,本文结合基于句子长度和基于词典的两种经典对齐算法思想,充分利用双语文本中的句子在整个文本中的位置信息,在(1:1)型句珠里选取锚点,并根据双语文本特征引入一部双语词典进行校验,从而获得分段的锚点,实现通用的段落重组对齐。
【作者单位】:哈尔滨工业大学计算机学院信息检索研究室 哈尔滨工业大学计算机学院信息检索研究室 哈尔滨工业大学计算机学院信息检索研究室 哈尔滨工业大学计算机学院信息检索研究室
【关键词】:双语语料库 段落重组对齐 锚点 匹配
【分类号】:TP391.1
【正文快照】:
【关键词】:双语语料库 段落重组对齐 锚点 匹配
【分类号】:TP391.1
【正文快照】:
弓}言 双语语料库是一种包含有两种语言互译信息的特殊的语料库。它能够提供两种语言之间丰富的匹配信息,在翻泽知识的获取、双语词典的建立、基于实例的机器翻译、词义消歧等领域有着重要的应用价值川。 人规模双语语料库的建设是进行基于语料库研究的基础,它包括语料库的设
CAJViewer7.0阅读器支持所有CNKI文件格式,AdobeReader仅支持PDF格式
| 【引证文献】 | ||
|
|||||
|
|||||
|
|||
|
|||
| 【共引文献】 | ||
|
|||||||||
|
|||||||||
|
|||||||
|
|||||||
|
|||||||||
|
|||||||||
|
|||||||||||||||||||
|
|||||||||||||||||||
| 【同被引文献】 | ||
|
|||||||||||||||||
|
|||||||||||||||||
|
|||||
|
|||||
|
|||||||
|
|||||||
| 【二级引证文献】 | ||
|
|||
|
|||
|
|||||
|
|||||
| 【相似文献】 | ||
|
|||||||||||||||||||||
|
|||||||||||||||||||||
|
|||||||||||||||||||||
|
|||||||||||||||||||||
|
|||||||||||||||||||||
|
|||||||||||||||||||||
|
|||||||||||||||||
|
|||||||||||||||||
|
|||||||||||||||||||||
|
|||||||||||||||||||||



