收藏本站
《语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集》2003年
收藏 | 手机打开
二维码
手机客户端打开本文

双语语料库段落重组对齐方法研究

李维刚  刘挺  王震  李生  
【摘要】:网络上存在的大量双语资源,给构建大规模双语语料库提供了可能。双语对齐作为语料库加工过程中的关键技术,已经引起研究者的高度重视。针对目前可收集到的双语资源大都没有做到段落对齐,本文结合基于句子长度和基于词典的两种经典对齐算法思想,充分利用双语文本中的句子在整个文本中的位置信息,在(1:1)型句珠里选取锚点,并根据双语文本特征引入一部双语词典进行校验,从而获得分段的锚点,实现通用的段落重组对齐。

【引证文献】
中国期刊全文数据库 前1条
1 淑琴;那顺乌日图;;面向EBMT系统的汉蒙双语语料库的构建[J];内蒙古社会科学(汉文版);2006年01期
中国硕士学位论文全文数据库 前2条
1 曹浩;基于机器学习的双语词汇抽取问题研究[D];南开大学;2011年
2 毕雪华;汉维双语语料库中句子对齐技术的研究[D];新疆大学;2006年
【参考文献】
中国期刊全文数据库 前3条
1 钱丽萍,赵铁军,杨沫昀,高光来;基于译文的英汉双语句子自动对齐[J];计算机工程与应用;2000年12期
2 刘昕,周明,朱胜火,黄昌宁;基于自动抽取词汇信息的双语句子对齐[J];计算机学报;1998年S1期
3 王斌,刘群,张祥;汉英双语库自动分段对齐研究[J];软件学报;2000年11期
【共引文献】
中国期刊全文数据库 前5条
1 刘泽权;田璐;刘超朋;;《红楼梦》中英文平行语料库的创建[J];当代语言学;2008年04期
2 林哲辉;贾剑锋;郭文;;新闻领域双语语料建设与句子对齐方法的研究[J];电脑与信息技术;2008年01期
3 吴小川;吐尔根·依布拉音;艾山·吾买尔;谭勋;;汉维哈柯双语平行语料库加工处理系统的设计与实现[J];电脑知识与技术;2011年27期
4 谭勋;吐尔根·依布拉音;艾山·吾买尔;艾山·毛力尼亚孜;;汉维哈柯双语语料库加工系统句子对齐技术的研究[J];电脑知识与技术;2011年28期
5 艾山·毛力尼亚孜;谭勋;吐尔根·依布拉音;艾山·吾买尔;;汉维哈柯双语语料库加工系统词对齐技术的研究[J];电脑知识与技术;2011年28期
中国重要会议论文全文数据库 前4条
1 吕雅娟;赵铁军;李生;杨沐昀;;统计和词典方法相结合的双语语料库词对齐[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 杨建;杨沐昀;于浩;时晓升;;面向译文质量的EBMT系统实例库优化研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年
3 周威;万康;刘志杰;;英汉双语自动对齐混合算法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 胡海鹏;闫永明;吴宏林;张俐;刘绍明;;基于组合线索和核心扩展方阵匹配的中日句对齐[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国博士学位论文全文数据库 前4条
1 王斌;汉英双语语料库自动对齐研究[D];中国科学院研究生院(计算技术研究所);1999年
2 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
3 屈刚;英汉双语短语对齐[D];上海交通大学;2007年
4 姜怡;基于文本互文性分析计算的典籍翻译研究[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 曹浩;基于机器学习的双语词汇抽取问题研究[D];南开大学;2011年
2 赵琦;面向问答社区的相关信息推荐技术研究[D];哈尔滨工业大学;2011年
3 张春国;工艺语句汉英计算机辅助翻译系统关键技术研究[D];南京航空航天大学;2004年
4 王飞;多语种双语对齐平台的设计与实现[D];南京理工大学;2004年
5 许超;汉英双语网页资源中相同事件文本对的提取[D];南京师范大学;2005年
6 毕雪华;汉维双语语料库中句子对齐技术的研究[D];新疆大学;2006年
7 张健;基于实例的机器翻译的泛化方法研究[D];中国科学院研究生院(计算技术研究所);2001年
8 李继锋;基于双层模板结构的机器翻译方法研究[D];中国科学院研究生院(计算技术研究所);2003年
9 张柯;基于概念格的语义相关度计算及应用[D];河南大学;2007年
10 周文;基于句法和语义的英汉翻译记忆系统的研究与实现[D];湖南大学;2007年
【同被引文献】
中国期刊全文数据库 前3条
1 毕雪华,吐尔根·依布拉音;基于限定领域的平行语料库的设计[J];电脑知识与技术;2005年26期
2 王斌,刘群,张祥;汉英双语库自动分段对齐研究[J];软件学报;2000年11期
3 李芳,盛焕烨;双语词汇自动获取系统[J];上海交通大学学报;2001年09期
中国重要会议论文全文数据库 前2条
1 吕雅娟;赵铁军;李生;杨沐昀;;统计和词典方法相结合的双语语料库词对齐[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 刘非凡;赵军;徐波;;大规模非限定领域汉英双语语料库建设及句子对齐研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国硕士学位论文全文数据库 前3条
1 祝志杰;IHSMTS中汉英双语句子对齐机制的设计与实现[D];南京理工大学;2002年
2 薛松;汉英平行语料库中名词短语对齐算法的研究[D];中国科学院研究生院(软件研究所);2003年
3 王飞;多语种双语对齐平台的设计与实现[D];南京理工大学;2004年
【二级引证文献】
中国期刊全文数据库 前3条
1 吴小川;吐尔根·依布拉音;艾山·吾买尔;谭勋;;汉维哈柯双语平行语料库加工处理系统的设计与实现[J];电脑知识与技术;2011年27期
2 谭勋;吐尔根·依布拉音;艾山·吾买尔;艾山·毛力尼亚孜;;汉维哈柯双语语料库加工系统句子对齐技术的研究[J];电脑知识与技术;2011年28期
3 艾山·毛力尼亚孜;谭勋;吐尔根·依布拉音;艾山·吾买尔;;汉维哈柯双语语料库加工系统词对齐技术的研究[J];电脑知识与技术;2011年28期
中国博士学位论文全文数据库 前2条
1 淑琴;蒙古文同形词知识库的构建[D];内蒙古大学;2010年
2 王斯日古楞;基于混合策略的汉蒙机器翻译及相关技术研究[D];内蒙古大学;2009年
中国硕士学位论文全文数据库 前4条
1 热西旦;汉文—维吾尔文双语语料库构建的实验性研究[D];新疆大学;2007年
2 牛洪梅;服务于汉维机器翻译系统的双语句子对齐的研究[D];新疆大学;2007年
3 刘建明;基于统计机器翻译的汉维词对齐研究[D];新疆大学;2010年
4 谭勋;维吾尔语句子中词聚类及其汉维词对齐的研究[D];新疆大学;2012年
【相似文献】
中国期刊全文数据库 前10条
1 李维刚;刘挺;张宇;李生;;基于长度和位置信息的双语句子对齐方法[J];哈尔滨工业大学学报;2006年05期
2 刘昕,周明,朱胜火,黄昌宁;基于自动抽取词汇信息的双语句子对齐[J];计算机学报;1998年S1期
3 李文刚;周杰;杨保群;;基于词典和句长及位置的双语对齐方法的改进[J];现代电子技术;2011年14期
4 庆明;禁止图片随段落移动[J];中国会计电算化;2004年02期
5 魏君;中文字表编辑软件CCED 5.O[J];电脑知识与技术;1996年04期
6 汤淡宁;Word捷径精选[J];电脑爱好者;1998年13期
7 徐文荣;格式、样式与模板[J];中国金融电脑;1997年07期
8 王长胜,刘群;双语语料库的检索和管理[J];计算机工程与应用;2002年07期
9 常宝宝,詹卫东,张华瑞;面向汉英机器翻译的双语语料库的建设及其管理[J];术语标准化与信息技术;2003年01期
10 宋冰;李锡祚;安纪霞;;双语对齐技术在双语教学词典自动编纂中的应用[J];计算机与数字工程;2007年11期
中国重要会议论文全文数据库 前10条
1 李维刚;刘挺;王震;李生;;双语语料库段落重组对齐方法研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 刘非凡;赵军;徐波;;大规模非限定领域汉英双语语料库建设及句子对齐研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 揭春雨;刘晓月;冼景炬;卫真道;;从网络获取香港法律双语语料库[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 黄新艳;姚文琳;徐建良;;基于汉英双语语料库的汉英Ontology的建立与管理[A];第七届青年学术会议论文集[C];2005年
5 热西旦·塔依;加米拉·吾守尔;吐尔根·依布拉音;;汉文-维吾尔文双语对齐语料库的实验性研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
6 张孝飞;代六玲;黄河燕;陈肇雄;;跨语言信息检索中查询关键词翻译转换算法[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
7 谭咏梅;王枞;王小捷;钟义信;;基于实例的机器辅助写作翻译系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
8 周威;万康;刘志杰;;英汉双语自动对齐混合算法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 乌达巴拉;敖其尔;;蒙英翻译片段对的自动抽取[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 李怡平;吴飞;;多语言环境下的分布式互联网分词平台[A];第十六届全国数据库学术会议论文集[C];1999年
中国重要报纸全文数据库 前10条
1 小渔;WPS中如何快速消除硬回车[N];中国电脑教育报;2004年
2 舍利子;网页制作中的段落缩进[N];电脑报;2002年
3 向德海;技巧回音壁[N];电脑报;2004年
4 胡涌;PHOTOSHOP6.0路径的应用技巧[N];中国包装报;2002年
5 舒洁;规范写公文[N];中国电脑教育报;2003年
6 北京 李健民;学用Word的格式[N];电脑报;2002年
7 千千;就是玩“虚”的[N];中国电脑教育报;2004年
8 王琳;巧用“样式”编辑Word文档[N];中国电脑教育报;2004年
9 北京西客站100055信箱1009分箱(100055) 王英红;WPS 2000中的目录提取技巧[N];计算机世界;2001年
10 阿馨娜尔;绘制个性化脸谱[N];中国电脑教育报;2003年
中国博士学位论文全文数据库 前10条
1 刘东飞;智能双语搜索方法及搜索引擎的研究[D];武汉理工大学;2009年
2 黎新;面向问答系统的段落检索技术研究[D];中国科学技术大学;2010年
3 段建勇;多词表达抽取及其应用[D];上海交通大学;2007年
4 刘鹏远;基于知识自动获取的无指导译文消歧方法研究[D];哈尔滨工业大学;2008年
5 方淼;语义单元自动获取研究[D];大连理工大学;2008年
6 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
7 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
8 王斌;汉英双语语料库自动对齐研究[D];中国科学院研究生院(计算技术研究所);1999年
9 于瑞国;维数约减算法研究及其在大规模文本数据挖掘中的应用[D];天津大学;2008年
10 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 林巍;段落检索系统及其应用的研究[D];哈尔滨工业大学;2010年
2 牛洪梅;服务于汉维机器翻译系统的双语句子对齐的研究[D];新疆大学;2007年
3 庞珊娜;基于Web的双语资源信息抽取研究[D];天津大学;2008年
4 周蓝海;多策略英汉词对齐技术的研究[D];沈阳航空工业学院;2009年
5 王飞;多语种双语对齐平台的设计与实现[D];南京理工大学;2004年
6 毕雪华;汉维双语语料库中句子对齐技术的研究[D];新疆大学;2006年
7 热西旦;汉文—维吾尔文双语语料库构建的实验性研究[D];新疆大学;2007年
8 周星;双语辅助翻译搜索引擎若干问题研究[D];武汉理工大学;2009年
9 祝志杰;IHSMTS中汉英双语句子对齐机制的设计与实现[D];南京理工大学;2002年
10 陈相;面向生物医学领域的双语对齐技术研究[D];大连理工大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026