收藏本站
《中国计算机语言学研究前沿进展(2007-2009)》2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于双语混和网页的平行语料挖掘

林政  吕雅娟  刘群  马希荣  
【摘要】:双语平行语料是统计机器翻译模型训练必不可少的基础资源,但是大规模双语平行语料库的自动获取并不容易。本文提出了一种从双语混合网页上自动挖掘大规模双语平行语料库的解决方案,研究了候选双语混合网页的获取,网页噪声过滤,双语网页确认以及平行句对抽取等关键技术,最后实现了一个基于双语混合网页的平行句对自动挖掘系统。利用该系统获取了105万双语平行句对,平均正确率为93%,其中前20万获取的双语句对的正确率达到99%。
【作者单位】:中国科学院计算技术研究所
【基金】:国家自然科学基金(60603095)的资助
【分类号】:TP391.2

【相似文献】
中国期刊全文数据库 前10条
1 滕启龙;王健;;基于Web挖掘的个性化远程教学系统的研究与实现[J];福建电脑;2011年06期
2 王立平;刘艳玲;;web挖掘在农业数字图书馆中的应用[J];农业考古;2011年03期
3 曹棣;孔晓斌;;基于粗糙k-均值的web事务的聚类[J];山西师范大学学报(自然科学版);2011年02期
4 夏惠芬;董卫民;;基于关联规则的Web挖掘技术研究[J];现代电子技术;2011年16期
5 马伟杰;;数据挖掘在高校学生工作中的应用[J];软件导刊;2011年08期
6 戴菲;;数据挖掘技术在电子商务中的应用[J];电脑知识与技术;2011年21期
7 张笑;;一种新的基于Web日志的数据聚类算法研究[J];电脑知识与技术;2011年21期
8 彭耶萍;;自适应遗传模拟退火的Web日志关联挖掘[J];软件导刊;2011年07期
9 于新;吴健;洪锦玲;;基于词典的汉藏句子对齐研究与实现[J];中文信息学报;2011年04期
10 ;[J];;年期
中国重要会议论文全文数据库 前9条
1 林政;吕雅娟;刘群;马希荣;;基于双语混和网页的平行语料挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年
3 师伟;廖闻剑;;数据挖掘在Web上的研究与应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
4 张艳;周国祥;;Web挖掘在个性化信息检索中的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
5 宋江春;沈钧毅;;基于CORBA的分布式Web挖掘系统的设计与实现[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
6 栾悉道;谢毓湘;文军;吴玲达;;基于知识库的主动式专题搜索引擎[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
7 汪洋;张磊;章毅;;基于短语匹配的中文Web文档聚类算法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
8 方高林;于浩;孟遥;邹纲;;基于字分析单元的辅助阅读系统[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
9 徐金安;蒋俊杰;;基于N-gram的无参考译文机器翻译自动评测方法[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
中国重要报纸全文数据库 前5条
1 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
2 涂序彦 陈泓娟;在网络信息海洋中淘金[N];计算机世界;2001年
3 ;Web收获:吸纳有用信息[N];计算机世界;2004年
4 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
5 本报记者 仝仁;数据库网联服务[N];中国计算机报;2001年
中国博士学位论文全文数据库 前7条
1 易明;基于Web挖掘的电子商务个性化推荐机理与方法研究[D];华中科技大学;2006年
2 肖敏;基于领域本体的电子商务推荐技术研究[D];武汉理工大学;2009年
3 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
4 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年
5 袁方;面向智能信息检索的Web挖掘关键技术研究[D];东北大学;2006年
6 邓爱林;电子商务推荐系统关键技术研究[D];复旦大学;2003年
7 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 蒲秋梅;基于XML的Web数据挖掘技术的研究[D];武汉大学;2004年
2 孙丽;Web数据的挖掘方法研究[D];大庆石油学院;2004年
3 牟刚;基于XML的Web信息挖掘技术的研究[D];重庆大学;2004年
4 唐飞龙;Internet信息获取技术的研究[D];合肥工业大学;2002年
5 郭鹏;基于Web数据挖掘分类算法的个性化信息服务[D];太原理工大学;2003年
6 詹晶晶;基于WEB挖掘的网络蜘蛛的研究与实现[D];厦门大学;2007年
7 门志勇;CRM系统及应用研究[D];首都经济贸易大学;2002年
8 祝效普;WEB用户访问序列模式挖掘[D];天津大学;2005年
9 王婷;基于Web挖掘的电子商务推荐系统的应用研究[D];华北电力大学(河北);2008年
10 邹丽霞;基于关联规则挖掘的Web个性化推荐研究[D];郑州大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026