收藏本站
《第十一届全国人机语音通讯学术会议论文集(一)》2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于向量空间模型的网页文本句子对齐方法研究

张贯虹  乌达巴拉  巩政  
【摘要】:平行网页文本中除了互为对照的内容,还存在一些无关的噪声,因此利用网页结构相似的方法解决平行网页中句对齐问题受到一定的限制.通过引入互译词典或同类词典的方法可以提高句对齐质量,但是双语词典的规模是有限的,不能覆盖所有对应的词汇.本文利用基于向量空间模型提供的相似度计算方法对平行网页文本进行句子对齐.在向量空间模型中,网页文本中的句子为一维空间中的向量,选取实词作为特征项,利用CHI统计量计算词汇关联度,采用TF-IDF算法计算特征项权重,采用cosine距离计算句子向量之间的相似度,解决平行网页文本句对齐问题.以蒙古文-中文平行网页为实验对象,设计了相关实验.实验结果证实了本文方法的有效性.

【参考文献】
中国期刊全文数据库 前2条
1 常宝宝;基于统计的翻译等价词对抽取研究[J];计算机学报;2003年05期
2 叶莎妮;吕雅娟;黄赟;刘群;;基于Web的双语平行句对自动获取[J];中文信息学报;2008年05期
【共引文献】
中国期刊全文数据库 前10条
1 方淼;高庆狮;余祖波;;语义单元表示库的半自动构建技术[J];华中科技大学学报(自然科学版);2005年S1期
2 肖华云,常宝宝;服务于双语词典编纂的检索平台[J];计算机工程与应用;2005年15期
3 姜子进;吐尔根·依布拉音;赛依旦·阿不力米提;田生伟;;Web环境下自动获取汉、维语料库[J];计算机应用与软件;2011年12期
4 吴宏林;刘绍明;于戈;;基于加权二部图的汉日词对齐[J];中文信息学报;2007年05期
5 林政;吕雅娟;刘群;马希荣;;Web平行语料挖掘及其在机器翻译中的应用[J];中文信息学报;2010年05期
6 史树敏;机器翻译方法的研究现状[J];内蒙古师范大学学报(自然科学汉文版);2004年02期
7 李秀英;;术语与机器翻译——实验结果分析与术语数据库的构建[J];实验室研究与探索;2008年11期
8 王东波;谢靖;;英汉对照语言对自动获取[J];图书情报工作;2010年17期
9 马芳 ,王炳锡 ,郭永辉;一种新的自纠错句对齐算法的研究与实现[J];微计算机信息;2005年20期
10 陈国华;王立欣;梁茂成;刘树杰;许家金;;英汉/汉英对译语料库对应词检索器[J];外语电化教学;2006年06期
中国重要会议论文全文数据库 前6条
1 常宝宝;肖华云;;面向语言学家和词典编纂专家的汉英双语语料库检索系统[A];2004年辞书与数字化研讨会论文集[C];2004年
2 黄新艳;姚文琳;徐建良;;基于汉英双语语料库的汉英Ontology的建立与管理[A];第七届青年学术会议论文集[C];2005年
3 肖华云;常宝宝;俞士汶;;中文词、词组对应英文翻译的自动识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年
4 吴宏林;刘绍明;;基于二部图最大匹配的汉日词对齐[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 乌达巴拉;敖其尔;;蒙英翻译片段对的自动抽取[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
6 梁建飞;吐尔根·依布拉音;;基于Web的双语平行网页自动获取技术的研究现状及分析[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
中国博士学位论文全文数据库 前4条
1 浑洁絮;基于语义语言的英汉机器翻译研究[D];大连理工大学;2011年
2 万江波;双语词典的翻译研究[D];上海外国语大学;2005年
3 方淼;语义单元自动获取研究[D];大连理工大学;2008年
4 李秀英;基于历史典籍双语平行语料库的术语对齐研究[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 王莹;从互联网上挖掘双语语料的研究与实现[D];华东师范大学;2011年
2 梁建飞;网络环境下获取汉维篇章级平行语料的研究[D];新疆大学;2011年
3 王超;大规模网络数据中的平行句对抽取[D];哈尔滨工业大学;2011年
4 罗阳;基于Web数据的双语资源挖掘技术研究[D];沈阳航空航天大学;2011年
5 林业;基于WEB的汉英双语语料获取研究[D];北京邮电大学;2012年
6 张永臣;基于互联网文本数据的特定领域双语词典抽取[D];中国科学院研究生院(软件研究所);2005年
7 乌达巴拉;基于混合策略的蒙—英机器翻译系统的研究[D];内蒙古大学;2007年
8 刘艳;基于浅层句法信息的英汉翻译实例获取方法研究[D];哈尔滨工业大学;2007年
9 陈相;面向生物医学领域的双语对齐技术研究[D];大连理工大学;2009年
10 李慧;[D];电子科技大学;2009年
【二级参考文献】
中国期刊全文数据库 前2条
1 孙乐,金友兵,杜林,孙玉芳;平行语料库中双语术语词典的自动抽取[J];中文信息学报;2000年06期
2 俞士汶,段慧明,朱学锋,孙斌;北京大学现代汉语语料库基本加工规范[J];中文信息学报;2002年05期
【相似文献】
中国期刊全文数据库 前10条
1 吴鹏飞;马凤娟;;基于Boost.Regex的网页信息抽取[J];电脑编程技巧与维护;2009年15期
2 杜翠茹;;浅析网页布局方法在教学中的优化[J];大众科技;2010年05期
3 孟涛,闫宏飞,王继民;Web网页信息变化的时间局部性规律及其验证[J];情报学报;2005年04期
4 ;和朋友看同一个网页的幸福生活[J];计算机与网络;2005年18期
5 张晓彦;张晓明;;一种基于表格属性的网页信息隐藏算法[J];北京石油化工学院学报;2009年01期
6 胡少荣;孟嗣仪;刘云;张彦超;丁飞;;网页信息自动抽取技术的研究[J];铁路计算机应用;2010年09期
7 田正军;张鸿彦;;基于自动分类的邮件过滤系统[J];河南科学;2007年02期
8 张荐硕;方钰;;基于向量空间模型的Web服务发现方法[J];计算机工程;2011年03期
9 陈鑫;基于VSM的中文网页自动分类模型[J];晋东南师范专科学校学报;2004年02期
10 何静,刘海燕;基于向量空间模型的实时内容过滤[J];计算机工程;2004年15期
中国重要会议论文全文数据库 前10条
1 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
4 廖祝华;刘建勋;易爱平;;基于用户兴趣的Web服务发现[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
5 豆风雷;蔡永泉;;互联网WEB信息内容过滤系统[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 吴炜;梁昆;李瑞轩;辜希武;卢正鼎;;一种基于主题相关度的网页排序算法[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
7 林臻彪;陈性元;汪永伟;;基于数据流分析的内网防泄密系统[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
8 黄华军;王保卫;孙星明;;基于CSS类选择符重复引入的网页信息隐藏算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
9 何平;李锦;;基于Web挖掘技术的用户模糊偏好分析[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
10 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
中国重要报纸全文数据库 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 路人甲;请个专家来贴图[N];电脑报;2005年
3 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
4 湖北 文武;详解缓存[N];中国电脑教育报;2001年
5 劲风;你的电子邮件需要保密吗[N];中国电脑教育报;2003年
6 江苏 肖敏浩;IE中缓存的设置[N];电脑报;2001年
7 于发修;寻找搜索的技巧[N];中国计算机报;2001年
8 张;英汉双向翻译[N];中国计算机报;2001年
9 中国科学院研究生院信息安全国家重点实验室 刘亮 徐海波 中软股份有限公司 尚铭;互联网的“海岸警卫队”[N];计算机世界;2004年
10 ;263客服中心五种方式同时接入[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
2 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
3 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
4 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
5 王菁;P2P系统中资源管理机制的研究[D];中国科学技术大学;2007年
6 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
7 余伟;基于用户个性挖掘的Web社区营销研究[D];武汉大学;2011年
8 葛继科;语义网格环境中的服务匹配研究[D];西南大学;2009年
9 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
10 胡俊;在线社会网络上SPAM行为检测方法研究[D];华中科技大学;2011年
中国硕士学位论文全文数据库 前10条
1 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
2 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
3 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年
4 邓科;智能搜索中的中文网页分类研究[D];兰州理工大学;2011年
5 马伟瑜;基于改进的PageRank的网页信息可信度评估方法研究[D];河北大学;2011年
6 李霞;文本过滤防火墙技术研究[D];北方工业大学;2011年
7 李中原;基于向量空间模型的网页过滤研究[D];北京化工大学;2010年
8 汪永伟;搜索引擎中网页排序算法的研究与实现[D];哈尔滨工程大学;2010年
9 段飞;相似网页识别算法的研究与实现[D];北京邮电大学;2011年
10 买买提依明·哈斯木;基于后缀树的维吾尔文网页聚类算法的设计与实现[D];新疆大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026