收藏本站
收藏 | 论文排版

面向单一网页的双语资源挖掘方法

罗阳  季铎  张桂平  王莹莹  
【摘要】:双语资源是机器翻译和跨语言信息检索等领域的重要资源,但是由于语料库真实性、时效性和语种灵活性等问题,使得现有的双语资源的规模很难满足实际应用的需要。本文提出一种面向单一双语网页的双语资源挖掘方法,该方法与现今平行网页的双语资源挖掘技术不同,重点采用了以频繁序列模式为特征的SVM分类方法,实现了包含双语资源的单一网页的筛选与识别,并以此为基础挖掘具有对译的双语资源。实验结果表明,基于分类方法筛选出的双语网页具有91.25%的正确率,采用FSP算法的双语资源抽取正确率可达到92.5%。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 黄晓斌;谭颖骞;;网络信息挖掘方法的效果评价[J];情报理论与实践;2011年06期
2 殷振瑾;王阳;暴宏伶;;数据挖掘技术在中医医案研究中的应用[J];承德医学院学报;2011年03期
3 朱沿旭;王怀民;史殿习;尹刚;袁霖;李翔;;基于缩进轮廓的HTML文档重复模式挖掘方法[J];计算机科学;2011年08期
4 范广玲;李春生;高雅田;;数据挖掘模型选择的通用建模研究[J];科学技术与工程;2011年19期
5 戎翔;李玲娟;;基于MapReduce的频繁项集挖掘方法[J];西安邮电学院学报;2011年04期
6 高峰;翟丽冰;肖政;;电力行业网络舆情监测系统的设计与实现[J];电力信息化;2011年04期
7 吴方余;蒋崯崯;;网络舆情巡查系统的设计与实现[J];计算机时代;2011年08期
8 HLG;;安全,又到焦点——安全焦点峰会2010报道[J];程序员;2010年09期
9 柴思跃;苏奋振;周成虎;;基于周期表的时空关联规则挖掘方法与实验[J];地球信息科学学报;2011年04期
10 蒋国瑞;王秋利;;基于本体的TBT电子信息产品领域主题爬虫研究[J];情报杂志;2011年07期
11 李帆;夏士雄;张磊;;基于模糊理论的不确定轨迹模式挖掘[J];微电子学与计算机;2011年08期
12 张连育;吕立;;基于策略模式的中医数据挖掘平台的设计与研究[J];小型微型计算机系统;2011年07期
13 闫少华;张巍;滕少华;;基于密度的离群点挖掘在入侵检测中的应用[J];计算机工程;2011年18期
14 李向东;刘晓斌;武利平;常洪梅;;面向路线图编制的模糊均值文本聚类挖掘方法研究[J];河北工业大学学报;2011年03期
15 于成龙;;中文网页信息抽取技术及分类算法研究[J];山东理工大学学报(自然科学版);2011年03期
16 张韬;胡旻;;互联网Web数据挖掘模型设计与技术实现[J];卫星与网络;2010年10期
17 宫俊;董俊龙;梁茂新;唐加福;;基于关联规则的广义药对最适合病证的挖掘方法[J];东北大学学报(自然科学版);2011年08期
18 李海峰;;基于GPU的闭合频繁项集挖掘方法[J];计算机工程;2011年14期
19 陈淼;;基于数据包分析的网页还原技术研究[J];中国科技信息;2011年16期
20 徐有福;文伟平;尹亮;;基于补丁引发新漏洞的防攻击方法研究[J];信息网络安全;2011年07期
中国重要会议论文全文数据库 前10条
1 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 赵文兵;尤定华;;基于图形理解框架的地理信息挖掘方法[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
4 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
5 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
6 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
7 刘国华;马朝虹;马博;刘佳;;量化关联规则的隐私保持挖掘方法[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
8 段磊;唐常杰;左劼;陈宇;钟义啸;元昌安;;基于基因表达式编程的抗噪声数据的函数挖掘方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
9 吴以凡;吴铁军;欧阳树生;;面向生产过程质量控制的动态数据挖掘方法[A];05'中国自动化产业高峰会议暨中国企业自动化和信息化建设论坛论文集[C];2005年
10 赵玉芳;张一鸣;;基于网页信息的印象形成的初步研究[A];第十届全国心理学学术大会论文摘要集[C];2005年
中国博士学位论文全文数据库 前10条
1 周春英;超数据集成挖掘方法与技术研究[D];浙江大学;2012年
2 朱志国;Web用户使用模式与兴趣挖掘方法研究[D];大连理工大学;2010年
3 刘亚波;关联规则挖掘方法的研究及应用[D];吉林大学;2005年
4 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
5 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
6 骆科东;短时间序列挖掘方法研究[D];清华大学;2004年
7 吴学雁;金融时间序列模式挖掘方法的研究[D];华南理工大学;2010年
8 方善锋;数据挖掘方法在高导电高弹性铜合金及其它金属材料中的应用[D];中南大学;2009年
9 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
10 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
2 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
3 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年
4 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年
5 邓科;智能搜索中的中文网页分类研究[D];兰州理工大学;2011年
6 沈洲;基于用户访问意图的网页动态建模技术的研究[D];东北大学;2008年
7 寇春花;主题爬虫的研究与实现[D];东北大学;2008年
8 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年
9 卢凡;基于领域本体的主题爬虫系统研究与实现[D];电子科技大学;2011年
10 马伟瑜;基于改进的PageRank的网页信息可信度评估方法研究[D];河北大学;2011年
中国重要报纸全文数据库 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 东方早报记者 李伟;要名还是要利,这是个问题[N];东方早报;2011年
3 肖意;谈会议新闻“富矿”的挖掘方法[N];中华新闻报;2007年
4 本报综合;美国科学家拟造月球土壤挖掘机[N];中国工业报;2008年
5 金山软件副总裁 杨桓;着力“三大系统” 构筑网络安全屏障[N];中国电子报;2009年
6 郭京霞;枫叶之都状告百度恶意排名一审败诉[N];中国知识产权报;2007年
7 夏凌;搜索引擎排名纠纷百度胜出[N];中华工商时报;2007年
8 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
9 路人甲;请个专家来贴图[N];电脑报;2005年
10 特约记者 孙现富 本报记者 付毅飞;任辉启 铸造和平之盾[N];科技日报;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978