收藏本站
《第六届全国信息检索学术会议论文集》2010年
收藏 | 手机打开
二维码
手机客户端打开本文

面向单一网页的双语资源挖掘方法

罗阳  季铎  张桂平  王莹莹  
【摘要】:双语资源是机器翻译和跨语言信息检索等领域的重要资源,但是由于语料库真实性、时效性和语种灵活性等问题,使得现有的双语资源的规模很难满足实际应用的需要。本文提出一种面向单一双语网页的双语资源挖掘方法,该方法与现今平行网页的双语资源挖掘技术不同,重点采用了以频繁序列模式为特征的SVM分类方法,实现了包含双语资源的单一网页的筛选与识别,并以此为基础挖掘具有对译的双语资源。实验结果表明,基于分类方法筛选出的双语网页具有91.25%的正确率,采用FSP算法的双语资源抽取正确率可达到92.5%。
【作者单位】:沈阳航空航天大学知识工程中心
【基金】:辽宁省教育厅科研项目(LT2010084)
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前1条
1 徐凤亚,罗振声;文本自动分类中特征权重算法的改进研究[J];计算机工程与应用;2005年01期
【共引文献】
中国期刊全文数据库 前10条
1 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
2 徐正光,王淑盛,刘冀伟,王志良,史立峰;基于主成分分析的核Fisher判别方法在油水识别中的应用[J];北京科技大学学报;2005年01期
3 吴德会;王晓红;;基于SVM的传感器动态模型辩识方法[J];传感技术学报;2006年03期
4 常玉清,王福利,王小刚,吕哲;基于支持向量机的生物发酵过程软测量建模[J];东北大学学报(自然科学版);2005年11期
5 吕干云;程浩忠;郑金菊;汪晓东;;基于S变换和多级SVM的电能质量扰动检测识别[J];电工技术学报;2006年01期
6 宇缨;;支持向量机及其在自然语言处理中的应用[J];东莞理工学院学报;2007年01期
7 李亚伟;陈守煜;韩小军;;基于支持向量机SVR的黄河凌汛预报方法[J];大连理工大学学报;2006年02期
8 陶亮,庄镇泉;基于小波分解和支持向量机的准正面人脸识别方法[J];电路与系统学报;2003年06期
9 吕干云,程浩忠,董立新,翟海保;基于多级支持向量机分类器的电力变压器故障识别[J];电力系统及其自动化学报;2005年01期
10 潘峰,程浩忠,杨镜非,张澄,潘震东;基于支持向量机的电力系统短期负荷预测[J];电网技术;2004年21期
中国重要会议论文全文数据库 前10条
1 LI Yawei~a CHEN Shouyu~a XU Dawei~b a School of Civil and Hydraulic Engineering; b 21~(st) Century Development Research Center Dalian University of Technology,Dalian 116024,China;The Support Vector Machine Technique for Concrete Adherence Strength Prediction[A];Proceedings of 6th International Symposium on Test and Measurement(Volume 5)[C];2005年
2 Lin Jipeng Liu Junhua School of Electrical Engineering,Xi'an Jiaotong University,Xi'an 710049,China;A Wavelet Kernel for Support Vector Machine Based on Frame Theory[A];Proceedings of 6th International Symposium on Test and Measurement(Volume 5)[C];2005年
3 Lin Jipeng Liu Junhua School of Electrical Engineering,Xi'an Jiaotong University,Xi'an 710049,China;Support vector machines for multi-component gases classification with wavelet features extraction[A];Proceedings of 6th International Symposium on Test and Measurement(Volume 6)[C];2005年
4 Hirotaka Nakayama;Yeboon Yun;;REGRESSION BY SUPPORT VECTOR MACHINES AND ITS APPLICATIONS TO ENGINEERING DESIGN[A];Proceedings of the Fourth China-Japan-Korea Joint symposium on Optimization of Structural and Mechanical Systems[C];2006年
5 Yeboon Yun;Hirotaka Nakayama;Min Yoon;;MULTI-OBJECTIVE OPTIMIZATION BASED ON ASPIRATION LEVELS AND APPROXIMATION OF PARETO FRONTIER[A];Proceedings of the Fourth China-Japan-Korea Joint symposium on Optimization of Structural and Mechanical Systems[C];2006年
6 张艳宁;郑江滨;赵荣椿;;一种有效的遥感图像识别方法[A];第九届中国体视学与图像分析学术会议论文集[C];2001年
7 石培培;刘红英;;具有单个等式和界约束二次规划的新算法[A];中国运筹学会第八届学术交流会论文集[C];2006年
8 SUN Jin-wen, YANG Jian-wu, LU Bin, XIAO Jian-guo~+ National Key Laboratory for Text Processing. Institute of Computer Science and Technology. Peking University, Beijing 100871, China;Incremental Training for SVM-Based Classification with Keyword Adjusting[A];Proceedings of the First Conference on Web Information System and Applications(WISA 2004)[C];2004年
9 吕哲;常玉清;王福利;;生化过程软测量建模方法的研究[A];2006中国控制与决策学术年会论文集[C];2006年
10 颜根廷;马广富;朱良宽;宋斌;;一种鲁棒支持向量机算法[A];2006中国控制与决策学术年会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 陆阳;二进神经网络规则提取方法研究[D];合肥工业大学;2002年
2 叶俊勇;人脸检测与识别方法研究[D];重庆大学;2002年
3 马笑潇;智能故障诊断中的机器学习新理论及其应用研究[D];重庆大学;2002年
4 夏建涛;基于机器学习的高维多光谱数据分类[D];西北工业大学;2002年
5 王亮申;图像特征提取及基于内容图像数据库检索理论和方法研究[D];大连理工大学;2002年
6 张燕平;基于商空间的构造性数据挖掘方法及应用[D];安徽大学;2003年
7 范昕炜;支持向量机算法的研究及其应用[D];浙江大学;2003年
8 吴涛;核函数的性质、方法及其在障碍检测中的应用[D];中国人民解放军国防科学技术大学;2003年
9 庾农;基于形态学理论的目标检测技术[D];中国人民解放军国防科学技术大学;2000年
10 张莉;支撑矢量机与核方法研究[D];西安电子科技大学;2002年
中国硕士学位论文全文数据库 前10条
1 姜绍君;与文本有关的说话人识别方法的研究[D];大连理工大学;2001年
2 忻栋;支持向量机算法的研究及在说话人识别上的应用[D];浙江大学;2002年
3 刘学军;键盘用户身份验真与加权主分量分类器[D];南京航空航天大学;2002年
4 冯洪海;基于粗糙集和支持向量机的多值分类算法[D];河北农业大学;2002年
5 姬水旺;强噪声和类间重叠数据下支持向量机学习的研究[D];武汉科技大学;2002年
6 李春光;自适应信号处理的神经网络方法[D];电子科技大学;2002年
7 阚忠良;数字图书馆中基于结构和内容的文本信息检索技术的研究[D];黑龙江大学;2002年
8 刘占平;并行数字图书馆系统中人机交互系统的设计与实现[D];黑龙江大学;2002年
9 顾先睿;并行数字图书馆系统中数据的分布、加载和维护[D];黑龙江大学;2002年
10 任美睿;数字图书馆中词频提取和自动文本分类方法的研究[D];黑龙江大学;2002年
【二级参考文献】
中国期刊全文数据库 前3条
1 刘少辉,董明楷,张海俊,李蓉,史忠植;一种基于向量空间模型的多层次文本分类方法[J];中文信息学报;2002年03期
2 张永臣;孙乐;李飞;李文波;西野文人;于浩;方高林;;基于Web数据的特定领域双语词典抽取[J];中文信息学报;2006年02期
3 张月杰,姚天顺;基于特征相关性的汉语文本自动分类模型的研究[J];小型微型计算机系统;1998年08期
【相似文献】
中国期刊全文数据库 前10条
1 黄晓斌;谭颖骞;;网络信息挖掘方法的效果评价[J];情报理论与实践;2011年06期
2 殷振瑾;王阳;暴宏伶;;数据挖掘技术在中医医案研究中的应用[J];承德医学院学报;2011年03期
3 朱沿旭;王怀民;史殿习;尹刚;袁霖;李翔;;基于缩进轮廓的HTML文档重复模式挖掘方法[J];计算机科学;2011年08期
4 范广玲;李春生;高雅田;;数据挖掘模型选择的通用建模研究[J];科学技术与工程;2011年19期
5 戎翔;李玲娟;;基于MapReduce的频繁项集挖掘方法[J];西安邮电学院学报;2011年04期
6 高峰;翟丽冰;肖政;;电力行业网络舆情监测系统的设计与实现[J];电力信息化;2011年04期
7 吴方余;蒋崯崯;;网络舆情巡查系统的设计与实现[J];计算机时代;2011年08期
8 HLG;;安全,又到焦点——安全焦点峰会2010报道[J];程序员;2010年09期
9 柴思跃;苏奋振;周成虎;;基于周期表的时空关联规则挖掘方法与实验[J];地球信息科学学报;2011年04期
10 蒋国瑞;王秋利;;基于本体的TBT电子信息产品领域主题爬虫研究[J];情报杂志;2011年07期
中国重要会议论文全文数据库 前10条
1 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
2 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 赵文兵;尤定华;;基于图形理解框架的地理信息挖掘方法[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
4 王晓峰;刘惟一;;从用户需求到网页集团的模糊变换[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
5 吴倩;杨逍;张兆心;;基于视觉特征的网页信息提取[A];第六届全国信息检索学术会议论文集[C];2010年
6 张贯虹;乌达巴拉;巩政;;基于向量空间模型的网页文本句子对齐方法研究[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
7 刘国华;马朝虹;马博;刘佳;;量化关联规则的隐私保持挖掘方法[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
8 段磊;唐常杰;左劼;陈宇;钟义啸;元昌安;;基于基因表达式编程的抗噪声数据的函数挖掘方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
9 吴以凡;吴铁军;欧阳树生;;面向生产过程质量控制的动态数据挖掘方法[A];05'中国自动化产业高峰会议暨中国企业自动化和信息化建设论坛论文集[C];2005年
10 赵玉芳;张一鸣;;基于网页信息的印象形成的初步研究[A];第十届全国心理学学术大会论文摘要集[C];2005年
中国重要报纸全文数据库 前10条
1 壮壮;批量保存网页信息[N];电脑报;2004年
2 东方早报记者 李伟;要名还是要利,这是个问题[N];东方早报;2011年
3 肖意;谈会议新闻“富矿”的挖掘方法[N];中华新闻报;2007年
4 本报综合;美国科学家拟造月球土壤挖掘机[N];中国工业报;2008年
5 金山软件副总裁 杨桓;着力“三大系统” 构筑网络安全屏障[N];中国电子报;2009年
6 郭京霞;枫叶之都状告百度恶意排名一审败诉[N];中国知识产权报;2007年
7 夏凌;搜索引擎排名纠纷百度胜出[N];中华工商时报;2007年
8 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
9 路人甲;请个专家来贴图[N];电脑报;2005年
10 特约记者 孙现富 本报记者 付毅飞;任辉启 铸造和平之盾[N];科技日报;2002年
中国博士学位论文全文数据库 前10条
1 周春英;超数据集成挖掘方法与技术研究[D];浙江大学;2012年
2 朱志国;Web用户使用模式与兴趣挖掘方法研究[D];大连理工大学;2010年
3 刘亚波;关联规则挖掘方法的研究及应用[D];吉林大学;2005年
4 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
5 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
6 骆科东;短时间序列挖掘方法研究[D];清华大学;2004年
7 吴学雁;金融时间序列模式挖掘方法的研究[D];华南理工大学;2010年
8 方善锋;数据挖掘方法在高导电高弹性铜合金及其它金属材料中的应用[D];中南大学;2009年
9 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
10 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 于洪波;中文网页自动采集与分类系统设计与实现[D];北京邮电大学;2010年
2 钟鸿鹏;基于时态信息的网页排序系统的研究与实现[D];华南理工大学;2010年
3 张航;主题爬虫的实现及其关键技术研究[D];武汉理工大学;2010年
4 冯明远;深度网络信息爬取关键技术研究与实现[D];浙江大学;2010年
5 邓科;智能搜索中的中文网页分类研究[D];兰州理工大学;2011年
6 沈洲;基于用户访问意图的网页动态建模技术的研究[D];东北大学;2008年
7 寇春花;主题爬虫的研究与实现[D];东北大学;2008年
8 党春辉;网页消重和聚类算法在高校搜索引擎中的研究与应用[D];东华大学;2010年
9 卢凡;基于领域本体的主题爬虫系统研究与实现[D];电子科技大学;2011年
10 马伟瑜;基于改进的PageRank的网页信息可信度评估方法研究[D];河北大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026