收藏本站
《第六届全国信息检索学术会议论文集》2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于搜索引擎的双语混合网页识别新方法

冯艳卉  洪宇  颜振祥  姚建民  朱巧明  
【摘要】:本文提出了一种从搜索引擎返回的结果网页中获取双语网页的新方法,该方法分为两个任务。第一个任务是自动地检测并收集搜索引擎返回的结果网页中的数据记录。该步骤通过聚类的方法识别出有用的记录摘要并且为下一个任务即高质最双语混合网页的验证及其获取提供有效特征。本文中把双语混合网页的验证看作是有效的分类问题,该方法不依赖于特定领域和搜索引擎。基于从搜索引擎收集并经过人工标注的2516条检索结果记录,本文提出的方法取得了81.3%的精确率和94.93%的召回率。

手机知网App
【共引文献】
中国期刊全文数据库 前10条
1 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
2 徐正光,王淑盛,刘冀伟,王志良,史立峰;基于主成分分析的核Fisher判别方法在油水识别中的应用[J];北京科技大学学报;2005年01期
3 吴德会;王晓红;;基于SVM的传感器动态模型辩识方法[J];传感技术学报;2006年03期
4 常玉清,王福利,王小刚,吕哲;基于支持向量机的生物发酵过程软测量建模[J];东北大学学报(自然科学版);2005年11期
5 吕干云;程浩忠;郑金菊;汪晓东;;基于S变换和多级SVM的电能质量扰动检测识别[J];电工技术学报;2006年01期
6 宇缨;;支持向量机及其在自然语言处理中的应用[J];东莞理工学院学报;2007年01期
7 李亚伟;陈守煜;韩小军;;基于支持向量机SVR的黄河凌汛预报方法[J];大连理工大学学报;2006年02期
8 陶亮,庄镇泉;基于小波分解和支持向量机的准正面人脸识别方法[J];电路与系统学报;2003年06期
9 吕干云,程浩忠,董立新,翟海保;基于多级支持向量机分类器的电力变压器故障识别[J];电力系统及其自动化学报;2005年01期
10 潘峰,程浩忠,杨镜非,张澄,潘震东;基于支持向量机的电力系统短期负荷预测[J];电网技术;2004年21期
中国重要会议论文全文数据库 前10条
1 LI Yawei~a CHEN Shouyu~a XU Dawei~b a School of Civil and Hydraulic Engineering; b 21~(st) Century Development Research Center Dalian University of Technology,Dalian 116024,China;The Support Vector Machine Technique for Concrete Adherence Strength Prediction[A];Proceedings of 6th International Symposium on Test and Measurement(Volume 5)[C];2005年
2 Lin Jipeng Liu Junhua School of Electrical Engineering,Xi'an Jiaotong University,Xi'an 710049,China;A Wavelet Kernel for Support Vector Machine Based on Frame Theory[A];Proceedings of 6th International Symposium on Test and Measurement(Volume 5)[C];2005年
3 Lin Jipeng Liu Junhua School of Electrical Engineering,Xi'an Jiaotong University,Xi'an 710049,China;Support vector machines for multi-component gases classification with wavelet features extraction[A];Proceedings of 6th International Symposium on Test and Measurement(Volume 6)[C];2005年
4 Hirotaka Nakayama;Yeboon Yun;;REGRESSION BY SUPPORT VECTOR MACHINES AND ITS APPLICATIONS TO ENGINEERING DESIGN[A];Proceedings of the Fourth China-Japan-Korea Joint symposium on Optimization of Structural and Mechanical Systems[C];2006年
5 Yeboon Yun;Hirotaka Nakayama;Min Yoon;;MULTI-OBJECTIVE OPTIMIZATION BASED ON ASPIRATION LEVELS AND APPROXIMATION OF PARETO FRONTIER[A];Proceedings of the Fourth China-Japan-Korea Joint symposium on Optimization of Structural and Mechanical Systems[C];2006年
6 张艳宁;郑江滨;赵荣椿;;一种有效的遥感图像识别方法[A];第九届中国体视学与图像分析学术会议论文集[C];2001年
7 石培培;刘红英;;具有单个等式和界约束二次规划的新算法[A];中国运筹学会第八届学术交流会论文集[C];2006年
8 SUN Jin-wen, YANG Jian-wu, LU Bin, XIAO Jian-guo~+ National Key Laboratory for Text Processing. Institute of Computer Science and Technology. Peking University, Beijing 100871, China;Incremental Training for SVM-Based Classification with Keyword Adjusting[A];Proceedings of the First Conference on Web Information System and Applications(WISA 2004)[C];2004年
9 吕哲;常玉清;王福利;;生化过程软测量建模方法的研究[A];2006中国控制与决策学术年会论文集[C];2006年
10 颜根廷;马广富;朱良宽;宋斌;;一种鲁棒支持向量机算法[A];2006中国控制与决策学术年会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 陆阳;二进神经网络规则提取方法研究[D];合肥工业大学;2002年
2 叶俊勇;人脸检测与识别方法研究[D];重庆大学;2002年
3 马笑潇;智能故障诊断中的机器学习新理论及其应用研究[D];重庆大学;2002年
4 夏建涛;基于机器学习的高维多光谱数据分类[D];西北工业大学;2002年
5 王亮申;图像特征提取及基于内容图像数据库检索理论和方法研究[D];大连理工大学;2002年
6 张燕平;基于商空间的构造性数据挖掘方法及应用[D];安徽大学;2003年
7 范昕炜;支持向量机算法的研究及其应用[D];浙江大学;2003年
8 吴涛;核函数的性质、方法及其在障碍检测中的应用[D];中国人民解放军国防科学技术大学;2003年
9 庾农;基于形态学理论的目标检测技术[D];中国人民解放军国防科学技术大学;2000年
10 张莉;支撑矢量机与核方法研究[D];西安电子科技大学;2002年
中国硕士学位论文全文数据库 前10条
1 姜绍君;与文本有关的说话人识别方法的研究[D];大连理工大学;2001年
2 忻栋;支持向量机算法的研究及在说话人识别上的应用[D];浙江大学;2002年
3 刘学军;键盘用户身份验真与加权主分量分类器[D];南京航空航天大学;2002年
4 冯洪海;基于粗糙集和支持向量机的多值分类算法[D];河北农业大学;2002年
5 姬水旺;强噪声和类间重叠数据下支持向量机学习的研究[D];武汉科技大学;2002年
6 李春光;自适应信号处理的神经网络方法[D];电子科技大学;2002年
7 阚忠良;数字图书馆中基于结构和内容的文本信息检索技术的研究[D];黑龙江大学;2002年
8 刘占平;并行数字图书馆系统中人机交互系统的设计与实现[D];黑龙江大学;2002年
9 顾先睿;并行数字图书馆系统中数据的分布、加载和维护[D];黑龙江大学;2002年
10 任美睿;数字图书馆中词频提取和自动文本分类方法的研究[D];黑龙江大学;2002年
【相似文献】
中国期刊全文数据库 前10条
1 杨望;;Web Spam技术的发展与防御[J];中国教育网络;2011年07期
2 方亚会;;Google失败后快速切换搜索引擎[J];电脑迷;2011年11期
3 李晓鑫;;XiaoQBot网络爬虫设计与实现[J];硅谷;2011年13期
4 余光华;;网站优化对搜索引擎的影响[J];现代计算机(专业版);2011年12期
5 王福海;;基于PageRank的主题过滤算法改进[J];科技信息;2011年15期
6 张明蕾;;对“人肉搜索”的社会学解读[J];电视时代;2010年04期
7 冯庆峰;;信息时代如何获取信息[J];成功(教育);2011年08期
8 林丽华;;用好SOSO的微博搜索功能[J];电脑迷;2011年16期
9 王民川;;Mp3资源下载器的设计策略解析[J];教育教学论坛;2011年21期
10 ;15条经典实用的网站优化技巧[J];计算机与网络;2010年17期
中国重要会议论文全文数据库 前10条
1 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
2 冯艳卉;洪宇;颜振祥;姚建民;朱巧明;;基于搜索引擎的双语混合网页识别新方法[A];第六届全国信息检索学术会议论文集[C];2010年
3 白清源;林锦贤;谢丽聪;;信息自动获取系统的研究[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
4 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
5 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
6 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
7 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
8 张冠群;杜建清;杨家海;;基于搜索引擎的网站流量估算模型[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
9 石淑华;;利用搜索引擎检索网络生物信息的方法与技巧[A];山西省科学技术情报学会学术年会论文集[C];2004年
10 梁循;何洋波;;企业内嵌搜索引擎的定价问题[A];中国运筹学会第八届学术交流会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 林嘉澍;Google:0.2秒和80亿张网页[N];经济观察报;2006年
2 刘文君;搜索引擎也在寻求创新[N];大众科技报;2007年
3 主持人 本报记者 姜晨怡 本报实习生 冯志云;搜索也泄密?我们该怎样规范搜索信息[N];科技日报;2011年
4 本报记者 朱杰;搜索引擎的动力引擎[N];中国计算机报;2009年
5 商报记者 吴辰光;搜狗开打新一轮营销大战[N];北京商报;2011年
6 闫辉;搜索引擎猜想[N];计算机世界;2005年
7 何锬坡;搜索引擎帮助珠海招商招商[N];珠海特区报;2008年
8 本报记者 符王润 通讯员 湛立;广东企业告倒“谷歌”[N];广东科技报;2009年
9 本报记者 张磊;搜索引擎走向个性化智能化[N];中国消费者报;2010年
10 记者 李大庆;新型搜索引擎能向用户直接提供所需内容[N];科技日报;2010年
中国博士学位论文全文数据库 前10条
1 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
2 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
3 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
4 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 刘东飞;智能双语搜索方法及搜索引擎的研究[D];武汉理工大学;2009年
9 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
10 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
中国硕士学位论文全文数据库 前10条
1 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年
2 时延军;基于Nutch的分布式搜索引擎的设计与研究[D];长春理工大学;2010年
3 张彬;基于lucene的搜索引擎[D];上海师范大学;2010年
4 吕韩飞;主题(topical)crawler及其应用——主题搜索引擎[D];浙江大学;2005年
5 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年
6 刘辉;搜索引擎联邦算法设计与系统实现[D];清华大学;2004年
7 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
8 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
9 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
10 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026