收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于伪反馈与分类的文本检索

王灿辉  茹立云  张敏  马少平  
【摘要】:查询空间与文档空间的不匹配是文本检索中的一大难题,在句子级别的检索中表现尤为突出。为解决这个问题而提出的查询扩展方法本身存在着难以解决的困扰。基于分类的方法绕过了这一难题,成为实现句子检索的一个可行方法。实际中使用分类方法碰到的一大难题是缺少正例数据。本文根据Rocchio方法利用反例从未标注数据中抽取出可能相关的文档.并采用文档长度进行加权,从抽取出的文档中挑选可信度较高的加入正例集,然后采用SVM分类,取得了比直接用查询进行检索更好的性能。本文还提出采用伪反馈的方法来补充正例,将用查询进行初次检索的结果经过Rocchio方法过滤后的结果视为正例,在此基础上用SVM进行分类,进一步提高了检索性能。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王海云;刘金岭;;基于查询词扩展的文本检索算法研究[J];计算机与数字工程;2011年06期
2 周博;刘奕群;张敏;金奕江;马少平;;锚文本检索有效性分析[J];软件学报;2011年08期
3 刘庆庆;史萍;邵美德;任培明;赵志军;;数字美术馆系统的设计与实现[J];电视技术;2011年09期
4 刘辉;;基于位置的特征项权重算法[J];中国新技术新产品;2011年14期
5 赵晔;王昌;;基于非精确图匹配的一种工程图检索方法[J];郑州轻工业学院学报(自然科学版);2011年03期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
11 ;[J];;年期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 王灿辉;茹立云;张敏;马少平;;基于伪反馈与分类的文本检索[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 周水庚;胡江滔;胡运发;周傲英;;基于隐含语义索引的中文文本检索[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
3 付瑞吉;秦兵;刘挺;;面向音乐领域的文本检索与挖掘系统[A];第五届全国青年计算语言学研讨会论文集[C];2010年
4 陈忆群;曹瑾音;印鉴;;查询扩展树:关系数据库中的文本检索[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
5 马春雷;;基于向量空间模型的中文文本检索研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
6 吴立德;黄萱菁;;文本检索会议简介[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
7 孙宇;刘憬;张宇;刘挺;;基于分词和倒排索引的短文本检索技术的研究与实现[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
8 丁凡;王斌;白硕;刘宜轩;李亚楠;;文本检索中句法信息的有效利用研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 黄萱菁;夏迎炬;吴立德;;基于向量空间模型的文本过滤系统[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
10 张英武;杜凯;杨树强;韩伟红;;分布式海量文本检索系统研究[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
中国博士学位论文全文数据库 前10条
1 王鑫印;无结构和半结构信息检索相关技术研究[D];复旦大学;2007年
2 史庆伟;基于小世界模型的P2P网络文本检索[D];天津大学;2008年
3 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
4 陈毅恒;文本检索结果聚类及类别标签抽取技术研究[D];哈尔滨工业大学;2010年
5 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
6 杨志峰;稳定的信息检索方法及其在分布式环境下的应用[D];中国科学院研究生院(计算技术研究所);2003年
7 胡熠;面向信息检索的文本内容分析[D];上海交通大学;2007年
8 王秉卿;基于机器学习的查询优化研究[D];复旦大学;2012年
9 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
10 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 张斌;基于主题的文本检索[D];北京邮电大学;2011年
2 邹俊杰;受限域问答系统文本检索研究[D];昆明理工大学;2011年
3 赵显亮;基于小世界理论的P2P文本检索研究[D];西安电子科技大学;2011年
4 郑吴杰;基于内容的视频检索[D];清华大学;2006年
5 王义;基于语义场的文本检索技术的研究与实现[D];安徽工业大学;2012年
6 贾小盟;基于边缘结构几何划分的图像检索方法[D];中国海洋大学;2003年
7 张申恒;基于本体的企业文本检索模型研究[D];合肥工业大学;2005年
8 李钝;基于粗糙集理论的文本挖掘技术研究[D];山西大学;2003年
9 王娜;Web文本挖掘的研究[D];兰州理工大学;2005年
10 陈议;开放域的自动问答系统的研究[D];重庆大学;2006年
中国重要报纸全文数据库 前10条
1 记者 龚杰;IBM推出电子商务数据库[N];计算机世界;2000年
2 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
3 燕舞;大地上的那些往事[N];中华读书报;2008年
4 ;IBM DB2:业界一致的选择[N];网络世界;2001年
5 商报记者 江文兵;旅游搜索引擎遭遇寒冬[N];北京现代商报;2005年
6 严恒元;美国:网上政府功能齐全[N];经济日报;2002年
7 汪玉凯;政府门户网站存在三大问题[N];中国高新技术产业导报;2003年
8 记者 侯梅竹;汉语语料检索系统问世[N];计算机世界;2004年
9 本报记者 汪建根;想不起歌名,你就哼一声[N];中国文化报;2011年
10 记者 徐宁 通讯员 徐晓红;宜昌开通专利数据库服务平台[N];三峡日报;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978