收藏本站
《第六届全国信息检索学术会议论文集》2010年
收藏 | 手机打开
二维码
手机客户端打开本文

利用URL类别改进查询主题分类

宋巍  张宇  谢毓彬  高汉东  刘挺  李生  
【摘要】:查询分类是理解互联网用户查询意图的重要手段。由于查询很短,先对查询进行扩展丰富其特征,再进行分类被证明是解决特征稀疏的重要途径,其中利用搜索引擎返回结果是最有效的方法之一。已有工作主要利用返回结果的文本,没有充分利用URL信息。本文利用互联网上人工组织的分类网页目录,设计URL分类器,通过统计结果集合中URL的类别分布预测查询类别。人工标注从搜索引擎日志中采样的约2500个查询作为测试数据。实验表明,基于URL类别的查询分类器可以获得与基于文本扩展的分类器相当的准确率,却较大地提高了查询分类的效率。将两类分类器组合得到的分类器可以获得比单个分类器更好的分类性能。特别的是,基于URL类别的分类器与原始查询相结合时,F1值可以接近基于文本扩展的分类器,而效率与基于URL类别的分类器相当,在分类性能与处理效率上进行折衷。

【参考文献】
中国期刊全文数据库 前2条
1 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
2 张森;王斌;;Web检索查询意图分类技术综述[J];中文信息学报;2008年04期
【共引文献】
中国期刊全文数据库 前10条
1 李玉鑑;周兰珍;操卫平;;基于DF和CHI的联合特征提取方法及其应用[J];北京工业大学学报;2008年09期
2 杨勇涛;;文本自动摘要提取算法[J];成都大学学报(自然科学版);2009年02期
3 袁晓峰;;一种基于主题的Web文本聚类算法[J];成都大学学报(自然科学版);2010年03期
4 殷宏威;赵伟;杨志伟;;蚁群算法在KNN文本分类中的应用[J];长春理工大学学报(自然科学版);2010年01期
5 吕佳;;基于改进分类模型的文本分类系统实现[J];重庆师范大学学报(自然科学版);2009年02期
6 李家兵;;基于交叉覆盖算法的文本分类研究[J];滁州学院学报;2008年05期
7 李艳玲;戴冠中;覃森;;快速的文本倾向性分类方法(英文)[J];电子科技大学学报;2007年06期
8 孙铁利;张妍;李晓微;;文本挖掘中特征降维方法比较研究[J];电脑知识与技术;2008年02期
9 茹强喜;刘永;;一种提高K近邻分类的新方法[J];电脑知识与技术;2010年08期
10 阿热帕提·尕依提;维尼拉·木沙江;;基于统计的维吾尔文网页自动摘要提取研究[J];电脑知识与技术;2011年01期
中国重要会议论文全文数据库 前10条
1 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
2 张仰森;黄改娟;苏文杰;;基于隐最大熵原理的汉语词义消歧方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
4 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
5 曹玉娟;牛振东;彭学平;江鹏;;一个基于特征向量的近似网页去重算法[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
6 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
7 门洪;武玉杰;李小英;高艳春;;基于支持向量机的分类算法研究[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年
8 郎加云;胡学钢;;电子邮件内容过滤的相关特征研究[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
9 王秀娟;郑康锋;杨星海;;线性鉴别分析在中文文本分类中的应用[A];2005通信理论与技术新进展——第十届全国青年通信学术会议论文集[C];2005年
10 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
2 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
3 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
4 詹川;反垃圾邮件技术的研究[D];电子科技大学;2005年
5 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
6 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
7 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
8 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
9 席运江;组织知识的网络表示模型及分析方法[D];大连理工大学;2007年
10 钱铁云;关联文本分类关键技术研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 汪政;基于支持向量机的改进的密度聚类算法研究[D];辽宁工程技术大学;2010年
2 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
3 吴世勇;基于聚类分析的搜索引擎自动性能评价研究[D];江西师范大学;2010年
4 姜伦;模糊聚类算法及其在中文文本聚类中的研究与实现[D];哈尔滨理工大学;2010年
5 韩露;领域知识对领域问答系统答案抽取影响研究[D];昆明理工大学;2008年
6 李琼琼;网络文本自动分类器的设计与实现[D];电子科技大学;2010年
7 周杰;网络舆情话题情感倾向性分析技术研究[D];解放军信息工程大学;2010年
8 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
9 姜国新;支持多语言标签优先的元搜索引擎结果聚类研究[D];浙江工商大学;2011年
10 何文涛;基于分类文本库的文本分类系统的应用研究及实现[D];中国地质大学(北京);2011年
【相似文献】
中国期刊全文数据库 前10条
1 李绍华;Web超树模型与数据的重构[J];计算机应用研究;1999年08期
2 吴林,郭翔;Java的多媒体编程方法实例[J];电脑编程技巧与维护;1998年02期
3 迟万庆,齐治昌,谭庆平;一个基于多线程的Information/InternetAgent原型[J];计算机工程与科学;1999年04期
4 彭展,金树福;基于Web的网上语音教学系统[J];计算机应用研究;1999年01期
5 姚增伟;在VB中IIS应用程序的设计[J];天津理工学院学报;2001年S1期
6 夏敏捷;VB制作自己的增强型Web浏览器[J];计算机时代;2003年01期
7 王玮;JDBC编程技术[J];电脑学习;2001年05期
8 周琴;;电子资源URL地址浅析[J];情报探索;2008年11期
9 董春桥,徐菱虹,邹春;用 ActiveX 实现 CAI 功能[J];武汉城市建设学院学报;1998年03期
10 宋正荣;跟我学用DELPHI创建CGI应用程序——通过网页查询SQL数据库的实例[J];电脑编程技巧与维护;2001年01期
中国重要会议论文全文数据库 前10条
1 宋巍;张宇;谢毓彬;高汉东;刘挺;李生;;利用URL类别改进查询主题分类[A];第六届全国信息检索学术会议论文集[C];2010年
2 袁志坚;贾焰;;基于误差反馈的高速Web文本流快速近似分类[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
3 穆明生;;基于特征集的多种分类器模型的在线笔迹认证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
4 徐蔚然;于武贵;郭军;;基于统计方法的混排文字切分与分类[A];第八届全国汉字识别学术会议论文集[C];2002年
5 雷蕾;吴乃君;刘鹏;刘兰娟;;灵敏度分析:分类器中的缺失数据[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
6 李刚;郭崇慧;林鸿飞;杨志豪;唐焕文;;基于词典法和机器学习法相结合的蛋白质名识别[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年
7 沈钱波;何加铭;;连笔手写识别搜索算法研究[A];浙江省电子学会2008年学术年会论文集[C];2008年
8 王先梅;林子钰;;基于HMM的脱机手写大写金额识别中的单分类器性能分析[A];2006中国控制与决策学术年会论文集[C];2006年
9 王颖;毋立芳;关媛;王涓涓;;基于LBP的SVM人脸姿势估计方法[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年
10 彭涛;左万利;赫枫龄;;基于链接上下文的分类器主题爬行技术(英文)[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
中国重要报纸全文数据库 前10条
1 本报记者 李智鹏;Blue Coat网络控制有新招[N];计算机世界;2010年
2 ;云中拦截恶意软件的竞赛[N];中国计算机报;2009年
3 秦皇岛育花路小学 田静涛;“软猬甲”叫阵“暴风泄密”[N];中国电脑教育报;2009年
4 ;揭开Web信誉的秘密[N];中国计算机报;2009年
5 本版编辑 中国科学院计算技术研究所数字媒体研究中心 山世光 陈熙霖 高文 徐昕 刘洪宇;你的脸,你的身份证明[N];中国计算机报;2006年
6 本报记者 黄智军;Web应用呼唤新型安全系统[N];计算机世界;2009年
7 武德锋 李国辉 林洪文 姚作梁;图像世界任我行[N];计算机世界;2002年
8 清华大学 朱健翔;人脸表情估计与表情合成[N];计算机世界;2006年
9 赵晓涛;防止企业数据外泄有新招[N];网络世界;2009年
10 陈冀康 编译自《PC World》;史上九大离奇软件Bug[N];计算机世界;2009年
中国博士学位论文全文数据库 前10条
1 王喆;面向模式表示与模式源的分类器设计方法研究[D];南京航空航天大学;2008年
2 杨显飞;数据流集成分类器算法研究[D];哈尔滨工程大学;2011年
3 汪中;面向变化场景的行人分类检测方法研究[D];中国科学技术大学;2011年
4 宁博;面向行人检测的动态视觉词提取与集成分类方法研究[D];中国科学技术大学;2012年
5 王彦;基于PDE的模式识别方法[D];吉林大学;2006年
6 欧阳震诤;不平稳数据流的分类技术研究[D];国防科学技术大学;2009年
7 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
8 杨春宇;数据流上的聚类与分类算法[D];清华大学;2009年
9 管凤旭;基于流形学习及可拓分类器的手指静脉识别研究[D];哈尔滨工程大学;2010年
10 纪政;性别分类与分类器信用值研究[D];上海交通大学;2011年
中国硕士学位论文全文数据库 前10条
1 王珏;基于URL及上下文的并行分块处理主题爬虫研究[D];复旦大学;2012年
2 张弦;高可用性URL分类查询系统的设计与实现[D];北京邮电大学;2012年
3 李伦;针对大规模URL关键字的多模匹配算法的性能优化[D];哈尔滨工业大学;2011年
4 王晓梅;恶意URL检测项目中基于PageRank算法的网络爬虫的设计和实现[D];北京邮电大学;2010年
5 刘长亮;计算机系统安全管理与测评[D];吉林大学;2009年
6 武婷婷;分类器性能评价研究[D];北京交通大学;2010年
7 刘佳;基于P2P的主题爬行与搜索路由研究[D];武汉理工大学;2010年
8 陈瑜芳;主题爬虫系统的研究[D];武汉理工大学;2010年
9 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年
10 潘世瑞;基于分类器集成技术的数据流分类研究[D];西北农林科技大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026