收藏本站
《第五届全国信息检索学术会议论文集》2009年
收藏 | 手机打开
二维码
手机客户端打开本文

中文搜索引擎日志中查询分析的研究

王晓春  杨沐昀  李生  赵铁军  张志涛  
【摘要】:搜索引擎日志是记录网络搜索引擎用户行为的重要载体,通过对搜索引擎日志的分析可以得到搜索用户的行为特点和规律。为了发现用户组织查询的规律,本文对Sogou中文搜索引擎一个月的查询日志进行了分析,基于用户的查询输入串,分别对查询组成和查询结构进行了统计。在字符组成方面,本文通过统计构成查询的最小单位"字"的类型分布和频率分布来考察用户在使用查询字符时的倾向性。统计结果显示,除了汉字,用户也习惯于使用全角和半角字符,日文有时出现。在查询结构方面,我们考察了查询的语言类型和查询结构的复杂程度。从查询语言角度看,简体中文构成的查询数量最多;从查询复杂度角度看,简单查询占总数81.6%,复杂查询占到18.4%。本文采用了新的研究方法,从查询组成上分析中文搜索引擎日志,此外还弥补了现有查询结构方面研究的不足。最后发现中文Sogou搜索引擎用户不同于英文搜索引擎的用户的独特的组织查询的方式。实验结论对于提高搜索引擎的查询性能,以及未来对中文搜索引擎日志的深入分析有很好的启发性和指导性。
【作者单位】:哈尔滨工业大学机器智能与翻译实验室
【基金】:国家自然科学基金
【分类号】:TP391.3

【参考文献】
中国期刊全文数据库 前5条
1 王继民,彭波;搜索引擎用户访问量模型[J];计算机工程与应用;2004年25期
2 杨文峰,李星;网络搜索引擎的用户查询分析[J];计算机工程;2001年06期
3 窦志成;袁晓洁;何松柏;;大规模中文搜索日志中查询重复性分析[J];计算机工程;2008年21期
4 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的搜索引擎用户行为分析[J];中文信息学报;2007年01期
5 胡学营;刘慧;陆汝占;;搜索引擎用户查询中的复杂专有名词识别[J];计算机工程与应用;2008年19期
【共引文献】
中国期刊全文数据库 前10条
1 王建冬;王继民;;基于日志挖掘的高校用户期刊数据库检索行为研究[J];北京大学学报(自然科学版);2012年01期
2 王知津;韩正彪;周鹏;;电子商务网站顾客信息搜寻行为形成机制研究[J];图书与情报;2011年03期
3 徐静;;图像搜索引擎的进步与应用现状分析[J];电子商务;2011年04期
4 肖卓磊;;搜索引擎作弊及反作弊技术探究[J];阜阳师范学院学报(自然科学版);2011年04期
5 康海燕;陈然;苑晓姣;李清华;;基于Android防火墙日志系统的研究与实现[J];北京信息科技大学学报(自然科学版);2012年04期
6 何攀;刘露;陈荦;王祖文;;基于用户偏好的地理计算应用检索[J];兵工自动化;2012年10期
7 余一骄;刘芹;;基于语义的中文网页检索[J];计算机科学;2012年08期
8 张瑞霞;杨国增;闫新庆;;基于知网的汉语普通未登录词语义分析模型[J];计算机应用与软件;2012年08期
9 吴飞;金士尧;胡浩民;;基于用户属性的个性化教学智能辅助研究和设计[J];计算机工程与科学;2012年09期
10 马宏远;王斌;;基于用户特性的搜索引擎查询结果缓存与预取[J];中文信息学报;2012年06期
中国重要会议论文全文数据库 前7条
1 李东园;白宇;蔡东风;;基于用户日志分析的查询扩展研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
2 张磊;李亚楠;王斌;李鹏;蒋在帆;;网页搜索引擎查询日志的session划分研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
3 岑荣伟;刘奕群;张敏;茹立云;马少平;;网络搜索引擎用户行为分析和研究[A];第五届全国信息检索学术会议论文集[C];2009年
4 张志涛;杨沐昀;李生;齐浩亮;宋超;;搜索引擎日志分析:协同推荐还是个性化检索[A];第五届全国信息检索学术会议论文集[C];2009年
5 蔺继国;徐锡山;;一种基于用户点击数据的个性化PageRank算法[A];第六届全国信息检索学术会议论文集[C];2010年
6 梁敏;解萍;郝向宁;;基于用户查询日志的双级缓存结构设计[A];第十七届全国青年通信学术年会论文集[C];2012年
7 马莎莎;;文献检索过程的认知态及与之相关的显著性标引框架[A];中国煤炭学会成立五十周年高层学术论坛论文集[C];2012年
中国博士学位论文全文数据库 前8条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 陈红涛;基于搜索日志的用户行为研究及应用[D];北京邮电大学;2008年
3 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年
4 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
5 朱鲲鹏;基于Web日志挖掘的智能信息检索研究[D];哈尔滨工业大学;2009年
6 宋强;中国互联网低俗内容监管研究[D];北京邮电大学;2012年
7 戴丽娜;从营销的终点到营销的起点[D];复旦大学;2012年
8 牛小飞;基于遗传规划和集成学习的Web Spam检测关键技术研究[D];山东大学;2012年
中国硕士学位论文全文数据库 前10条
1 张琪;网络舆论被主流媒体引导的必要性和可行性研究[D];上海外国语大学;2010年
2 吴世勇;基于聚类分析的搜索引擎自动性能评价研究[D];江西师范大学;2010年
3 许明敏;基于维基百科和web共现分析的概念关系网构建系统研究与实现[D];华东师范大学;2011年
4 宋健;基于主题挖掘和时间窗口划分的兴趣推荐技术研究[D];华东师范大学;2011年
5 周志辉;基于用户兴趣模型的个性化搜索引擎研究与分析[D];江西理工大学;2010年
6 奚杰;基于WEB日志的用户行为分析与挖掘[D];东华大学;2011年
7 朱培焱;汉英跨语言网址搜索引擎的设计与实现[D];西安电子科技大学;2010年
8 詹圣君;基于用户行为日志分析的搜索引擎排序算法研究[D];湖北工业大学;2011年
9 陈凯;搜索引擎有关排序算法研究[D];武汉理工大学;2011年
10 陈娟;基于JDM的移动互联网用户行为分析[D];武汉理工大学;2011年
【二级参考文献】
中国重要会议论文全文数据库 前1条
1 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的网络搜索引擎用户行为研究[A];第三届学生计算语言学研讨会论文集[C];2006年
【相似文献】
中国期刊全文数据库 前10条
1 刘春,胡弢;图书馆Web服务器日志分析技术及应用[J];泰安教育学院学报岱宗学刊;2003年04期
2 钱鹏,袁芳;电子资源检索策略日志分析与读者培训——以INSPEC为例[J];图书情报知识;2004年06期
3 余亚玲;唐红武;杜海霞;;基于日志的安全事件管理系统的研究与实现[J];计算机工程;2007年16期
4 吴海燕;朱靖君;程志锐;戚丽;;Web日志集中管理系统的研究与实现[J];实验技术与管理;2008年07期
5 金涛;薛质;王轶骏;;基于蜜罐日志的关联规则挖掘研究[J];信息安全与通信保密;2011年04期
6 陈雅;谭华军;郑建明;;图书馆个性化服务中的Web日志分析技术研究[J];图书馆杂志;2011年07期
7 牛建强,曹元大;基于数据挖掘的IDS日志数据分析处理[J];计算机应用研究;2003年09期
8 李哲;李先国;;基于关联规则的日志分析系统的研究与设计[J];微型电脑应用;2009年03期
9 菅光宾;孙淑艳;;教育研究方法在网络教学中的应用与实现[J];天津电大学报;2010年01期
10 许丹青;刘奕群;岑荣伟;马少平;茹立云;杨磊;;基于日志分析的中文输入法用户行为研究[J];中文信息学报;2011年02期
中国重要会议论文全文数据库 前10条
1 王晓春;杨沐昀;李生;赵铁军;张志涛;;中文搜索引擎日志中查询分析的研究[A];第五届全国信息检索学术会议论文集[C];2009年
2 朱金清;王建新;陈志泊;;基于APRIORI的层次化聚类算法及其在IDS日志分析中的应用[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
3 倪晓明;;攀钢电讯计费管理系统改造设计[A];四川省通信学会1999年学术年会论文集[C];1999年
4 赵艳;许榕生;;信息安全综合审计系统的研究综述[A];第十三届全国核电子学与核探测技术学术年会论文集(下册)[C];2006年
5 谢元泰;余训培;;数字图书馆建设和运行中相关主体间的权利义务关系浅析[A];第四次图书馆学基础理论学术研讨会论文集[C];2003年
6 张志涛;杨沐昀;李生;齐浩亮;宋超;;搜索引擎日志分析:协同推荐还是个性化检索[A];第五届全国信息检索学术会议论文集[C];2009年
7 王应;;基于时间属性的多源日志因果关联算法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
8 李涛;陈鹏;张凯泽;;计算机痕迹检测原理及系统设计[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
9 华松;洪宇;张剑峰;姚建民;朱巧明;;基于相关子主题消解的悖向重排序方法研究[A];第六届全国信息检索学术会议论文集[C];2010年
10 王倩;刘奕群;马少平;茹立云;;面向用户互联网访问日志的异常点击分析[A];第五届全国信息检索学术会议论文集[C];2009年
中国重要报纸全文数据库 前7条
1 朱闵;浅谈企业核心应用的安全审计(下)[N];网络世界;2008年
2 胡英;RSA力推以信息为核心的安全[N];计算机世界;2007年
3 吕明;网络安全审计需细粒度报告[N];计算机世界;2008年
4 李健;“金银花”——香自苦寒来[N];科技日报;2000年
5 郑昊;MSS起步上路[N];中国计算机报;2007年
6 ;网络就是协作[N];中国计算机报;2000年
7 张戈;网达科技:重新武装正规军[N];电脑商报;2010年
中国博士学位论文全文数据库 前10条
1 段瑞雪;基于依存关系的用户意图的研究[D];北京邮电大学;2011年
2 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
3 张立群;支持业务流程建模的块结构流程挖掘技术的研究[D];山东大学;2010年
4 章程;基于机器学习和程序分析相结合的程序调试技术研究[D];上海交通大学;2013年
5 李强;基于本体论的个性化和社会化元搜索引擎的研究[D];浙江大学;2006年
6 韦世奎;基于信息融合的多媒体内容搜索[D];北京交通大学;2010年
7 王萍;网络环境下的领域知识挖掘[D];华东师范大学;2010年
8 蔺旭东;基于语义的XML查询及规范化研究[D];北京交通大学;2010年
9 刘春辰;基于本体的企业搜索优化技术研究[D];吉林大学;2012年
10 范举;关键词查询的推荐技术研究[D];清华大学;2012年
中国硕士学位论文全文数据库 前10条
1 胡刚;百科知识与统计方法结合的查询意图分类[D];哈尔滨工业大学;2011年
2 范惊;高精度的程序日志解析技术研究[D];上海交通大学;2013年
3 陈杰;基于Web检索的查询意图分类研究[D];华南理工大学;2011年
4 张培英;基于用户行为的用户查询意图分析方法及研究[D];西华大学;2011年
5 杨舒琴;基于日志的安全审计管理系统的研究与实现[D];北京邮电大学;2011年
6 凌晓琴;基于Web日志的用户挖掘研究与实现[D];南京理工大学;2011年
7 刘燕;基于Map/Reduce框架的分布式日志分析系统的研究及应用[D];东北师范大学;2011年
8 狄玮杰;计算机日志稽查与事件关联分析[D];同济大学;2006年
9 谢宇超;面向实体查询的开放式信息抽取技术研究[D];北方工业大学;2012年
10 何杨平;数据集成环境中基于日志的视图监视方法研究与实现[D];华南师范大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026