收藏本站
《第四届全国信息检索与内容安全学术会议论文集(上)》2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于特征短语的网页在线聚类方法

刘之涛  陈清才  孟宪军  王晓龙  
【摘要】:随着互联网的迅速发展,越来越多的人通过搜索引擎来获取想要得到的信息。但是搜索引擎返回的结果成百上千,如何从中发现所需的信息就成了一个特别现实的问题。通过对查询结果进行在线聚类就可以解决这个问题,网页聚类能帮助用户快速准确地定位信息,但对聚类算法的复杂度有严格限制,许多传统的聚类算法并适合网页在线聚类。为此,本文提出了一种基于特征短语的快速网页在线聚类算法,该方法利用后缀数组提取网页特征短语,在此基础上进行快速聚类以及类别标注,提供清晰、易于理解的类别内容概括,并对聚类结果进行了类间以及类内排序。最后,通过实验验证了该在线聚类算法类别标注的可读性、算法效率以及聚类准确性等方面的有效性,并指出了未来研究工作的重点。

手机知网App
【参考文献】
中国期刊全文数据库 前2条
1 刘远超;王晓龙;徐志明;关毅;;文档聚类综述[J];中文信息学报;2006年03期
2 陈清才,王晓龙;一种基于词矢量的汉语语义量化模型[J];计算机研究与发展;2001年02期
【共引文献】
中国期刊全文数据库 前5条
1 卢志茂;刘挺;李生;;统计词义消歧的研究进展[J];电子学报;2006年02期
2 李国臣,段建勇;基于语法语义信息量化模型的语素字再分类[J];计算机工程;2004年11期
3 陈清才,王晓龙,赵健;一种基于粗糙集的大规模语料库语言学知识发现模型[J];计算机工程与科学;2004年05期
4 谷波;李济洪;刘开瑛;;基于COSA算法的中文文本聚类[J];中文信息学报;2007年06期
5 丘志宏;宫雷光;;利用上下文提高文本聚类的效果[J];中文信息学报;2007年06期
中国重要会议论文全文数据库 前2条
1 向继;荆继武;高能;;一种自动搜索阈值的中文文本层次聚类方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
2 黄旭;朱艳琴;罗喜召;;重复串特征提取算法在不良信息检测中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国硕士学位论文全文数据库 前10条
1 段建勇;现代汉语词性细分类标注研究[D];山西大学;2004年
2 马慧敏;中文文本自动分类方法的研究和实现[D];华北电力大学(河北);2005年
3 黄永光;基于网页挖掘的搜索引擎若干技术的研究[D];哈尔滨工业大学;2006年
4 张莹;基于自主学习的中文文本分类算法研究[D];哈尔滨工业大学;2006年
5 董祥千;搜索引擎设计分析与结果聚类改进[D];电子科技大学;2007年
6 李建超;网页在线聚类的研究与实现[D];上海交通大学;2007年
7 罗锋;B2C购物网站商品信息推送系统的研究与设计[D];华中师范大学;2007年
8 郑军;网络舆情监控的热点发现算法研究[D];哈尔滨工程大学;2007年
9 王小燕;文本分类相关技术与应用研究[D];西北大学;2007年
10 王雪飞;词间相关性对文本分类的影响[D];南京理工大学;2007年
【二级参考文献】
中国期刊全文数据库 前6条
1 林鸿飞,马雅彬;基于聚类的文本过滤模型[J];大连理工大学学报;2002年02期
2 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
3 吴斌,傅伟鹏,郑毅,刘少辉,史忠植;一种基于群体智能的Web文档聚类算法[J];计算机研究与发展;2002年11期
4 行小帅,潘进,焦李成;基于免疫规划的K-means聚类算法[J];计算机学报;2003年05期
5 孙学刚,陈群秀,马亮;基于主题的Web文档聚类研究[J];中文信息学报;2003年03期
6 陈浩,何婷婷,姬东鸿;基于k-means聚类的无导词义消歧[J];中文信息学报;2005年04期
【相似文献】
中国重要会议论文全文数据库 前10条
1 刘之涛;陈清才;孟宪军;王晓龙;;基于特征短语的网页在线聚类方法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
3 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
4 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
5 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
7 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
8 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
9 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
10 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
中国重要报纸全文数据库 前10条
1 主持人 陈建栋;搜索引擎能帮企业做什么[N];光明日报;2005年
2 本报记者 陈建栋;搜索引擎掀起第三次网络浪潮[N];光明日报;2005年
3 曾正乐;搜索引擎为啥那么热[N];经济日报;2005年
4 本报记者 秦海波;今夏搜索引擎最热[N];经济日报;2005年
5 FN记者 柳立;我国搜索引擎市场竞争格局初步确定[N];金融时报;2005年
6 闫辉;搜索引擎猜想[N];计算机世界;2005年
7 本报记者 李剑;搜索引擎进入“泛门户”时代[N];通信信息报;2005年
8 华夏;搜索引擎:有钱便是爷 涉嫌广告欺诈[N];江苏科技报;2008年
9 记者 毛涛涛;优酷主动屏蔽搜索引擎[N];北京商报;2008年
10 笑愉;2008年中国搜索引擎市场将突破50亿元[N];中国税务报;2008年
中国博士学位论文全文数据库 前10条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
5 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
6 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
7 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
8 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
9 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
10 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
2 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
3 李海丰;基于Lucene的企业文档搜索引擎研究与应用[D];中南林业科技大学;2009年
4 赵善明;基于Lucene的主题搜索引擎研究[D];西安电子科技大学;2008年
5 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
6 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
7 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
8 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年
9 王春芹;搜索引擎主题相关性研究[D];中山大学;2010年
10 张盛蕾;基于Java的浙江纺织服装学院校园网搜索引擎[D];电子科技大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026