基于特征短语的网页在线聚类方法
【摘要】:随着互联网的迅速发展,越来越多的人通过搜索引擎来获取想要得到的信息。但是搜索引擎返回的结果成百上千,如何从中发现所需的信息就成了一个特别现实的问题。通过对查询结果进行在线聚类就可以解决这个问题,网页聚类能帮助用户快速准确地定位信息,但对聚类算法的复杂度有严格限制,许多传统的聚类算法并适合网页在线聚类。为此,本文提出了一种基于特征短语的快速网页在线聚类算法,该方法利用后缀数组提取网页特征短语,在此基础上进行快速聚类以及类别标注,提供清晰、易于理解的类别内容概括,并对聚类结果进行了类间以及类内排序。最后,通过实验验证了该在线聚类算法类别标注的可读性、算法效率以及聚类准确性等方面的有效性,并指出了未来研究工作的重点。
【作者单位】:哈尔滨工业大学深圳研究生院
【基金】:863专题目标导向类项目,基于NLP的智能搜索引擎,项目编号:2006AA01Z197 国家自然科学基金面上项目,多元网络架构中异构信息的采集与检索技术研究,项目编号:90612005 国家自然科学重点项目,问答式信息检索的理论与方法研究,项目编号:60435020
【分类号】:G354.2
【基金】:863专题目标导向类项目,基于NLP的智能搜索引擎,项目编号:2006AA01Z197 国家自然科学基金面上项目,多元网络架构中异构信息的采集与检索技术研究,项目编号:90612005 国家自然科学重点项目,问答式信息检索的理论与方法研究,项目编号:60435020
【分类号】:G354.2
【参考文献】 | ||
|
|||||
|
【共引文献】 | ||
|
|||||||||||
|
|
|||||
|
|
|||||||||||||||||||||
|
【二级参考文献】 | ||
|
|||||||||||||
|
【相似文献】 | ||
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
相关机构 | ||||||||||||||||||||||||
|
||||||||||||||||||||||||
相关作者 | ||||||||||||||||||||||||
|
||||||||||||||||||||||||