基于链接的分布式信息检索文档划分研究
【摘要】:文档集合的划分是分布式信息检索面临的一个重要问题,本文提出了一种基于链接的聚类算法(LIBCA)来进行分布式信息检索的文档划分,LIBCA算法利用网页间的链接关系来计算网页与网页、网页与网页集合之间的相似度,从而利用聚类技术实现对数据集合的划分。实验表明,按照LIBCA 算法进行文档集合划分,排名前10位的文档集合含有的相关文档数占相关文档总数的80-90%,相对于随机的划分方法提高了20-30%。
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|