一种二维的树型文档结构相似性度量
【摘要】:研究了树型文档的结构相似性度量,提出了一种二维的树型文档结构相似性度量方法.该方法首先计算文档树的结构摘要以对树型文档进行约简.然后,提出了两个特征集,它们分别从不同的角度反映了摘要树中的结构特征,而且相互补充.与这两个特征集相对应,提出了一种二维的结构相似性度量,其中包含两个相似度:纵向结构相似度和横向结构相似度,将它们结合起来,可以得到比较准确的最终的相似度.在实际数据集和合成数据集上的实验结果都显示,基于这种二维的相似性度量的聚类结果质量较高,说明这种相似性度量具有很好的准确性.
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|