一种基于维基百科知识库的中文文本分类方法研究
【摘要】:传统的文本表示方法是基于词条的向量表示方法(Bag of Words or BOW),文本信息中的每一个词条都被表示成该向量中的一个维度。尽管这样的表示方法简单而且常用,但是却难免会有一些限制,因为文本之间存在着复杂的潜在的联系,而且这些潜在的联系很难用词条向量表示出来。因此在文本表示中插入一些背景信息用以提高文本分类模型的精确度是很必要的。该文通过搜集维基百科全书信息作为背景知识来扩充文本信息从而达到克服传统向量表示方法(BOW)的一些缺点,实验证明该方法可以提高文本分类的精确度。
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||
|