基于写作风格的作者识别
【摘要】:根据写作风格来识别作者这一问题在国外很早就已经开始研究了,并有很多成功应用.而针对中文的研究却非常少.本文首次提出了使用文章中虚词频率分布作为特征来研究这一问题,采用了两种不同的规格化方法来消除文章长度的差异,并采用了多种不同的分类方法.实验结果表明采用虚词频率作为特征是行之有效的,即使采用最简单的模板匹配的识别方法都能够取得很好的识别效果,采用SVM等方法可以进一步提高识别率.此外可以在一定范围内减少使用的虚词的数量,而不损失识别效果.
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|