基于马尔可夫间隔标注的中文分词算法
【摘要】:典型的判别式方法通过标注每个字符在词中的相对位置,将分词看作字符标注问题。本文提出了一个形式化的标注策略——马尔可夫间隔标注,来对汉语进行分词。在每一步中,N阶马尔可夫间隔标注对连续的N+1个字符间隔进行标注,并按照马尔可夫方式来处理这N+1个间隔。实验结果表明:在使用相似特征的前提下,当阶数由0渐变为2时,间隔标注方法的分词准确率也随之增加。
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|