基于CRF的古汉语分词标注一体化研究
【摘要】:本文在计算机自然语言处理和古代汉语、特别是先秦文献的交叉领域进行了新的探索。首先对《左传》文本进行了词汇处理(分词和词性标注)和分析,然后采用条件随机场模型(CRF),基于两个模板进行自动分词、词性标注、分词标注一体化的对比实验。研究表明,一体化分词方法比单独分词的准确率和召回率均有明显提高,开放测试的最高F值达到了90.89%,满足古代汉语词汇研究和语料库建设的需求,而且较好地弥补了人工标注的不足。
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|