基于相似计算的信息抽取模板自动获取方法
【摘要】:网上信息的爆炸式增长使信息抽取成为一个热点研究课题。传统的信息抽取系统通常需要专家手工书写模板。尽管目前模板获取的自动化程度有了大幅度的提高,人们仍然要手工标注大量的训练文本。本文提出了一种基于相似计算的纯文本信息抽取模板自动获取方法。根据给定的种子模板,从大规模的无标注的训练文本中可以自动学习相关的模板,生成的模板几乎不需人工处理就可以直接应用。与其他方法相比,本方法无需人工标注训练语料,节约了大量人为劳动。实验结果表明在开放测试中自动获取的模板正确率达到79.45%,召回率达到66.51%。
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|