收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于CRF的古汉语分词标注一体化研究

石民  陈小荷  于丽丽  李斌  
【摘要】:本文在计算机自然语言处理和古代汉语、特别是先秦文献的交叉领域进行了新的探索。首先对《左传》文本进行了词汇处理(分词和词性标注)和分析,然后采用条件随机场模型(CRF),基于两个模板进行自动分词、词性标注、分词标注一体化的对比实验。研究表明,一体化分词方法比单独分词的准确率和召回率均有明显提高,开放测试的最高F值达到了90.89%,满足古代汉语词汇研究和语料库建设的需求,而且较好地弥补了人工标注的不足。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 努尔比娅·塔依尔;地里木拉提·吐尔逊;艾斯卡尔·肉孜;;面向韵律层边界自动划分的维吾尔语词性自动标注技术研究[J];计算机应用与软件;2011年08期
2 姜文斌;吴金星;乌日力嘎;那顺乌日图;刘群;;蒙古语有向图形态分析器的判别式词干词缀切分[J];中文信息学报;2011年04期
3 陈顺强;沙马拉毅;;信息处理用彝文词性研究[J];民族语文;2011年04期
4 余传明;黄建秋;郭飞;;从客户评论中识别命名实体——基于最大熵模型的实现[J];现代图书情报技术;2011年05期
5 许德山;张智雄;赵妍;;中文问句与RDF三元组映射方法研究[J];图书情报工作;2011年06期
6 孙广路;郎非;薛一波;;基于条件随机域和语义类的中文组块分析方法[J];哈尔滨工业大学学报;2011年07期
7 刘莉;何中市;邢欣来;毛小丽;;基于语义角色的中文时间表达式识别[J];计算机应用研究;2011年07期
8 王斯日古楞;斯琴图;那顺乌日图;;汉蒙统计机器翻译中的调序方法研究[J];中文信息学报;2011年04期
9 玉素甫·艾白都拉;张海军;艾孜尔古丽;;信息处理用现代维吾尔语词干词类标记集研究[J];信息技术与标准化;2011年06期
10 王卫平;孟翠翠;;基于句法分析与依存分析的评价对象抽取[J];计算机系统应用;2011年08期
11 张丽;张蕾;张阳;戢妍;;基于中文分词和词频统计的图书在线评论文本分析[J];信息系统工程;2011年07期
12 厉小军;戴霖;施寒潇;黄琦;;文本倾向性分析综述[J];浙江大学学报(工学版);2011年07期
13 卡哈尔江·阿比的热西提;吐尔根·依布拉音;姚天昉;艾山·吾买尔;艾山·毛力尼亚孜;;一种改进的维吾尔语句子相似度计算方法[J];中文信息学报;2011年04期
14 陈永平;杨思春;毛万胜;苏新;刘俞;;中文问答系统中基于主题和焦点的问题理解[J];计算机系统应用;2011年06期
15 杨皓东;江凌;李国俊;;国内自然语言处理研究热点分析——基于共词分析[J];图书情报工作;2011年10期
16 艾丹祥;左晖;杨君;;网络信息检索中相关反馈技术的Java实现[J];电脑知识与技术;2011年16期
17 康旭珍;李茹;李双红;;框架元素语义核心词自动识别研究[J];中文信息学报;2011年04期
18 段利国;陈俊杰;;限定语义距离的关键词同义扩展及精简[J];计算机工程与应用;2011年23期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 石民;陈小荷;于丽丽;李斌;;基于CRF的古汉语分词标注一体化研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
3 帕里旦·吐尔逊;艾山·吾买尔;吐尔根·依布拉音;早克热·卡德尔;阿力木江·艾沙;;基于最大熵的维吾尔语词性标注模型[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
4 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
5 艳红;王斯日古楞;;蒙古文词语切分在自动词性标注中的应用[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 朱莉;孟遥;赵铁军;;典型参数平滑算法在词性标注中的性能评价[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 张艳;徐波;;基于转换的错误学习方法的汉语词性自动标注研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
8 苏祺;昝红英;胡景贺;项锟;;词性标注对信息检索系统性能的影响[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 孙茂松;王洪君;董秀芳;;《信息处理用现代汉语分词词表》规范[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
10 邢富坤;宋柔;罗智勇;;SSD模型及其在词性标注中的应用[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前10条
1 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
2 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
3 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
4 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
5 李晓黎;WEB信息检索与分类中的数据采掘研究[D];中国科学院研究生院(计算技术研究所);2001年
6 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
7 袁彩霞;中文功能组块分析及应用研究[D];北京邮电大学;2009年
8 孙广路;基于统计学习的中文组块分析技术研究[D];哈尔滨工业大学;2008年
9 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年
10 王红玲;基于特征向量的中英文语义角色标注研究[D];苏州大学;2009年
中国硕士学位论文全文数据库 前10条
1 钱揖丽;中文文本分词及词性标注自动校对方法研究[D];山西大学;2003年
2 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
3 黄勇杰;基于统计NLP技术的甲骨卜辞的分析研究[D];华东师范大学;2010年
4 刘东旭;在自然汉语中进行分词和词性标注[D];电子科技大学;2003年
5 张虎;汉语语料库词性标注一致性检查及自动校对方法研究[D];山西大学;2005年
6 张磊;基于最大熵模型的汉语词性标注研究[D];大连理工大学;2008年
7 熊冬明;汉语自动分词和中文人名识别技术研究[D];浙江大学;2006年
8 孔海霞;基于最大熵的汉语词性标注[D];大连理工大学;2007年
9 张卫;中文词性标注的研究与实现[D];南京师范大学;2007年
10 杨辉;汉语新词语发现及其词性标注方法研究[D];复旦大学;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978