收藏本站
《中国计算机语言学研究前沿进展(2007-2009)》2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于CRF的古汉语分词标注一体化研究

石民  陈小荷  于丽丽  李斌  
【摘要】:本文在计算机自然语言处理和古代汉语、特别是先秦文献的交叉领域进行了新的探索。首先对《左传》文本进行了词汇处理(分词和词性标注)和分析,然后采用条件随机场模型(CRF),基于两个模板进行自动分词、词性标注、分词标注一体化的对比实验。研究表明,一体化分词方法比单独分词的准确率和召回率均有明显提高,开放测试的最高F值达到了90.89%,满足古代汉语词汇研究和语料库建设的需求,而且较好地弥补了人工标注的不足。

手机知网App
【参考文献】
中国期刊全文数据库 前3条
1 尉迟治平;计算机技术和汉语史研究[J];古汉语研究;2000年03期
2 李斌;陈小荷;;面向中文陌生文本的人机交互式分词方法[J];中文信息学报;2007年03期
3 邱冰;皇甫娟;;基于中文信息处理的古代汉语分词研究[J];微计算机信息;2008年24期
【共引文献】
中国期刊全文数据库 前10条
1 何茂活;;从《广韵》看汉语中的同形异义词[J];北华大学学报(社会科学版);2010年02期
2 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
3 向学春;选择连词“其”与语气副词“其”[J];承德民族师专学报;2005年03期
4 陈晓明;梁雄友;;一种实用的PCFG多阶段全局寻优句法分析算法[J];长春理工大学学报(自然科学版);2010年02期
5 马照亭;李志刚;孙伟;印洁;;一种基于地址分词的自动地理编码算法[J];测绘通报;2011年02期
6 赵新亚;;《楚辞》重言的分析[J];重庆工商大学学报(社会科学版);2009年05期
7 丁士虎;;《中国古代公文选》若干处译文商榷[J];池州学院学报;2010年02期
8 陈祝琴;;古汉语词汇教学的两点思考[J];池州学院学报;2010年05期
9 徐四海;;成语中的古代汉语元素解读[J];常州工学院学报(社科版);2010年02期
10 王式畏;;入派四声[J];德宏教育学院学报;2005年02期
中国重要会议论文全文数据库 前10条
1 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
2 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
3 戴祖旭;洪帆;;基于词性标记文法的文本信息隐藏算法[A];第四届中国软件工程大会论文集[C];2007年
4 张霄军;;“长安”的同名地名自动识别与指代消解[A];陕西省社会科学界第二届(2008)学术年会——青年博士论坛“陕西新起点:创新·发展·民生”专题获奖论文选编[C];2008年
5 程月;季娜;洪鹿平;;基于语料统计的以“不”开头双字分词不一致研究[A];第三届学生计算语言学研讨会论文集[C];2006年
6 杜超华;沈威;姚双云;;基于复句语料库的分词系统的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
7 朱丽丽;郑家恒;;一种基于实例学习的人名识别方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
8 吐尔根·依不拉音;阿里甫·库尔班;阿不都热依木;;基于词典的现代维吾尔语词性自动标注系统的研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
9 张霄军;董宇;陈小荷;;基于语料考察的“组合型歧义”与“切分变异”辨析[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 赫琳;;论“X 从小 Y”的词切分——“从小”语义指向计算机识别的再思考[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2009年
2 张蕾;概念结构及其应用[D];西北工业大学;2001年
3 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
4 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
5 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
6 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
7 刘伟;现代汉语代词隐现的动态研究[D];北京语言大学;2005年
8 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
9 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
10 解植永;中古汉语判断句研究[D];四川大学;2007年
中国硕士学位论文全文数据库 前10条
1 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
2 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
3 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
4 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
5 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
6 王有权;基于Web的智能答疑技术研究与实现[D];南京财经大学;2010年
7 苏俊峰;基于HMM的藏语语料库词性自动标注研究[D];西北民族大学;2010年
8 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
9 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年
10 付敏;一个改进的中文分词算法及其在Lucene中的应用[D];华中科技大学;2010年
【二级参考文献】
中国期刊全文数据库 前7条
1 傅赛香,袁鼎荣,黄柏雄,钟智;基于统计的无词典分词方法[J];广西科学院学报;2002年04期
2 金翔宇,孙正兴,张福炎;一种中文文档的非受限无词典抽词方法[J];中文信息学报;2001年06期
3 罗盛芬,孙茂松;基于字串内部结合紧密度的汉语自动抽词实验研究[J];中文信息学报;2003年03期
4 冯冲;陈肇雄;黄河燕;关真珍;;基于Multigram语言模型的主动学习中文分词[J];中文信息学报;2006年01期
5 刘挺,吴岩,王开铸;串频统计和词形匹配相结合的汉语自动分词系统[J];中文信息学报;1998年01期
6 朱小娟;陈特放;;基于SVM的词频统计中文分词研究[J];微计算机信息;2007年30期
7 张恒;杨文昭;屈景辉;卢虹冰;张亮;赵飞;;基于词典和词频的中文分词方法[J];微计算机信息;2008年03期
【相似文献】
中国期刊全文数据库 前10条
1 努尔比娅·塔依尔;地里木拉提·吐尔逊;艾斯卡尔·肉孜;;面向韵律层边界自动划分的维吾尔语词性自动标注技术研究[J];计算机应用与软件;2011年08期
2 姜文斌;吴金星;乌日力嘎;那顺乌日图;刘群;;蒙古语有向图形态分析器的判别式词干词缀切分[J];中文信息学报;2011年04期
3 陈顺强;沙马拉毅;;信息处理用彝文词性研究[J];民族语文;2011年04期
4 余传明;黄建秋;郭飞;;从客户评论中识别命名实体——基于最大熵模型的实现[J];现代图书情报技术;2011年05期
5 许德山;张智雄;赵妍;;中文问句与RDF三元组映射方法研究[J];图书情报工作;2011年06期
6 孙广路;郎非;薛一波;;基于条件随机域和语义类的中文组块分析方法[J];哈尔滨工业大学学报;2011年07期
7 刘莉;何中市;邢欣来;毛小丽;;基于语义角色的中文时间表达式识别[J];计算机应用研究;2011年07期
8 王斯日古楞;斯琴图;那顺乌日图;;汉蒙统计机器翻译中的调序方法研究[J];中文信息学报;2011年04期
9 玉素甫·艾白都拉;张海军;艾孜尔古丽;;信息处理用现代维吾尔语词干词类标记集研究[J];信息技术与标准化;2011年06期
10 王卫平;孟翠翠;;基于句法分析与依存分析的评价对象抽取[J];计算机系统应用;2011年08期
中国重要会议论文全文数据库 前10条
1 石民;陈小荷;于丽丽;李斌;;基于CRF的古汉语分词标注一体化研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
3 帕里旦·吐尔逊;艾山·吾买尔;吐尔根·依布拉音;早克热·卡德尔;阿力木江·艾沙;;基于最大熵的维吾尔语词性标注模型[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
4 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
5 艳红;王斯日古楞;;蒙古文词语切分在自动词性标注中的应用[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 朱莉;孟遥;赵铁军;;典型参数平滑算法在词性标注中的性能评价[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 张艳;徐波;;基于转换的错误学习方法的汉语词性自动标注研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
8 苏祺;昝红英;胡景贺;项锟;;词性标注对信息检索系统性能的影响[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 孙茂松;王洪君;董秀芳;;《信息处理用现代汉语分词词表》规范[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
10 邢富坤;宋柔;罗智勇;;SSD模型及其在词性标注中的应用[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前10条
1 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
2 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
3 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
4 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
5 李晓黎;WEB信息检索与分类中的数据采掘研究[D];中国科学院研究生院(计算技术研究所);2001年
6 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
7 袁彩霞;中文功能组块分析及应用研究[D];北京邮电大学;2009年
8 孙广路;基于统计学习的中文组块分析技术研究[D];哈尔滨工业大学;2008年
9 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年
10 王红玲;基于特征向量的中英文语义角色标注研究[D];苏州大学;2009年
中国硕士学位论文全文数据库 前10条
1 钱揖丽;中文文本分词及词性标注自动校对方法研究[D];山西大学;2003年
2 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
3 黄勇杰;基于统计NLP技术的甲骨卜辞的分析研究[D];华东师范大学;2010年
4 刘东旭;在自然汉语中进行分词和词性标注[D];电子科技大学;2003年
5 张虎;汉语语料库词性标注一致性检查及自动校对方法研究[D];山西大学;2005年
6 张磊;基于最大熵模型的汉语词性标注研究[D];大连理工大学;2008年
7 熊冬明;汉语自动分词和中文人名识别技术研究[D];浙江大学;2006年
8 孔海霞;基于最大熵的汉语词性标注[D];大连理工大学;2007年
9 张卫;中文词性标注的研究与实现[D];南京师范大学;2007年
10 杨辉;汉语新词语发现及其词性标注方法研究[D];复旦大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026