收藏本站
《第一届学生计算语言学研讨会论文集》2002年
收藏 | 手机打开
二维码
手机客户端打开本文

汉语分词及词性标注自动校验方法研究

钱揖丽  张虎  
【摘要】:大规模的标注语料库是语料库语言学发展的重要基础。随着许多科学研究的进一步开展,我们对语料的加工质量提出了更高的要求。本文采用基于上下文搭配的规则和统计相结合的自动校验方法,对机器切分标注语料进行处理,并把自动校验过程中获取的信息,应用于语料库的构建,即采用滚动式的方法,建立大规模的、具有更高加工质量的标注语料库。
【作者单位】:山西大学计算机科学系 山西大学计算机科学系
【分类号】:H085

手机知网App
【引证文献】
中国重要会议论文全文数据库 前2条
1 曲维光;陈小荷;;标注语料机器校对的研究与实践[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 曲维光;;语料自动校对中一致性问题的处理[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
【参考文献】
中国重要会议论文全文数据库 前2条
1 周强;詹卫东;任海波;;构建大规模的汉语语块库[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【共引文献】
中国期刊全文数据库 前1条
1 孙晓;黄德根;;基于最长次长匹配分词的一体化中文词法分析[J];大连理工大学学报;2010年06期
中国重要会议论文全文数据库 前7条
1 王德正;;网络入侵检测系统中模式匹配算法的研究与改进[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
2 张艳;徐波;;基于转换的错误学习方法的汉语词性自动标注研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
3 吴云芳;常宝宝;詹卫东;;汉英双语短语信息数据库的构建[A];第一届学生计算语言学研讨会论文集[C];2002年
4 周强;;汉语部分分析研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 尚英;;动词重叠形式的自动识别方法研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 程葳;邱立坤;;限定领域汉英口语双语语块库的构建[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 宋慧曼;程葳;;关于双语语块规范的几个问题[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前4条
1 李桃;烧结过程智能实时操作指导系统的研究[D];中南大学;2000年
2 马红妹;汉英机器翻译中汉语上下文语境的表示与应用研究[D];中国人民解放军国防科学技术大学;2002年
3 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
4 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
中国硕士学位论文全文数据库 前10条
1 刘青磊;汉语词语及句子相似度算法研究与应用[D];电子科技大学;2011年
2 高红梅;一类复杂图象目标识别研究及智能化方法的应用[D];西安理工大学;2000年
3 赵生慧;基于代理的入侵检测系统的研究与设计[D];合肥工业大学;2003年
4 张彪;基于Rete算法的数据库通知引擎技术研究[D];上海海事大学;2004年
5 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
6 朱国华;文本信息处理中汉语句法分析方法研究[D];大连理工大学;2006年
7 公茂财;列车轴温探测系统数据处理算法及实现[D];西安电子科技大学;2005年
8 贺胜;面向现代汉语文本处理的全文检索、自动分词通用系统[D];南京师范大学;2006年
9 刘建基;基于关联度和词对齐的双语组块获取研究[D];南京理工大学;2006年
10 郭军;一种高速网络监控系统的设计与实现[D];华中科技大学;2006年
【二级引证文献】
中国重要会议论文全文数据库 前1条
1 曲维光;;分词系统计量研究与改进方案[A];第二届全国学生计算语言学研讨会论文集[C];2004年
【二级参考文献】
中国期刊全文数据库 前2条
1 周强,孙茂松,黄昌宁;汉语最长名词短语的自动识别[J];软件学报;2000年02期
2 张民,李生,赵铁军,张艳风;统计与规则并举的汉语词性自动标注算法[J];软件学报;1998年02期
【相似文献】
中国期刊全文数据库 前10条
1 李海波;;手工分词和词性标注的问题[J];现代语文(语言研究版);2010年07期
2 马宏基;;对外汉语教材中兼类词的标注问题[J];科学决策;2008年10期
3 潘彦彩;;《现代汉语词典》(第5版)词性标注指瑕[J];语文知识;2011年01期
4 ;要目回溯[J];辞书研究;2007年01期
5 宛志文;;虚词词性标注的统一性和释义方式[J];辞书研究;1985年02期
6 苏宝荣;汉语语文辞书的词性标注及其对释义的影响[J];辞书研究;2002年02期
7 程荣;;汉语辞书中词性标注引发的相关问题[J];中国语文;1999年03期
8 赛麦提·麦麦提明;;现代维吾尔语同形词词性自动标注探析[J];语言与翻译;2006年03期
9 王伟丽;;浅谈外向型汉语学习词典的词性标注[J];语文学刊;2009年08期
10 马楠;;词典词性标注的单位问题[J];辞书研究;2009年03期
中国重要会议论文全文数据库 前10条
1 钱揖丽;张虎;;汉语分词及词性标注自动校验方法研究[A];第一届学生计算语言学研讨会论文集[C];2002年
2 赵大明;;关于《现代汉语规范字典》的词性标注[A];中国辞书论集1999[C];1999年
3 邢富坤;宋柔;;自动词性标注中语法因素和词汇因素对英汉语的不同影响[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
5 林红;胡欣;;最大熵模型的应用[A];新世纪气象科技创新与大气科学发展——中国气象学会2003年年会“地球气候和环境系统的探测与研究”分会论文集[C];2003年
6 徐艳华;;面向自动分词的三音节新词语构词法研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 李晶;陈鄞;杨沐昀;徐冰;;关于在分词系统中引入领域词典的研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 陈文亮;朱靖波;吕学强;姚天顺;;词性标注规则的获取和优化[A];第一届学生计算语言学研讨会论文集[C];2002年
9 李红印;;颜色词的收词、释义和词性标注[A];中国辞书论集2001[C];2001年
10 郑泽之;;中文自动分词的一些问题[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国重要报纸全文数据库 前4条
1 教育部语信司;语言资源监测与服务论坛举行[N];语言文字周报;2010年
2 语言所 董琨;错误百出 贻笑大方[N];中国社会科学院院报;2004年
3 教育部语言文字信息管理司司长李宇明;语言文字工作应当与时俱进[N];中国教育报;2001年
4 教育部语信司;国家语言资源监测与研究中心召开2007数据发布专题研讨会[N];语言文字周报;2008年
中国博士学位论文全文数据库 前9条
1 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
2 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
3 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
4 屈刚;英汉双语短语对齐[D];上海交通大学;2007年
5 韩秀娟;基于动态流通语料库的通用词语用字研究及字词语关系考察[D];北京语言大学;2007年
6 王洁;汉语中介语偏误的计算机处理方法研究[D];北京语言大学;2008年
7 宋刚;普通话儿童早期动词习得:范畴、论元结构与句法线索[D];北京语言大学;2009年
8 王斯日古楞;基于混合策略的汉蒙机器翻译及相关技术研究[D];内蒙古大学;2009年
9 杨建国;基于动态流通语料库(DCC)的汉语熟语单位研究[D];北京语言大学;2005年
中国硕士学位论文全文数据库 前10条
1 樊立三;现代汉语语文辞书词性标注研究[D];鲁东大学;2006年
2 图格木勒;蒙古语语言资源库建设相关技术研究[D];内蒙古大学;2007年
3 刘曼;对外汉语教学中的词类体系和词性标注[D];辽宁师范大学;2004年
4 齐艳艳;《现代汉语词典》单音节副词词性标注、释义及条目分立考察[D];北京语言大学;2004年
5 段倩倩;面向信息处理的带典型前缀派生词的识别分析[D];上海师范大学;2010年
6 普布旦增;藏文自动分词技术方法研究[D];西藏大学;2010年
7 袁伟;现代汉语词典标注词性之比较与批评[D];苏州大学;2006年
8 牛书田;对外汉语教材中的词汇处理分析研究[D];山东大学;2008年
9 谢小凤;现代诗歌节奏的计算机自动分析[D];广西民族大学;2012年
10 刘阳;“隐性小词表+专业小词库”的自动分词技术研究[D];湖南师范大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026