收藏本站
《辉煌二十年——中国中文信息学会二十周年学术会议论文集》2001年
收藏 | 手机打开
二维码
手机客户端打开本文

基于转换的错误学习方法的汉语词性自动标注研究

张艳  徐波  
【摘要】:词性标注是自然语言处理的基础.本文采用了基于规则与统计相结合的标注方法.首先用基于词性与词相结合的三元统计模型对汉语分词及标注进行一体化处理,完成对语料库的初始标注;然后用Brill的基于转换的学习方法通过转换规则完成最终的词性标注.对大规模真实语料的标注实验表明基于转换的方法与三元统计模型方法相得益彰;高起始点的初始标注对于提高Brill方法的准确性至关重要;Brill的基于转换的方法在高精度的初始标注的基础上又有明显的提高.

手机知网App
【参考文献】
中国期刊全文数据库 前4条
1 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
2 周强;规则和统计相结合的汉语词类标注方法[J];中文信息学报;1995年03期
3 魏欧,吴健,孙玉芳,sonata.iscas.ac.cn;基于统计的汉语词性标注方法的分析与改进[J];软件学报;2000年04期
4 张民,李生,赵铁军,张艳风;统计与规则并举的汉语词性自动标注算法[J];软件学报;1998年02期
中国重要会议论文全文数据库 前1条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【共引文献】
中国期刊全文数据库 前10条
1 赵红丹;王希杰;;基于隐马尔科夫模型的词性标注[J];安阳师范学院学报;2010年05期
2 张晓君;;为什么语言学研究离不开逻辑学——2009语言学和逻辑学交叉研究研讨会侧记[J];毕节学院学报;2010年05期
3 史永刚;左志宏;;决策树在中文姓名信息提取中的应用研究[J];成都信息工程学院学报;2006年02期
4 窦嵘;加羊吉;黄伟;;统计与规则相结合的藏文人名自动识别研究[J];长春工程学院学报(自然科学版);2010年02期
5 黄昌宁,孙茂松;中文信息处理最新成果的检阅——记新加坡中文电脑国际会议ICCC’96[J];国外语言学;1996年04期
6 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
7 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期
8 孙晓;黄德根;;基于最长次长匹配分词的一体化中文词法分析[J];大连理工大学学报;2010年06期
9 刘利东;信息源中专业词语的提取方法[J];德州学院学报(自然科学版);2002年02期
10 刘利东;基于组合度的汉语分词决策算法研究[J];德州学院学报(自然科学版);2003年02期
中国重要会议论文全文数据库 前10条
1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 周蕾;李培峰;朱巧明;杨季文;;碎片分词与词结合提取的未登录词识别方法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
3 侯敏;侯敞;;汉英机译系统译文质量的评测[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年
4 张树武;徐波;黄泰翼;;汉语大词汇/连续语音识别语言建模技术分析[A];第四届全国人机语音通讯学术会议论文集[C];1996年
5 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
6 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
7 何燕;;基于单字词转移概率的未登录词识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
8 侯敏;;汉语自动分析中的若干问题与对策[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
9 张艳丽;黄德根;张丽静;杨元生;;统计和规则相结合的中文机构名称识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 隋岩;张普;;基于“动态流通语料库”进行“有效字符串”提取的初步研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
2 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
3 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
4 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
5 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
6 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
7 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
8 刘启和;基于Rough集的知识发现及其在汉语处理中的应用[D];电子科技大学;2005年
9 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
10 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
中国硕士学位论文全文数据库 前10条
1 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
2 江涛;基于藏文web舆情分析的热点发现算法研究[D];西北民族大学;2010年
3 苏俊峰;基于HMM的藏语语料库词性自动标注研究[D];西北民族大学;2010年
4 杨晓东;中文命名实体识别及若干相关问题的研究[D];江苏大学;2010年
5 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
6 王荔;统计全切分中文分词系统的研究与实现[D];西安电子科技大学;2009年
7 陈晖;半监督的命名实体识别[D];北京交通大学;2011年
8 刘欢;职位匹配系统的设计与实现[D];华东师范大学;2011年
9 吴金星;蒙古语词法标注语料库的构建及相关技术研究[D];内蒙古大学;2011年
10 侯呈风;基于HMM的哈萨克语词性标注研究[D];新疆大学;2011年
【同被引文献】
中国期刊全文数据库 前3条
1 周强;;基于语料库和面向统计学的自然语言处理技术[J];计算机科学;1995年04期
2 许伟,苑春法,黄昌宁;基于语料库的语言建模[J];清华大学学报(自然科学版);1997年03期
3 孙茂松;黄昌宁;方捷;;汉语搭配定量分析初探[J];中国语文;1997年01期
【二级引证文献】
中国期刊全文数据库 前1条
1 努尔比亚·吐拉甫;于洪志;;基于短语的数字、时间维汉翻译规则建设[J];生物技术世界;2012年02期
中国重要会议论文全文数据库 前1条
1 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
中国博士学位论文全文数据库 前1条
1 马晖男;信息检索中浅层语义模型的研究[D];大连理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 曾一平;中文文本情感分类的研究[D];北京交通大学;2011年
2 王晶;基于垂直搜索技术的竞争情报采集系统的设计与实现[D];上海交通大学;2011年
3 王茜;基于字符串匹配的中英文混合分词技术研究[D];四川师范大学;2011年
4 刘建舟;术语自动抽取系统的设计及关键技术研究[D];华中师范大学;2004年
5 周蕾;中文未登录词识别的研究及在汉字输入法中的应用[D];苏州大学;2005年
6 张建;面向产品设计的汉语自然语言复合句语义理解[D];西安电子科技大学;2006年
7 王蕾;基于转换学习的专有名词识别[D];苏州大学;2006年
8 邱莎;基于统计的生物命名实体识别研究[D];四川大学;2006年
9 张国强;层次化蒙古语语言模型的构建研究[D];内蒙古大学;2008年
10 周冲;面向领域的自然语言理解中VP+NP1+的+NP2歧义结构处理及其在产品设计中的应用[D];西安电子科技大学;2009年
【二级参考文献】
中国期刊全文数据库 前1条
1 张民,李生,赵铁军,张艳风;统计与规则并举的汉语词性自动标注算法[J];软件学报;1998年02期
【相似文献】
中国期刊全文数据库 前10条
1 孔骏,陈玉泉,陆汝占;自学习结合部分句法分析的汉语词性标注[J];上海交通大学学报;2001年09期
2 梁妍;朱耀庭;;错误驱动学习在未登录词词性标注中的应用[J];计算机工程与设计;2008年06期
3 侯呈风;古丽拉·阿东别克;;改进的HMM应用于哈萨克语词性标注[J];计算机工程与应用;2010年36期
4 朱靖波,张玫杰,姚天顺;一种基于NA假设的训练数据自动构造方法[J];东北大学学报(自然科学版);1999年04期
5 韩东妹;林民;;自动词性标注概述[J];内蒙古科技与经济;2006年01期
6 潘炜;沈超;;面向层次分类标签的词性标注系统[J];计算机工程;2009年21期
7 刘遥峰;王志良;王传经;;中文分词和词性标注模型[J];计算机工程;2010年04期
8 孙静;李军辉;周国栋;;基于条件随机场的无监督中文词性标注[J];计算机应用与软件;2011年04期
9 吴杨;;词性标注对外文信息检索系统性能的影响[J];民营科技;2011年05期
10 姚天昉,林莉,玉素甫·艾白都拉;基于德语语料库词性标注和统计方法的研究[J];上海交通大学学报;1996年06期
中国重要会议论文全文数据库 前10条
1 张艳;徐波;;基于转换的错误学习方法的汉语词性自动标注研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
2 吴云鹏;昝红英;;基于错误驱动的现代汉语方位词用法规则的自动更新[A];第五届全国青年计算语言学研讨会论文集[C];2010年
3 帕里旦·吐尔逊;艾山·吾买尔;吐尔根·依布拉音;早克热·卡德尔;阿力木江·艾沙;;基于最大熵的维吾尔语词性标注模型[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
4 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
5 艳红;王斯日古楞;;蒙古文词语切分在自动词性标注中的应用[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 朱莉;孟遥;赵铁军;;典型参数平滑算法在词性标注中的性能评价[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 徐昉;宗成庆;;汉语base NP识别:错误驱动的组合分类器方法[A];第三届学生计算语言学研讨会论文集[C];2006年
9 苏祺;昝红英;胡景贺;项锟;;词性标注对信息检索系统性能的影响[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 石民;陈小荷;于丽丽;李斌;;基于CRF的古汉语分词标注一体化研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国重要报纸全文数据库 前3条
1 陆齐永;个人电脑的下一件大事[N];中国教育资讯报;2002年
2 ;编程沙龙[N];电脑报;2003年
3 PALADIN;算法演义[N];电脑报;2003年
中国博士学位论文全文数据库 前10条
1 杨艳屏;主动学习算法及其在心血管疾病诊断中的应用研究[D];华中科技大学;2010年
2 吴集;多智能体仿真支撑技术、组织与AI算法研究[D];国防科学技术大学;2006年
3 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
4 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
5 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
6 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
7 冯海亮;流形学习算法在人脸识别中的应用研究[D];重庆大学;2008年
8 杨群生;模糊联想记忆网络和模糊图象处理研究[D];华南理工大学;2000年
9 齐国君;多类别模式分类技术及其在多媒体分析上的应用[D];中国科学技术大学;2009年
10 夏铮;基于图和网络的学习算法及其在系统生物学中的一些应用[D];浙江大学;2009年
中国硕士学位论文全文数据库 前10条
1 钱揖丽;中文文本分词及词性标注自动校对方法研究[D];山西大学;2003年
2 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
3 刘东旭;在自然汉语中进行分词和词性标注[D];电子科技大学;2003年
4 张虎;汉语语料库词性标注一致性检查及自动校对方法研究[D];山西大学;2005年
5 王旗;基于转换学习的词性标注研究[D];太原理工大学;2011年
6 张磊;基于最大熵模型的汉语词性标注研究[D];大连理工大学;2008年
7 熊冬明;汉语自动分词和中文人名识别技术研究[D];浙江大学;2006年
8 孔海霞;基于最大熵的汉语词性标注[D];大连理工大学;2007年
9 张卫;中文词性标注的研究与实现[D];南京师范大学;2007年
10 杨辉;汉语新词语发现及其词性标注方法研究[D];复旦大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026