期刊库|学位论文库|会议论文库|飞度BOOK|站内搜索注册|充值中心|购买知网卡|送卡上门|帮助中心|
全文文献: “飞度BOOK”首届期刊庙会开幕啦!
做个飞度客,万千杂志,想看就看!
《第三届学生计算语言学研讨会论文集》 2006年
加入收藏 获取最新

基于语料统计的以“不”开头双字分词不一致研究

程月  季娜  洪鹿平  
【摘要】:大规模语料库中分词不一致现象普遍存在,并影响语料库的建设质量。在对熟语料进行分析统计的基础上,着重研究以“不”开头的双字结构,深入分析该结构分词不一致的产生原因。从全新的角度以集合的概念进行详细分类,并得出造成组合型歧义和分词变异的一系列原因。
【作者单位】:南京师范大学文学院 南京师范大学文学院 南京师范大学文学院
【关键词】:分词不一致 “不”开头的双字 组合型歧义 分词变异
【分类号】:TP391.1
【正文快照】:
引言 分词是汉语自动分析中必不可少的第一道工序,分词不一致问题是自动分词中面临的一大难题,直接关系到 语料库的建设。1988年国家审定颁布的《信息处理用现代汉语分词规范(国家标准)))(以下简称《规范)))从信 息处理的实际要求出发,根据现代汉语的特点和规律,确定了一
全文下载: CAJ格式 (推荐) PDF格式
不支持迅雷等加速下载工具,请取消加速工具后下载
CAJViewer7.0阅读器支持所有CNKI文件格式,AdobeReader仅支持PDF格式

【参考文献】
中国期刊全文数据库 前4条
1 杜永萍,郑家恒;分词及词性标注一致性校对系统的设计与实现[J];电脑开发与应用;2001年10期
2 钱揖丽,郑家恒;文本切分知识获取及其应用[J];计算机工程与应用;2003年02期
3 刘江,郑家恒,张虎;中文文本语料库分词一致性检验技术的初探[J];计算机应用研究;2005年09期
4 苗玺;郑家恒;;中文语料库分词不一致的分类处理研究[J];山西大学学报(自然科学版);2006年01期
【共引文献】
中国期刊全文数据库 前10条
1 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 杜永萍,郑家恒;分词及词性标注一致性校对系统的设计与实现[J];电脑开发与应用;2001年10期
4 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
5 王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期
6 王显芳,杜利民;利用覆盖歧义检测法和统计语言模型进行汉语自动分词[J];电子与信息学报;2003年09期
7 冯丽萍;;基于统计的中文组织机构名识别[J];福建电脑;2006年01期
8 谢春发;中文信息处理在智能答疑系统中的应用研究[J];福建广播电视大学学报;2005年02期
9 李朝虹,陆建湖;现代汉语自动分析研究现状综述[J];广西教育学院学报;2003年01期
10 黄维金;顾益军;赵勋平;;基于自然语言理解的Web敏感信息监控[J];中国人民公安大学学报(自然科学版);2006年01期
中国重要会议论文全文数据库 前10条
1 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
2 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
3 傅思泉;;机器词典中按韵分词及虚词问题[A];江西省语言学会第五届会员大会暨2002年学术年会论文集[C];2002年
4 黄昌宁;林娟;孙承杰;;何谓金本位[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 卢俊之;;基于机器学习的分词不一致自动识别研究[A];第三届学生计算语言学研讨会论文集[C];2006年
6 董宇;陈小荷;;带标注语料库中切分变异的统计分析及思考[A];第三届学生计算语言学研讨会论文集[C];2006年
7 杜超华;沈威;姚双云;;基于复句语料库的分词系统的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
8 朱丽丽;郑家恒;;一种基于实例学习的人名识别方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
9 吐尔根·依不拉音;阿里甫·库尔班;阿不都热依木;;基于词典的现代维吾尔语词性自动标注系统的研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 古丽拉.阿东别克;达吾勒.阿布都哈依尔;;基于规则的哈萨克语词干提取系统的研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 何婷婷;语料库研究[D];华中师范大学;2003年
2 张蕾;概念结构及其应用[D];西北工业大学;2001年
3 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
4 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
5 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
6 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
7 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
8 刘伟;现代汉语代词隐现的动态研究[D];北京语言大学;2005年
9 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
10 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
中国硕士学位论文全文数据库 前10条
1 罗智勇;现代汉语通用分词系统的技术与实现[D];北京工业大学;2002年
2 廉竹钧;汉语组合型切分歧义字段消歧方法研究[D];北京语言文化大学;2002年
3 张丽静;规则与统计相结合的兼类词处理机制[D];大连理工大学;2002年
4 蔡丽;海外华语教材词汇分析研究[D];暨南大学;2002年
5 张艳丽;中文机构名称的自动识别[D];大连理工大学;2003年
6 许林杰;中文文本分词研究[D];山东师范大学;2003年
7 由丽萍;动词与动词搭配自动获取方法研究[D];上海师范大学;2003年
8 岑咏华;科技信息门户网站的技术研究[D];南京理工大学;2003年
9 刘军;基于论点倾向的网络信息内容实时分析研究[D];四川大学;2003年
10 李盛;面向真实文本的汉语词义排歧系统[D];山西大学;2003年
【二级参考文献】
中国期刊全文数据库 前5条
1 关毅,王晓龙,张凯;基于转移的音字转换纠错规则获取技术[J];计算机研究与发展;1999年03期
2 杜永萍,郑家恒;分词及词性标注一致性校对系统的设计与实现[J];电脑开发与应用;2001年10期
3 肖云,孙茂松,邹嘉彦;利用上下文信息解决汉语自动分词中的组合型歧义[J];计算机工程与应用;2001年19期
4 郑德权,于凤,王开涛 ,赵铁军;基于汉语二字应成词的歧义字段切分方法[J];计算机工程与应用;2003年01期
5 钱揖丽,郑家恒;文本切分知识获取及其应用[J];计算机工程与应用;2003年02期
中国重要会议论文全文数据库 前1条
1 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
关于知网|版权声明|学术会议服务|广告服务|在线咨询
京ICP证040431号互联网出版许可证新出网证(京)字008号北京市公安局海淀分局备案号:110 1081725
订购咨询热线:800-810-6613、010-62985026免费送卡上门
主办:清华大学
数字出版:中国学术期刊电子杂志社
在线发行:同方知网(北京)技术有限公司
关 闭
关 闭
关 闭