收藏本站
《第三届学生计算语言学研讨会论文集》2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于语料统计的以“不”开头双字分词不一致研究

程月  季娜  洪鹿平  
【摘要】:大规模语料库中分词不一致现象普遍存在,并影响语料库的建设质量。在对熟语料进行分析统计的基础上,着重研究以“不”开头的双字结构,深入分析该结构分词不一致的产生原因。从全新的角度以集合的概念进行详细分类,并得出造成组合型歧义和分词变异的一系列原因。

【参考文献】
中国期刊全文数据库 前4条
1 刘江,郑家恒,张虎;中文文本语料库分词一致性检验技术的初探[J];计算机应用研究;2005年09期
2 钱揖丽,郑家恒;文本切分知识获取及其应用[J];计算机工程与应用;2003年02期
3 苗玺;郑家恒;;中文语料库分词不一致的分类处理研究[J];山西大学学报(自然科学版);2006年01期
4 杜永萍,郑家恒;分词及词性标注一致性校对系统的设计与实现[J];电脑开发与应用;2001年10期
【共引文献】
中国期刊全文数据库 前10条
1 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 杜永萍,郑家恒;分词及词性标注一致性校对系统的设计与实现[J];电脑开发与应用;2001年10期
4 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
5 王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期
6 王显芳,杜利民;利用覆盖歧义检测法和统计语言模型进行汉语自动分词[J];电子与信息学报;2003年09期
7 冯丽萍;;基于统计的中文组织机构名识别[J];福建电脑;2006年01期
8 谢春发;中文信息处理在智能答疑系统中的应用研究[J];福建广播电视大学学报;2005年02期
9 李朝虹,陆建湖;现代汉语自动分析研究现状综述[J];广西教育学院学报;2003年01期
10 黄维金;顾益军;赵勋平;;基于自然语言理解的Web敏感信息监控[J];中国人民公安大学学报(自然科学版);2006年01期
中国重要会议论文全文数据库 前10条
1 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
2 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
3 傅思泉;;机器词典中按韵分词及虚词问题[A];江西省语言学会第五届会员大会暨2002年学术年会论文集[C];2002年
4 黄昌宁;林娟;孙承杰;;何谓金本位[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 卢俊之;;基于机器学习的分词不一致自动识别研究[A];第三届学生计算语言学研讨会论文集[C];2006年
6 董宇;陈小荷;;带标注语料库中切分变异的统计分析及思考[A];第三届学生计算语言学研讨会论文集[C];2006年
7 杜超华;沈威;姚双云;;基于复句语料库的分词系统的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
8 朱丽丽;郑家恒;;一种基于实例学习的人名识别方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
9 吐尔根·依不拉音;阿里甫·库尔班;阿不都热依木;;基于词典的现代维吾尔语词性自动标注系统的研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 古丽拉.阿东别克;达吾勒.阿布都哈依尔;;基于规则的哈萨克语词干提取系统的研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 何婷婷;语料库研究[D];华中师范大学;2003年
2 张蕾;概念结构及其应用[D];西北工业大学;2001年
3 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
4 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
5 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
6 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
7 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
8 刘伟;现代汉语代词隐现的动态研究[D];北京语言大学;2005年
9 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
10 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
中国硕士学位论文全文数据库 前10条
1 吴思;聚类分析及其在农业物种信息自动提取中的应用[D];湘潭大学;2001年
2 罗智勇;现代汉语通用分词系统的技术与实现[D];北京工业大学;2002年
3 廉竹钧;汉语组合型切分歧义字段消歧方法研究[D];北京语言文化大学;2002年
4 张丽静;规则与统计相结合的兼类词处理机制[D];大连理工大学;2002年
5 蔡丽;海外华语教材词汇分析研究[D];暨南大学;2002年
6 张艳丽;中文机构名称的自动识别[D];大连理工大学;2003年
7 许林杰;中文文本分词研究[D];山东师范大学;2003年
8 由丽萍;动词与动词搭配自动获取方法研究[D];上海师范大学;2003年
9 岑咏华;科技信息门户网站的技术研究[D];南京理工大学;2003年
10 刘军;基于论点倾向的网络信息内容实时分析研究[D];四川大学;2003年
【同被引文献】
中国期刊全文数据库 前10条
1 徐金颖;关于叠音词与重叠式的区分[J];保定师范专科学校学报;2002年01期
2 屈正林;祈使句中动词重叠式及其语用分析[J];长春师范学院学报;2004年06期
3 符淮青;;略谈《现代汉语词典》(第5版)标注词类的作用[J];辞书研究;2006年02期
4 张敏;从类型学和认知语法的角度看汉语重叠现象[J];当代语言学;1997年02期
5 陶红印;试论语体分类的语法学意义[J];当代语言学;1999年03期
6 李敬国;现代汉语动词重叠式的语法意义研究解析[J];甘肃社会科学;2002年01期
7 陈青松,陈安平;50年来动词重叠研究综述[J];湖南师范大学社会科学学报;2001年S2期
8 张理明;试论动词AABB重叠式[J];汉语学习;1984年04期
9 吴吟;汉语重叠研究综述[J];汉语学习;2000年03期
10 董秀芳;;汉语词缀的性质与汉语词法特点[J];汉语学习;2005年06期
中国重要会议论文全文数据库 前1条
1 卢俊之;;基于机器学习的分词不一致自动识别研究[A];第三届学生计算语言学研讨会论文集[C];2006年
中国硕士学位论文全文数据库 前4条
1 尚英;基于大规模调查的动词重叠形式自动识别方法与形式特征研究[D];北京语言大学;2004年
2 陈晴;基于条件随机场的自动分词技术的研究[D];东北大学;2005年
3 唐余俊;《现代汉语词典》收词原则与收词范围研究[D];南京师范大学;2007年
4 单凤娇;现代汉语动词重叠式的多维度研究[D];贵州大学;2007年
【二级参考文献】
中国期刊全文数据库 前5条
1 杜永萍,郑家恒;分词及词性标注一致性校对系统的设计与实现[J];电脑开发与应用;2001年10期
2 关毅,王晓龙,张凯;基于转移的音字转换纠错规则获取技术[J];计算机研究与发展;1999年03期
3 肖云,孙茂松,邹嘉彦;利用上下文信息解决汉语自动分词中的组合型歧义[J];计算机工程与应用;2001年19期
4 郑德权,于凤,王开涛 ,赵铁军;基于汉语二字应成词的歧义字段切分方法[J];计算机工程与应用;2003年01期
5 钱揖丽,郑家恒;文本切分知识获取及其应用[J];计算机工程与应用;2003年02期
中国重要会议论文全文数据库 前1条
1 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
【相似文献】
中国重要会议论文全文数据库 前1条
1 程月;季娜;洪鹿平;;基于语料统计的以“不”开头双字分词不一致研究[A];第三届学生计算语言学研讨会论文集[C];2006年
中国知网广告投放
相关机构
>南京师范大学文学院
相关作者
>洪鹿平 >季娜
>程月
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026