期刊库|学位论文库|会议论文库|飞度BOOK|站内搜索注册|充值中心|购买知网卡|送卡上门|帮助中心|
全文文献: “飞度BOOK”首届期刊庙会开幕啦!
做个飞度客,万千杂志,想看就看!
《全国第八届计算语言学联合学术会议(JSCL-2005)论文集》 2005年
加入收藏 获取最新

高频最大交集型歧义字段问题研究

李斌  陈小荷  方芳  徐艳华  
【摘要】:交集型歧义是中文分词的一大难题,建立大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义。本文采用全切分方法,在4亿字人民日报语料上采集严格定义的高频MOAS14906条,随机抽取了相应的1354270条带有上下文信息的MOAS实例进行人工判定。数据分析表明,大多数真歧义MOAS存在着强势切分现象,词表词字段也应纳入MOAS的探测范围。
【作者单位】:南京师范大学文学院 南京师范大学文学院 南京师范大学文学院 南京师范大学文学院
【关键词】:最大交集型歧义字段 词表词字段 全切分 强势切分
【分类号】:TP391.1
【正文快照】:
1引言 未登录词和切分歧义是汉语自动分词中的两大难题。据统计,在切分歧义中,85%以上是交 集型歧义151。目前己有的解决交集型歧义的方法主要有两大类,一是基于各种统计和规则的消歧 方法,二是基于记忆的方法。第一类方法中效果较好的有基于词概率Ie1、词的二元模型l3]、贝叶
全文下载: CAJ格式 (推荐) PDF格式
不支持迅雷等加速下载工具,请取消加速工具后下载
CAJViewer7.0阅读器支持所有CNKI文件格式,AdobeReader仅支持PDF格式

【参考文献】
中国期刊全文数据库 前2条
1 孙茂松,左正平,邹嘉彦;高频最大交集型歧义切分字段在汉语自动分词中的作用[J];中文信息学报;1999年01期
2 陈小荷;用基于词的二元模型消解交集型分词歧义[J];南京师大学报(社会科学版);2004年06期
【共引文献】
中国期刊全文数据库 前10条
1 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期
4 王显芳,杜利民;利用覆盖歧义检测法和统计语言模型进行汉语自动分词[J];电子与信息学报;2003年09期
5 刘禹孜,何中市;一种基于SVM和规则消除组合型歧义的算法[J];重庆大学学报(自然科学版);2005年10期
6 蔡勇智;基于最大匹配分词算法的中文词语粗分模型[J];福建电脑;2005年09期
7 邓曙光,曾朝晖;汉语分词中一种逐词匹配算法的研究[J];湖南城市学院学报(自然科学版);2005年01期
8 马光志,李专;基于特征词的自动分词研究[J];华中科技大学学报(自然科学版);2003年03期
9 王锡江;王启祥;陈家骏;;基于邻接知识的汉语自动分词系统[J];计算机研究与发展;1992年11期
10 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
中国重要会议论文全文数据库 前10条
1 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
2 侯敏;;汉语自动分析中的若干问题与对策[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 孙茂松;;汉语自动分词研究的若干最新进展——清华大学相关工作简介[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
4 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 董强;郝长伶;董振东;;基于《知网》的中文语块抽取器[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 Chunyu Kit;;An Example-based Study on Chinese Word Segmentation Using Critical Fragments[A];Proceedings of the Conference First International Joint Conference on Natural Language Processing[C];2004年
7 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 郭慧志;王强军;刘华;张普;;大规模动态流通语料库的构建[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 侯敏;陈琼璜;初田天;李湛;王瑜;叶立;;汉语自动分词中的上下文相关歧义字段(CSAS)研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 孙承杰;黄昌宁;关毅;;基于标注语料库的组合歧义检测与消解[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 宋春阳;面向信息处理的现代汉语“名+名”逻辑语义研究[D];上海师范大学;2003年
2 张蕾;概念结构及其应用[D];西北工业大学;2001年
3 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
4 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
5 王燚;基于场景化知识表示的自然语言处理及其在自动文本校对中的应用[D];西南交通大学;2005年
6 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年
7 史艳岚;基于中国主流报纸动态流通语料库的对外汉语报刊新闻主题词群及相关研究[D];北京语言大学;2006年
8 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
9 张亮;面向开放域的中文问答系统问句处理相关技术研究[D];南京理工大学;2006年
10 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
中国硕士学位论文全文数据库 前10条
1 何燕;任意类型的未登录词的识别研究[D];北京语言文化大学;2000年
2 娄(王廷);现代汉语分词系统通用性设计及切分歧义处理[D];北京工业大学;2000年
3 黄艳;面向数字化产品的自然语言查询技术的研究与开发[D];浙江大学;2002年
4 缪晓阳;WebCM:一种基于搜索引擎的网络内容监控系统的研究[D];浙江大学;2002年
5 陆文彦;概念网的建模、实现与应用[D];中南大学;2002年
6 廉竹钧;汉语组合型切分歧义字段消歧方法研究[D];北京语言文化大学;2002年
7 关宏超;基于统计的开放式汉语自动分词[D];大连理工大学;2002年
8 马东坡;Internet中文智能搜索引擎汉语自动分词系统设计[D];广西师范大学;2002年
9 皮鹏;智能搜索引擎系统的研究[D];哈尔滨工程大学;2002年
10 张艳丽;中文机构名称的自动识别[D];大连理工大学;2003年
【二级参考文献】
中国期刊全文数据库 前1条
1 刘开瑛;现代汉语自动分词评测技术研究[J];语言文字应用;1997年01期
关于知网|版权声明|学术会议服务|广告服务|在线咨询
京ICP证040431号互联网出版许可证新出网证(京)字008号北京市公安局海淀分局备案号:110 1081725
订购咨询热线:800-810-6613、010-62985026免费送卡上门
主办:清华大学
数字出版:中国学术期刊电子杂志社
在线发行:同方知网(北京)技术有限公司
关 闭
关 闭
关 闭