收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

一种高效的汉语自动分词词典机制

杨超  李仁发  蒋斌  
【摘要】:词典是汉语自动分词的基础,分词词典机制的优劣直接影响到汉语自动分词的速度和效率。本文简要分析了汉语自动分词的三种主要算法,指明了分词词典机制在自动分词中的重要性,然后深入研究和比较了已有的几种典型分词词典机制,总结了各词典机制的优缺点。在此基础上,根据汉语中二字词较多的特点,提出了一种新的分词词典机制,该机制在词典数据结构中添加二字词检测位图表,在分词时,该位图表可快速判断二字词来优化分词速度。文章还给出了在正向最大匹配分词算法中应用该方法实现自动分词的算法分析,并选取人民日报语料片断进行了实验测试。实验结果表明,该分词词典机制有效地提高了汉语自动分词的速度和效率。

知网文化
【相似文献】
中国重要会议论文全文数据库 前8条
1 杨超;李仁发;蒋斌;;一种高效的汉语自动分词词典机制[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 曲维光;;解决汉语自动分词的方法选择[A];第一届学生计算语言学研讨会论文集[C];2002年
3 廉竹钧;;汉语组合型切分歧义字段消歧方法研究[A];第一届学生计算语言学研讨会论文集[C];2002年
4 张霄军;董宇;陈小荷;;基于语料考察的“组合型歧义”与“切分变异”辨析[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 肖航;靳光瑾;;现代汉语词语切分歧义库构建[A];第三届全国语言文字应用学术研讨会论文集[C];2004年
6 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 李小明;王亚莉;易立夫;杨静;孙金城;;自动分词中的单字虚词处理[A];新世纪的现代语音学——第五届全国现代语音学学术会议论文集[C];2001年
8 朱小燕;包塔;;EasyBraille:中文汉语盲文自动转换系统(英文)[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前1条
1 王立欣;翻译标准自动量化方法研究[D];上海外国语大学;2007年
中国硕士学位论文全文数据库 前3条
1 罗万;基于生成性词库分词技术的汉语拼音自动转换研究[D];湖南师范大学;2009年
2 黄晓洁;自然语言处理技术在对外汉语教学中的应用研究[D];中国人民解放军外国语学院;2007年
3 武玉洲;汉语文本人名识别改进方法研究[D];北京语言大学;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978