基于上下文信息提取的概率分词算法
【摘要】:汉语分词在汉语文本处理过程中是一个十分特殊而重要的组成部分。传统的基于词典的分词算法存在着很大的缺陷,它们无法对未登陆词进行很好的处理。而基于概率的算法只考虑了训练集语料的概率模型,对于不同领域的文本的处理效果不尽人意。本文提出了一种基于上下文信息提取的概率分词算法,它能够将预切分文本的上下文信息加入分词概率模型中,以上下文信息指导文本的切分。这种切分算法结合经典n元模型以及EM算法,在开放测试环境中取得了比较好的效果。
|
|
|
|
| 1 |
王轩,李巍,王晓龙,赵淑香;大标记集汉语字(词)Markov 语言模型的建立[J];哈尔滨工业大学学报;1997年05期 |
| 2 |
王晓龙,王开铸,李仲荣,白小华;最少分词问题及其解法[J];科学通报;1989年13期 |
| 3 |
何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期 |
| 4 |
王晓龙,王开铸,白小华;自然语言理解中的音字流自动分词[J];中文信息学报;1991年03期 |
| 5 |
黄昌宁;关于处理大规模真实文本的谈话[J];语言文字应用;1993年02期 |
|
|
|
|
|
| 1 |
刘俊;张益肇;;基于统计的中文姓名提取方法[A];第六届全国人机语音通讯学术会议论文集[C];2001年 |
| 2 |
徐志明;揭春雨;Jonathan ebster;;一种自适应概率语言模型的训练方法及其应用于中文分词[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年 |
| 3 |
陶晓鹏;周水庚;;无辅助数据的中文分词方法(英文)[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年 |
| 4 |
陈丽江;;ACL-SIGHAN第一届国际中文分词竞赛评述[A];第二届全国学生计算语言学研讨会论文集[C];2004年 |
| 5 |
袁里驰;钟义信;;一种新颖的词聚类算法[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年 |
| 6 |
苏贵洋 ;李建华 ;马颖华;;XML统一文本自动处理描述接口[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年 |
| 7 |
王晔;黄上腾;;基于n-gram相邻字的中文文本特征提取算法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年 |
| 8 |
周国民;丘耘;郑彦妍;曾枝连;樊景超;;基于SDD算法的特定网页采集技术[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年 |
| 9 |
王洪俊;施水才;俞士汶;肖诗斌;;跨语言文档对齐[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年 |
| 10 |
马辉民;李卫华;;Web文档聚类系统的实现方法探析[A];第10届计算机模拟与信息技术会议论文集[C];2005年 |
|