高频最大交集型歧义字段问题研究
【摘要】:交集型歧义是中文分词的一大难题,建立大规模高频最大交集型歧义字段(MOAS)的数据库,对于掌握其分布状况和自动消歧都具有重要意义。本文采用全切分方法,在4亿字人民日报语料上采集严格定义的高频MOAS14906条,随机抽取了相应的1354270条带有上下文信息的MOAS实例进行人工判定。数据分析表明,大多数真歧义MOAS存在着强势切分现象,词表词字段也应纳入MOAS的探测范围。
|
|
|
|
| 1 |
张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期 |
| 2 |
孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期 |
| 3 |
王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期 |
| 4 |
王显芳,杜利民;利用覆盖歧义检测法和统计语言模型进行汉语自动分词[J];电子与信息学报;2003年09期 |
| 5 |
刘禹孜,何中市;一种基于SVM和规则消除组合型歧义的算法[J];重庆大学学报(自然科学版);2005年10期 |
| 6 |
蔡勇智;基于最大匹配分词算法的中文词语粗分模型[J];福建电脑;2005年09期 |
| 7 |
邓曙光,曾朝晖;汉语分词中一种逐词匹配算法的研究[J];湖南城市学院学报(自然科学版);2005年01期 |
| 8 |
马光志,李专;基于特征词的自动分词研究[J];华中科技大学学报(自然科学版);2003年03期 |
| 9 |
王锡江;王启祥;陈家骏;;基于邻接知识的汉语自动分词系统[J];计算机研究与发展;1992年11期 |
| 10 |
刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期 |
|