收藏本站
《第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

利用单字碎片过滤改进汉语分词性能

李双龙  刘乐中  刘群  
【摘要】:对于一般的分词系统,由于数据稀疏而识别失败的未登录词往往被切分成单字串。这里将切分结果中连续的单字串称之为“单字碎片”。本文提出的一种碎片过滤方法的基本思想就是重新检测出单字碎片中识别失败的未登录词,并将此方法作为“后处理”引入到一个原有的基于统计方法的分词系统(ICTCLAS)中。在第一届SIGHAN北大测试语料上测试,新系统未登录词召回率提高了4%,F值比原系统提高了1%。可以看出,利用这种过滤方法在一定程度上削弱了数据稀疏问题,从而提高了汉语分词的性能。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张海营;;全二分快速自动分词算法构建[J];现代图书情报技术;2007年04期
2 王晓龙,王开铸,李仲荣,白小华;最少分词问题及其解法[J];科学通报;1989年13期
3 付国宏,王平,王晓龙;汉语分词和词性标注一体化分析的方法研究[J];计算机应用研究;2001年07期
4 王科,高常波,翟雪峰,罗万伯;汉语分词的主要技术及其应用展望[J];通信技术;2003年06期
5 火善栋;;有限状态机在中文文本分词中的应用[J];现代计算机(专业版);2010年06期
6 翟伟斌;周振柳;蒋卓明;许榕生;;汉语分词词典设计[J];计算机工程与应用;2007年01期
7 马婷婷;;中文自动分词系统概述[J];电脑知识与技术;2010年33期
8 李正伟;汉语分词与词典自学习系统[J];内蒙古煤炭经济;2001年05期
9 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
10 周波;杨国纬;;基于贝叶斯算法的中国人名识别[J];计算机应用;2006年04期
11 刘利东;基于组合度的汉语分词决策算法研究[J];德州学院学报;2003年02期
12 蔡之让;汉语自动分词输入/输出模块的设计[J];宿州师专学报;2002年02期
13 邓曙光,曾朝晖;汉语分词中一种逐词匹配算法的研究[J];湖南城市学院学报(自然科学版);2005年01期
14 刘晓英;汉语自动分词研究的发展趋势[J];高校图书馆工作;2005年04期
15 于江德;睢丹;樊孝忠;;基于字的词位标注汉语分词[J];山东大学学报(工学版);2010年05期
16 于江德;王希杰;樊孝忠;;基于最大熵模型的词位标注汉语分词[J];郑州大学学报(理学版);2011年01期
17 郭翠珍;朱巧明;李培峰;钱培德;;基于信息网格的分词服务的研究[J];微电子学与计算机;2006年05期
18 陈琳;何嘉;;基于遗传神经算法优化的汉语分词模型[J];西南师范大学学报(自然科学版);2007年04期
19 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
20 周文帅;冯速;;汉语分词技术研究现状与应用展望[J];山西师范大学学报(自然科学版);2006年01期
中国重要会议论文全文数据库 前10条
1 李双龙;刘乐中;刘群;;利用单字碎片过滤改进汉语分词性能[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
2 李博渊;奚宁;黄书剑;张建兵;陈家骏;;一种适用于机器翻译的汉语分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 徐冰;姚建民;杨沐昀;赵铁军;;汉语分词在机器翻译评价中的影响[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 万升华;杨沐昀;李生;赵铁军;;基于字词混合翻译短语的统计机器翻译[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 李月伦;常宝宝;;基于最大间隔马尔可夫网模型的汉语分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 李虎;邹鹏;贾焰;周斌;;一种基于Map Reduce的分布式文本数据过滤模型研究[A];第26次全国计算机安全学术交流会论文集[C];2011年
7 付国宏;王晓龙;龚永红;;基于词形的汉语文本切分方法[A];第五届全国人机语音通讯学术会议论文集[C];1998年
8 穆飞;李维佳;薛巍;舒继武;;一种分布式信息检索系统的设计与实现[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
9 朱鉴;张建;李淼;强静;杨攀;;面向民族语言信息处理的汉语分词方法[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
10 邢红兵;;从分词的不一致性看汉语分词的难点[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
中国重要报纸全文数据库 前1条
1 记者 侯梅竹;汉语语料检索系统问世[N];计算机世界;2004年
中国博士学位论文全文数据库 前1条
1 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
中国硕士学位论文全文数据库 前10条
1 苏勇;基于理解的汉语分词系统的设计与实现[D];电子科技大学;2011年
2 王红雨;网络教学汉语答疑系统关键技术的研究与应用[D];大连理工大学;2006年
3 周波;汉语语言处理中专有名词的提取和识别[D];电子科技大学;2006年
4 李楠;基于遗传算法的汉语文本主题词提取研究[D];吉林大学;2007年
5 冯蜀茗;网络环境下协作学习监控研究[D];西南师范大学;2005年
6 郭翠珍;基于网格的分词服务系统的研究与实现[D];苏州大学;2006年
7 吴雪敏;汉语语句的计算机分析[D];电子科技大学;2001年
8 于长远;应用条件随机场进行汉语分词和词性标注的研究[D];辽宁科技大学;2008年
9 沈勤中;基于条件随机场的汉语分词研究[D];苏州大学;2008年
10 牛洪波;基于文本分类技术的信息过滤方法的研究[D];哈尔滨理工大学;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978