收藏本站
《内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集》2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于子串标注的中文分词:寻找更佳的标注单元

赵海  揭春雨  
【摘要】:由于基于已切分语料的学习方法和体系的兴起,中文分词在本世纪的头几年取得了显著的突破。尤其是2003 年国际中文分词评测活动 Bakeoff 开展以来,基于字标注的统计学习方法引起了广泛的关注。本文探讨这一学习框架的推广问题,以一种更为可靠的算法寻找更长的标注单元来实现中文分词的大规模语料学习,同时改进已有工作的不足。我们提出子串标注的一般化框架,包括两个步骤,一是确定有效子串词典的迭代最大匹配过滤算法, 二是在给定文本上实现子串单元识别的双词典最大匹配算法。该方法的有效性在 Bakeoff-2005评测语料上获得了验证。

【参考文献】
中国期刊全文数据库 前1条
1 杨尔弘;方莹;刘冬明;乔羽;;汉语自动分词和词性标注评测[J];中文信息学报;2006年01期
【共引文献】
中国期刊全文数据库 前3条
1 杨尔弘;;媒体5年词语使用情况调查分析[J];北华大学学报(社会科学版);2011年04期
2 张聪品;赵理莉;;统计模型中附加语言学规则的蒙古语词法分析[J];计算机工程与设计;2011年08期
3 于江德;王希杰;樊孝忠;;词位标注汉语分词中特征模板定量研究[J];计算机工程与设计;2012年03期
中国重要会议论文全文数据库 前2条
1 吐尔根·依不拉音;阿里甫·库尔班;阿不都热依木;;基于词典的现代维吾尔语词性自动标注系统的研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
2 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国博士学位论文全文数据库 前7条
1 蔡盈芳;基于本体的航空产品知识库构建研究[D];北京交通大学;2011年
2 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
3 王迈;语言形式化原理[D];上海外国语大学;2011年
4 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
5 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
6 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
7 谭红叶;中文事件抽取关键技术研究[D];哈尔滨工业大学;2008年
中国硕士学位论文全文数据库 前10条
1 赵理莉;融合统计与规则技术的蒙古语词法分析研究[D];河南师范大学;2011年
2 许顺;中文分词规范可计算化的研究与实现[D];苏州大学;2006年
3 武玉洲;汉语文本人名识别改进方法研究[D];北京语言大学;2007年
4 赵云峰;面向需求的构件适用性评价模型的研究[D];大连海事大学;2007年
5 朱荷香;中文自动文摘系统的研究与实现[D];南京师范大学;2008年
6 孟晓亮;产品命名实体识别研究[D];中国传媒大学;2009年
7 王靖;基于机械切分和标注的中文分词研究[D];湖南大学;2009年
8 褚敬年;面向企业信息检索的中文分词系统的研究与实现[D];东北大学;2008年
9 许荣荣;中文文本自动分词技术与算法研究[D];郑州大学;2010年
10 李继扬;基于CORBA的校园网行为监管系统的设计与研究[D];南京信息工程大学;2012年
【二级参考文献】
中国期刊全文数据库 前1条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
【相似文献】
中国期刊全文数据库 前10条
1 陈丽江;从ACL-SIGHAN国际分词竞赛看已知词和未登录词识别的平衡问题[J];南京师范大学文学院学报;2005年01期
2 骆正清,陈增武,胡上序;一种改进的MM分词方法的算法设计[J];中文信息学报;1996年03期
3 何正国;;AntConc在机器翻译的译前处理中的应用[J];经济研究导刊;2011年15期
4 李蓉;;基于支持向量机的汉语歧义切分算法[J];计算机仿真;2009年07期
5 韩维良;汉语自动分词系统中切分歧义与未登录词的处理策略[J];青海师范大学学报(自然科学版);2004年02期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 赵海;揭春雨;;基于子串标注的中文分词:寻找更佳的标注单元[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
2 王思力;王斌;;基于双字耦合度的中文分词交叉歧义处理方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
3 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
4 王芳;万常选;;基于可信度的中文完整词自动识别[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
5 曹海龙;内山■夫;隅田英一郎;;一种面向统计机器翻译的中文分词自适应方法(英文)[A];机器翻译研究进展——第四届全国机器翻译研讨会论文集[C];2008年
6 陈丽江;;ACL-SIGHAN第一届国际中文分词竞赛评述[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 乔维;孙茂松;;基于生语料、最大匹配切分语料以及熟语料的中文词频估计方法[A];第三届学生计算语言学研讨会论文集[C];2006年
8 郭稷;吕雅娟;刘群;;一种有效的基于Web的双语翻译对获取方法[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
9 肖航;靳光瑾;;现代汉语词语切分歧义库构建[A];第三届全国语言文字应用学术研讨会论文集[C];2004年
10 李玉梅;陈晓;姜自霞;靳光瑾;易江燕;黄昌宁;;分词规范亟需补充的三方面内容[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国硕士学位论文全文数据库 前7条
1 索南扎西;藏语语音合成关键技术研究[D];西藏大学;2011年
2 刘阳;“隐性小词表+专业小词库”的自动分词技术研究[D];湖南师范大学;2007年
3 段赛男;汉语把字句的最简方案分析[D];湖南大学;2007年
4 段倩倩;面向信息处理的带典型前缀派生词的识别分析[D];上海师范大学;2010年
5 羊毛卓么;藏文词性自动标注系统的研究与实现[D];西藏大学;2012年
6 麦丽开·阿布德瓦力;面向机器翻译的汉维词语对齐规范[D];新疆大学;2012年
7 叶西切忠;基于web的藏文文本自动分类研究与实现[D];青海民族大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026