收藏本站
《中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集》2006年
收藏 | 手机打开
二维码
手机客户端打开本文

由字构词——中文分词新方法

黄昌宁  赵海  
【摘要】:被称为Bakeoff的国际中文分词评测由于创建了公开、可比的分词评测语料库和多视角的评测指标, 从而一举改变了中文分词研究的格局。通过带标注的语料库来定义中文的词语,允许采用不同分词标准而不是唯一标准的语料同台评测,通过定量分析科学地确认未登录词(OOV)识别的性能是进一步提高分词精度的突破口,以及针对这一需求而提出的“由字构词”的新分词方法等,都是近四年来分词研究领域涌现的喜人景象。本文将简略介绍“由字构词”的中文分词新方法,说明它出现的动机和采用的机器学习机制。微软亚洲研究院用条件随机场(CRF)模型实现的这种分词系统参加Bakeoff2006的六项中文分词评测,获得四个第一和两个第三。本文也相应地解释了这个参赛系统的一些重要设计理念。
【作者单位】:微软亚洲研究院 微软亚洲研究院
【分类号】:TP391.1

手机知网App
【同被引文献】
中国期刊全文数据库 前10条
1 王化鹏;论现代汉语词的双音节化及其发展规律[J];北方论丛;2000年06期
2 高红;黄德根;杨元生;;汉语自动分词中中文地名识别[J];大连理工大学学报;2006年04期
3 殷志平;数字式缩略语的特点[J];汉语学习;2002年02期
4 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
5 鲁松,白硕;自然语言处理中词语上下文有效范围的定量描述[J];计算机学报;2001年07期
6 姜维;王晓龙;关毅;赵健;;基于多知识源的中文词法分析系统[J];计算机学报;2007年01期
7 刘建舟,何婷婷,骆昌日;基于语料库和网络的新词自动识别[J];计算机应用;2004年07期
8 吕雅娟,赵铁军,杨沐昀,于浩,李生;基于分解与动态规划策略的汉语未登录词识别[J];中文信息学报;2001年01期
9 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
10 张小衡,王玲玲;中文机构名称的识别与分析[J];中文信息学报;1997年04期
中国博士学位论文全文数据库 前2条
1 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
2 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 韩月阳;邓世昆;贾时银;李远方;;基于字分类的中文分词的研究[J];计算机技术与发展;2011年07期
2 朱培焱;夏栋梁;;汉英跨语言信息检索研究[J];计算机与现代化;2011年08期
3 周拴龙;;Lucene.net中文分词算法分析[J];郑州大学学报(理学版);2011年03期
4 扎西加;高定国;;藏语语料库TEI标记规范探讨[J];中文信息学报;2011年04期
5 张文慧;张冉;;基于中文分词的农业信息检索平台设计[J];安徽农业科学;2011年20期
6 靳丹宁;;基于语料库调查中动词句型错误探析[J];安徽电子信息职业技术学院学报;2011年04期
7 杜娟;;Nutch中文分词的研究和改进[J];软件导刊;2011年06期
8 张旭;;构建基于本地服务的垂直搜索引擎[J];才智;2011年18期
9 刘兆伟;黄永峰;;面向主题搜索引擎的实现与优化[J];数据通信;2011年04期
10 阴桂梅;郭广行;;智能答疑系统模型设计[J];电脑开发与应用;2011年07期
中国重要会议论文全文数据库 前10条
1 李玉梅;靳光瑾;黄昌宁;;中文分词规范中的歧义字段消解细则[A];第五届全国语言文字应用学术研讨会论文集[C];2007年
2 郭曙纶;;基于语料库的HSK多功能例解字典:设想与样例[A];2004年辞书与数字化研讨会论文集[C];2004年
3 梁红梅;尹晓霞;李宇庄;;有关语料库驱动下的外语在线自主学习的工作底稿[A];全国大学英语教学改革暨网络环境下外语教学学术研讨会论文集[C];2004年
4 许小星;亢世勇;孙茂松;刘金凤;;语料库语义成分标注的若干问题[A];第三届学生计算语言学研讨会论文集[C];2006年
5 宋鸿彦;刘军;姚天昉;刘全升;黄高辉;;汉语意见型主观性文本标注语料库的构建[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 黄玉;李生;孟遥;丁华福;;基于大规模语料库的英语从句识别[A];第一届学生计算语言学研讨会论文集[C];2002年
7 李明;;语料库·蓝本·双语词典[A];中国辞书学会双语词典专业委员会第五届年会暨学术研讨会论文集[C];2003年
8 郭启新;;论语料库与英汉词典配例[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
9 蔡莲红;蔡锐;吴志勇;陶建华;;语音合成语料库的设计与声学特征分析[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
10 孙述学;;新词语语料库建设的一些构想[A];2004年辞书与数字化研讨会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 记者 王坤宁;商务方正合作开发辞书语料库及编纂系统[N];中国新闻出版报;2002年
2 本报记者 周建华;数字战略打造核心竞争力[N];中国图书商报;2001年
3 卢伟;文学语言的语料库研究方法[N];文艺报;2004年
4 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
5 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
6 记者 曹秀娟;省社科院两项目获得国家社会科学基金[N];山西日报;2010年
7 顾曰国;语料库语言学的发展[N];中国社会科学院院报;2003年
8 陈劲宏;东方快车2003之新鲜体验[N];中国电脑教育报;2002年
9 李大庆;迎来光与电告别铅与火[N];科技日报;2002年
10 ;探索普通话自然连续语音之规律[N];光明日报;2001年
中国博士学位论文全文数据库 前10条
1 张廷香;基于语料库的3-6岁汉语儿童词汇研究[D];山东大学;2010年
2 夏云;基于语料库的英汉翻译小说常规化研究:历时的视角[D];山东大学;2010年
3 刘建鹏;语料库支撑的系统功能语法研究[D];西南大学;2012年
4 何婷婷;语料库研究[D];华中师范大学;2003年
5 王青;基于语料库的《尤利西斯》汉译本译者风格研究[D];山东大学;2010年
6 唐斌;《人民日报》中(1987-2007)农民工的话语再现[D];上海外国语大学;2010年
7 徐欣;基于语料库的英汉小说语篇中话语标记功能研究[D];山东大学;2011年
8 张建梅;基于语料库的现代蒙古语简单陈述句句型分析研究[D];内蒙古大学;2010年
9 王丽;基于语料库的中国学习者英语口语中语用标记语研究[D];上海交通大学;2008年
10 张京楣;基于统计方法的文本风格分析研究[D];山东大学;2012年
中国硕士学位论文全文数据库 前10条
1 岳炳词;面向语言学研究的大规模汉语生语料库检索工具CCRLT[D];北京工业大学;2001年
2 徐琰;基于语料库的ONLY研究[D];大连海事大学;2003年
3 杨丽萍;基于语料库的英语专业大学生议论文限时写作中的四字词块研究[D];江西师范大学;2010年
4 李淼;用先进的语料库工具推进英语教学[D];首都师范大学;2004年
5 李春青;[D];电子科技大学;2004年
6 崔明明;基于机器学习的中文分词的研究与实现[D];沈阳工业大学;2009年
7 周程远;中文自动分词系统的研究与实现[D];华东师范大学;2010年
8 王蓉;新闻英语的批评性语篇分析[D];上海师范大学;2010年
9 刘鼎甲;连接成分的显化:基于语料库的中英文翻译文本对比[D];燕山大学;2010年
10 刘露露;汉语衍名的双事件隐喻分析[D];四川外语学院;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026