收藏本站
《语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集》2003年
收藏 | 手机打开
二维码
手机客户端打开本文

对自动分词的反思

黄昌宁  高剑峰  李沐  
【摘要】:自动分词是中文信息处理诸多应用系统的一个不可或缺的模块。二十年来国内外许多研究人员曾经在这块土地上辛勤耕耘,并取得了一定的成果,但从实用化的角度上来考察仍不尽人意。本文通过对自动分词任务的定义,分词歧义消解知识的调查,以及在统计语言模型的统一平台上实现自动分词,说明面向计算机的语言知识颗粒度极细、颗粒数量极大,在本质上不同于面向人的语言知识,也不是传统的句法—语义知识所能覆盖的。重新审视我们在自动分词乃至中文信息处理整个领域的思维模式和技术路线,实属必要。
【作者单位】:微软亚洲研究院 微软亚洲研究院 微软亚洲研究院
【分类号】:TP391.1

知网文化
【引证文献】
中国期刊全文数据库 前2条
1 苗玺;郑家恒;;中文语料库分词不一致的分类处理研究[J];山西大学学报(自然科学版);2006年01期
2 余娜;;从彭泽润、李葆嘉《语言理论》看分词连写[J];现代语文(语言研究版);2011年08期
中国重要会议论文全文数据库 前1条
1 侯敏;陈琼璜;初田天;李湛;王瑜;叶立;;汉语自动分词中的上下文相关歧义字段(CSAS)研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前1条
1 张春霞;领域文本知识获取方法研究及其在考古领域中的应用[D];中国科学院研究生院(计算技术研究所);2005年
中国硕士学位论文全文数据库 前2条
1 刘武;基于统计机器学习算法的汉语分词系统的研究[D];北京邮电大学;2006年
2 王天怡;基于词典的中文分词算法研究及其在Nutch系统中的应用[D];吉林大学;2012年
【参考文献】
中国期刊全文数据库 前5条
1 冯志伟;汉字和汉语的计算机处理[J];当代语言学;2001年01期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期
4 孙茂松,左正平,邹嘉彦;高频最大交集型歧义切分字段在汉语自动分词中的作用[J];中文信息学报;1999年01期
5 黄昌宁;中文信息处理中的分词问题[J];语言文字应用;1997年01期
【共引文献】
中国期刊全文数据库 前10条
1 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
2 赵晓凡;胡顺义;;基于正向最大匹配的汉语分词[J];安阳师范学院学报;2010年05期
3 唐振民,靳从,杨静宇;档案文献主题词微机自动标引系统[J];兵工自动化;1993年02期
4 王玉美,阮晓钢;基于人的语言认知行为的汉语文法分析专家系统[J];北京工业大学学报;2003年01期
5 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
6 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
7 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
8 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
9 刘春辉;金顺福;刘国华;李颖;;基于优化最大匹配与统计结合的汉语分词方法[J];燕山大学学报;2009年02期
10 赵春红;高希龙;王柠;赵威;刘国华;;一种应用分治策略的中文分词方法[J];燕山大学学报;2009年05期
中国重要会议论文全文数据库 前10条
1 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
2 王慧慧;杨国纬;;基于事例的问答系统研究[A];贵州制约逻辑学会2005年学术年会暨首届全国性逻辑系统专题研讨会论文集[C];2005年
3 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
4 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
5 贺前华;徐秉铮;;神经网络在汉语自动分词中的应用[A];第二届全国人机语音通讯学术会议论文集[C];1992年
6 侯敏;;汉语自动分析中的若干问题与对策[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
7 陶建华;蔡莲红;赵晟;;汉语语音合成中的文本分析和韵律处理[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
8 许超;陈小荷;;试评两种商用机译软件的汉语分析能力[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
9 陈玉忠;李保利;俞士汶;兰措吉;;基于格助词和接续特征的藏文自动分词方案[A];第一届学生计算语言学研讨会论文集[C];2002年
10 王厚峰;;机器翻译中汉语词节点的识别[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前10条
1 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
2 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
3 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
4 王迈;语言形式化原理[D];上海外国语大学;2011年
5 黄水清;非相关文献知识发现方法及在农业经济学中的应用[D];南京农业大学;2010年
6 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
7 宋春阳;面向信息处理的现代汉语“名+名”逻辑语义研究[D];上海师范大学;2003年
8 张蕾;概念结构及其应用[D];西北工业大学;2001年
9 张伟;基于WWW的聚类引擎研究[D];重庆大学;2003年
10 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
中国硕士学位论文全文数据库 前10条
1 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
2 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
3 杨鼎;基于朴素贝叶斯的中文文本情感倾向分类研究[D];湖南工业大学;2010年
4 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
5 梁桢;基于尾字词典的逆向回溯中文分词技术研究[D];武汉工业学院;2010年
6 王林平;基于内容的电子邮件过滤系统的研究[D];电子科技大学;2010年
7 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年
8 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
9 陈磊;用例图到顺序图转换的研究[D];西安电子科技大学;2009年
10 张宁;基于语义的中文文本预处理研究[D];西安电子科技大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
2 彭泽润,周纯梅;汉语需从“字式书写”到“词式书写”‘的改进——“汉字书写系统改进学术研讨会”综述[J];北华大学学报(社会科学版);2004年06期
3 曹德和;;中文分词连写的问题与对策[J];北华大学学报(社会科学版);2006年01期
4 王卫兵;;中文分词连写可行性考察[J];北华大学学报(社会科学版);2006年01期
5 吴文超;;中文需要分词连写[J];北华大学学报(社会科学版);2007年05期
6 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
7 朱靖波,姚天顺;文本内容主题的识别方法[J];东北大学学报;2002年05期
8 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
9 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
10 杜永萍,郑家恒;分词及词性标注一致性校对系统的设计与实现[J];电脑开发与应用;2001年10期
中国重要会议论文全文数据库 前1条
1 朱靖波;陈文亮;姚天顺;;面向TDT的主题相似性计算模型[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国硕士学位论文全文数据库 前2条
1 任红梅;分词连写的中文信息处理[D];中国石油大学;2007年
2 连慧平;基于本体的语义索引策略研究[D];曲阜师范大学;2010年
【二级引证文献】
中国期刊全文数据库 前6条
1 曲维光;唐旭日;俞敬松;;超大规模语料库精加工技术研究[J];当代语言学;2009年02期
2 黄小斌;余悦蒙;;一种词法分析与字标注分词结合的方法[J];电脑知识与技术;2012年08期
3 李江华;时鹏;胡长军;;一种适用于复合术语的本体概念学习方法[J];计算机科学;2013年05期
4 黄季夏;宋子辉;;基于Oracle的全文检索技术[J];情报杂志;2010年S1期
5 刘博;郑家恒;张虎;;规则与统计相结合的分词一致性检验[J];计算机工程与设计;2008年07期
6 蒋艳辉;姚靠华;周双文;王薇;;一种基于领域本体的药品研发信息抽取方法[J];情报杂志;2012年12期
中国重要会议论文全文数据库 前2条
1 卢俊之;;基于机器学习的分词不一致自动识别研究[A];第三届学生计算语言学研讨会论文集[C];2006年
2 程月;季娜;洪鹿平;;基于语料统计的以“不”开头双字分词不一致研究[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前3条
1 刘政怡;中文整句智能输入方法研究[D];安徽大学;2007年
2 傅魁;基于Web的本体学习研究[D];武汉理工大学;2007年
3 于娟;基于文本的领域本体学习方法及其应用研究[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 姚贤明;领域概念自动抽取研究[D];昆明理工大学;2010年
2 邱艳霞;领域术语自动抽取及关系分类研究[D];昆明理工大学;2009年
3 李长进;基于中文带权关键词树的受限领域问答系统研究[D];山东经济学院;2011年
4 江磊;领域词典的构建及其在语法分析中的应用[D];南京邮电大学;2011年
5 石凯华;基于领域词典的汉语语块分析的研究[D];南京邮电大学;2011年
6 程英迅;基于军事本体的智能检索引擎研究[D];电子科技大学;2010年
7 魏莉;汉语完全句法树库一致性检验方法研究[D];山西大学;2011年
8 刘博;中文语料库分词不一致现象的分层校验[D];山西大学;2008年
9 廖志华;马尔科夫逻辑网络在引文匹配和中文命名实体识别中的应用研究[D];西南大学;2009年
10 付蕾;知识元标引系统的设计与实现[D];华中师范大学;2009年
【二级参考文献】
中国期刊全文数据库 前2条
1 冯志伟;;Martin Kay的功能合一语法[J];国外语言学;1991年02期
2 孙茂松,左正平,黄昌宁;消解中文三字长交集型分词歧义的算法[J];清华大学学报(自然科学版);1999年05期
【相似文献】
中国期刊全文数据库 前10条
1 李萍;;试论现代汉语词语的切分技术[J];中国新技术新产品;2010年24期
2 高洁羽,吕强,杨季文,钱培德;自动分词在输入法测试系统中的应用[J];电化教育研究;2003年02期
3 王彩荣,李晓毅,黄玉基;汉语自动分词系统的评价[J];微处理机;2003年05期
4 徐华中;徐刚;;一种新的汉语自动分词算法的研究和应用[J];计算机与数字工程;2006年02期
5 付海辰;;网页文本自动分词的有词典方法[J];华章;2011年05期
6 黄昌宁;自动分词[J];语言文字应用;1997年01期
7 王巍;;基于Perl的汉语自动分词算法研究[J];中州大学学报;2007年01期
8 罗洋;;汉语自动分词方法的综述[J];科技信息;2009年07期
9 陈顺强;;彝文自动分词技术研究[J];中文信息学报;2011年03期
10 曹焕光,郑家恒;自动分词软件质量的评价模型[J];中文信息学报;1992年04期
中国重要会议论文全文数据库 前10条
1 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 孙承杰;黄昌宁;关毅;;基于标注语料库的组合歧义检测与消解[A];第三届学生计算语言学研讨会论文集[C];2006年
3 黄昌宁;林娟;孙承杰;;何谓金本位[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 罗智勇;宋柔;荀恩东;;一种基于可信度的人名识别方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 许超;陈小荷;;试评两种商用机译软件的汉语分析能力[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
7 李斌;陈小荷;;面向中文陌生文本的人机交互式分词方法[A];第三届学生计算语言学研讨会论文集[C];2006年
8 吴岩;蔺荪;;中文自动查错与人机交互纠错系统的研究与实现—简介语科中文自动校对系统[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
9 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 李晋霞;刘云;;面向计算机的二重复句层次划分研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国重要报纸全文数据库 前1条
1 田梦;软件篇软件只是工具[N];计算机世界;2007年
中国博士学位论文全文数据库 前4条
1 黄魏;植物营养诊断自动应答网络专家系统研究[D];华中农业大学;2007年
2 刘政怡;中文整句智能输入方法研究[D];安徽大学;2007年
3 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
4 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
中国硕士学位论文全文数据库 前10条
1 朱珣;中文自动分词系统的研究[D];华中师范大学;2004年
2 许荣荣;中文文本自动分词技术与算法研究[D];郑州大学;2010年
3 陈鹏宇;现代汉语自动分词研究及几个算法的实现[D];电子科技大学;2008年
4 蔡灿民;基于词典的智能分词系统的研究与实现[D];昆明理工大学;2008年
5 刘宽;现代汉语自动分词歧义分析及其消歧处理研究[D];兰州理工大学;2006年
6 杨孝光;中文文本自动分类系统研究—汉语分词及分类器的设计[D];电子科技大学;2004年
7 张敏;基于Internet的个性化信息检索关键技术研究[D];燕山大学;2006年
8 陈云;基于受限汉语和模块组合的自动程序设计研究[D];重庆大学;2008年
9 付蕾;知识元标引系统的设计与实现[D];华中师范大学;2009年
10 胡业江;中文姓名自动识别技术研究[D];华侨大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026