收藏本站
《第二届全国学生计算语言学研讨会论文集》2004年
收藏 | 手机打开
二维码
手机客户端打开本文

中文单字国名简称的自动识别

李斌  
【摘要】:单字地名简称识别是中文专名识别的重要组成部分,其中单字国名简称又占到了单字地名简称的78.43%。但就现有的词性标注系统来看,还不能很好地对其进行识别。本文提出了一个基于规则的识别方法,以分词文本为底本,通过两次扫描,第一次扫描建立基于语篇的临时国名词表,第二次扫描利用上下文特征词等评分机制,从分词碎片中召回单字国名简称。在封闭测试和开放测试中,都取得了较好的实验结果,以人工分词文本为输入底本,调和平均值分别达到了96.33%和94.96%。
【作者单位】:南京师范大学文学院
【分类号】:TP391.4

【参考文献】
中国期刊全文数据库 前5条
1 王宁,葛瑞芳,苑春法,黄锦辉,李文捷;中文金融新闻中公司名的识别[J];中文信息学报;2002年02期
2 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
3 张小衡,王玲玲;中文机构名称的识别与分析[J];中文信息学报;1997年04期
4 孙茂松,邹嘉彦;汉语自动分词研究中的苦干理论问题[J];语言文字应用;1995年04期
5 陈小荷;自动分词中未登录词问题的一揽子解决方案[J];语言文字应用;1999年03期
【共引文献】
中国期刊全文数据库 前10条
1 周琼;黄河;;基于百度百科的农业专业词汇自动获取方法研究[J];安徽农业科学;2009年14期
2 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
3 耿增民;刘万春;朱玉文;;受限领域的自动文摘方法研究[J];北京理工大学学报;2006年08期
4 马国彦;;花园路径现象修辞学初探[J];毕节学院学报;2009年11期
5 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
6 李玉森;张雪英;袁正午;;面向GIS的地理命名实体识别研究[J];重庆邮电大学学报(自然科学版);2008年06期
7 陆俭明;;要重视特征的研究与描写[J];长江学术;2006年01期
8 周蕾;;基于碎片分词的未登录词识别方法[J];常熟理工学院学报;2007年02期
9 孔秀祥;语感在语义研究中的作用[J];楚雄师范学院学报;2002年04期
10 黄昌宁,孙茂松;中文信息处理最新成果的检阅——记新加坡中文电脑国际会议ICCC’96[J];国外语言学;1996年04期
中国重要会议论文全文数据库 前10条
1 潘雪莲;;词频统计在词典收词中的作用[A];中国辞书论集2001[C];2001年
2 沈焕生;朱磊;;基于信息内容的关键词抽取研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
3 周蕾;李培峰;朱巧明;杨季文;;碎片分词与词结合提取的未登录词识别方法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
4 朱春江;陆宇旻;李陶深;杜衡斌;唐晟;;分布式网络监控系统中网页安全挖掘的研究[A];广西计算机学会2008年年会论文集[C];2008年
5 安娜;刘海涛;侯敏;;语料库中熟语的标记问题[A];第三届全国语言文字应用学术研讨会论文集[C];2004年
6 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
7 傅思泉;;机器词典中按韵分词及虚词问题[A];江西省语言学会第五届会员大会暨2002年学术年会论文集[C];2002年
8 何伟;侯敏;;利用词汇时间分布信息提取未登录词[A];第九届全国人机语音通讯学术会议论文集[C];2007年
9 张霄军;;“长安”的同名地名自动识别与指代消解[A];陕西省社会科学界第二届(2008)学术年会——青年博士论坛“陕西新起点:创新·发展·民生”专题获奖论文选编[C];2008年
10 ;Research on the Model of Integrating Chinese Word Segmentation with Part-of-speech Tagging[A];Proceedings of 2007 International Symposium on Distributed Computing and Applications to Business, Engineering and Science(Volume Ⅱ)[C];2007年
中国博士学位论文全文数据库 前10条
1 何婷婷;语料库研究[D];华中师范大学;2003年
2 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
3 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
4 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
5 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
6 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
7 达胡白乙拉;蒙古语基本动词短语自动识别研究[D];内蒙古大学;2005年
8 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
9 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
10 李晓光;XML非完全结构查询处理中若干关键技术的研究[D];东北大学;2006年
中国硕士学位论文全文数据库 前10条
1 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
2 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
3 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
4 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
5 陈旭;地理编码引擎的设计与实现[D];辽宁工程技术大学;2009年
6 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
7 常富国;高技术虚拟企业谈判支持问题处理系统研究[D];哈尔滨理工大学;2010年
8 郭瞳康;基于词典的中文分词技术研究[D];哈尔滨理工大学;2010年
9 杨晓东;中文命名实体识别及若干相关问题的研究[D];江苏大学;2010年
10 张庐颖;基于粗糙集的K-means研究[D];北京交通大学;2011年
【二级参考文献】
中国期刊全文数据库 前7条
1 梁南元;书面汉语自动分词系统—CDWS[J];中文信息学报;1987年02期
2 张俊盛,陈舜德,郑萦,刘显仲,柯淑津;多语料库作法之中文姓名辨识[J];中文信息学报;1992年03期
3 沈达阳,孙茂松,黄昌宁;汉语分词系统中的信息集成和最佳路径搜索方法[J];中文信息学报;1997年02期
4 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
5 周强;规则和统计相结合的汉语词类标注方法[J];中文信息学报;1995年03期
6 张小衡,王玲玲;中文机构名称的识别与分析[J];中文信息学报;1997年04期
7 张小衡;从“qinghuadaxue”谈起逐步实现中文智能输入[J];中文信息;1996年05期
【相似文献】
中国期刊全文数据库 前10条
1 赵德平;蔡丽静;李鹏;;基于Newshingling的相似文本检测算法[J];沈阳建筑大学学报(自然科学版);2011年04期
2 刘哲;;数据清洗技术在网络教学评价体系中的应用[J];网络与信息;2011年08期
3 王俊生;施运梅;张仰森;;基于Hadoop的分布式搜索引擎关键技术[J];北京信息科技大学学报(自然科学版);2011年04期
4 蒋艳荣;刘习文;陈耿涛;;基于Viterbi改进算法的高棉语分词研究[J];计算机工程;2011年15期
5 吴戈;;基于混沌加密和连词替换的文本水印算法[J];长春大学学报;2011年06期
6 艾丹祥;左晖;杨君;;网络信息检索中相关反馈技术的Java实现[J];电脑知识与技术;2011年16期
7 龙志祎;程葳;;基于词聚类的热点话题检测算法[J];计算机工程与设计;2011年06期
8 姜文志;顾佼佼;丛林虎;;CRF与规则相结合的军事命名实体识别研究[J];指挥控制与仿真;2011年04期
9 齐全;董晶;;基于描述能力的视频标题分类[J];华南理工大学学报(自然科学版);2011年07期
10 刘里;刘小明;;基于分隔符和上下文术语的领域现象术语抽取[J];华南理工大学学报(自然科学版);2011年07期
中国重要会议论文全文数据库 前10条
1 李斌;;中文单字国名简称的自动识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年
2 徐润华;陈小荷;;一种利用注疏的《左传》分词新方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 李怡平;吴飞;;多语言环境下的分布式互联网分词平台[A];第十六届全国数据库学术会议论文集[C];1999年
4 赵伟;路永刚;吴琼;;一种新的基于BMM和RMM分词方法的研究与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
5 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
6 徐冰;姚建民;杨沐昀;赵铁军;;汉语分词在机器翻译评价中的影响[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 王厚峰;;机器翻译中汉语词节点的识别[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
8 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 卢俊之;;基于机器学习的分词不一致自动识别研究[A];第三届学生计算语言学研讨会论文集[C];2006年
10 陈丕海;冯建华;邢春晓;郑晓慧;;SiteSearch的关键技术分析及汉化设计[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
中国重要报纸全文数据库 前10条
1 陆元婕;聪明的搜索引擎[N];中国计算机报;2001年
2 本报记者 侯闯;让企业不再“眼花”[N];计算机世界;2003年
3 ;大恒FTR全文检索软硬件解决方案[N];计算机世界;2001年
4 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
5 朱艳;术语解释[N];中国电脑教育报;2000年
6 清华大学计算机系人机交互与媒体集成研究所 陶建华 蔡莲红;语音合成的应用系统设计[N];计算机世界;2001年
7 杨宝昌;让MySQL支持中文全文检索[N];计算机世界;2006年
8 郑依华;搜索引擎也开源[N];计算机世界;2006年
9 ;特殊符号在搜索引擎中的妙用[N];电脑报;2004年
10 晓梦;“面对面”的智能电子词典[N];计算机世界;2004年
中国博士学位论文全文数据库 前10条
1 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
2 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
3 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
4 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
5 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
6 李旭;基于指纹和语义知识表示的中文文档复制检测方法[D];燕山大学;2010年
7 李军辉;中文句法语义分析及其联合学习机制研究[D];苏州大学;2010年
8 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2009年
9 李滨;自然空间查询语言解译机制研究[D];解放军信息工程大学;2009年
10 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
中国硕士学位论文全文数据库 前10条
1 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
2 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
3 赵春红;外包数据库模型中文本数据完整性检测方案的研究[D];燕山大学;2010年
4 卢育红;半结构化药物数据智能分类技术研究与系统实现(全日制专业学位)[D];北京交通大学;2011年
5 卢忠良;基于多类的汉语文本自动分类研究[D];中国人民解放军国防科学技术大学;2002年
6 苗玺;中文语料库切分不一致字串分类校验方法研究[D];山西大学;2006年
7 巫昌凯;企业知识库系统中复杂查询系统的设计与实现[D];华南理工大学;2010年
8 黄勇杰;基于统计NLP技术的甲骨卜辞的分析研究[D];华东师范大学;2010年
9 都菁;基于论坛语料的未登录词自动识别新方法[D];西南大学;2010年
10 陈焱劼;搜索引擎系统的设计与实现[D];北京交通大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026