收藏本站
《民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集》2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于模式匹配的中文专有名词识别

郑家恒  谭红叶  王兴义  
【摘要】:本文针对在真实文本中出现最为频繁的人名、地名、组织机构名三种专有名词, 提出了一种基于模式匹配的专有名词自动识别方法。主要的研究内容有:分别建立了人名、地名、组织机构名的内部模式集合;采用聚类、评价的方法自动获取中文专有名词上下文模式;采用计算专有名词可信度的方法,在专有名词识别发生冲突时,进行消解处理;设计并实现了中文专有名词自动识别实验系统。选取50万字人民日报语料进行测试,平均召回率达到83.33%,准确率达到80.07%。

【共引文献】
中国期刊全文数据库 前10条
1 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
2 李玉森;张雪英;袁正午;;面向GIS的地理命名实体识别研究[J];重庆邮电大学学报(自然科学版);2008年06期
3 史永刚;左志宏;;决策树在中文姓名信息提取中的应用研究[J];成都信息工程学院学报;2006年02期
4 窦嵘;加羊吉;黄伟;;统计与规则相结合的藏文人名自动识别研究[J];长春工程学院学报(自然科学版);2010年02期
5 周蕾;;基于碎片分词的未登录词识别方法[J];常熟理工学院学报;2007年02期
6 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期
7 高红;黄德根;杨元生;;汉语自动分词中中文地名识别[J];大连理工大学学报;2006年04期
8 李丽双;黄德根;陈春荣;杨元生;;基于支持向量机的中文文本中地名识别[J];大连理工大学学报;2007年03期
9 孙晓;黄德根;;基于最长次长匹配分词的一体化中文词法分析[J];大连理工大学学报;2010年06期
10 李丽双;党延忠;廖文平;黄德根;张颖;;CRF与规则相结合的中文地名识别[J];大连理工大学学报;2012年02期
中国重要会议论文全文数据库 前10条
1 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年
2 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
3 郑家恒;李文花;;新词语自动识别方法研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 于传武;李生;陈鄞;赵铁军;;基于混合策略的汉语未登录词整体识别[A];第一届学生计算语言学研讨会论文集[C];2002年
5 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 雷静;;汉语机构名的构成模式[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 刘桐菊;于浩;赵铁军;;基于标引技术的特定领域XML文本自动生成[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
8 罗智勇;宋柔;荀恩东;;一种基于可信度的人名识别方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 李斌;;中文单字国名简称的自动识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 董宇;;称谓语与人名自动识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
2 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
3 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
4 黄水清;非相关文献知识发现方法及在农业经济学中的应用[D];南京农业大学;2010年
5 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
6 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
7 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
8 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
9 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
10 李晓光;XML非完全结构查询处理中若干关键技术的研究[D];东北大学;2006年
中国硕士学位论文全文数据库 前10条
1 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
2 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
3 胡志敏;互联网文本自动文摘技术的研究[D];湘潭大学;2010年
4 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
5 钟晓旭;基于Web招聘信息的文本挖掘系统研究[D];合肥工业大学;2010年
6 江涛;基于藏文web舆情分析的热点发现算法研究[D];西北民族大学;2010年
7 郭瞳康;基于词典的中文分词技术研究[D];哈尔滨理工大学;2010年
8 杨晓东;中文命名实体识别及若干相关问题的研究[D];江苏大学;2010年
9 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
10 张庐颖;基于粗糙集的K-means研究[D];北京交通大学;2011年
【二级参考文献】
中国重要会议论文全文数据库 前1条
1 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【相似文献】
中国期刊全文数据库 前10条
1 李玉森;张雪英;袁正午;;面向GIS的地理命名实体识别研究[J];重庆邮电大学学报(自然科学版);2008年06期
2 胡乃全;孔芳;王海东;周国栋;朱巧明;;基于最大熵模型的中文指代消解系统实现[J];计算机应用研究;2009年08期
3 李季;孙冀侠;;标准中文问答系统的研究与实现[J];鞍山师范学院学报;2005年06期
4 冯元勇;孙乐;张大鲲;李文波;;基于小规模尾字特征的中文命名实体识别研究[J];电子学报;2008年09期
5 陈敏杰;;问答系统中问题分析模块的实现[J];经营管理者;2009年13期
6 詹卫东;;自然语言的自动分析与生成简介[J];术语标准化与信息技术;2010年04期
7 闫琪,张志伟,宁洪;用户搜索请求中限定成分的识别及提取[J];计算机工程与科学;2000年03期
8 刘亚军,徐易,高莉莎;提高IQAS查询速度的一种方法[J];计算机工程与应用;2004年11期
9 杜波,田怀凤,王立,陆汝占;基于多策略的专业领域术语抽取器的设计[J];计算机工程;2005年14期
10 傅立云;刘新;;基于词典的汉语自动分词算法的改进[J];情报杂志;2006年01期
中国重要会议论文全文数据库 前10条
1 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
2 张玥杰;徐智婷;钱晶;张涛;;自然语言处理中专名识别方法的研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
5 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 葛诗利;陈潇潇;;中国EFL学习者自动作文评分探索[A];第三届学生计算语言学研讨会论文集[C];2006年
7 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
8 杨丽鹏;林世平;;基于关联规则和自然语言处理技术的概念间非分类关系的抽取[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
9 孙玉芳;;中文信息处理与国家信息化建设[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
10 冯元勇;孙乐;张大鲲;李文波;;基于单字提示特征的中文命名实体识别快速算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
2 ;开天辟地第一回[N];计算机世界;2002年
3 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年
4 运迪;未来电脑什么样[N];山西科技报;2000年
5 Chris Kanaracus沈建苗 编译;企业搜索的未来[N];计算机世界;2008年
6 ;未来十年展望之体验技术[N];中国计算机报;2010年
7 ;搜索引擎将引入人工智能技术[N];人民邮电;2006年
8 ;BI和文本分析的强强联手[N];网络世界;2007年
9 郭莹;全文检索市场空间大[N];中国计算机报;2006年
10 ;未来十年展望之下一代搜索技术[N];中国计算机报;2010年
中国博士学位论文全文数据库 前10条
1 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
2 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
3 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
4 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
5 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
6 方宁;基于认知的文本语境生成和度量研究[D];上海大学;2009年
7 王燚;基于场景化知识表示的自然语言处理及其在自动文本校对中的应用[D];西南交通大学;2005年
8 赵林;面向查询的多文档自动文摘关键技术研究[D];复旦大学;2008年
9 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
10 杜永萍;基于模式知识库的问题回答关键技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 王兴义;基于模式匹配的中文专有名词识别[D];山西大学;2005年
2 全昌勤;基于语料库的汉语词义消歧方法研究[D];华中师范大学;2005年
3 张峰;基于自然语言处理的自动文摘系统[D];电子科技大学;2006年
4 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
5 孙继明;基于知网的汉语词义消歧研究[D];国防科学技术大学;2007年
6 孙广庆;基于语义范畴扩展的词义消歧的研究[D];哈尔滨工程大学;2008年
7 张学;EBMT系统中翻译模板的抽取与匹配[D];大连理工大学;2006年
8 巩晓婷;基于文本的信息隐藏技术研究[D];福州大学;2006年
9 陈频;中文科技论文文本分类研究[D];厦门大学;2006年
10 李江;自然语言编程研究[D];北京邮电大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026