收藏本站
《自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集》2001年
收藏 | 手机打开
二维码
手机客户端打开本文

基于单字词转移概率的未登录词识别

何燕  
【摘要】:未登录词识别是目前自动分词中的主要问题.本文采用排除法,通过排除第一趟分词后形成的分词碎片中的单字词来识别未登录词,取得了一定的效果.以往的未登录词的识别往往需要搜集特定资源,只对某一类型的未登录词进行识别,例如建立中文姓名、外国人名和地名资料库,进行人名、地名的识别.本文未利用任何有关未登录词的资源.实验结果表明,利用单字词转移概率和少量规则来识别未登录词,作为识别未登录词的一种新思路,是行之有效的.
【作者单位】:联想研究院
【分类号】:H085

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[J];通信学报;2006年02期
中国重要会议论文全文数据库 前2条
1 俞鸿魁;张华平;刘群;;基于角色标注的中文机构名识别[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
2 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
中国硕士学位论文全文数据库 前1条
1 步海慧;基于最大熵模型的中文姓名识别研究[D];山东大学;2006年
【参考文献】
中国期刊全文数据库 前3条
1 张小衡,王玲玲;中文机构名称的识别与分析[J];中文信息学报;1997年04期
2 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
3 陈小荷;自动分词中未登录词问题的一揽子解决方案[J];语言文字应用;1999年03期
【共引文献】
中国期刊全文数据库 前10条
1 周蕾;;基于碎片分词的未登录词识别方法[J];常熟理工学院学报;2007年02期
2 黄昌宁,孙茂松;中文信息处理最新成果的检阅——记新加坡中文电脑国际会议ICCC’96[J];当代语言学;1996年04期
3 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
4 黄德根,马玉霞,杨元生;基于互信息的中文姓名识别方法[J];大连理工大学学报;2004年05期
5 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
6 刘利东;基于组合度的汉语分词决策算法研究[J];德州学院学报;2003年02期
7 马颖华,王永成,苏贵洋;一种在汉语文本中抽取重复字串的快速算法[J];电子学报;2002年S1期
8 王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期
9 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
10 李建华,王晓龙;中文人名自动识别的一种有效方法[J];高技术通讯;2000年02期
中国重要会议论文全文数据库 前10条
1 周蕾;李培峰;朱巧明;杨季文;;碎片分词与词结合提取的未登录词识别方法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
2 侯敏;侯敞;;汉英机译系统译文质量的评测[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年
3 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
4 张树武;徐波;黄泰翼;;汉语大词汇/连续语音识别语言建模技术分析[A];第四届全国人机语音通讯学术会议论文集[C];1996年
5 何伟;侯敏;;利用词汇时间分布信息提取未登录词[A];第九届全国人机语音通讯学术会议论文集[C];2007年
6 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
7 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
8 侯敏;;汉语自动分析中的若干问题与对策[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
9 张艳丽;黄德根;张丽静;杨元生;;统计和规则相结合的中文机构名称识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 张艳;徐波;;基于转换的错误学习方法的汉语词性自动标注研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 何婷婷;语料库研究[D];华中师范大学;2003年
2 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
3 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
4 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
5 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
6 李晓光;XML非完全结构查询处理中若干关键技术的研究[D];东北大学;2006年
7 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
8 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
9 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
10 常娥;古籍智能处理技术研究[D];南京农业大学;2007年
中国硕士学位论文全文数据库 前10条
1 何燕;任意类型的未登录词的识别研究[D];北京语言文化大学;2000年
2 张晗;日文文节切分中的姓名识别[D];大连理工大学;2000年
3 王省;基地统计和规则的中文姓名识别系统的研制[D];大连理工大学;2000年
4 李卫亮;现代汉语分词系统中专名识别的实用策略[D];北京工业大学;2000年
5 许勇;基于百科词典的知识获取系统的研究与实现[D];北京工业大学;2001年
6 罗智勇;现代汉语通用分词系统的技术与实现[D];北京工业大学;2002年
7 章成志;基于文本层次模型的Web概念挖掘研究[D];南京农业大学;2002年
8 张艳丽;中文机构名称的自动识别[D];大连理工大学;2003年
9 王明燕;基于WEB页面的关键词与关键概念提取技术[D];北京工业大学;2003年
10 刘东旭;在自然汉语中进行分词和词性标注[D];电子科技大学;2003年
【同被引文献】
中国期刊全文数据库 前10条
1 李建华,王晓龙;中文人名自动识别的一种有效方法[J];高技术通讯;2000年02期
2 周雅倩,郭以昆,黄萱菁,吴立德;基于最大熵方法的中英文基本名词短语识别[J];计算机研究与发展;2003年03期
3 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
4 张锋,樊孝忠,许云;基于统计的中文姓名识别方法研究[J];计算机工程与应用;2004年10期
5 苏菲,王丹力,戴国忠;基于标记的规则统计模型与未登录词识别算法[J];计算机工程与应用;2004年15期
6 张华平,刘群;基于角色标注的中国人名自动识别研究[J];计算机学报;2004年01期
7 郑家恒,张辉;基于HMM的中国组织机构名自动识别[J];计算机应用;2002年11期
8 吕雅娟,赵铁军,杨沐昀,于浩,李生;基于分解与动态规划策略的汉语未登录词识别[J];中文信息学报;2001年01期
9 黄德根,杨元生,王省,张艳丽,钟万勰;基于统计方法的中文姓名识别[J];中文信息学报;2001年02期
10 王宁,葛瑞芳,苑春法,黄锦辉,李文捷;中文金融新闻中公司名的识别[J];中文信息学报;2002年02期
中国重要会议论文全文数据库 前3条
1 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 张艳丽;黄德根;张丽静;杨元生;;统计和规则相结合的中文机构名称识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 于传武;李生;陈鄞;赵铁军;;基于混合策略的汉语未登录词整体识别[A];第一届学生计算语言学研讨会论文集[C];2002年
中国硕士学位论文全文数据库 前3条
1 廉竹钧;汉语组合型切分歧义字段消歧方法研究[D];北京语言文化大学;2002年
2 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
3 刘禹孜;汉语自动分词中排除歧义字段算法的研究[D];重庆大学;2005年
【二级引证文献】
中国重要会议论文全文数据库 前3条
1 高嵩;周强;;一种中文分词后处理反馈算法[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
2 冯元勇;孙乐;张大鲲;李文波;;基于单字提示特征的中文命名实体识别快速算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前3条
1 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
2 傅魁;基于Web的本体学习研究[D];武汉理工大学;2007年
3 孙凌云;面向产品概念设计的专利地图技术研究[D];浙江大学;2008年
中国硕士学位论文全文数据库 前7条
1 王蕾;基于转换学习的专有名词识别[D];苏州大学;2006年
2 邹纲;中文新词语自动检测研究[D];中国科学院研究生院(计算技术研究所);2004年
3 杨德来;SVM和最大熵相结合的中文机构名自动识别[D];大连理工大学;2006年
4 郭家清;基于条件随机场的命名实体识别研究[D];沈阳航空工业学院;2007年
5 武玉洲;汉语文本人名识别改进方法研究[D];北京语言大学;2007年
6 徐照财;基于Agent的专题搜索引擎爬虫的研究[D];江苏大学;2007年
7 俞洋;基于主动服务的用户导航系统[D];武汉理工大学;2008年
【二级参考文献】
中国期刊全文数据库 前4条
1 沈达阳,孙茂松,黄昌宁;汉语分词系统中的信息集成和最佳路径搜索方法[J];中文信息学报;1997年02期
2 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
3 张小衡,王玲玲;中文机构名称的识别与分析[J];中文信息学报;1997年04期
4 张小衡;从“qinghuadaxue”谈起逐步实现中文智能输入[J];中文信息;1996年05期
【相似文献】
中国期刊全文数据库 前10条
1 吴彦文;樊晓燕;;色词同音词对Stroop任务的无意识启动加工研究[J];天水师范学院学报;2011年02期
2 翟舒;韩习武;;汉英机器翻译中的意译和直译应用[J];外语学刊;2011年04期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 何燕;;基于单字词转移概率的未登录词识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 李双龙;刘乐中;刘群;;利用单字碎片过滤改进汉语分词性能[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 钱小飞;侯敏;;中文基本地名识别[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
4 赵伟;王美艳;刘闯;;基于古汉语语料数据库词的划分方法研究与探索[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
5 于传武;李生;陈鄞;赵铁军;;基于混合策略的汉语未登录词整体识别[A];第一届学生计算语言学研讨会论文集[C];2002年
6 何伟;侯敏;;利用词汇时间分布信息提取未登录词[A];第九届全国人机语音通讯学术会议论文集[C];2007年
7 陈丽江;;ACL-SIGHAN第一届国际中文分词竞赛评述[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 管益杰;方富熹;;单字词的获得年龄对小学生汉字识别的影响[A];第九届全国心理学学术会议文摘选集[C];2001年
9 郝博一;夏云庆;郑方;;OPINAX:一个有效的产品属性挖掘系统[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 雷静;;汉语机构名的构成模式[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前8条
1 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
2 黄魏;植物营养诊断自动应答网络专家系统研究[D];华中农业大学;2007年
3 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
4 崔磊;中文复合词预视加工的眼动研究[D];天津师范大学;2011年
5 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
6 孟红霞;中文阅读中注视位置效应研究[D];天津师范大学;2012年
7 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
8 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
中国硕士学位论文全文数据库 前10条
1 何燕;任意类型的未登录词的识别研究[D];北京语言文化大学;2000年
2 国玮玮;基于网络资源的未登录词扩展研究[D];安徽大学;2012年
3 闻玉彪;一种基于组合模型的中文未登录词词性猜测方法[D];云南大学;2011年
4 都菁;基于论坛语料的未登录词自动识别新方法[D];西南大学;2010年
5 陈浩;网络信息采集技术及中文未登录词算法研究[D];北京邮电大学;2012年
6 张鹏;木棉教育新闻平台关键技术的研究与实现[D];华南理工大学;2012年
7 季娜;未登录词的语法功能猜测[D];南京师范大学;2008年
8 杨志胜;基于字根法的古汉语分词模型[D];天津大学;2007年
9 张淑梅;词典与后缀数组相结合的中文分词[D];吉林大学;2006年
10 孔海霞;基于最大熵的汉语词性标注[D];大连理工大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026