收藏本站
《第九届全国人机语音通讯学术会议论文集》2007年
收藏 | 手机打开
二维码
手机客户端打开本文

利用词汇时间分布信息提取未登录词

何伟  侯敏  
【摘要】:语言监测必然要面对大量的未登录词。本文依据词汇的时间分布信息,提出了未登录词提取的新方法。词汇的时间分布信息是语料本身所蕴含的基本分布信息,但常常被忽略或者说难以运用。本文从语言符号的线性特点出发,研究了如何词汇的时间分布信息建模,并提出了新的度量指标——同步衰减频率,以自动提取未登录词。实验结果表明该方法不受词长限制,对低频词尤其具有良好的鲁棒性,同时验证了词汇的时间分布信息在词汇处理中的有效性。

手机知网App
【参考文献】
中国期刊全文数据库 前4条
1 韩客松,王永成,陈桂林;无词典高频字串快速提取和统计算法研究[J];中文信息学报;2001年02期
2 何伟,李红莲,袁保宗,林碧琴;基于对话回合衰减的cache语言模型在线自适应研究[J];中文信息学报;2003年05期
3 秦文,苑春法;基于决策树的汉语未登录词识别[J];中文信息学报;2004年01期
4 陈小荷;自动分词中未登录词问题的一揽子解决方案[J];语言文字应用;1999年03期
【共引文献】
中国期刊全文数据库 前10条
1 周蕾;;基于碎片分词的未登录词识别方法[J];常熟理工学院学报;2007年02期
2 马颖华,王永成,苏贵洋;一种在汉语文本中抽取重复字串的快速算法[J];电子学报;2002年S1期
3 吕学强,张乐,黄志丹,胡俊峰;基于散列技术的快速子串归并算法[J];复旦学报(自然科学版);2004年05期
4 曹月雷;纪文彦;贾斌;;词典与后缀数组相结合的中文分词方法[J];硅谷;2012年21期
5 才让卓玛;才智杰;;基于语料库的藏语高频词抽取研究[J];计算机工程;2012年15期
6 宋哲伦;;基于JAVA的小型中文分词系统[J];教育教学论坛;2013年24期
7 曹艳;杜慧平;刘竟;侯汉清;;基于词表和N-gram算法的新词识别实验[J];情报科学;2007年11期
8 梁刚;基于机械分词与统计学的新词识别研究[J];情报理论与实践;2005年05期
9 黎铭,薛晓冰,周志华;基于多示例学习的中文Web目录页面推荐[J];软件学报;2004年09期
10 郭伟;陈蓉;周伟;熊伟;于中华;;基于延迟决策和斜率的新词识别方法[J];四川大学学报(自然科学版);2007年03期
中国重要会议论文全文数据库 前10条
1 徐艳华;;面向自动分词的三音节新词语构词法研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 隋岩;张普;;基于动态流通语料库的“动态词典”编纂[A];中国辞书论集2000[C];2000年
3 周蕾;李培峰;朱巧明;杨季文;;碎片分词与词结合提取的未登录词识别方法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
4 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
5 邹纲;刘洋;刘群;孟遥;于浩;西野文人;亢世勇;;面向Internet的中文新词语检测[A];2004年辞书与数字化研讨会论文集[C];2004年
6 何燕;;基于单字词转移概率的未登录词识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
7 隋岩;张普;;基于“动态流通语料库”进行“有效字符串”提取的初步研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
8 刘丽艳;盛立东;;一个特定人手写汉字识别系统的实现[A];第八届全国汉字识别学术会议论文集[C];2002年
9 郭志立;;使用互信息辅助在篇章范围内识别命名实体[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
10 雷静;;汉语机构名的构成模式[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前10条
1 黄水清;非相关文献知识发现方法及在农业经济学中的应用[D];南京农业大学;2010年
2 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
3 何婷婷;语料库研究[D];华中师范大学;2003年
4 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
5 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
6 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
7 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
8 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
9 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
10 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
2 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
3 郭瞳康;基于词典的中文分词技术研究[D];哈尔滨理工大学;2010年
4 梁桢;基于尾字词典的逆向回溯中文分词技术研究[D];武汉工业学院;2010年
5 葛世海;基于J2EE的站群管理平台的设计与实现[D];电子科技大学;2010年
6 曹亚辉;非结构文本最佳近似匹配系统的研究与实现[D];东华大学;2011年
7 魏莎莎;一种中文未登录词识别及词典设计新方法[D];西南大学;2011年
8 蒋才智;中文自动分词及人名识别技术研究[D];合肥工业大学;2011年
9 朱擎量;基于GIS的徐汇区警用视频监控系统开发[D];华东师范大学;2011年
10 朱世猛;中文分词算法的研究与实现[D];电子科技大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 张彦,邵志清;具有概念联想功能的特定领域分词词典的自动构建[J];计算机工程;2004年20期
2 孙铁利;李晓微;张妍;;信息过滤中的中文自动分词技术研究[J];计算机工程与科学;2009年03期
3 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期
4 王力红,杨剑,李洪,李云波,孙亚萍;汉语智能接口的自动分词研究[J];计算机工程;2001年08期
5 武子英;郑家恒;;现代汉语缩略语自动识别的方法研究[J];计算机工程与设计;2007年16期
6 张锋,樊孝忠,许云;基于统计的中文姓名识别方法研究[J];计算机工程与应用;2004年10期
7 张春霞,郝天永;汉语自动分词的研究现状与困难[J];系统仿真学报;2005年01期
8 王美艳,赵伟;基于唐诗语料库“词”的提取及深入研究[J];长春工业大学学报(自然科学版);2005年03期
9 王敏;郑家恒;;基于改进的隐马尔科夫模型的汉语词性标注[J];计算机应用;2006年S2期
10 梁妍;朱耀庭;;错误驱动学习在未登录词词性标注中的应用[J];计算机工程与设计;2008年06期
中国重要会议论文全文数据库 前10条
1 何伟;侯敏;;利用词汇时间分布信息提取未登录词[A];第九届全国人机语音通讯学术会议论文集[C];2007年
2 雷静;;汉语机构名的构成模式[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 李双龙;刘乐中;刘群;;利用单字碎片过滤改进汉语分词性能[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
4 郝博一;夏云庆;郑方;;OPINAX:一个有效的产品属性挖掘系统[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
5 郭志立;;使用互信息辅助在篇章范围内识别命名实体[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 张云涛;龚玲;王永成;;识别中文文本中的未登录专有名词的类别[A];2007年中国智能自动化会议论文集[C];2007年
7 赵伟;王美艳;刘闯;;基于古汉语语料数据库词的划分方法研究与探索[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
8 刘东生;尹宝生;张桂平;徐立军;苗雪雷;;面向专利文献的中文分词技术的研究[A];第五届全国信息检索学术会议论文集[C];2009年
9 何赛克;王小捷;董远;张韬政;白雪;;归一化的邻接类别方法在基于条件随机场的中文分词中的应用[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 卢延科;尹宝生;张桂平;苗雪雷;白宇;;基于伪LCS的中文专利句子相似度计算方法[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前4条
1 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
2 黄魏;植物营养诊断自动应答网络专家系统研究[D];华中农业大学;2007年
3 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
4 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
中国硕士学位论文全文数据库 前10条
1 国玮玮;基于网络资源的未登录词扩展研究[D];安徽大学;2012年
2 闻玉彪;一种基于组合模型的中文未登录词词性猜测方法[D];云南大学;2011年
3 都菁;基于论坛语料的未登录词自动识别新方法[D];西南大学;2010年
4 张淑梅;词典与后缀数组相结合的中文分词[D];吉林大学;2006年
5 孔海霞;基于最大熵的汉语词性标注[D];大连理工大学;2007年
6 张卫;中文词性标注的研究与实现[D];南京师范大学;2007年
7 苏绥绥;基于统计语言模型的跨语言信息检索[D];大连理工大学;2009年
8 于海涛;可比较语料库的研究与构建[D];大连理工大学;2009年
9 于长远;应用条件随机场进行汉语分词和词性标注的研究[D];辽宁科技大学;2008年
10 郭雷;基于Web的双语词汇构建关键技术研究[D];苏州大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026