收藏本站
《中国计算机语言学研究前沿进展(2007-2009)》2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于用户查询日志和锚文字的汉语缩略语识别

谢丽星  孙茂松  佟子健  王灿辉  
【摘要】:缩略语是自然语言的常见现象之一,其相关研究是中文信息处理领域的重要研究课题。本文针对缩略语的自动识别问题,采用用户查询日志和锚文字文件,运用"同网站主题相关性"(即对应的url指向同一网站的查询词较为相关)的思想进行初步的缩略语、源短语对的抽取,然后采用一系列过滤规则,结合分词按照缩略语的形成方式进行分类,最后调用搜索引擎采用多策略来识别缩略语、源短语对。相比前人研究,我们的实验在规模和准确率上都有提升,其中用户查询日志的准确率为68.33%,锚文字的准确率为92.66%。
【作者单位】:清华大学计算机科学与技术系 搜狐互联网信息服务有限公司研发中心
【基金】:清华——搜狐搜索技术联合实验室项目的资助
【分类号】:TP391.43
【正文快照】:
1概述自然语言的经济性原则导致了缩略语的出现,如“北京大学”简称“北大”。缩略语是未登录词的主要来源之一,应用广泛,据Chang和Lai(2 004)的研究表明,新闻标题中大约有2既的句子会使用缩略语。因此,缩略语的相关研究是自然语言处理的重要课题。它能提高自动分词和标

【参考文献】
中国重要会议论文全文数据库 前1条
1 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
【同被引文献】
中国重要会议论文全文数据库 前2条
1 鲍明凌;亢世勇;;基于数据库的现代汉语新词语缩略语的研究[A];第一届学生计算语言学研讨会论文集[C];2002年
2 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
【二级参考文献】
中国期刊全文数据库 前3条
1 俞士汶,段慧明,朱学锋,张化瑞;综合型语言知识库的建设与利用[J];中文信息学报;2004年05期
2 李国臣,罗云飞;采用优先选择策略的中文人称代词的指代消解[J];中文信息学报;2005年04期
3 鲍明凌,亢世勇;基于数据库的现代汉语新词语缩略语的研究[J];术语标准化与信息技术;2002年04期
中国硕士学位论文全文数据库 前1条
1 牛晓雁;现代汉语缩略语研究及规范[D];河北师范大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 阳小华;周座;;基于查询与内容的文档表示模型[J];南华大学学报(自然科学版);2010年01期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前2条
1 谢丽星;孙茂松;佟子健;王灿辉;;基于用户查询日志和锚文字的汉语缩略语识别[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 翟海军;郭嘉丰;王小磊;许洪波;;基于用户查询日志的命名实体挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
中国博士学位论文全文数据库 前1条
1 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前1条
1 周座;基于查询与内容的文档表示模型研究[D];南华大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026