收藏本站
《中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集》2006年
收藏 | 手机打开
二维码
手机客户端打开本文

信息检索中基于MLS的语言模型准确性分析

蔡勋梁  赵军  
【摘要】:基于语言模型的信息检索技术是一种具有理论优势的信息检索框架,这种技术所面临的一大问题是如何为严重数据稀疏的小文档建立语言模型。许多经验性的平滑技术看似严重地偏离观测数据,似乎背离了建模的准确性原则,但却带来了良好的性能。信息检索中一直以来没有一个合适的关于概率建模的理论框架,来对比和分析语言建模过程中准确性。本文通过引入最大似然集(MLS)估计这一针对小样本数据的概率估计方法,在其概率解释的理论框架下,通过实验对比,揭示了语言模型在信息检索任务中是用来表达语义的模型,其准确性不等价于字符概率估计的准确性。

【参考文献】
中国期刊全文数据库 前1条
1 黄昌宁;统计语言模型能做什么?[J];语言文字应用;2002年01期
【共引文献】
中国期刊全文数据库 前10条
1 李良炎,何中市,易勇;基于词联接的语义表示方法和知识库建设[J];重庆大学学报(自然科学版);2004年04期
2 代建英,何中市;基于词性信息的汉语时间语词消歧算法[J];重庆大学学报(自然科学版);2005年09期
3 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
4 赵正文;康耀红;;统计语言模型在信息检索中的应用[J];计算机工程与应用;2006年36期
5 史瑞芳;;贝叶斯文本分类器的研究与改进[J];计算机工程与应用;2009年12期
6 黄永文;何中市;伍星;;产品特征的层次关系获取[J];计算机工程与应用;2009年22期
7 王源媛;何中市;;基于词性探测的中文姓名识别算法[J];计算机科学;2005年04期
8 黄培红;;自然语言理解的机器认知形式系统[J];计算机工程与科学;2007年06期
9 曾华琳,李堂秋,史晓东;一种基于提取上下文信息的分词算法[J];计算机应用;2005年09期
10 雒自清,张雪荣,苗传江;计算语言学——一门新兴的交叉学科[J];科学学研究;2003年S1期
中国博士学位论文全文数据库 前10条
1 何婷婷;语料库研究[D];华中师范大学;2003年
2 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
3 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
4 杨建国;基于动态流通语料库(DCC)的汉语熟语单位研究[D];北京语言大学;2005年
5 史艳岚;基于中国主流报纸动态流通语料库的对外汉语报刊新闻主题词群及相关研究[D];北京语言大学;2006年
6 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
7 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
8 雒自清;语义块类型、构成及变换的分析与处理[D];中国科学院研究生院(声学研究所);2004年
9 赵小兵;基于动态流通语料库的现代汉语基本词汇自动识别与提取方法研究[D];北京语言大学;2007年
10 李昊旻;电子病历的标准化结构化方法研究及实践[D];浙江大学;2007年
【二级参考文献】
中国期刊全文数据库 前1条
1 黄昌宁;关于处理大规模真实文本的谈话[J];语言文字应用;1993年02期
【相似文献】
中国重要会议论文全文数据库 前10条
1 蔡勋梁;赵军;;信息检索中基于MLS的语言模型准确性分析[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
2 付晓寅;魏玮;徐波;;一种基于状态转移的N元语言模型快速查询方法[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
3 韩中元;李生;杨沐昀;齐浩亮;;面向信息检索的近邻语言模型[A];第六届全国信息检索学术会议论文集[C];2010年
4 奚宁;赵迎功;汤光超;李斌;罗春勇;戴新宇;陈家骏;;统计机器翻译中多种语言模型的融合[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
5 施水才;肖诗斌;都云程;王洪俊;;TRS中文信息检索技术的发展(摘要)[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 任纪生;王作英;赵敏;;基于潜在语义信息的汉语语音识别方法[A];中文信息处理技术研讨会论文集[C];2004年
7 詹津明;牟晓隆;李树青;方棣棠;;一个大字表语音识别系统中的语言模型[A];第五届全国人机语音通讯学术会议论文集[C];1998年
8 施水才;肖诗斌;王弘蔚;王洪俊;苏东庄;;TRS中文文本信息检索技术的发展——从全文检索到基于自然语言处理的知识检索[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
9 沈勇;;基于隐写术的信息检索方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
10 郑铁然;李海洋;韩纪庆;;汉语语音检索中基于音节和词语言模型的索引方法研究[A];第九届全国人机语音通讯学术会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 骆卫华 刘群 张俊林;搜索引擎:性能提高遇到瓶颈[N];计算机世界;2006年
2 易宝北信公司 施水才;信息检索技术应用新方向:普及检索和知识检索[N];中国企业报;2001年
3 何中军米海涛 刘群;统计机器翻译系统中的开源软件[N];计算机世界;2007年
4 中科院计算技术研究所 吕雅娟付雷 黄瑾 何中军 刘群;化繁为简的统计机器翻译技术[N];中国计算机报;2007年
5 北京清华大学电子工程系副教授 刘加 教授 刘润生;让机器听懂我的话[N];科技日报;2001年
6 筱瑶;信息整合平台技术呼之欲出[N];中国信息报;2003年
7 吕雅娟付雷 黄瑾 何中军 刘群;能自动翻译专利文献的翻译系统[N];计算机世界;2007年
8 中国科学院声学研究所研究员 俞铁城;解析语音识别的发展现状[N];通信产业报;2004年
9 熊德意何中军 刘群;机器翻译渐行渐近[N];计算机世界;2007年
10 本报记者 侯闯;让企业不再“眼花”[N];计算机世界;2003年
中国博士学位论文全文数据库 前10条
1 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
2 于士涛;基于问答网络论坛知识体系的自动问答系统研究[D];南开大学;2009年
3 肖镜辉;非时齐语言建模技术研究及实践[D];哈尔滨工业大学;2007年
4 刘鹏远;基于知识自动获取的无指导译文消歧方法研究[D];哈尔滨工业大学;2008年
5 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
6 胡熠;面向信息检索的文本内容分析[D];上海交通大学;2007年
7 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年
8 方淼;语义单元自动获取研究[D];大连理工大学;2008年
9 黎志升;地理信息检索若干技术研究[D];中国科学技术大学;2009年
10 张亮;基于机器学习的信息过滤和信息检索的模型和算法研究[D];天津大学;2007年
中国硕士学位论文全文数据库 前10条
1 康恺;定题信息检索关键技术研究[D];厦门大学;2007年
2 王威;基于上下文的个性化信息检索技术研究[D];厦门大学;2009年
3 张润延;海量语言模型的研究及其在机器翻译中的应用[D];厦门大学;2009年
4 李新生;基于改进语言模型的相关反馈方法的检索系统设计[D];北京邮电大学;2011年
5 汤小娜;词义消歧在统计机器翻译中的应用研究[D];厦门大学;2007年
6 徐莹;信息检索中的查询优化技术研究[D];合肥工业大学;2008年
7 王泽胤;全文信息检索的快速索引文件结构及系统的设计与实现[D];吉林大学;2009年
8 司建军;油田信息网信息检索技术研究与应用[D];哈尔滨工程大学;2002年
9 沈默;平板电脑上语言模型的开发与测试[D];清华大学;2005年
10 高继峰;基于语义Web的智能信息检索系统研究[D];郑州大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026