收藏本站
《第三届全国信息检索与内容安全学术会议论文集》2007年
收藏 | 手机打开
二维码
手机客户端打开本文

置信分词——面向中分信息检索的分词模式

石子夜  
【摘要】:本文首先分析传统分词方式在信息检索应用中所造成的查准率、查全率及检索速度的问题。为同时解决上述问题,笔者构造了基于字词混合分词的置信分词模式,分词项需要包含词、位置及置信度这三个指标。此外,本文还描述了一种具体的 RMM 置信分词方法,进一步阐释置信分词模式。通过实验,简单验证了置信分词模式的有效性。笔者相信,置信分词模式不仅能应用于信息检索应用,也可推广到其他中文处理应用。
【作者单位】:中国科技信息研究所万方数据公司
【分类号】:TP391.3

手机知网App
【参考文献】
中国期刊全文数据库 前2条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
2 岳涛;汉语自动分词技术的最新发展及其在信息检索中的应用[J];情报杂志;2005年04期
【共引文献】
中国期刊全文数据库 前10条
1 周琼;黄河;;基于百度百科的农业专业词汇自动获取方法研究[J];安徽农业科学;2009年14期
2 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
3 李国和;刘光胜;吴卫江;孙红军;唐先明;韩宝东;;基于最大匹配和歧义检测的中文分词粗分方法[J];北京信息科技大学学报(自然科学版);2010年S2期
4 汪涛,樊孝忠,顾益军,刘林;基于概念分析的主题爬虫设计[J];北京理工大学学报;2004年10期
5 马国彦;;花园路径现象修辞学初探[J];毕节学院学报;2009年11期
6 陆俭明;;要重视特征的研究与描写[J];长江学术;2006年01期
7 曾华琳;周昌乐;郑旭玲;;A New Word Detection Method for Chinese Based on Local Context Information[J];Journal of Donghua University(English Edition);2010年02期
8 张利;张立勇;张晓淼;耿铁锁;岳宗阁;;基于改进BP网络的中文歧义字段分词方法研究[J];大连理工大学学报;2007年01期
9 由丽萍;杨翠;;汉语框架语义知识库概述[J];电脑开发与应用;2007年06期
10 王慧慧;;划分“11段”的思想在文本处理方面的研究[J];电脑知识与技术;2009年30期
中国重要会议论文全文数据库 前10条
1 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
2 匡海波;李斌;王嘉灵;王帅;陈小荷;;汉英词汇隐喻属性的对比分析与互增益技术[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 王慧慧;杨国纬;;基于事例的问答系统研究[A];贵州制约逻辑学会2005年学术年会暨首届全国性逻辑系统专题研讨会论文集[C];2005年
4 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
5 张霄军;;“长安”的同名地名自动识别与指代消解[A];陕西省社会科学界第二届(2008)学术年会——青年博士论坛“陕西新起点:创新·发展·民生”专题获奖论文选编[C];2008年
6 邹纲;刘洋;刘群;孟遥;于浩;西野文人;亢世勇;;面向Internet的中文新词语检测[A];2004年辞书与数字化研讨会论文集[C];2004年
7 许超;陈小荷;;试评两种商用机译软件的汉语分析能力[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
8 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
9 王厚峰;;机器翻译中汉语词节点的识别[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
10 李斌;;中文单字国名简称的自动识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
2 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
3 肖珊;基于概念语义的言说动词系统研究[D];武汉大学;2011年
4 黄水清;非相关文献知识发现方法及在农业经济学中的应用[D];南京农业大学;2010年
5 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
6 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
7 代六玲;互联网内容监管系统关键技术的研究[D];南京理工大学;2005年
8 杨建国;基于动态流通语料库(DCC)的汉语熟语单位研究[D];北京语言大学;2005年
9 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
10 达胡白乙拉;蒙古语基本动词短语自动识别研究[D];内蒙古大学;2005年
中国硕士学位论文全文数据库 前10条
1 杨鼎;基于朴素贝叶斯的中文文本情感倾向分类研究[D];湖南工业大学;2010年
2 梁桢;基于尾字词典的逆向回溯中文分词技术研究[D];武汉工业学院;2010年
3 王林平;基于内容的电子邮件过滤系统的研究[D];电子科技大学;2010年
4 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年
5 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
6 吴惠雄;基于支持向量机与聚类算法的中文文本分类研究[D];中南林业科技大学;2009年
7 张盛蕾;基于Java的浙江纺织服装学院校园网搜索引擎[D];电子科技大学;2010年
8 李长进;基于中文带权关键词树的受限领域问答系统研究[D];山东经济学院;2011年
9 宋贵哲;汉语介词短语识别研究[D];大连理工大学;2011年
10 高爽;基于语料库的海事英语术语提取研究[D];大连海事大学;2011年
【二级参考文献】
中国期刊全文数据库 前1条
1 孙茂松,左正平,黄昌宁;消解中文三字长交集型分词歧义的算法[J];清华大学学报(自然科学版);1999年05期
【相似文献】
中国期刊全文数据库 前10条
1 张民朝;;面向课程信息的专题搜索引擎的设计[J];制造业自动化;2011年06期
2 王冬;;中文信息检索关键技术分析[J];电脑知识与技术(学术交流);2007年15期
3 王冬;张运波;黄应红;;中文信息检索关键技术分析[J];电脑知识与技术(学术交流);2007年17期
4 张文慧;张冉;;基于中文分词的农业信息检索平台设计[J];安徽农业科学;2011年20期
5 周锦程;王丹;;基于Lucene的全文搜索引擎研究与应用[J];黔南民族师范学院学报;2009年03期
6 李海丰;;基于Lucene的企业搜索引擎研究及应用[J];电脑知识与技术;2009年04期
7 丁洁;;基于最大概率分词算法的中文分词方法研究[J];科技信息;2010年21期
8 彭波;;大规模搜索引擎检索系统框架与实现要点[J];计算机工程与科学;2006年03期
9 刘建培;;基于Delphi的中文分词设计[J];计算机系统应用;2009年03期
10 徐远超;刘江华;刘丽珍;关永;;基于Web的网络爬虫的设计与实现[J];微计算机信息;2007年21期
中国重要会议论文全文数据库 前10条
1 石子夜;;置信分词——面向中分信息检索的分词模式[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 ;编者的话[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 米晓红;;一种基于LSI的用户兴趣模型构建方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
4 王敬成;;HNC农村智能信息检索系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
5 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
6 田田;马军;李跃军;;应用多本体进行信息检索的研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
7 吴立德;黄萱菁;;前言[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 吴晓;李丹宁;林洁;冀肖榆;李丹;;个性化搜索引擎中用户兴趣模型的研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 秦鹏;李恒训;张华平;刘金刚;;基于关键词提取的搜索结果聚类研究[A];第五届全国信息检索学术会议论文集[C];2009年
10 陈志玮;肖诗斌;施水才;王昕;;一种基于HTML位置信息的查询扩展技术[A];第三届学生计算语言学研讨会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 希安;微软试水信息检索[N];经济日报;2004年
2 本报记者 潘永花;组件化平台提升信息检索效率[N];网络世界;2003年
3 柏荣;国家973项目在因特网大规模信息检索领域取得突破[N];中国高新技术产业导报;2003年
4 微软中国研究院 陈正 李明镜 马维英;互联网上图像信息检索[N];计算机世界;2001年
5 于振海;Microsoft Office 2003的翻译服务你用了吗?[N];中国电脑教育报;2004年
6 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年
7 高丽华;信息化遭遇新雷区[N];计算机世界;2007年
8 李茂 编译;创新是技术素养的第一要求[N];中国教师报;2007年
9 涂序彦 陈泓娟;在网络信息海洋中淘金[N];计算机世界;2001年
10 西安 张树忠 时剑;如何使用Word 2003翻译功能[N];电子报;2004年
中国博士学位论文全文数据库 前10条
1 左家莉;信息检索中Markov网络图模型研究[D];江西财经大学;2011年
2 吴定峰;基于本体的语义搜索模型研究[D];中国农业科学院;2012年
3 董道国;高维数据索引结构研究[D];复旦大学;2005年
4 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年
5 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
6 翟海军;面向Web信息检索的知识挖掘[D];中国科学技术大学;2010年
7 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
8 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
9 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
10 林古立;互联网信息检索中的多样化排序研究及应用[D];华南理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 陈默;基于神经网络的元搜索引擎[D];浙江大学;2006年
2 白晓梅;校园网中文搜索引掣系统的设计与实现[D];吉林大学;2006年
3 褚敬年;面向企业信息检索的中文分词系统的研究与实现[D];东北大学;2008年
4 冯斌;基于Lucene小型搜索引擎的研究与实现[D];武汉理工大学;2008年
5 张维勤;基于SQL Server2000的中文全文检索[D];西安建筑科技大学;2007年
6 乔智勇;Web数据挖掘系统的设计及关键技术研究[D];西安电子科技大学;2002年
7 杨才峰;基于自动分类的元搜索引擎的研究与应用[D];华北电力大学(河北);2005年
8 宋海林;基于语言模型的信息检索中负反馈技术的研究与实现[D];内蒙古大学;2011年
9 杭月芹;基于文档查询信息的检索系统研究与实现[D];扬州大学;2005年
10 史锦荣;基于多Agent智能搜索引擎模型研究[D];太原理工大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026