收藏本站
《民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集》2007年
收藏 | 手机打开
二维码
手机客户端打开本文

面向民族语言信息处理的汉语分词方法

朱鉴  张建  李淼  强静  杨攀  
【摘要】:本文提出了一种有效的汉语分词方法。该方法在计算N元概率时采用统计语言模型中常用的Katz 平滑算法,对计算N元概率时所用的最大似然法和加1平滑算法进行了改进,同时采用了将字符串映射到整数的方法设计了N元短语的词典结构,以降低分词系统的空间/时间复杂度。

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前1条
1 桂许军;基于JavaEE平台与Lucene的信息文档搜索引擎系统的设计与实现[D];西南交通大学;2011年
【参考文献】
中国期刊全文数据库 前2条
1 孙茂松,左正平,黄昌宁;汉语自动分词词典机制的实验研究[J];中文信息学报;2000年01期
2 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
【共引文献】
中国期刊全文数据库 前10条
1 高艳萍;于红;尹祥贵;綦孝姬;王春永;赵志强;;基于双数组Trie树的渔业领域分词研究[J];安徽农业科学;2008年11期
2 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
3 胡顺义;赵晓凡;;基于PB的汉语电子词典管理系统设计与实现[J];安阳师范学院学报;2010年05期
4 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
5 耿增民;刘万春;朱玉文;;受限领域的自动文摘方法研究[J];北京理工大学学报;2006年08期
6 张霄军;陈小荷;;面向世博语言信息处理的汉英机器词典[J];辞书研究;2007年04期
7 赵春红;高希龙;王柠;赵威;刘国华;;一种应用分治策略的中文分词方法[J];燕山大学学报;2009年05期
8 李六杏;区凤霞;;基于最优属性约简的中文邮件过滤系统[J];电脑知识与技术(学术交流);2007年05期
9 顾海峰;;基于中文TTS技术研究[J];电脑知识与技术(学术交流);2007年09期
10 魏晓宁;;基于隐马尔科夫模型的中文分词研究[J];电脑知识与技术(学术交流);2007年21期
中国重要会议论文全文数据库 前10条
1 沈焕生;朱磊;;基于信息内容的关键词抽取研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
2 朱春江;陆宇旻;李陶深;杜衡斌;唐晟;;分布式网络监控系统中网页安全挖掘的研究[A];广西计算机学会2008年年会论文集[C];2008年
3 邓攀;刘功申;;基于标引信息的网络新概念发现算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
4 吴晶晶;荆继武;王平建;;一种基于词典的新型中文分词机制[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
5 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
6 李斌;;中文单字国名简称的自动识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年
7 李江波;周强;陈祖舜;;汉语词典快速查询算法研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 杨超;李仁发;蒋斌;;一种高效的汉语自动分词词典机制[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 林小俊;田浩;王馨浩;杜蕴璇;许敏;吴玺宏;迟惠生;;语言模型训练语料处理方法及解码词典的设计[A];第八届全国人机语音通讯学术会议论文集[C];2005年
10 李江波;周强;陈祖舜;;汉语词典的快速查询算法研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 刘运通;产品设计过程知识配送服务关键技术研究[D];浙江大学;2011年
2 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
3 李庆虎;基于P2P架构的网格文件系统研究[D];清华大学;2004年
4 郑泽芝;基于动态流通语料库(DCC)的汉语字母词语识别及考察研究[D];北京语言大学;2005年
5 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
6 李晓光;XML非完全结构查询处理中若干关键技术的研究[D];东北大学;2006年
7 张春霞;领域文本知识获取方法研究及其在考古领域中的应用[D];中国科学院研究生院(计算技术研究所);2005年
8 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
9 赵小兵;基于动态流通语料库的现代汉语基本词汇自动识别与提取方法研究[D];北京语言大学;2007年
10 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
中国硕士学位论文全文数据库 前10条
1 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
2 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
3 陈旭;地理编码引擎的设计与实现[D];辽宁工程技术大学;2009年
4 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
5 常富国;高技术虚拟企业谈判支持问题处理系统研究[D];哈尔滨理工大学;2010年
6 张庐颖;基于粗糙集的K-means研究[D];北京交通大学;2011年
7 韩露;领域知识对领域问答系统答案抽取影响研究[D];昆明理工大学;2008年
8 甄涛;基于社团发现的Blog信息收集原型系统的研究[D];解放军信息工程大学;2009年
9 蔡蕊;一种新的搜索引擎分词词典的研究[D];山东大学;2010年
10 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年
【同被引文献】
中国期刊全文数据库 前4条
1 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
2 胡健;杨炳儒;宋泽锋;钱榕;;基于非结构化数据挖掘结构模型的Web文本聚类算法[J];北京科技大学学报;2008年02期
3 吕学强,苏祺,孙斌,俞士汶;搜索引擎用短语词典建设[J];清华大学学报(自然科学版);2005年S1期
4 刘世贵;郭文龙;姜惠娟;;基于JavaEE多层软件架构的研究与实现[J];软件导刊;2010年08期
中国重要会议论文全文数据库 前4条
1 李盛韬;吴丽辉;于满泉;潘文锋;余智华;王斌;程学旗;;主题Web信息采集的研究与设计[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
3 孙宏纲;陆余良;;基于二元切分的互联网新闻主题词自动提取研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 陈磊;茹立云;马少平;;基于用户日志挖掘的搜索引擎广告效果分析[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国博士学位论文全文数据库 前2条
1 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
2 石磊;基于数据的学习:埃尔米特算法与黎曼流形上的法向量估计[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 刘洋;聚合通信算法测试分析与理论研究[D];中国科学院研究生院(软件研究所);2005年
2 刘壁松;策略可扩展的搜索引擎研究和实现[D];清华大学;2005年
3 黄志春;基于AJAX技术的环保监控系统[D];浙江大学;2006年
4 樊非;基于J2EE架构的银行管理监控系统研究[D];浙江大学;2006年
5 罗兵;支持AJAX的互联网搜索引擎爬虫设计与实现[D];浙江大学;2007年
6 李四达;全文索引引擎Lucene的研究及其手机中的应用实现[D];华北电力大学(北京);2007年
7 张华杰;基于维基百科的知识抽取和重用[D];上海交通大学;2009年
8 王士博;一种基于语义的服务标识搜索引擎的设计与实现[D];北京交通大学;2009年
9 韩洪光;搜索引擎分析[D];北京交通大学;2008年
10 张建梁;基于云计算的语义搜索引擎研究[D];复旦大学;2009年
【二级引证文献】
中国硕士学位论文全文数据库 前2条
1 王军;数据归档与信息检索系统的研究与实现[D];太原理工大学;2012年
2 赵长欣;基于数字版权唯一标识符解析系统的设计与实现[D];北方工业大学;2012年
【相似文献】
中国期刊全文数据库 前10条
1 韩中元;李生;齐浩亮;杨沐昀;;面向信息检索的近邻语言模型[J];中文信息学报;2011年01期
2 孙守安;杨根科;杨祖华;;基于受限语料库的语言平滑算法比较研究[J];微型电脑应用;2010年12期
3 张润延;史晓东;陈毅东;;对IRSTLM的分析和改进[J];心智与计算;2008年01期
4 张刚;郭岩;张凯;;分布式信息检索的集合选择研究[J];计算机工程;2007年02期
5 杨琳;张建平;颜永红;;特定领域的汉语语言模型平滑算法比较研究[J];计算机工程与应用;2006年32期
6 骆卫华;刘群;白硕;;面向大规模语料的语言模型研究新进展[J];计算机研究与发展;2009年10期
7 赵岩;王晓龙;徐志明;刘秉权;;利用词性信息改进Katz平滑算法[J];哈尔滨工业大学学报;2007年09期
8 丁华福,李毅,尚福华;机器翻译质量自动评价的实践[J];黑龙江工程学院学报;2002年03期
9 曲卫民,张俊林,孙乐,孙玉芳;基于记忆的自适应汉语语言模型的研究[J];中文信息学报;2003年05期
10 黎志升;王煦法;;基于Language Model的地理信息检索模型(英文)[J];中国科学技术大学学报;2010年02期
中国重要会议论文全文数据库 前10条
1 朱鉴;张建;李淼;强静;杨攀;;面向民族语言信息处理的汉语分词方法[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
2 付晓寅;魏玮;徐波;;一种基于状态转移的N元语言模型快速查询方法[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
3 韩中元;李生;杨沐昀;齐浩亮;;面向信息检索的近邻语言模型[A];第六届全国信息检索学术会议论文集[C];2010年
4 胡晟;张树武;徐波;;基于裁剪门限改进的Katz平滑算法[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
5 奚宁;赵迎功;汤光超;李斌;罗春勇;戴新宇;陈家骏;;统计机器翻译中多种语言模型的融合[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
6 徐冰;姚建民;杨沐昀;赵铁军;;汉语分词在机器翻译评价中的影响[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 任纪生;王作英;赵敏;;基于潜在语义信息的汉语语音识别方法[A];中文信息处理技术研讨会论文集[C];2004年
8 陈琰;高月芳;朱同林;;基于顶点属性的三维网格模型混合平滑算法[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
9 王国仁;叶峰;王欣晖;于戈;郑怀远;;NOW环境下并行哈希连接算法的设计与实现[A];第十五届全国数据库学术会议论文集[C];1998年
10 詹津明;牟晓隆;李树青;方棣棠;;一个大字表语音识别系统中的语言模型[A];第五届全国人机语音通讯学术会议论文集[C];1998年
中国重要报纸全文数据库 前10条
1 何中军米海涛 刘群;统计机器翻译系统中的开源软件[N];计算机世界;2007年
2 中科院计算技术研究所 吕雅娟付雷 黄瑾 何中军 刘群;化繁为简的统计机器翻译技术[N];中国计算机报;2007年
3 北京清华大学电子工程系副教授 刘加 教授 刘润生;让机器听懂我的话[N];科技日报;2001年
4 骆卫华 刘群 张俊林;搜索引擎:性能提高遇到瓶颈[N];计算机世界;2006年
5 吕雅娟付雷 黄瑾 何中军 刘群;能自动翻译专利文献的翻译系统[N];计算机世界;2007年
6 陀牌曲酒;飞闪物理[N];电脑报;2003年
7 中国科学院声学研究所研究员 俞铁城;解析语音识别的发展现状[N];通信产业报;2004年
8 ;“实现继承”是有害的[N];计算机世界;2007年
9 熊德意何中军 刘群;机器翻译渐行渐近[N];计算机世界;2007年
10 闫宏志;全文翻译技术发展脉络[N];中国计算机报;2003年
中国博士学位论文全文数据库 前10条
1 张俊林;基于语言模型的信息检索系统研究[D];中国科学院研究生院(软件研究所);2004年
2 赵杠;对偶连接问题的哈希算法研究[D];复旦大学;2010年
3 肖镜辉;非时齐语言建模技术研究及实践[D];哈尔滨工业大学;2007年
4 刘鹏远;基于知识自动获取的无指导译文消歧方法研究[D];哈尔滨工业大学;2008年
5 胡熠;面向信息检索的文本内容分析[D];上海交通大学;2007年
6 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年
7 方淼;语义单元自动获取研究[D];大连理工大学;2008年
8 黎志升;地理信息检索若干技术研究[D];中国科学技术大学;2009年
9 袁晶;大规模轨迹数据的检索、挖掘和应用[D];中国科学技术大学;2012年
10 郑铁然;基于音节网格的汉语语音文档检索方法研究[D];哈尔滨工业大学;2008年
中国硕士学位论文全文数据库 前10条
1 张润延;海量语言模型的研究及其在机器翻译中的应用[D];厦门大学;2009年
2 张亚军;维吾尔语的N-gram语言模型及其平滑算法研究[D];新疆大学;2010年
3 金威;蒙古文信息检索模型的研究[D];内蒙古大学;2009年
4 李新生;基于改进语言模型的相关反馈方法的检索系统设计[D];北京邮电大学;2011年
5 楚彦凌;基于数据聚类的语言模型研究[D];北京邮电大学;2010年
6 汤小娜;词义消歧在统计机器翻译中的应用研究[D];厦门大学;2007年
7 沈默;平板电脑上语言模型的开发与测试[D];清华大学;2005年
8 唐永明;基于关联词的复句语言模型[D];北京邮电大学;2009年
9 孙晓;基于动态自适应语言模型的手机中文输入系统的研究与实现[D];苏州大学;2011年
10 刘春泳;中文问答系统中信息检索模型的研究[D];重庆大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026