收藏本站
《第六届汉语词汇语义学研讨会论文集》2005年
收藏 | 手机打开
二维码
手机客户端打开本文

基于上下文信息提取的概率分词算法

曾华琳  史晓东  李堂秋  
【摘要】:汉语分词在汉语文本处理过程中是一个十分特殊而重要的组成部分。传统的基于词典的分词算法存在着很大的缺陷,它们无法对未登陆词进行很好的处理。而基于概率的算法只考虑了训练集语料的概率模型,对于不同领域的文本的处理效果不尽人意。本文提出了一种基于上下文信息提取的概率分词算法,它能够将预切分文本的上下文信息加入分词概率模型中,以上下文信息指导文本的切分。这种切分算法结合经典n元模型以及EM算法,在开放测试环境中取得了比较好的效果。

【参考文献】
中国期刊全文数据库 前2条
1 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
2 黄昌宁;统计语言模型能做什么?[J];语言文字应用;2002年01期
【共引文献】
中国期刊全文数据库 前10条
1 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
2 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
3 杜永萍,郑家恒;分词及词性标注一致性校对系统的设计与实现[J];电脑开发与应用;2001年10期
4 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
5 王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期
6 王显芳,杜利民;利用覆盖歧义检测法和统计语言模型进行汉语自动分词[J];电子与信息学报;2003年09期
7 李良炎,何中市,易勇;基于词联接的语义表示方法和知识库建设[J];重庆大学学报(自然科学版);2004年04期
8 冯丽萍;;基于统计的中文组织机构名识别[J];福建电脑;2006年01期
9 谢春发;中文信息处理在智能答疑系统中的应用研究[J];福建广播电视大学学报;2005年02期
10 李朝虹,陆建湖;现代汉语自动分析研究现状综述[J];广西教育学院学报;2003年01期
中国重要会议论文全文数据库 前10条
1 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
2 陈毅东;李堂秋;郑旭玲;;融合理性主义方法和经验主义方法的思路初探——汉英机器翻译系统英文生成选词模型的设计[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
3 王洁;荀恩东;宋柔;;兼类词排歧的一种方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
4 王洁;荀恩东;罗智勇;宋柔;;现代汉语多音词自动标音研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 程月;季娜;洪鹿平;;基于语料统计的以“不”开头双字分词不一致研究[A];第三届学生计算语言学研讨会论文集[C];2006年
6 杜超华;沈威;姚双云;;基于复句语料库的分词系统的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
7 朱丽丽;郑家恒;;一种基于实例学习的人名识别方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
8 吐尔根·依不拉音;阿里甫·库尔班;阿不都热依木;;基于词典的现代维吾尔语词性自动标注系统的研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
9 蔡勋梁;赵军;;信息检索中基于MLS的语言模型准确性分析[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 张玮;孙乐;冯元勇;吕元华;;一种结合分类模型的中文输入法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 何婷婷;语料库研究[D];华中师范大学;2003年
2 张蕾;概念结构及其应用[D];西北工业大学;2001年
3 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
4 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
5 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
6 彭强;复杂系统远程智能故障诊断技术研究[D];南京理工大学;2004年
7 钱俊;单幅雷达影像测图原理研究[D];武汉大学;2004年
8 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
9 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
10 杨建国;基于动态流通语料库(DCC)的汉语熟语单位研究[D];北京语言大学;2005年
中国硕士学位论文全文数据库 前10条
1 吴思;聚类分析及其在农业物种信息自动提取中的应用[D];湘潭大学;2001年
2 罗智勇;现代汉语通用分词系统的技术与实现[D];北京工业大学;2002年
3 陆文彦;概念网的建模、实现与应用[D];中南大学;2002年
4 廉竹钧;汉语组合型切分歧义字段消歧方法研究[D];北京语言文化大学;2002年
5 张丽静;规则与统计相结合的兼类词处理机制[D];大连理工大学;2002年
6 马东坡;Internet中文智能搜索引擎汉语自动分词系统设计[D];广西师范大学;2002年
7 张艳丽;中文机构名称的自动识别[D];大连理工大学;2003年
8 许林杰;中文文本分词研究[D];山东师范大学;2003年
9 由丽萍;动词与动词搭配自动获取方法研究[D];上海师范大学;2003年
10 岑咏华;科技信息门户网站的技术研究[D];南京理工大学;2003年
【二级参考文献】
中国期刊全文数据库 前5条
1 王轩,李巍,王晓龙,赵淑香;大标记集汉语字(词)Markov 语言模型的建立[J];哈尔滨工业大学学报;1997年05期
2 王晓龙,王开铸,李仲荣,白小华;最少分词问题及其解法[J];科学通报;1989年13期
3 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期
4 王晓龙,王开铸,白小华;自然语言理解中的音字流自动分词[J];中文信息学报;1991年03期
5 黄昌宁;关于处理大规模真实文本的谈话[J];语言文字应用;1993年02期
【相似文献】
中国期刊全文数据库 前10条
1 胡莉;;中文“词”的语言模型识别研究方法综述[J];北方文学(下半月);2011年03期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
2 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
3 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 赵海;揭春雨;;基于子串标注的中文分词:寻找更佳的标注单元[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 彭辉;翟翔;;AutoCAD 2008自动翻译软件研发[A];全国冶金自动化信息网2010年年会论文集[C];2010年
8 王屹林;朱慕华;朱靖波;;针对SVM中文分词特性的个性化后处理设计[A];第三届学生计算语言学研讨会论文集[C];2006年
9 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系统中的应用研究[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
10 刘东生;尹宝生;张桂平;徐立军;苗雪雷;;面向专利文献的中文分词技术的研究[A];第五届全国信息检索学术会议论文集[C];2009年
中国重要报纸全文数据库 前10条
1 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
2 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
3 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年
4 贺俊;汇聚亿万草根智慧 奇虎发布经验搜索[N];证券日报;2006年
5 记者 杨朝晖;医药搜索:不再“众里寻他千百度”[N];科技日报;2007年
6 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
7 张韬;谷歌推出“谷歌拼音”力拼百度[N];上海证券报;2007年
8 王翌;互联网2005:个性化生存[N];计算机世界;2005年
9 李永胜;在中文网页搜索质量上 Google险胜百度[N];中国计算机报;2007年
10 记者 李霆钧;国内首个“影视剧植入广告分析系统”出炉[N];中国电影报;2010年
中国博士学位论文全文数据库 前10条
1 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
2 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
3 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
4 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
5 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
6 任飞亮;高适应性基于实例的机器翻译中关键技术研究[D];东北大学;2008年
7 张京楣;基于统计方法的文本风格分析研究[D];山东大学;2012年
8 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
9 汤步洲;序列标注问题的监督学习方法及应用[D];哈尔滨工业大学;2011年
10 胡宜敏;农业垂直搜索引擎语义化若干问题的研究与实现[D];中国科学技术大学;2012年
中国硕士学位论文全文数据库 前10条
1 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
2 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
3 戚晶;基于RSS的搜索引擎的研究与实现[D];吉林大学;2006年
4 马莉;基于SVM的垃圾邮件过滤的研究[D];山东大学;2005年
5 王新梅;基于内容挖掘的垃圾邮件过滤技术[D];武汉理工大学;2006年
6 李培国;基于人工神经网的中文垃圾邮件过滤器的设计与实现[D];暨南大学;2007年
7 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年
8 王圆;文本内容过滤的关键技术研究[D];东北师范大学;2006年
9 李东海;基于Nutch技术的主题搜索引擎实现[D];吉林大学;2008年
10 孟美华;桌面搜索引擎的设计与实现[D];大连理工大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026