期刊库|学位论文库|会议论文库|飞度BOOK|站内搜索注册|充值中心|购买知网卡|送卡上门|帮助中心|
全文文献: “飞度BOOK”首届期刊庙会开幕啦!
做个飞度客,万千杂志,想看就看!
《第六届汉语词汇语义学研讨会论文集》 2005年
加入收藏 获取最新

基于上下文信息提取的概率分词算法

曾华琳  史晓东  李堂秋  
【摘要】:汉语分词在汉语文本处理过程中是一个十分特殊而重要的组成部分。传统的基于词典的分词算法存在着很大的缺陷,它们无法对未登陆词进行很好的处理。而基于概率的算法只考虑了训练集语料的概率模型,对于不同领域的文本的处理效果不尽人意。本文提出了一种基于上下文信息提取的概率分词算法,它能够将预切分文本的上下文信息加入分词概率模型中,以上下文信息指导文本的切分。这种切分算法结合经典n元模型以及EM算法,在开放测试环境中取得了比较好的效果。
【作者单位】:厦门大学计算机与信息工程学院 厦门大学计算机与信息工程学院 厦门大学计算机与信息工程学院
【关键词】:中文分词 n元模型 上下文信息
【基金】:国家863计划资助项目(2002AA117010)
【分类号】:H085
【正文快照】:
1.引言, 汉语与西方文字在书写形式上最大的不同在于,汉语词与词之间没有空格,在整个汉语信息处理过程中,首先必须解决汉语的自动分词问题。词是最小的能独立活动的有意义的语言成分。汉语处理应用系统只要涉及语法语义(如检索,翻译,文摘,校对等),就需要以词为基本单位。因此
全文下载: CAJ格式 (推荐) PDF格式
不支持迅雷等加速下载工具,请取消加速工具后下载
CAJViewer7.0阅读器支持所有CNKI文件格式,AdobeReader仅支持PDF格式

【参考文献】
中国期刊全文数据库 前2条
1 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
2 黄昌宁;统计语言模型能做什么?[J];语言文字应用;2002年01期
【共引文献】
中国期刊全文数据库 前10条
1 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
2 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
3 杜永萍,郑家恒;分词及词性标注一致性校对系统的设计与实现[J];电脑开发与应用;2001年10期
4 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
5 王显芳,杜利民;一种能够检测所有交叉歧义的汉语分词算法[J];电子学报;2004年01期
6 王显芳,杜利民;利用覆盖歧义检测法和统计语言模型进行汉语自动分词[J];电子与信息学报;2003年09期
7 李良炎,何中市,易勇;基于词联接的语义表示方法和知识库建设[J];重庆大学学报(自然科学版);2004年04期
8 冯丽萍;;基于统计的中文组织机构名识别[J];福建电脑;2006年01期
9 谢春发;中文信息处理在智能答疑系统中的应用研究[J];福建广播电视大学学报;2005年02期
10 李朝虹,陆建湖;现代汉语自动分析研究现状综述[J];广西教育学院学报;2003年01期
中国重要会议论文全文数据库 前10条
1 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
2 陈毅东;李堂秋;郑旭玲;;融合理性主义方法和经验主义方法的思路初探——汉英机器翻译系统英文生成选词模型的设计[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
3 王洁;荀恩东;宋柔;;兼类词排歧的一种方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
4 王洁;荀恩东;罗智勇;宋柔;;现代汉语多音词自动标音研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 程月;季娜;洪鹿平;;基于语料统计的以“不”开头双字分词不一致研究[A];第三届学生计算语言学研讨会论文集[C];2006年
6 杜超华;沈威;姚双云;;基于复句语料库的分词系统的研究[A];第三届学生计算语言学研讨会论文集[C];2006年
7 朱丽丽;郑家恒;;一种基于实例学习的人名识别方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
8 吐尔根·依不拉音;阿里甫·库尔班;阿不都热依木;;基于词典的现代维吾尔语词性自动标注系统的研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
9 蔡勋梁;赵军;;信息检索中基于MLS的语言模型准确性分析[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 张玮;孙乐;冯元勇;吕元华;;一种结合分类模型的中文输入法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 何婷婷;语料库研究[D];华中师范大学;2003年
2 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
3 张蕾;概念结构及其应用[D];西北工业大学;2001年
4 刘忠;性质语意理论的提出与自然语言理解及其实现的研究[D];华东师范大学;2004年
5 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
6 郑逢斌;关于计算机理解自然查询语言的研究[D];西南交通大学;2004年
7 彭强;复杂系统远程智能故障诊断技术研究[D];南京理工大学;2004年
8 钱俊;单幅雷达影像测图原理研究[D];武汉大学;2004年
9 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
10 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
中国硕士学位论文全文数据库 前10条
1 罗智勇;现代汉语通用分词系统的技术与实现[D];北京工业大学;2002年
2 陆文彦;概念网的建模、实现与应用[D];中南大学;2002年
3 廉竹钧;汉语组合型切分歧义字段消歧方法研究[D];北京语言文化大学;2002年
4 张丽静;规则与统计相结合的兼类词处理机制[D];大连理工大学;2002年
5 马东坡;Internet中文智能搜索引擎汉语自动分词系统设计[D];广西师范大学;2002年
6 张艳丽;中文机构名称的自动识别[D];大连理工大学;2003年
7 许林杰;中文文本分词研究[D];山东师范大学;2003年
8 由丽萍;动词与动词搭配自动获取方法研究[D];上海师范大学;2003年
9 岑咏华;科技信息门户网站的技术研究[D];南京理工大学;2003年
10 刘军;基于论点倾向的网络信息内容实时分析研究[D];四川大学;2003年
【二级参考文献】
中国期刊全文数据库 前5条
1 王轩,李巍,王晓龙,赵淑香;大标记集汉语字(词)Markov 语言模型的建立[J];哈尔滨工业大学学报;1997年05期
2 王晓龙,王开铸,李仲荣,白小华;最少分词问题及其解法[J];科学通报;1989年13期
3 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期
4 王晓龙,王开铸,白小华;自然语言理解中的音字流自动分词[J];中文信息学报;1991年03期
5 黄昌宁;关于处理大规模真实文本的谈话[J];语言文字应用;1993年02期
【相似文献】
中国期刊全文数据库 前2条
1 黄居仁,陈克健,陈凤仪,魏文真,张丽丽;《资讯处理用中文分词规范》设计理念及规范内容[J];语言文字应用;1997年01期
2 陈丽江;从ACL-SIGHAN国际分词竞赛看已知词和未登录词识别的平衡问题[J];南京师范大学文学院学报;2005年01期
中国重要会议论文全文数据库 前10条
1 刘俊;张益肇;;基于统计的中文姓名提取方法[A];第六届全国人机语音通讯学术会议论文集[C];2001年
2 徐志明;揭春雨;Jonathan ebster;;一种自适应概率语言模型的训练方法及其应用于中文分词[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 陶晓鹏;周水庚;;无辅助数据的中文分词方法(英文)[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
4 陈丽江;;ACL-SIGHAN第一届国际中文分词竞赛评述[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 袁里驰;钟义信;;一种新颖的词聚类算法[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
6 苏贵洋 ;李建华 ;马颖华;;XML统一文本自动处理描述接口[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 王晔;黄上腾;;基于n-gram相邻字的中文文本特征提取算法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 周国民;丘耘;郑彦妍;曾枝连;樊景超;;基于SDD算法的特定网页采集技术[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
9 王洪俊;施水才;俞士汶;肖诗斌;;跨语言文档对齐[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 马辉民;李卫华;;Web文档聚类系统的实现方法探析[A];第10届计算机模拟与信息技术会议论文集[C];2005年
中国重要报纸全文数据库 前10条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
3 丁鸿;百度掀起财富浪潮 中国互联网不再“青涩”[N];中国工业报;2005年
4 王翌;互联网2005:个性化生存[N];计算机世界;2005年
5 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
6 王宾;加速争夺中国搜索市场[N];北京商报;2006年
7 贺俊;汇聚亿万草根智慧 奇虎发布经验搜索[N];证券日报;2006年
8 高雪娟;企业搜索要为决策服务[N];中国计算机报;2006年
9 姜蕊;过半用户难辨百度雅虎[N];中国商报;2006年
10 张磊;雅虎加速争夺在华市场[N];中华工商时报;2006年
中国博士学位论文全文数据库 前2条
1 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
2 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
中国硕士学位论文全文数据库 前10条
1 李卫亮;现代汉语分词系统中专名识别的实用策略[D];北京工业大学;2000年
2 陈红英;Internet信息过滤Agent的研究和实现[D];广东工业大学;2002年
3 陈乐;基于智能文本分类技术的素材管理软件的设计与开发[D];南京师范大学;2003年
4 胡蓉;中文Web文档倾向性自动分类研究[D];四川大学;2003年
5 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年
6 赵海雁;基于数据链路层数据捕获与信息过滤[D];华北工学院;2004年
7 许彦彬;基于Java技术的生物资源专业搜索引擎的研究与开发[D];昆明理工大学;2004年
8 刘卓;基于KNN算法的中文文本自动分类[D];吉林大学;2004年
9 于爱军;NERMS中基于Internet的搜索引擎研究与实现[D];吉林大学;2004年
10 杨凤芹;建立层次结构用户兴趣模型的方法[D];东北师范大学;2004年
关于知网|版权声明|学术会议服务|广告服务|在线咨询
京ICP证040431号互联网出版许可证新出网证(京)字008号北京市公安局海淀分局备案号:110 1081725
订购咨询热线:800-810-6613、010-62985026免费送卡上门
主办:清华大学
数字出版:中国学术期刊电子杂志社
在线发行:同方知网(北京)技术有限公司
关 闭
关 闭
关 闭