收藏本站
《第五届全国信息检索学术会议论文集》2009年
收藏 | 手机打开
二维码
手机客户端打开本文

面向专利文献的中文分词技术的研究

刘东生  尹宝生  张桂平  徐立军  苗雪雷  
【摘要】:针对专利文献的特点,本文提出了一种基于统计和规则相结合的多策略分词方法。该方法利用文献中潜在的切分标记,结合切分文本的上下文信息进行最大概率分词,并利用术语前后缀规律进行后处理。该方法充分利用了从大规模语料中获取的全局信息和切分文本的上下文信息,有效地解决了专利分词中未登录词难以识别问题。实验结果表明,本文方法在封闭和开放测试下分别取得了较好的结果,对未登录词的识别也有很好的效果。

【参考文献】
中国期刊全文数据库 前6条
1 孙茂松,肖明,邹嘉彦;基于无指导学习策略的无词表条件下的汉语自动分词[J];计算机学报;2004年06期
2 赵铁军,吕雅娟,于浩,杨沐昀,刘芳;提高汉语自动分词精度的多步处理策略[J];中文信息学报;2001年01期
3 张春霞,郝天永;汉语自动分词的研究现状与困难[J];系统仿真学报;2005年01期
4 黄昌宁;统计语言模型能做什么?[J];语言文字应用;2002年01期
5 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
6 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
【共引文献】
中国期刊全文数据库 前10条
1 赵成龙,薛欣;基于WEB的智能答疑系统的设计与实现[J];安阳师范学院学报;2004年02期
2 杨家宽;科技术语的规范和统一刍议[J];编辑学报;2001年01期
3 祝迎新;对应规范在法律术语翻译中的应用[J];北京理工大学学报(社会科学版);2004年S1期
4 周蕾;;基于碎片分词的未登录词识别方法[J];常熟理工学院学报;2007年02期
5 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
6 马颖华,王永成,苏贵洋;一种在汉语文本中抽取重复字串的快速算法[J];电子学报;2002年S1期
7 李良炎,何中市,易勇;基于词联接的语义表示方法和知识库建设[J];重庆大学学报(自然科学版);2004年04期
8 陈榕;自动分词、标引与智能检索在信访业务处理中的应用[J];福建电脑;2003年10期
9 王一蕾;吴英杰;;基于数据量的文本分词算法选取的研究[J];福建电脑;2006年09期
10 刘挺,吴岩,王开铸;中文自动文摘系统CAAS的研究与实现[J];哈尔滨工业大学学报;1999年06期
中国重要会议论文全文数据库 前10条
1 于伟昌;;汉译外来语言学术语标准化的必要性及其原则[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
2 陈晶;;汉俄科技术语词典中若干问题分析[A];中国辞书学会双语词典专业委员会第七届年会论文集[C];2007年
3 张金忠;;对建构汉俄科技术语词典编纂理论的思考[A];中国辞书学会双语词典专业委员会第七届年会论文集[C];2007年
4 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
5 孟柱亿;;韩汉孪生词对汉语学习的影响[A];第八届国际汉语教学讨论会论文选[C];2005年
6 邹纲;刘洋;刘群;孟遥;于浩;西野文人;亢世勇;;面向Internet的中文新词语检测[A];2004年辞书与数字化研讨会论文集[C];2004年
7 曾依灵;许洪波;;网络热点信息发现研究[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
8 赵铁军;李生;孟遥;黄玉;杨沐昀;;机器翻译系统中句法分析技术的研究实践[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
9 陈鄞;赵铁军;吕雅娟;于浩;;汉英机器翻译中数词的识别和翻译[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
10 陈毅东;李堂秋;郑旭玲;;融合理性主义方法和经验主义方法的思路初探——汉英机器翻译系统英文生成选词模型的设计[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
中国博士学位论文全文数据库 前10条
1 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
2 李芸;信息科学和信息技术术语概念体系研究[D];北京语言文化大学;2003年
3 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
4 何婷婷;语料库研究[D];华中师范大学;2003年
5 彭强;复杂系统远程智能故障诊断技术研究[D];南京理工大学;2004年
6 赵静;司法判词的表达与实践——以古代判词为中心[D];复旦大学;2004年
7 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
8 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
9 杨建国;基于动态流通语料库(DCC)的汉语熟语单位研究[D];北京语言大学;2005年
10 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
中国硕士学位论文全文数据库 前10条
1 王省;基地统计和规则的中文姓名识别系统的研制[D];大连理工大学;2000年
2 李朝阳;经济文献数据库计算机标引研究[D];南京农业大学;2000年
3 罗智勇;现代汉语通用分词系统的技术与实现[D];北京工业大学;2002年
4 陆文彦;概念网的建模、实现与应用[D];中南大学;2002年
5 贾爱平;科技文献中术语定义的语言模式研究[D];北京语言文化大学;2002年
6 廉竹钧;汉语组合型切分歧义字段消歧方法研究[D];北京语言文化大学;2002年
7 关宏超;基于统计的开放式汉语自动分词[D];大连理工大学;2002年
8 章成志;基于文本层次模型的Web概念挖掘研究[D];南京农业大学;2002年
9 王寒松;计算机俄文视窗操作系统词语研究[D];黑龙江大学;2002年
10 马东坡;Internet中文智能搜索引擎汉语自动分词系统设计[D];广西师范大学;2002年
【同被引文献】
中国期刊全文数据库 前8条
1 岳清;浅析搜索引擎的原理及发展前景[J];大众科技;2005年05期
2 苏云;搜索引擎Google检索技巧研究[J];甘肃科技;2005年02期
3 陈建秋,邓飞其,刘发贵;智能化搜索引擎分析与探讨[J];广州大学学报(自然科学版);2002年03期
4 陈治平,林亚平,李军义;智能门户搜索引擎技术[J];计算机工程;2004年03期
5 李志蜀,李果;中文搜索引擎的原理剖析及开发实现技术[J];计算机应用研究;2001年11期
6 姚树宇,赵少东;一种使用分布式技术的搜索引擎[J];计算机应用与软件;2005年10期
7 蒋建洪;;主要分布式搜索引擎技术的研究[J];科学技术与工程;2007年10期
8 张华平,刘群;基于N-最短路径方法的中文词语粗分模型[J];中文信息学报;2002年05期
中国博士学位论文全文数据库 前1条
1 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
中国硕士学位论文全文数据库 前3条
1 皮鹏;智能搜索引擎系统的研究[D];哈尔滨工程大学;2002年
2 熊回香;网络信息检索及其发展趋势研究[D];华中师范大学;2003年
3 潘照明;智能中文搜索引擎若干关键技术的研究与实现[D];浙江大学;2006年
【二级参考文献】
中国期刊全文数据库 前10条
1 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 王轩,李巍,王晓龙,赵淑香;大标记集汉语字(词)Markov 语言模型的建立[J];哈尔滨工业大学学报;1997年05期
4 王锡江;王启祥;陈家骏;;基于邻接知识的汉语自动分词系统[J];计算机研究与发展;1992年11期
5 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
6 吴胜远;一种汉语分词方法[J];计算机研究与发展;1996年04期
7 吴胜远;并行分词方法的研究[J];计算机研究与发展;1997年07期
8 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期
9 谭琼,史忠植;分词中的歧义处理[J];计算机工程与应用;2002年11期
10 韩客松,王永成,陈桂林;汉语语言的无词典分词模型系统[J];计算机应用研究;1999年10期
【相似文献】
中国期刊全文数据库 前10条
1 宋立峰;;中文分词算法在专利文献中的应用研究[J];海峡科学;2011年07期
2 周拴龙;;Lucene.net中文分词算法分析[J];郑州大学学报(理学版);2011年03期
3 张文慧;张冉;;基于中文分词的农业信息检索平台设计[J];安徽农业科学;2011年20期
4 杜娟;;Nutch中文分词的研究和改进[J];软件导刊;2011年06期
5 张旭;;构建基于本地服务的垂直搜索引擎[J];才智;2011年18期
6 韩月阳;邓世昆;贾时银;李远方;;基于字分类的中文分词的研究[J];计算机技术与发展;2011年07期
7 刘兆伟;黄永峰;;面向主题搜索引擎的实现与优化[J];数据通信;2011年04期
8 阴桂梅;郭广行;;智能答疑系统模型设计[J];电脑开发与应用;2011年07期
9 高继平;丁堃;;基于专利文件知识结构的中文专利知识单元挖掘[J];情报理论与实践;2011年06期
10 杨错;胡艳;王红;;检索国外药学专利文献的途径与方法[J];医学信息学杂志;2011年06期
中国重要会议论文全文数据库 前10条
1 刘东生;尹宝生;张桂平;徐立军;苗雪雷;;面向专利文献的中文分词技术的研究[A];第五届全国信息检索学术会议论文集[C];2009年
2 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
3 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 李小童;裴少平;李蔚慰;李胤;姜海燕;;专利文献和科技期刊佐证公知常识的合理性探析[A];发展知识产权服务业,支撑创新型国家建设-2012年中华全国专利代理人协会年会第三届知识产权论坛论文选编(第一部分)[C];2011年
7 李菲;;IPv6技术领域专利文献分析[A];发展知识产权服务业,支撑创新型国家建设-2012年中华全国专利代理人协会年会第三届知识产权论坛论文选编(第一部分)[C];2011年
8 代益群;;浅淡专利文献在企业技术创新中的作用[A];中国有色金属学会——第二届青年论坛学术会议论文集[C];2004年
9 赵海;揭春雨;;基于子串标注的中文分词:寻找更佳的标注单元[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 彭辉;翟翔;;AutoCAD 2008自动翻译软件研发[A];全国冶金自动化信息网2010年年会论文集[C];2010年
中国重要报纸全文数据库 前10条
1 河南省高级人民法院 关晓海;专利文献能否任意利用[N];中国知识产权报;2010年
2 吴艳;CAS收录专利文献的国家数目增至61个[N];中国知识产权报;2010年
3 张卫平;你查阅过专利文献吗?[N];科技日报;2001年
4 本报记者 孙昕;专利文献:企业技术创新的源泉[N];中国知识产权报;2000年
5 记者 姚文平;打造专利文献出版和数字加工产业基地[N];中国知识产权报;2010年
6 王欣 许洪;加强专利文献研究 促进技术创新工作[N];中国航天报;2004年
7 本报记者 罗鼎;专利文献——为企业腾飞添翼[N];中国高新技术产业导报;2001年
8 ;专利文献的数字化快车[N];计算机世界;2002年
9 记者 刘阳子;专利文献出版工作要紧跟社会发展步伐[N];中国知识产权报;2009年
10 ;充分利用专利文献提高技术创新起点和水平[N];科技日报;2000年
中国博士学位论文全文数据库 前10条
1 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
2 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
3 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
4 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
5 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
6 任飞亮;高适应性基于实例的机器翻译中关键技术研究[D];东北大学;2008年
7 张京楣;基于统计方法的文本风格分析研究[D];山东大学;2012年
8 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
9 汤步洲;序列标注问题的监督学习方法及应用[D];哈尔滨工业大学;2011年
10 李玉香;现代企业无形资产法律问题研究[D];中国政法大学;2001年
中国硕士学位论文全文数据库 前10条
1 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
2 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
3 戚晶;基于RSS的搜索引擎的研究与实现[D];吉林大学;2006年
4 马莉;基于SVM的垃圾邮件过滤的研究[D];山东大学;2005年
5 王新梅;基于内容挖掘的垃圾邮件过滤技术[D];武汉理工大学;2006年
6 李培国;基于人工神经网的中文垃圾邮件过滤器的设计与实现[D];暨南大学;2007年
7 谷天宇;互联网有害节目信息数据监测系统的设计与实现[D];哈尔滨工业大学;2010年
8 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年
9 王圆;文本内容过滤的关键技术研究[D];东北师范大学;2006年
10 李东海;基于Nutch技术的主题搜索引擎实现[D];吉林大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026