收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向专利文献的中文分词技术的研究

刘东生  尹宝生  张桂平  徐立军  苗雪雷  
【摘要】:针对专利文献的特点,本文提出了一种基于统计和规则相结合的多策略分词方法。该方法利用文献中潜在的切分标记,结合切分文本的上下文信息进行最大概率分词,并利用术语前后缀规律进行后处理。该方法充分利用了从大规模语料中获取的全局信息和切分文本的上下文信息,有效地解决了专利分词中未登录词难以识别问题。实验结果表明,本文方法在封闭和开放测试下分别取得了较好的结果,对未登录词的识别也有很好的效果。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 宋立峰;;中文分词算法在专利文献中的应用研究[J];海峡科学;2011年07期
2 周拴龙;;Lucene.net中文分词算法分析[J];郑州大学学报(理学版);2011年03期
3 张文慧;张冉;;基于中文分词的农业信息检索平台设计[J];安徽农业科学;2011年20期
4 杜娟;;Nutch中文分词的研究和改进[J];软件导刊;2011年06期
5 张旭;;构建基于本地服务的垂直搜索引擎[J];才智;2011年18期
6 韩月阳;邓世昆;贾时银;李远方;;基于字分类的中文分词的研究[J];计算机技术与发展;2011年07期
7 刘兆伟;黄永峰;;面向主题搜索引擎的实现与优化[J];数据通信;2011年04期
8 阴桂梅;郭广行;;智能答疑系统模型设计[J];电脑开发与应用;2011年07期
9 高继平;丁堃;;基于专利文件知识结构的中文专利知识单元挖掘[J];情报理论与实践;2011年06期
10 杨错;胡艳;王红;;检索国外药学专利文献的途径与方法[J];医学信息学杂志;2011年06期
11 刘晓星;胡畅霞;;WEB中文本信息检索的关键技术研究[J];硅谷;2011年16期
12 杨春明;韩永国;;快速的领域文档关键词自动提取算法[J];计算机工程与设计;2011年06期
13 吕义超;刘红光;王君;;布拉德福定律在专利文献中应用的可行性研究[J];图书情报研究;2011年02期
14 张炜;;日本本田技研株式会社 2010年专利文献介绍[J];机器人技术与应用;2011年03期
15 陈珣;;中国专利信息数据库建设的理论与实践研究[J];中国集体经济;2011年24期
16 胡莉;;中文“词”的语言模型识别研究方法综述[J];北方文学(下半月);2011年03期
17 ;机器人专利技术(连载) 日本机器人专利文献[J];机器人技术与应用;2011年03期
18 孙凯;;面向古建动画自动生成的中文自然语言处理[J];网络安全技术与应用;2011年09期
19 佟兴帆;邓辉宇;李志明;;上海光源产品管理系统及其全文检索子系统的改进[J];核技术;2011年07期
20 李玉峰;郜晓晶;;中文垃圾邮件过滤综合方法[J];计算机应用与软件;2011年08期
中国重要会议论文全文数据库 前10条
1 刘东生;尹宝生;张桂平;徐立军;苗雪雷;;面向专利文献的中文分词技术的研究[A];第五届全国信息检索学术会议论文集[C];2009年
2 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
3 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 李小童;裴少平;李蔚慰;李胤;姜海燕;;专利文献和科技期刊佐证公知常识的合理性探析[A];发展知识产权服务业,支撑创新型国家建设-2012年中华全国专利代理人协会年会第三届知识产权论坛论文选编(第一部分)[C];2011年
7 李菲;;IPv6技术领域专利文献分析[A];发展知识产权服务业,支撑创新型国家建设-2012年中华全国专利代理人协会年会第三届知识产权论坛论文选编(第一部分)[C];2011年
8 代益群;;浅淡专利文献在企业技术创新中的作用[A];中国有色金属学会——第二届青年论坛学术会议论文集[C];2004年
9 赵海;揭春雨;;基于子串标注的中文分词:寻找更佳的标注单元[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 彭辉;翟翔;;AutoCAD 2008自动翻译软件研发[A];全国冶金自动化信息网2010年年会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
2 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
3 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
4 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
5 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
6 任飞亮;高适应性基于实例的机器翻译中关键技术研究[D];东北大学;2008年
7 张京楣;基于统计方法的文本风格分析研究[D];山东大学;2012年
8 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
9 汤步洲;序列标注问题的监督学习方法及应用[D];哈尔滨工业大学;2011年
10 李玉香;现代企业无形资产法律问题研究[D];中国政法大学;2001年
中国硕士学位论文全文数据库 前10条
1 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
2 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
3 戚晶;基于RSS的搜索引擎的研究与实现[D];吉林大学;2006年
4 马莉;基于SVM的垃圾邮件过滤的研究[D];山东大学;2005年
5 王新梅;基于内容挖掘的垃圾邮件过滤技术[D];武汉理工大学;2006年
6 李培国;基于人工神经网的中文垃圾邮件过滤器的设计与实现[D];暨南大学;2007年
7 谷天宇;互联网有害节目信息数据监测系统的设计与实现[D];哈尔滨工业大学;2010年
8 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年
9 王圆;文本内容过滤的关键技术研究[D];东北师范大学;2006年
10 李东海;基于Nutch技术的主题搜索引擎实现[D];吉林大学;2008年
中国重要报纸全文数据库 前10条
1 河南省高级人民法院 关晓海;专利文献能否任意利用[N];中国知识产权报;2010年
2 吴艳;CAS收录专利文献的国家数目增至61个[N];中国知识产权报;2010年
3 张卫平;你查阅过专利文献吗?[N];科技日报;2001年
4 本报记者 孙昕;专利文献:企业技术创新的源泉[N];中国知识产权报;2000年
5 记者 姚文平;打造专利文献出版和数字加工产业基地[N];中国知识产权报;2010年
6 王欣 许洪;加强专利文献研究 促进技术创新工作[N];中国航天报;2004年
7 本报记者 罗鼎;专利文献——为企业腾飞添翼[N];中国高新技术产业导报;2001年
8 ;专利文献的数字化快车[N];计算机世界;2002年
9 记者 刘阳子;专利文献出版工作要紧跟社会发展步伐[N];中国知识产权报;2009年
10 ;充分利用专利文献提高技术创新起点和水平[N];科技日报;2000年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978