收藏本站
《第六届全国信息检索学术会议论文集》2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于CRFs的中文领域术语自动抽取研究

王海雄  郭剑毅  余正涛  毛存礼  张朝胜  雷春雅  
【摘要】:本文提出基于条件随机场(CRFs)的中文领域术语的自动抽取方法,在给定领域分类语料前提下,该方法不仅很好解决了未登录词中的领域术语抽取的问题,而且还很好的解决三字以上长字词领域术语的抽取问题。本文以云南旅游领域为实验对象,并与基于互信息结合T评价的传统领域术语抽取方法作比较,人工评测显示基于CRFs的方法能准确有效的抽取领域术语,并能很好的抓取未登录词中的领域术语和长字词领域术语,明显提高了领域术语的抽取的准确率和召回率。

手机知网App
【引证文献】
中国期刊全文数据库 前2条
1 唐涛;周俏丽;张桂平;;统计与规则相结合的术语抽取[J];沈阳航空航天大学学报;2011年05期
2 祝清松;冷伏海;;自动术语识别存在的问题及发展趋势综述[J];图书情报工作;2012年18期
中国硕士学位论文全文数据库 前1条
1 唐涛;面向特定领域的中文分词技术的研究[D];沈阳航空航天大学;2012年
【参考文献】
中国期刊全文数据库 前9条
1 刘桃;刘秉权;徐志明;王晓龙;;领域术语自动抽取及其在文本分类中的应用[J];电子学报;2007年02期
2 张文静;梁颖红;;术语抽取技术研究[J];信息技术;2008年03期
3 张锋,许云,侯艳,樊孝忠;基于互信息的中文术语抽取系统[J];计算机应用研究;2005年05期
4 温春;王晓斌;石昭祥;;中文领域本体学习中术语的自动抽取[J];计算机应用研究;2009年07期
5 王蕾;杨季文;;汉语未登录词识别现状及一种新识别方法介绍[J];计算机应用与软件;2007年08期
6 秦文,苑春法;基于决策树的汉语未登录词识别[J];中文信息学报;2004年01期
7 郭剑毅;薛征山;余正涛;张志坤;张宜浩;姚贤明;;基于层叠条件随机场的旅游领域命名实体识别[J];中文信息学报;2009年05期
8 梁颖红;张文静;周德富;;基于混合策略的高精度长术语自动抽取[J];中文信息学报;2009年06期
9 杜小勇;李曼;王珊;;本体学习研究综述[J];软件学报;2006年09期
【共引文献】
中国期刊全文数据库 前10条
1 黄洪;刘增良;余达太;周绍华;;一种具有免疫特征的智能数据分类分级模型[J];兵工学报;2010年12期
2 黄洪;刘增良;余达太;;一种智能化的数据分类、分级及保护模型[J];北京工业大学学报;2011年06期
3 王成;吕学强;王弘蔚;王涛;;基于信息熵与词语活跃度的领域词抽取[J];北京信息科技大学学报(自然科学版);2011年05期
4 傅继彬;樊孝忠;毛金涛;余正涛;;基于语言特性的中文领域术语抽取算法[J];北京理工大学学报;2010年03期
5 谢轶群;舒江波;;基于本体的构件库智能检索方法研究(英文)[J];湖南文理学院学报(自然科学版);2007年03期
6 王鑫;王英;;基于本体增量学习的主题爬行[J];长春工程学院学报(自然科学版);2010年04期
7 饶祎;刘鹏;;基于本体的GridGIS服务发现框架研究[J];地理信息世界;2007年04期
8 周蕾;;基于碎片分词的未登录词识别方法[J];常熟理工学院学报;2007年02期
9 王芳;滕桂法;张玉新;任力生;马建斌;赵洋;;基于本体的农业问答语义管理系统设计与实现[J];河北农业大学学报;2008年05期
10 靳伟;张月清;王芳;;基于本体的分类检索系统的设计与实现[J];河北农业大学学报;2010年02期
中国重要会议论文全文数据库 前10条
1 赵兴;余正涛;邹俊杰;郭剑毅;毛存礼;;结合依存句法与实体的领域答案句模学习方法[A];中国自动化学会控制理论专业委员会A卷[C];2011年
2 徐立恒;刘洋;来斯惟;刘康;田野;王渝丽;赵军;;基于多特征表示的本体概念挂载[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 张晓莹;张桂平;王裴岩;;领域本体构建中关系辅助判断技术研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 毕鲁雁;焦宗夏;范圣韬;赵四军;;基于本体的机载机电系统故障诊断研究[A];第五届全国流体传动与控制学术会议暨2008年中国航空学会液压与气动学术会议论文集[C];2008年
5 史东娜;王枞;李卫;;车牌识别领域的中文术语自动抽取[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(下册)[C];2008年
6 胡金柱;舒江波;陈志伟;杜志强;窦桂琴;;基于本体构件的工作流检索研究[A];第四届中国软件工程大会论文集[C];2007年
7 何伟;侯敏;;利用词汇时间分布信息提取未登录词[A];第九届全国人机语音通讯学术会议论文集[C];2007年
8 徐惠;高志强;陆青健;朱万颖;;ORIGO:一种基于数字化图书馆资源的本体学习方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
9 王芳;万常选;;基于可信度的中文完整词自动识别[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 陈一稀;基于关系数据库的遗留系统向语义Web移植的研究[D];浙江大学;2010年
2 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
3 唐素勤;面向语义Web的描述逻辑本体构建[D];中南大学;2011年
4 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
5 刘铭;大规模文档聚类中若干关键问题的研究[D];哈尔滨工业大学;2010年
6 陈建辉;基于脑信息学的数据脑建模及其应用[D];北京工业大学;2011年
7 张杨;语义Web服务组合的可信性度量研究[D];重庆大学;2011年
8 袁侃;复杂系统的故障诊断及容错控制研究[D];南京航空航天大学;2010年
9 黄水清;非相关文献知识发现方法及在农业经济学中的应用[D];南京农业大学;2010年
10 魏圆圆;基于本体论的农业知识建模及推理研究[D];中国科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
2 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
3 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
4 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
5 徐济成;面向农业领域的本体学习建模研究[D];安徽农业大学;2010年
6 杨晓东;中文命名实体识别及若干相关问题的研究[D];江苏大学;2010年
7 杜海波;本体在医疗信息检索系统中的应用研究[D];长春工业大学;2010年
8 司圣涛;领域知识库的构建方法及其应用研究[D];昆明理工大学;2009年
9 姚贤明;领域概念自动抽取研究[D];昆明理工大学;2010年
10 邱艳霞;领域术语自动抽取及关系分类研究[D];昆明理工大学;2009年
【同被引文献】
中国期刊全文数据库 前9条
1 傅继彬;樊孝忠;毛金涛;余正涛;;基于语言特性的中文领域术语抽取算法[J];北京理工大学学报;2010年03期
2 刘里;刘小明;;基于分隔符和上下文术语的领域现象术语抽取[J];华南理工大学学报(自然科学版);2011年07期
3 李勇;;基于聚类方法对特定领域术语的自动筛选[J];计算机工程与科学;2008年02期
4 游宏梁;张巍;沈钧毅;刘挺;;一种基于加权投票的术语自动识别方法[J];中文信息学报;2011年03期
5 宋彦;蔡东风;张桂平;赵海;;一种基于字词联合解码的中文分词方法[J];软件学报;2009年09期
6 季培培;鄢小燕;岑咏华;;面向领域中文文本信息处理的术语识别与抽取研究综述[J];图书情报工作;2010年16期
7 刘建华;张智雄;徐健;许雁冬;;自动术语识别——对科技文献进行文本挖掘的重要技术方法[J];现代图书情报技术;2008年08期
8 岑咏华;韩哲;季培培;;基于隐马尔科夫模型的中文术语识别研究[J];现代图书情报技术;2008年12期
9 翟笃风;刘柏嵩;;政务领域本体术语的自动抽取[J];现代图书情报技术;2010年04期
中国重要会议论文全文数据库 前1条
1 宁海燕;刘秉权;张德园;刘远超;王晓龙;;基于统计的中文领域术语自动抽取方法的比较研究[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前1条
1 李卫;领域知识的获取[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前5条
1 刘成帅;中文领域术语自动获取方法的研究[D];南京邮电大学;2011年
2 谢芳;特定领域术语的自动获取[D];华中师范大学;2006年
3 许顺;中文分词规范可计算化的研究与实现[D];苏州大学;2006年
4 王靖;基于机械切分和标注的中文分词研究[D];湖南大学;2009年
5 马志斌;特定领域术语自动抽取方法的研究[D];哈尔滨工业大学;2009年
【二级参考文献】
中国期刊全文数据库 前5条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
3 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
4 刘桃;刘秉权;徐志明;王晓龙;;领域术语自动抽取及其在文本分类中的应用[J];电子学报;2007年02期
5 杜小勇;李曼;王珊;;本体学习研究综述[J];软件学报;2006年09期
中国重要会议论文全文数据库 前2条
1 陈文亮;朱靖波;姚天顺;张宇新;;基于Bootstrapping的领域词汇自动获取[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 廖先桃;于海滨;秦兵;刘挺;;HMM与自动规则提取相结合的中文命名实体识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年
【相似文献】
中国期刊全文数据库 前10条
1 张锋,许云,侯艳,樊孝忠;基于互信息的中文术语抽取系统[J];计算机应用研究;2005年05期
2 安艳杰;;电子文献引用的自动获取初探[J];现代情报;2007年09期
3 贾美英;杨炳儒;郑德权;杨靖;;采用CRF技术的军事情报术语自动抽取研究[J];计算机工程与应用;2009年32期
4 梁颖红;张文静;张有承;;C值和互信息相结合的术语抽取[J];计算机应用与软件;2010年04期
5 胡文敏;何婷婷;张勇;;基于卡方检验的汉语术语抽取[J];计算机应用;2007年12期
6 梁铭;;基于英汉平行语料库术语词典的自动抽取[J];电脑知识与技术;2009年19期
7 林磊;孙承杰;张二艳;刘秉权;;一种基于改进似然比的术语自动抽取方法[J];广西师范大学学报(自然科学版);2010年01期
8 张五辈;白宇;王裴岩;张桂平;;一种中医名词术语自动抽取方法[J];沈阳航空航天大学学报;2011年01期
9 翟笃风;刘柏嵩;;政务领域本体术语的自动抽取[J];现代图书情报技术;2010年04期
10 梁颖红;张文静;周德富;;基于混合策略的高精度长术语自动抽取[J];中文信息学报;2009年06期
中国重要会议论文全文数据库 前10条
1 王海雄;郭剑毅;余正涛;毛存礼;张朝胜;雷春雅;;基于CRFs的中文领域术语自动抽取研究[A];第六届全国信息检索学术会议论文集[C];2010年
2 邱艳霞;余正涛;张志坤;司圣涛;韩露;孟祥燕;;领域术语自动抽取方法研究[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
3 史东娜;王枞;李卫;;车牌识别领域的中文术语自动抽取[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(下册)[C];2008年
4 肖诗斌;乔春庚;李渝勤;施水才;;基于未标注语料的领域词汇自动抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 ;Automatic Domain-specific Term Extraction System Based on Hybrid Approaches[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
6 胡东东;孟小峰;;一种基于树结构的Web数据自动抽取方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
7 章成志;王惠临;;基于专业领域平行语料的双语核心术语抽取研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
8 王栋;盛玉麒;;汉语否定极项(NPI)自动抽取研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
9 聂志强;李庆忠;;电子政务信息集成中本体的自动抽取及优化[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
10 封盛;张铭;;基于DOM树的半指导科技文献元数据自动抽取[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
中国博士学位论文全文数据库 前9条
1 周浪;中文术语抽取若干问题研究[D];南京理工大学;2010年
2 刘柏嵩;基于Web的通用本体学习研究[D];浙江大学;2007年
3 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
4 段建勇;多词表达抽取及其应用[D];上海交通大学;2007年
5 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
6 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
7 钟美;基于Web的空间本体构建方法研究[D];武汉大学;2010年
8 金锋;文档摘要算法的研究与应用[D];清华大学;2011年
9 李学宁;现代汉语形容词概念语义模型研究[D];上海交通大学;2008年
中国硕士学位论文全文数据库 前10条
1 李丹;特定领域中文术语抽取[D];大连理工大学;2011年
2 姚贤明;领域概念自动抽取研究[D];昆明理工大学;2010年
3 段国成;基于CCD的术语抽取研究[D];郑州大学;2007年
4 王可为;基于统计的双语术语自动抽取[D];南京理工大学;2007年
5 赵欣;基于最大熵的中文术语抽取系统的设计与实现[D];西安电子科技大学;2012年
6 刘磊;面向专利的双语术语自动抽取技术的研究[D];沈阳航空工业学院;2009年
7 桑爱菊;基于Text2Onto的中文本体学习技术研究[D];中国海洋大学;2009年
8 张小鹏;汉语特定领域本体的自动构造研究[D];华中师范大学;2007年
9 邱艳霞;领域术语自动抽取及关系分类研究[D];昆明理工大学;2009年
10 康琪;基于Bootstrapping的领域知识自动抽取技术的研究[D];山东大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026