收藏本站
《中国索引学会第三次全国会员代表大会暨学术论坛论文集》2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于集成学习的自动标引方法研究

章成志  
【摘要】:目前大多数自动标引方法不能有效利用文本中包含的多个特征。而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取。同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自动标引,能够提高自动标引的质量。为了进一步提高自动标引的质量,本文试图整合统计机器学习模型与集成学习方法的优势,对文档进行基于多分类模型综合投票方式的自动标引。实验结果表明基于集成学习方法的自动标引能提高标引结果的查准率和召回率。另外,集成学习标引模型中,基分类器加权的标引结果,优于基分类器未加权的标引结果。

【参考文献】
中国期刊全文数据库 前4条
1 韩客松,王永成;中文全文标引的主题词标引和主题概念标引方法[J];情报学报;2001年02期
2 马颖华,王永成,苏贵洋,张宇萌;一种基于字同现频率的汉语文本主题抽取方法[J];计算机研究与发展;2003年06期
3 王强军,李芸,张普;信息技术领域术语提取的初步研究[J];术语标准化与信息技术;2003年01期
4 索红光;刘玉树;曹淑英;;一种基于词汇链的关键词抽取方法[J];中文信息学报;2006年06期
【共引文献】
中国期刊全文数据库 前10条
1 唐培丽,王树明,胡明;基于语义的汉语文献主题词提取算法研究[J];吉林大学学报(信息科学版);2005年05期
2 逄焕利,周连吉吉,刘寒梅,计小宇;基于概念检索的中文搜索引擎[J];吉林工学院学报(自然科学版);2002年01期
3 陈炯,张永奎;一种基于词聚类的中文文本主题抽取方法[J];计算机应用;2005年04期
4 索红光;刘玉树;曹淑英;;一种基于词汇链的关键词抽取方法[J];中文信息学报;2006年06期
5 王泰森;一个基于本体论全文自动标引方案[J];情报科学;2003年09期
6 吴春玉;中文全文检索系统主题词标引[J];情报科学;2004年06期
7 吴春玉;中文全文检索系统中实现主题词标引思路[J];情报杂志;2005年01期
8 张清军,朱才连;基于统计的中文文本主题自动提取研究[J];四川大学学报(工程科学版);2004年03期
9 余刚,陈华月,朱征宇,高原;基于词同现频率的文本特征描述[J];计算机工程与设计;2005年08期
10 卢娇丽,郑家恒;基于成对比较的关键词权重计算与主题词抽取[J];山西大学学报(自然科学版);2005年01期
中国重要会议论文全文数据库 前9条
1 王强军;张普;;面向术语定义识别的语料库建设研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
2 程涛;施水才;张玉杰;吕学强;;基于大规模语料库的新闻领域新词挖掘[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 刘建毅;王菁华;王枞;;基于语言网络的关键词抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 王慧慧;杨国纬;;基于事例的问答系统研究[A];贵州制约逻辑学会2005年学术年会暨首届全国性逻辑系统专题研讨会论文集[C];2005年
5 李军辉;朱巧明;李培峰;;一个基于最大熵模型的文本分类方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
6 王素格;张武;李德玉;杨军玲;彭其伟;;基于最大熵模型的汉语动词与动词搭配识别[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 王灿辉;金奕江;马少平;;基于文档中心内容快速提取的Web监控辅助系统[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
8 王强军;张普;;基于DCC的术语定义标注语料库研究[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
9 张晶;姚建民;董守斌;张凌;;基于自然语言同现词汇的邮件过滤[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前8条
1 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
2 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
3 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
4 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
5 张春霞;领域文本知识获取方法研究及其在考古领域中的应用[D];中国科学院研究生院(计算技术研究所);2005年
6 薛春香;农史知识组织系统构建与应用研究[D];南京农业大学;2006年
7 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
8 杨为民;基于场论的信息检索模型的研究[D];安徽大学;2007年
中国硕士学位论文全文数据库 前10条
1 王明燕;基于WEB页面的关键词与关键概念提取技术[D];北京工业大学;2003年
2 白丽君;基于内容和协作的科技文献过滤方法研究[D];山西大学;2003年
3 谷波;基于粗集模型的聚类方法及其在文献过滤系统中的应用[D];山西大学;2004年
4 樊小玲;基于“时间”、“频率”概念和“新词语发现软件”的报刊新词语研究[D];华东师范大学;2005年
5 杨才峰;基于自动分类的元搜索引擎的研究与应用[D];华北电力大学(河北);2005年
6 卢娇丽;基于粗糙集的文本分类方法研究[D];山西大学;2005年
7 杨晓懿;基于内容分析的信息安全过滤技术研究[D];四川大学;2005年
8 余刚;基于语义概念的文本特征描述[D];重庆大学;2005年
9 谢芳;特定领域术语的自动获取[D];华中师范大学;2006年
10 张勇;中文术语自动抽取相关方法研究[D];华中师范大学;2006年
【二级参考文献】
中国期刊全文数据库 前10条
1 丁春;关键词标引的若干问题探讨[J];编辑学报;2004年02期
2 马颖华,王永成,苏贵洋,张宇萌;一种基于字同现频率的汉语文本主题抽取方法[J];计算机研究与发展;2003年06期
3 麻志毅,姚天顺;基于情境的文本主题求解[J];计算机研究与发展;1998年04期
4 郑家恒,卢娇丽;关键词抽取方法的研究[J];计算机工程;2005年18期
5 王军;词表的自动丰富——从元数据中提取关键词及其定位[J];中文信息学报;2005年06期
6 索红光;刘玉树;曹淑英;;一种基于词汇链的关键词抽取方法[J];中文信息学报;2006年06期
7 韩客松,王永成;中文全文标引的主题词标引和主题概念标引方法[J];情报学报;2001年02期
8 张政宝;对中文全文数据库标引和检索功能的探讨[J];情报学报;1997年S1期
9 王永成,顾晓明,王丽霞;中文文献主题的自动标引[J];情报学报;1998年03期
10 董毅士;农业期刊学术论文关键词标引刍议[J];情报学报;1999年S1期
中国重要会议论文全文数据库 前2条
1 张普;;流通度在IT术语识别中的应用分析——关于术语、术语学、术语数据库的研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
2 李芸;王强军;张普;;信息技术领域术语自动提取和动态更新研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
中国博士学位论文全文数据库 前1条
1 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 杨春明;韩永国;;快速的领域文档关键词自动提取算法[J];计算机工程与设计;2011年06期
2 王晓艳;梁晋春;郭晓霞;姚颖颖;汪瑛;;基于互联网的数字媒体内容舆情分析系统[J];计算机系统应用;2011年08期
3 焦云英;吴克琦;潘世明;;信息时代档案的有效管理与利用[J];剑南文学(经典教苑);2011年06期
4 孙凯;;面向古建动画自动生成的中文自然语言处理[J];网络安全技术与应用;2011年09期
5 王鹏;;垂直搜索引擎及其个性化推荐研究[J];潍坊学院学报;2011年04期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 章成志;周冬敏;苏新宁;;自动标引通用评价模型研究[A];2007年中国索引学会年会暨学术研讨会论文集[C];2007年
2 章成志;;基于集成学习的自动标引方法研究[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
3 王兰成;;基于MM最小回溯和词义规则的知识标引研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
4 刘桐菊;于浩;赵铁军;;基于标引技术的特定领域XML文本自动生成[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 王兰成;田梅;侯双;;PLS:一种基于信息自动标引的最小推进分词算法及其实现[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
6 秦鹏;李恒训;张华平;刘金刚;;基于关键词提取的搜索结果聚类研究[A];第五届全国信息检索学术会议论文集[C];2009年
7 谢坤生;;关于后四年索引工作趋向的几点思考[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
8 罗准辰;刘伍颖;王挺;;关键词提取中的分离模型和特征设计[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 马亮;何婷婷;陈劲光;李芳;邵伟;;一种利用关键词提取的面向查询多文档文摘技术[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
10 贺七一;;黄页分类计算机自动标引的实现[A];2004年度中国索引学会年会暨学术讨论会论文集[C];2004年
中国重要报纸全文数据库 前6条
1 王萍;Web文本的知识化管理[N];计算机世界;2006年
2 李蓬涛;非结构化视频搜索技术[N];计算机世界;2006年
3 钟赫;练好十大绝招做好企业微博营销[N];中国高新技术产业导报;2011年
4 吴文剑;加强信息建设 提升服务水平[N];山西经济日报;2006年
5 本报记者 张亮;让网络生活更轻松[N];科技日报;2006年
6 记者  刘艳华;检验检疫文书与档案管理有望“电子”联姻[N];中国国门时报;2006年
中国博士学位论文全文数据库 前10条
1 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
2 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
3 王一川;基于内容的海量文本探索式查询导引中若干关键技术的研究[D];北京邮电大学;2011年
4 姜静清;最小二乘支持向量机算法及应用研究[D];吉林大学;2007年
5 余利华;分布式数据存储和处理的若干技术研究[D];浙江大学;2008年
6 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
7 段建勇;多词表达抽取及其应用[D];上海交通大学;2007年
8 金博;面向专利和零部件的设计知识检索方法[D];大连理工大学;2009年
9 杨为民;基于场论的信息检索模型的研究[D];安徽大学;2007年
10 缪嘉嘉;异构数据映射技术研究[D];国防科学技术大学;2008年
中国硕士学位论文全文数据库 前10条
1 梁伟明;中文关键词提取技术[D];上海交通大学;2010年
2 崔涛;基于检准率分析中文自动标引方式存在问题及对策[D];河北大学;2011年
3 管瑞霞;基于基因表达式编程的中文文本关键词提取算法研究[D];杭州电子科技大学;2009年
4 谢凤宏;基于复杂网络理论的文本聚类和关键词提取方法研究[D];辽宁师范大学;2011年
5 谢晋;基于词跨度的中文文本关键词提取及在文本分类中的应用[D];浙江工业大学;2011年
6 罗绵川;基于PS格式数字报刊标引反解技术研究[D];华南理工大学;2010年
7 薛征;基于改进TF-IDF的文本信息热点话题发现[D];武汉邮电科学研究院;2009年
8 任新社;基于改进特征值的语音关键词提取[D];南京师范大学;2012年
9 刘治华;面向主题的文档摘要技术研究[D];北方工业大学;2011年
10 张敏;生物学文献的自动标引系统的研究与开发[D];东华大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026