收藏本站
《第三届全国信息检索与内容安全学术会议论文集》2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于K最近邻的隐含主题自动抽取

张庆国  章成志  薛德军  张君玉  
【摘要】:现有的关键词抽取技术仅仅是对正文词汇的抽取,不能够抽取隐含主题。隐含主题的抽取是关键词自动抽取技术的难点。众所周知,K 最近邻方法作为机器学习领域的一个经典的方法, 在很多领域都有出色的表现。本文利用 K 最近邻方法的思想,提出了一种基于 K 最近邻的关键词自动抽取方法,可以有效抽取隐含主题。该方法首先对数据进行预处理,使用向量空间模型将文本表述为数学化语言:然后,以人工标注关键词的文献数据作为训练集,使用 K 最近邻方法构建新文献的关键词候选集;最后,根据关键词本身的特点对候选关键词做了有效的后处理。实验表明,该方法不仅可以提高关键词抽取的准确率和召回率,还可以有效抽取文章的隐含主题。

手机知网App
【参考文献】
中国期刊全文数据库 前2条
1 何新贵,彭甫阳;中文文本的关键词自动抽取和模糊分类[J];中文信息学报;1999年01期
2 李有梅;基于词义的关键词抽取方法研究[J];情报理论与实践;2000年02期
【共引文献】
中国期刊全文数据库 前10条
1 卞真旭;;一种关键词抽取方法研究[J];安徽电气工程职业技术学院学报;2011年S1期
2 蒋溢;丁优;熊安萍;王化晶;;一种基于知网的词汇语义相似度改进计算方法[J];重庆邮电大学学报(自然科学版);2009年04期
3 杨延锟;许少华;;基于FVSM的核聚类算法在文本聚类中的应用[J];长江大学学报(自然科学版)理工卷;2010年01期
4 谭振华;程维;常桂然;高晓兴;;基于词汇相关度模型的个性化信息检索算法[J];东北大学学报(自然科学版);2008年04期
5 钟晓旭;;层次聚类方法在关键词提取上的研究应用[J];电脑知识与技术;2009年06期
6 熊小梅;刘永浪;;基于LSA的二次降维法在中文法律案情文本分类中的应用[J];电子测量技术;2007年10期
7 郑逢斌,陈志国,姜保庆,乔保军;语义校对系统中的句子语义骨架模糊匹配算法[J];电子学报;2003年08期
8 李小红;许少华;;基于模糊向量和BP网络的Web文本自动分类方法[J];福建电脑;2006年02期
9 马颖华,王永成,苏贵洋,韩客松,赵海;自动标引中基于概念层次树的主题词轮排选择的算法实现[J];高技术通讯;2003年06期
10 翟云;王树鹏;马楠;杨炳儒;张德政;;基于单边选择链和样本分布密度融合机制的非平衡数据挖掘方法[J];电子学报;2014年07期
中国重要会议论文全文数据库 前8条
1 卞真旭;;一种关键词抽取方法研究[A];2011年安徽省智能电网技术论坛论文集[C];2011年
2 庞宗强;封化民;邱鹍;宋国森;;基于Web的中文新闻视频内容分析[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年
3 罗海飞;虞立群;章志凌;邵晓敏;陈林;汪更生;陈弈秋;何伟杰;;一种改进型CHI的特征抽取方法[A];第二十四届中国控制会议论文集(下册)[C];2005年
4 章成志;周冬敏;苏新宁;;自动标引通用评价模型研究[A];2007年中国索引学会年会暨学术研讨会论文集[C];2007年
5 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
6 陈华;梁循;阮进;;网络与舆情关联分析系统的设计实现[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 李鹏;王斌;石志伟;崔雅超;李恒训;;Tag-TextRank:一种基于Tag的网页关键词抽取方法[A];第六届全国信息检索学术会议论文集[C];2010年
8 吴继媛;孙淳;侯敏;;面向传媒语言语料库的关键词自动抽取研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 孙珂;大规模文档标签自动标注技术研究[D];哈尔滨工业大学;2011年
2 WANG Jiayue;[D];广东外语外贸大学;2003年
3 许增福;DL环境下的信息资源管理及知识发现研究[D];哈尔滨工程大学;2005年
4 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
5 程勇;基于本体的不确定性知识管理研究[D];中国科学院研究生院(计算技术研究所);2005年
6 姜静清;最小二乘支持向量机算法及应用研究[D];吉林大学;2007年
7 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
8 杨为民;基于场论的信息检索模型的研究[D];安徽大学;2007年
9 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
10 刘健;基于近似文本分析的意见挖掘[D];上海大学;2007年
中国硕士学位论文全文数据库 前10条
1 王皖;高新技术企业技术创新战略研究[D];哈尔滨理工大学;2010年
2 沈益舒;搜索语句的时间属性研究及其在检索排序中的应用[D];浙江大学;2011年
3 欧伟强;Web信息挖掘的研究及应用[D];电子科技大学;2010年
4 孟祥燕;问答对自动获取的研究[D];昆明理工大学;2008年
5 蔡尚辉;范例推理在智能车辆监控数据处理系统中的应用[D];河北科技大学;2011年
6 杜佳伦;面向用户体验需求的垂直搜索引擎的研究[D];吉林大学;2011年
7 李伟;搜索引擎核心词提取系统设计与实现[D];北京交通大学;2011年
8 杨振;基于统计的用户网络行为分析和预测[D];北京邮电大学;2011年
9 梅筱;视频特征及其描述词汇的对齐研究[D];北京邮电大学;2011年
10 翟姗姗;基于用户兴趣聚类的电子政务信息资源整合研究[D];华中师范大学;2011年
【相似文献】
中国期刊全文数据库 前10条
1 都云程;周伟;韩艳铧;吕学强;;基于字同现频率的关键词自动抽取[J];北京信息科技大学学报(自然科学版);2011年06期
2 陈士超;郁滨;;面向科技领域的术语自动抽取模型[J];系统工程理论与实践;2013年01期
3 邓耀臣;王健刚;;融入形态特征的英语多词术语自动抽取研究[J];外语电化教学;2013年02期
4 吕雅娟,李生,赵铁军,杨沐昀;基于双语语料库的翻译等价对自动抽取[J];高技术通讯;2003年05期
5 王灿辉;张敏;马少平;黄宇;;基于相邻词的中文关键词自动抽取[J];广西师范大学学报(自然科学版);2007年02期
6 曾文;徐硕;张运良;翟娟华;;科技文献术语的自动抽取技术研究与分析[J];现代图书情报技术;2014年01期
7 马峻;一种从线性概念图中自动抽取本体概念的算法[J];计算机工程与应用;2004年23期
8 安纪霞;李锡祚;宋冰;曾伟;;服务于词典编纂的特定领域专业术语自动抽取[J];计算机与数字工程;2007年11期
9 张雷瀚;吕学强;李卓;;自由文本中汉语缩略语的自动抽取[J];计算机工程与设计;2014年04期
10 龚立群;马宝英;常晓荣;;科技文献元数据自动抽取研究述评[J];计算机系统应用;2013年03期
中国重要会议论文全文数据库 前10条
1 吴继媛;孙淳;侯敏;;面向传媒语言语料库的关键词自动抽取研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 朱江涛;蔡东风;张桂平;;一种基于网络的英文缩略语信息的自动抽取方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
3 李芳;盛焕烨;;特定领域专家主页信息的自动抽取[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 宋丹;师庆辉;薛德军;林鸿飞;;术语同义词的自动抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 崔世起 ;刘群 ;林守勋 ;孟遥 ;于浩 ;西野文人;;中文缩略语自动抽取初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 张勇;何婷婷;;基于质子串分解的网络新词汇自动抽取[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 肖诗斌;乔春庚;李渝勤;施水才;;基于未标注语料的领域词汇自动抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 乌达巴拉;敖其尔;;蒙英翻译片段对的自动抽取[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 邱艳霞;余正涛;张志坤;司圣涛;韩露;孟祥燕;;领域术语自动抽取方法研究[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
10 聂志强;李庆忠;;电子政务信息集成中本体的自动抽取及优化[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国硕士学位论文全文数据库 前10条
1 刘建舟;术语自动抽取系统的设计及关键技术研究[D];华中师范大学;2004年
2 刘豹;术语自动抽取技术的研究与应用[D];沈阳航空工业学院;2008年
3 马志斌;特定领域术语自动抽取方法的研究[D];哈尔滨工业大学;2009年
4 陈雅菊;现代汉语词语搭配的自动抽取方法[D];华东师范大学;2006年
5 黄际洲;聊天机器人知识库自动抽取算法的研究与实现[D];重庆大学;2006年
6 马晶晶;金融领域信息的自动抽取与分析方法[D];哈尔滨工业大学;2013年
7 张二艳;术语自动抽取技术研究[D];哈尔滨工业大学;2009年
8 邱艳霞;领域术语自动抽取及关系分类研究[D];昆明理工大学;2009年
9 蔡军卫;音乐旋律自动抽取与哼唱检索系统关键技术研究[D];兰州大学;2008年
10 刘磊;面向专利的双语术语自动抽取技术的研究[D];沈阳航空工业学院;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026