收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于相似计算的信息抽取模板自动获取方法

叶娜  吴雪军  朱靖波  陈文亮  
【摘要】:网上信息的爆炸式增长使信息抽取成为一个热点研究课题。传统的信息抽取系统通常需要专家手工书写模板。尽管目前模板获取的自动化程度有了大幅度的提高,人们仍然要手工标注大量的训练文本。本文提出了一种基于相似计算的纯文本信息抽取模板自动获取方法。根据给定的种子模板,从大规模的无标注的训练文本中可以自动学习相关的模板,生成的模板几乎不需人工处理就可以直接应用。与其他方法相比,本方法无需人工标注训练语料,节约了大量人为劳动。实验结果表明在开放测试中自动获取的模板正确率达到79.45%,召回率达到66.51%。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张清军,朱才连;基于统计的中文文本主题自动提取研究[J];四川大学学报(工程科学版);2004年03期
2 马光志,李专;基于特征词的自动分词研究[J];华中科技大学学报(自然科学版);2003年03期
3 唐晓文;基于本体论的文本特征提取[J];电脑与信息技术;2005年01期
4 李国臣;文本分类中基于对数似然比测试的特征词选择方法[J];中文信息学报;1999年04期
5 张建莉;;基于特征词驱动的带“的”字名词短语的识别[J];福建电脑;2006年05期
6 官礼和,杨刚,李永礼;基于词典的法律案例自动归类系统的开发[J];重庆交通学院学报;2004年01期
7 刘茵;;一种基于词组的用户建模技术[J];信息与电脑(理论版);2010年07期
8 王珏,刘三阳,张杰;基于广义粗糙近似的信息检索方法研究[J];系统工程与电子技术;2004年12期
9 王宏生;张琳;;基于本体的文本自动分类[J];科技信息(学术研究);2008年29期
10 孔繁荣;TQC创始人菲根堡姆博士创建的“质量价值链”介绍[J];电子质量;2000年03期
11 刘亚清;于纯妍;;中心词关联法[J];计算机工程与科学;2006年10期
12 杨晔,彭宏,林嘉宜,陈绍坚;一种有效特征词发现的贝叶斯文本分类方法[J];系统工程;2004年09期
13 唐凯;;基于内容和分层结构的XML文件自动分类方法[J];计算机工程与应用;2007年03期
14 何振华;;一种处理垃圾邮件的新方法[J];福建电脑;2008年03期
15 闫斐;;基于贝叶斯模型的邮件过滤系统[J];太原师范学院学报(自然科学版);2010年02期
16 彭京;杨冬青;唐世渭;王腾蛟;高军;;基于概念相似度的文本相似计算[J];中国科学(F辑:信息科学);2009年05期
17 杨勇涛;;文本自动摘要提取算法[J];成都大学学报(自然科学版);2009年02期
18 陈建超;郑启伦;李庆阳;严桂夺;;基于特征词关联性的同义词集挖掘算法[J];计算机应用研究;2009年07期
19 王凯;王朝飞;;一种基于向量空间模型的表格检索算法[J];现代图书情报技术;2010年04期
20 刘沛骞;冯晶晶;;一种改进的朴素贝叶斯文本分类算法[J];微计算机信息;2010年27期
中国重要会议论文全文数据库 前10条
1 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
2 陈捷;许洁萍;刘璇;;基于内容的音乐相似计算研究[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【poster】[C];2011年
3 李立燕;杨国纬;;中文自动文摘系统研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
4 彭渊;赵铁军;郑德权;于浩;;基于特征句抽取的网页去重研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年
6 王孟;白清源;谢丽聪;谢伙生;张莹;;一种含有负项的关联文本分类[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 张刚;刘挺;秦兵;车万翔;李生;;面向信息内容安全的文本过滤系统研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
8 吴云芳;;并列结构的外部句法特征[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
9 林达真;李绍滋;;基于模式分类的汉语时态确定方法研究[A];第六届汉语词汇语义学研讨会论文集[C];2005年
10 唐云廷;;基于TSBT(Text Structure Binary Tree)的文本结构的自动分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 温昌衍;客家方言特征词研究[D];暨南大学;2001年
2 曹廷玉;赣方言特征词研究[D];暨南大学;2001年
3 符其武;琼北闽语词汇研究[D];厦门大学;2007年
4 相克俊;混合推理高速切削数据库系统的研究与开发[D];山东大学;2007年
5 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
6 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年
7 杨创新;基于机器学习的高性能中文文本分类研究[D];华南理工大学;2009年
8 王进;《元曲选》祈使句研究[D];华中科技大学;2008年
9 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
10 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 孙群虎;基于空间分布和信息熵的特征词提取方法[D];大连理工大学;2010年
2 邱培超;基于特征的观点挖掘中的若干关键问题研究[D];复旦大学;2011年
3 蒋磊;面向产品评论的意见挖掘关键技术研究[D];哈尔滨工业大学;2010年
4 王金花;一种利用本体关联度改进的TF-IDF特征词提取方法[D];河北大学;2011年
5 董慧;基于多元权重特征加权的中文文本分类算法[D];中北大学;2011年
6 龚穗丰;南昌话特征词研究[D];苏州大学;2005年
7 李佳;中国古典诗词英译中文化特征词的翻译[D];曲阜师范大学;2012年
8 李存青;中文意见挖掘中的特征词提取以及情感倾向分析[D];重庆大学;2010年
9 莫育珍;从特征词看桂南平话与粤方言的关系[D];广西民族大学;2007年
10 刘卓;基于KNN算法的中文文本自动分类[D];吉林大学;2004年
中国重要报纸全文数据库 前10条
1 本报记者 胡珉琦;论文反抄袭软件被“攻克”[N];北京科技报;2011年
2 北京数码空间信息技术有限公司技术总监 刘斌;Web Mining:第二代网络信息处理技术[N];计算机世界;2000年
3 俞扬;“洪武赶散”与泰州方言[N];泰州日报;2006年
4 林俊铭;漳州地名用字解析[N];闽南日报;2008年
5 云南 张康宗;安全至上[N];电脑报;2003年
6 朱莉;互联网应用你知道多少?[N];中国电脑教育报;2006年
7 卢伟;文学语言的语料库研究方法[N];文艺报;2004年
8 记者 郑维富;父子著书解密温州方言[N];浙江日报;2004年
9 周小荣;一堂生动的语文课[N];中国电脑教育报;2003年
10 王志军;巧妙备份Foxmail垃圾名单的数据[N];中国电脑教育报;2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978