收藏本站
《第二届全国学生计算语言学研讨会论文集》2004年
收藏 | 手机打开
二维码
手机客户端打开本文

基于相似计算的信息抽取模板自动获取方法

叶娜  吴雪军  朱靖波  陈文亮  
【摘要】:网上信息的爆炸式增长使信息抽取成为一个热点研究课题。传统的信息抽取系统通常需要专家手工书写模板。尽管目前模板获取的自动化程度有了大幅度的提高,人们仍然要手工标注大量的训练文本。本文提出了一种基于相似计算的纯文本信息抽取模板自动获取方法。根据给定的种子模板,从大规模的无标注的训练文本中可以自动学习相关的模板,生成的模板几乎不需人工处理就可以直接应用。与其他方法相比,本方法无需人工标注训练语料,节约了大量人为劳动。实验结果表明在开放测试中自动获取的模板正确率达到79.45%,召回率达到66.51%。

【引证文献】
中国硕士学位论文全文数据库 前1条
1 孟伟涛;Web中文信息抽取技术研究及其在招聘信息系统中的应用[D];西北大学;2007年
【共引文献】
中国期刊全文数据库 前8条
1 李向阳,陆建江,张亚非;基于竞争分类的Web信息抽取[J];电子学报;2004年11期
2 李向阳;戴江山;张亚非;;一种Web信息抽取规则的优化方法[J];兰州理工大学学报;2006年01期
3 李永平,金莉;基于填充标记的自适应Web信息提取[J];华中科技大学学报(自然科学版);2003年11期
4 杜永萍;黄萱菁;吴立德;;模式学习在QA系统中的有效实现[J];计算机研究与发展;2006年03期
5 梁红兵,杨铭魁,黄晓;基于反馈规则学习的医学文献主题自动标引方法[J];计算机工程;2003年11期
6 钟敏娟;郝谦;刘云中;;基于多模板隐马尔可夫模型的文本信息抽取算法[J];计算机工程;2006年02期
7 李向阳,张亚非;一种军用文图自动转换方案[J];情报指挥控制系统与仿真技术;2004年05期
8 郭太飞;何洁月;;归纳学习XPATH Web信息提取规则[J];计算机技术与发展;2007年03期
中国重要会议论文全文数据库 前10条
1 LI Xiang-yang~1, ZHANG Ya-fei~1, LU Jian-jiang~(1,2), XU Bao-wen~2 1. Institute of Communications Engineering, People's Liberation Army University of Science and Techndogy. Nanjing 210007, Jiangsu, China; 2. Department of Computer Science and Engineering. Southeast University, Nanjing 210096, Jiangsu, China;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications(WISA 2004)[C];2004年
2 刘秉权;王喻红;葛冬梅;李佳;;基于结构树解析的网页正文抽取方法[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
3 LI Xiang-yang , ZHANG Ya-fei , LU Jian-jiang, XU Bao-wen Institute of Communications Engineering, People's Liberation Army University of Science and Technology, Nanjing 210007, Jiangsu, China; Department of Computer Science and Engineering, Southeast University, Nanjing 210096, Jiangsu, China;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
4 Suxiang Zhang,Juan Wen ,Ying Qin ,Xiaojie Wang ,Yixin Zhong School of Information Engineering, Beijing University of Posts and Telecommunications, Beijing, 100876, P. R. China Department of Electronic and Communication Engineering, North China Electric Power University, Baoding, 071003, P. R. China;The Research and Application about the Information Extraction in Chinese Domain[A];第八届国际信号处理国际会议论文集[C];2006年
5 汪建伟;高军;王腾蛟;杨冬青;;一种基于显示属性的网页信息提取方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
6 周剑辉;苑春法;黄锦辉;李文捷;;金融领域内信息抽取规则的自动获取[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年
7 叶娜;罗海涛;朱靖波;张斌;;基于归纳逻辑编程的多槽信息抽取规则自动学习方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 钟涛;陈群秀;;基于Web主题性信息检索的灾难性事件信息抽取系统[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
9 钟涛;陈群秀;;基于层式有限状态自动机的灾难事件抽取系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 左南;李涓子;唐杰;;基于SVM的肖像照片抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 俞方桦;互联网信息资源整合研究[D];东华大学;2001年
2 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
3 郑桂华;基于网络的语文校本课程研究与实践[D];华东师范大学;2004年
4 邓绪斌;面向复杂数据源的数据抽取模型和算法研究[D];复旦大学;2005年
5 杜永萍;基于模式知识库的问题回答关键技术研究[D];复旦大学;2005年
6 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
7 李晓黎;WEB信息检索与分类中的数据采掘研究[D];中国科学院研究生院(计算技术研究所);2001年
8 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年
9 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
10 黄友平;贝叶斯网络研究[D];中国科学院研究生院(计算技术研究所);2005年
中国硕士学位论文全文数据库 前10条
1 陈少飞;Web信息抽取规则的优化及规则的XQuery表达[D];河北大学;2003年
2 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
3 刘云中;基于隐马尔可夫模型的文本信息抽取算法研究[D];湖南大学;2004年
4 吕行;基于XML的异构数据源集成系统研究与应用[D];河海大学;2004年
5 李跃进;基于Internet的信息抽取技术研究[D];大连理工大学;2005年
6 雷庆;识别和抽取Web中的关系信息及其出现模式[D];华侨大学;2005年
7 李智;基于树结构的网页数据自动抽取方法的研究与实现[D];吉林大学;2005年
8 张玉良;一种基于后缀树的包装器自动生成方法的研究[D];吉林大学;2005年
9 马安香;基于分类语义的Web信息抽取机制的研究与实现[D];东北大学;2005年
10 叶娜;面向信息抽取的文本预处理和规则自动学习技术研究[D];东北大学;2005年
【同被引文献】
中国期刊全文数据库 前10条
1 张素香;李蕾;谭咏梅;;特定领域下关系模板的研究[J];北京邮电大学学报;2006年05期
2 孙宏林,俞士汶;浅层句法分析方法概述[J];当代语言学;2000年02期
3 高红;黄德根;杨元生;;汉语自动分词中中文地名识别[J];大连理工大学学报;2006年04期
4 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
5 冯丽萍;;基于统计的中文组织机构名识别[J];福建电脑;2006年01期
6 郭艳华,周昌乐;一种汉语语句依存关系网协动生成方法研究[J];杭州电子工业学院学报;2000年04期
7 王柏;吴巍;徐超群;吴斌;;复杂网络可视化研究综述[J];计算机科学;2007年04期
8 朱永盛;武港山;;基于Web的新闻信息抽取[J];计算机工程;2006年10期
9 张锋,许云,侯艳,樊孝忠;基于互信息的中文术语抽取系统[J];计算机应用研究;2005年05期
10 王宁,葛瑞芳,苑春法,黄锦辉,李文捷;中文金融新闻中公司名的识别[J];中文信息学报;2002年02期
中国重要会议论文全文数据库 前1条
1 何楠;毛新年;董远;王海拉;;一种两阶段的中文命名实体识别方法[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
中国博士学位论文全文数据库 前1条
1 颜端武;面向知识服务的智能推荐系统研究[D];南京理工大学;2007年
中国硕士学位论文全文数据库 前2条
1 李盛;面向真实文本的汉语词义排歧系统[D];山西大学;2003年
2 王志强;基于条件随机域的中文命名实体识别研究[D];南京理工大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 张清军,朱才连;基于统计的中文文本主题自动提取研究[J];四川大学学报(工程科学版);2004年03期
2 马光志,李专;基于特征词的自动分词研究[J];华中科技大学学报(自然科学版);2003年03期
3 唐晓文;基于本体论的文本特征提取[J];电脑与信息技术;2005年01期
4 李国臣;文本分类中基于对数似然比测试的特征词选择方法[J];中文信息学报;1999年04期
5 张建莉;;基于特征词驱动的带“的”字名词短语的识别[J];福建电脑;2006年05期
6 官礼和,杨刚,李永礼;基于词典的法律案例自动归类系统的开发[J];重庆交通学院学报;2004年01期
7 刘茵;;一种基于词组的用户建模技术[J];信息与电脑(理论版);2010年07期
8 王珏,刘三阳,张杰;基于广义粗糙近似的信息检索方法研究[J];系统工程与电子技术;2004年12期
9 王宏生;张琳;;基于本体的文本自动分类[J];科技信息(学术研究);2008年29期
10 孔繁荣;TQC创始人菲根堡姆博士创建的“质量价值链”介绍[J];电子质量;2000年03期
中国重要会议论文全文数据库 前10条
1 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
2 陈捷;许洁萍;刘璇;;基于内容的音乐相似计算研究[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【poster】[C];2011年
3 李立燕;杨国纬;;中文自动文摘系统研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
4 彭渊;赵铁军;郑德权;于浩;;基于特征句抽取的网页去重研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年
6 王孟;白清源;谢丽聪;谢伙生;张莹;;一种含有负项的关联文本分类[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 张刚;刘挺;秦兵;车万翔;李生;;面向信息内容安全的文本过滤系统研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
8 吴云芳;;并列结构的外部句法特征[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
9 林达真;李绍滋;;基于模式分类的汉语时态确定方法研究[A];第六届汉语词汇语义学研讨会论文集[C];2005年
10 唐云廷;;基于TSBT(Text Structure Binary Tree)的文本结构的自动分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 本报记者 胡珉琦;论文反抄袭软件被“攻克”[N];北京科技报;2011年
2 北京数码空间信息技术有限公司技术总监 刘斌;Web Mining:第二代网络信息处理技术[N];计算机世界;2000年
3 俞扬;“洪武赶散”与泰州方言[N];泰州日报;2006年
4 林俊铭;漳州地名用字解析[N];闽南日报;2008年
5 云南 张康宗;安全至上[N];电脑报;2003年
6 朱莉;互联网应用你知道多少?[N];中国电脑教育报;2006年
7 卢伟;文学语言的语料库研究方法[N];文艺报;2004年
8 记者 郑维富;父子著书解密温州方言[N];浙江日报;2004年
9 周小荣;一堂生动的语文课[N];中国电脑教育报;2003年
10 王志军;巧妙备份Foxmail垃圾名单的数据[N];中国电脑教育报;2004年
中国博士学位论文全文数据库 前10条
1 温昌衍;客家方言特征词研究[D];暨南大学;2001年
2 曹廷玉;赣方言特征词研究[D];暨南大学;2001年
3 符其武;琼北闽语词汇研究[D];厦门大学;2007年
4 相克俊;混合推理高速切削数据库系统的研究与开发[D];山东大学;2007年
5 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
6 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年
7 杨创新;基于机器学习的高性能中文文本分类研究[D];华南理工大学;2009年
8 王进;《元曲选》祈使句研究[D];华中科技大学;2008年
9 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
10 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 孙群虎;基于空间分布和信息熵的特征词提取方法[D];大连理工大学;2010年
2 邱培超;基于特征的观点挖掘中的若干关键问题研究[D];复旦大学;2011年
3 蒋磊;面向产品评论的意见挖掘关键技术研究[D];哈尔滨工业大学;2010年
4 王金花;一种利用本体关联度改进的TF-IDF特征词提取方法[D];河北大学;2011年
5 董慧;基于多元权重特征加权的中文文本分类算法[D];中北大学;2011年
6 龚穗丰;南昌话特征词研究[D];苏州大学;2005年
7 李佳;中国古典诗词英译中文化特征词的翻译[D];曲阜师范大学;2012年
8 李存青;中文意见挖掘中的特征词提取以及情感倾向分析[D];重庆大学;2010年
9 莫育珍;从特征词看桂南平话与粤方言的关系[D];广西民族大学;2007年
10 刘卓;基于KNN算法的中文文本自动分类[D];吉林大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026