收藏本站
《NCIRCS2004第一届全国信息检索与内容安全学术会议论文集》2004年
收藏 | 手机打开
二维码
手机客户端打开本文

实体关系自动抽取

车万翔  刘挺  李生  
【摘要】:实体关系抽取是信息抽取研究领域中的重要研究课题。本文使用两种基于特征向量的机器学习算法,Winnow 和支持向量机(SVM),在2004年ACE(Automatic Content Extraction)评测的训练数据上进行实体关系抽取实验。两种算法都进行适当的特征选择,当选择每个实体的左右两个词为特征时,达到最好的抽取效果,Winnow 和SVM 算法的加权平均F-Score 分别为73.08%和73.27%。可见在使用相同的特征向量,不同的学习算法进行实体关系的识别时,最终性能差别不大。因此使用自动的方法进行实体关系抽取时,应当集中精力寻找好的特征。
【作者单位】:哈尔滨工业大学计算机学院信息检索研究室 哈尔滨工业大学计算机学院信息检索研究室 哈尔滨工业大学计算机学院信息检索研究室
【关键词】:实体关系抽取 ACE评测 特征选择 Winnow SVM
【基金】:国家自然科学基金(60203020)资助
【分类号】:TP391.1
【正文快照】:
1引言 随着计算机的普及以及互联网的迅猛发展,大量的信息以电子文本的形式出现在人们面前。为了应对信息爆炸带来的挑战,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息。信息抽取(h白m以ion Extraction)研究正是在这种背景下产生的。信息抽取的主

【引证文献】
中国期刊全文数据库 前1条
1 张素香;李蕾;谭咏梅;;特定领域下关系模板的研究[J];北京邮电大学学报;2006年05期
中国重要会议论文全文数据库 前1条
1 赵妍妍;王啸吟;秦兵;车万翔;刘挺;;中文事件抽取中事件类别的自动识别[A];第三届学生计算语言学研讨会论文集[C];2006年
【同被引文献】
中国期刊全文数据库 前2条
1 李蕾,孙春葵,杨晓兰,钟义信;一种特定领域中文自动摘要系统[J];北京邮电大学学报;2000年01期
2 钟义信;自然语言理解的全信息方法论[J];北京邮电大学学报;2004年04期
【二级引证文献】
中国期刊全文数据库 前2条
1 于江德;李学钰;樊孝忠;庞文博;;最大熵模型的事件分类[J];电子科技大学学报;2010年04期
2 赵小明;朱洪波;陈黎;王亚强;秦湘清;于中华;;基于多分类器的金融领域多元关系信息抽取算法[J];计算机工程与设计;2011年07期
中国博士学位论文全文数据库 前2条
1 谭红叶;中文事件抽取关键技术研究[D];哈尔滨工业大学;2008年
2 付剑锋;面向事件的知识处理研究[D];上海大学;2010年
中国硕士学位论文全文数据库 前9条
1 邱艳霞;领域术语自动抽取及关系分类研究[D];昆明理工大学;2009年
2 张博;基于SVM的中文观点句抽取[D];北京邮电大学;2011年
3 周景;基于信息抽取的社会网络构建技术的研究与应用[D];广东工业大学;2011年
4 陈慧炜;刑事案件文本信息抽取研究[D];南京师范大学;2011年
5 赵君喆;汉语专业领域命名实体语义关系自动抽取研究[D];华中师范大学;2007年
6 刘斌斌;基于HMM模型的Web信息抽取方法的研究与改进[D];重庆大学;2008年
7 刘明岩;面向语义关系发现的文本挖掘研究[D];南京理工大学;2010年
8 江超男;面向社会网络应用的关系抽取研究[D];南京理工大学;2010年
9 杨选选;基于概念图和语义角色的多领域信息抽取系统研究[D];西北大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 刘斌,曾立波,刘生浩;血液细胞图像自动识别系统的研究[J];计算机工程;2003年01期
2 张惠春;;基于最大熵模型的中文名词短语识别[J];电脑知识与技术;2009年08期
3 王卫玲;孔波;初建崇;杨玫;;一种新的用于文本分类的特征选择算法[J];信息技术与信息化;2009年06期
4 孙雷,王新;一种基于遗传操作和类内类间距离判据理论的特征选择方法[J];计算机工程与应用;2004年21期
5 张向荣,焦李成;基于免疫克隆选择算法的特征选择[J];复旦学报(自然科学版);2004年05期
6 闫相国,明利强;分支定界算法在白细胞特征选择中的应用研究[J];天津职业技术师范学院学报;2004年03期
7 张莉,孙钢,郭军;基于K-均值聚类的无监督的特征选择方法[J];计算机应用研究;2005年03期
8 徐峻岭;徐宝文;张卫丰;崔自峰;;一种启发式聚类特征选择方法(英文)[J];东南大学学报(英文版);2006年02期
9 杨端端;金连文;尹俊勋;;MLDA+LDA:手写汉字识别中一种两级LDA分类方法[J];广西师范大学学报(自然科学版);2006年04期
10 陈卫东;刘素华;;基于遗传算法的图像特征选择[J];计算机工程与应用;2007年28期
中国重要会议论文全文数据库 前10条
1 车万翔;刘挺;李生;;实体关系自动抽取[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
2 王浩畅;赵铁军;于浩;;基于文本的生物信息获取[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
3 李娜;曾向阳;;目标识别中的样本选择和特征选择联合算法研究[A];2009年西安-上海声学学术会议论文集[C];2009年
4 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
7 刘怡;高玥;;一种基于文本关键字模型的Audio音乐情感分类方法[A];第四届和谐人机环境联合学术会议论文集[C];2008年
8 胡玉娴;;基于《知网》和遗传算法的中文文本聚类特征选择[A];2009全国计算机网络与通信学术会议论文集[C];2009年
9 于江德;王希杰;余正涛;;基于最大熵模型的语义角色标注[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
10 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 韦娜;基于内容图像检索关键技术研究[D];西北大学;2006年
2 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
3 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
4 李勇明;尿沉渣图像自动识别算法的研究[D];重庆大学;2007年
5 杨水山;冷轧带钢表面缺陷机器视觉自动检测技术研究[D];哈尔滨工业大学;2009年
6 熊文;基于群智的特征选择、分类与聚类挖掘的研究[D];北京邮电大学;2010年
7 刘华文;基于信息熵的特征选择算法研究[D];吉林大学;2010年
8 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年
9 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
10 梁建宁;特征选择与图像匹配[D];复旦大学;2011年
中国硕士学位论文全文数据库 前10条
1 张隆;基于信息论的特征选择和分类算法研究[D];西南农业大学;2005年
2 侯小静;贝叶斯分类器研究及其在Web文档分类中的应用[D];郑州大学;2005年
3 杨打生;特征选择的信息论算法研究[D];东南大学;2005年
4 庞宵;信息熵蚁群算法在特征提取和图像识别中的应用[D];辽宁科技大学;2008年
5 杨瑞请;基于BPSO的生理信号的情感状态识别[D];西南大学;2008年
6 王燕;语音隐写分析技术研究[D];华北电力大学(河北);2009年
7 朱鹏飞;基于粗集理论的人脸识别方法研究[D];山东大学;2005年
8 胡吉祥;基于频繁模式的消息文本聚类研究[D];中国科学院研究生院(计算技术研究所);2006年
9 龚静;中文文本聚类中特征选择算法的研究[D];湘潭大学;2006年
10 高永岗;医学图像的语义标注技术研究与应用[D];西北大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026