基于条件随机域的生物医学命名实体识别
【摘要】:命名实体识别是生物医学文献文本挖掘重要的第一步。近年有很多人研究,然而效果并不理想。JNLPBA2004测评中最好的系统只能达到72.6%的F-score。本文使用条件随机域(Conditional Random Fields,CRF)模型,采用GENIA语料进行训练,在JNLPBA2004测试集上得到了71.9%的F-score。本文讨论了不同规模训练语料,不同特征对CRF模型标注结果的影响。边界识别错误是识别中很严重的问题,本文针对左边界错误才采用了一种基于CRF的二次标注方法,使左边界错误率减少了7.2%。
|
|
|
|
1 |
余传明;黄建秋;郭飞;;从客户评论中识别命名实体——基于最大熵模型的实现[J];现代图书情报技术;2011年05期 |
2 |
王浩畅;李钰;赵铁军;;面向生物医学命名实体识别的多Agent元学习框架[J];计算机学报;2010年07期 |
3 |
邱莎;;几种基于机器学习的生物命名实体识别模型比较[J];电脑知识与技术(学术交流);2007年05期 |
4 |
马续补;郭菊娥;;基于GATE的任务信息抽取研究[J];情报杂志;2010年01期 |
5 |
;浅析大规模文本数据挖掘技术在媒体中的创新应用[J];中国传媒科技;2007年11期 |
6 |
肖洪;薛德军;;基于大规模真实文本的数值知识元挖掘研究[J];计算机工程与应用;2008年30期 |
7 |
胥桂仙,朴泰雄,杨丹丹,徐小博,高旭;中文文本挖掘中最长频繁序列的发现算法[J];中央民族大学学报(自然科学版);2004年01期 |
8 |
渡部勇;;文本挖掘技术应用于专利检索分析[J];微电脑世界;2007年12期 |
9 |
苏芳仲,林世平;Web文本挖掘中的一种中文分词算法研究及其实现[J];福州大学学报(自然科学版);2004年S1期 |
10 |
付国瑜;;Web文本分类挖掘[J];科学咨询(决策管理);2008年03期 |
11 |
曹丽君;刘西印;杨燕萍;;WEB页面文本挖掘的价值与未来探究[J];商场现代化;2008年09期 |
12 |
韩洁;;Web文本挖掘技术在信息生产领域的应用研究[J];硅谷;2010年08期 |
13 |
胥桂仙,杨丹丹,高旭,陈立新;中文文本挖掘中姓名特征提取技术的研究[J];中央民族大学学报(自然科学版);2003年04期 |
14 |
刘春艳,张爱连,胡铁军;数据挖掘及其在信息服务业应用的研究现状[J];医学情报工作;2004年06期 |
15 |
吕冬煜,党齐民;基于文本挖掘的可视化竞争情报提取[J];计算机应用与软件;2005年02期 |
16 |
李文炬;文本挖掘技术在农业科技基础数据库中应用的探讨[J];农业网络信息;2005年11期 |
17 |
王珍珍;;关于文本挖掘中文本分类与文本聚类的研究[J];科技信息;2007年06期 |
18 |
李翠霞;林楠;;浅析文本挖掘技术[J];科技信息;2007年10期 |
19 |
李湘云;;ISODATA动态聚类算法在文本挖掘中的应用[J];长春工程学院学报(自然科学版);2007年02期 |
20 |
孙玉娣;裴勇;;基于可视化文本挖掘的本体构建[J];情报杂志;2007年12期 |
|