收藏本站
《全国计算机安全学术交流会论文集·第二十五卷》2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Hadoop的并行化命名实体识别技术研究与实现

张佳宝  周斌  吴泉源  
【摘要】:命名实体识别是自然语言处理的基础领域,是信息抽取、信息检索、机器翻译、问答系统等自然语言处理技术的基础。对于大规模数据,采用单机识别其中的命名实体耗时较长;因此本文针对大规模数据,采用条件随机场算法,基于Hadoop的Map/Reduce框架对数据集进行分割,做并行化处理,实验取得了良好的效果,命名实体识别达到了较高的准确率,并且大大缩短了识别所需要的时间。

【引证文献】
中国期刊全文数据库 前1条
1 刘滔;雷霖;陈荦;熊伟;;基于MapReduce的中文词性标注CRF模型并行化训练研究[J];北京大学学报(自然科学版);2013年01期
【参考文献】
中国期刊全文数据库 前2条
1 胡文博;都云程;吕学强;施水才;;基于多层条件随机场的中文命名实体识别[J];计算机工程与应用;2009年01期
2 张晓艳;王挺;陈火旺;;命名实体识别研究[J];计算机科学;2005年04期
中国重要会议论文全文数据库 前1条
1 张祝玉;任飞亮;朱靖波;;基于条件随机场的中文命名实体识别特征比较研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
【共引文献】
中国期刊全文数据库 前6条
1 窦嵘;加羊吉;黄伟;;统计与规则相结合的藏文人名自动识别研究[J];长春工程学院学报(自然科学版);2010年02期
2 宇缨;王晓龙;刘秉权;;一种基于SVM/RS的中文机构名称自动识别方法[J];电子与信息学报;2006年05期
3 施秀丽;江莉莉;;非结构化文档的标记方法研究[J];中国管理信息化;2012年04期
4 胡丽娟;梁久祯;;基于层次关联边条件随机场的Web对象抽取[J];计算机工程;2012年20期
5 滕青青;吉久明;郑荣廷;李楠;;基于文献的中文命名实体识别算法适用性分析研究[J];情报杂志;2010年09期
6 王太峰;袁平波;荚济民;俞能海;;基于新闻环境的人物肖像检索[J];山东大学学报(理学版);2006年03期
中国重要会议论文全文数据库 前9条
1 赛依旦·阿不力米提;吐尔根·依布拉音;;基于规则与统计的维吾尔族人名识别研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 付瑞吉;车万翔;刘挺;;一种基于分类方法的音乐命名实体识别技术[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
3 刘俊;张益肇;;基于统计的中文姓名提取方法[A];第六届全国人机语音通讯学术会议论文集[C];2001年
4 ;Finding Names in Chinese Text using a Hybrid Rule Induction Model[A];第一届学生计算语言学研讨会论文集[C];2002年
5 廖先桃;于海滨;秦兵;刘挺;;HMM与自动规则提取相结合的中文命名实体识别[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 董静;孙乐;吕元华;冯元勇;;基于线性链条件随机场模型的语义角色标注[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 徐薇;付滨;刘柳;苑春法;李文捷;;中文命名实体识别系统的领域扩展[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 苏志华;杨冬青;唐世渭;王腾蛟;;基于结构分析和实体识别的信息集成[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
中国博士学位论文全文数据库 前10条
1 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
2 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
3 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
4 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
5 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
6 刘柏嵩;基于Web的通用本体学习研究[D];浙江大学;2007年
7 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
8 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
9 段建勇;多词表达抽取及其应用[D];上海交通大学;2007年
10 杨志豪;面向生物医学领域的文本挖掘技术研究[D];大连理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
2 江涛;基于藏文web舆情分析的热点发现算法研究[D];西北民族大学;2010年
3 杨晓东;中文命名实体识别及若干相关问题的研究[D];江苏大学;2010年
4 李英伟;基于增量改进贝叶斯领域问句分类研究[D];昆明理工大学;2009年
5 姚贤明;领域概念自动抽取研究[D];昆明理工大学;2010年
6 许洋波;英文实体答案提取及主页查找研究[D];昆明理工大学;2010年
7 赵素娟;基于互联网的人物简历问答系统的研究与设计[D];东北财经大学;2010年
8 李欢;基于多Agent及元搜索技术的中文问答系统的研究和应用[D];石家庄铁道学院;2009年
9 罗永刚;基金信息与基金投资风险的定量关系研究[D];华东师范大学;2011年
10 陈慧炜;刑事案件文本信息抽取研究[D];南京师范大学;2011年
【同被引文献】
中国期刊全文数据库 前2条
1 洪铭材;张阔;唐杰;李涓子;;基于条件随机场(CRFs)的中文词性标注方法[J];计算机科学;2006年10期
2 王敏;郑家恒;;基于改进的隐马尔科夫模型的汉语词性标注[J];计算机应用;2006年S2期
【二级参考文献】
中国期刊全文数据库 前2条
1 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
2 李涓子,黄昌宁;语言模型中一种改进的最大熵方法及其应用[J];软件学报;1999年03期
中国硕士学位论文全文数据库 前4条
1 乔羽;基于最大熵模型的中文人名识别方法研究[D];山西大学;2005年
2 陈晴;基于条件随机场的自动分词技术的研究[D];东北大学;2005年
3 王志强;基于条件随机域的中文命名实体识别研究[D];南京理工大学;2006年
4 郭家清;基于条件随机场的命名实体识别研究[D];沈阳航空工业学院;2007年
【相似文献】
中国期刊全文数据库 前10条
1 葛金虎;;基于条件随机场的中文命名实体识别的研究[J];科技信息;2010年16期
2 李中言,李普跃;信息抽取方法综述[J];廊坊师范学院学报;2005年03期
3 刘海鹏;王小捷;;基于条件随机场和知识库的手机短信命名实体识别[J];广西师范大学学报(自然科学版);2009年01期
4 李桂兰;余正涛;毛存礼;郭剑毅;侯波;线岩团;;旅游领域实体答案的抽取[J];广西师范大学学报(自然科学版);2009年01期
5 佘俊;张学清;;音乐命名实体识别方法[J];计算机应用;2010年11期
6 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期
7 邱莎;;几种基于机器学习的生物命名实体识别模型比较[J];电脑知识与技术(学术交流);2007年05期
8 林旭东;彭宏;林丕源;邓健爽;;基于依存关系的问句理解与问句分类[J];计算机科学;2007年07期
9 许晓丽;卢志茂;张格森;;基于条件随机场的中文命名实体识别研究[J];中国新技术新产品;2009年02期
10 林旭东;孙爱东;林丕源;刘汉兴;;基于依存关系与支持向量机的中文问题分类方法[J];郑州大学学报(理学版);2009年01期
中国重要会议论文全文数据库 前10条
1 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
2 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
3 李渝勤;孙丽华;;面向互联网舆情的热词分析技术[A];第六届全国信息检索学术会议论文集[C];2010年
4 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年
5 翟海军;郭嘉丰;王小磊;许洪波;;基于用户查询日志的命名实体挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
7 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
8 李彦鹏;杨志豪;林鸿飞;;基于条件随机域的生物医学命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
9 徐薇;付滨;刘柳;苑春法;李文捷;;中文命名实体识别系统的领域扩展[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 李治国;周俏丽;;在篇章中面向产品类的命名实体识别研究[A];第三届学生计算语言学研讨会论文集[C];2006年
中国重要报纸全文数据库 前3条
1 本报记者 刘洪宇;Hadoop的中国前途[N];中国计算机报;2009年
2 英特尔微处理器技术实验室主任工程师 Anwar Ghuloum;并行编程为什么这么难?[N];中国计算机报;2007年
3 本报记者 邹大斌;Google添新功能改善搜索体验[N];计算机世界;2011年
中国博士学位论文全文数据库 前10条
1 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
2 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
3 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
4 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
5 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
6 杨志豪;面向生物医学领域的文本挖掘技术研究[D];大连理工大学;2008年
7 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
8 史树敏;基于领域本体的汉语共指消解及相关技术研究[D];南京理工大学;2008年
9 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
10 刘玉玲;自然语言信息隐藏研究[D];湖南大学;2008年
中国硕士学位论文全文数据库 前10条
1 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年
2 陈扬;基于命名实体识别的学科智能答疑模型研究[D];东北师范大学;2010年
3 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
4 张晓艳;基于混合统计模型的汉语命名实体识别方法的研究与实现[D];国防科学技术大学;2004年
5 向晓雯;基于条件随机场的中文命名实体识别[D];厦门大学;2006年
6 陈禹;基于语篇的中文命名实体识别研究[D];厦门大学;2008年
7 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
8 任登君;面向机器学习方法的命名实体识别[D];东北大学;2005年
9 张佳宝;基于条件随机场的中文命名实体识别研究[D];国防科学技术大学;2010年
10 郭家清;基于条件随机场的命名实体识别研究[D];沈阳航空工业学院;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026