收藏本站
《中国计算语言学研究前沿进展(2009-2011)》2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于主动学习的中文依存句法分析

陈鑫  车万翔  刘挺  
【摘要】:目前依存句法分析仍主要采用有指导的机器学习方法,即需要大规模高质量的树库作为训练语料,而现阶段中文依存树库资源相对较少,树库标注又是一件费时费力的工作。面对大量未标注语料,本文将主动学习应用到中文依存句法分析,优先选择句法模型预测不准的实例交由人工标注。本文提出并比较了多种衡量依存句法模型预测可信度的准则。实验表明,一方面,与随机选择标注实例相比,当使用相同数目训练实例时,主动学习使中文依存分析性能最高提升0.8%;另一方面,主动学习使依存分析达到相同准确率时只需标注更少量实例,人工标注量最多可减少30%。
【作者单位】:哈尔滨工业大学计算机学院信息检索研究中心
【基金】:国家自然科学基金(60803093;60975055) 哈尔滨工业大学科研创新基金(HITNSRIF.2009069) 中央高效基本科研业务费专项资金(HIT.KLOF.2010064)的资助
【分类号】:TP391.1;TP181
【正文快照】:
1引言在统计学习的模型训练过程中,按照对训练实例的处理方式,可将学习过程分为两类:主动学习和被动学习。被动学习是随机地选择训练实例,被动地接受这些样本信息。主动学习与被动学习不同,它是迭代地从未标注语料中优先选择最富含有效信息的实例(即当前模型预测最不准的

【参考文献】
中国硕士学位论文全文数据库 前1条
1 陈霄;基于支持向量机的中文组织机构名识别[D];上海交通大学;2007年
【共引文献】
中国期刊全文数据库 前2条
1 杨静,高琳琦;前瞻选择抽样算法在产品推荐中的应用[J];计算机应用;2005年09期
2 赵悦;穆志纯;;基于委员会投票选择方法的主动学习的研究[J];太原理工大学学报;2006年04期
中国重要会议论文全文数据库 前3条
1 GAO Linqi*, LI Congdong* *Management School of Tianjin University, Tianjin 300073, China Management School of Tianjin Normal University, Tianjin 300387, China,;COLLABORATIVE FILTERING RECOMMENDATION ALGORITHM BASED ON LOOK-AHEAD SELECTIVE SAMPLING[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
2 王会珍;张希娟;朱靖波;张斌;;基于主动学习的自适应话题追踪[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
3 张希娟;朱靖波;;主动学习中后验概率尖锐现象的平滑处理[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国博士学位论文全文数据库 前1条
1 吴尉林;可移植的稳健口语理解方法研究[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前6条
1 杨昂;文本分类算法研究[D];湖南大学;2002年
2 杨静;电子商务中个性化推荐模型的研究[D];天津师范大学;2006年
3 孙俊;面向句法分析的样本选择[D];哈尔滨工业大学;2006年
4 倪艾玲;改进代价敏感的决策树学习方法研究[D];广西师范大学;2006年
5 李雯睿;基于半监督聚类的入侵检测算法研究[D];河南大学;2007年
6 王芳;基于子空间的图像检索与分类技术研究[D];北京交通大学;2007年
【二级参考文献】
中国期刊全文数据库 前10条
1 张辉,徐健;中国组织机构名自动识别系统的设计与实现[J];电脑开发与应用;2002年01期
2 卢志茂;刘挺;李生;;统计词义消歧的研究进展[J];电子学报;2006年02期
3 周强,黄昌宁;汉语概率型上下文无关语法的自动推导[J];计算机学报;1998年05期
4 张华平,刘群;基于角色标注的中国人名自动识别研究[J];计算机学报;2004年01期
5 郑家恒,张辉;基于HMM的中国组织机构名自动识别[J];计算机应用;2002年11期
6 郑家恒,李鑫,谭红叶;基于语料库的中文姓名识别方法研究[J];中文信息学报;2000年01期
7 刘秉伟,黄萱菁,郭以昆,吴立德;基于统计方法的中文姓名识别[J];中文信息学报;2000年03期
8 黄德根,杨元生,王省,张艳丽,钟万勰;基于统计方法的中文姓名识别[J];中文信息学报;2001年02期
9 王宁,葛瑞芳,苑春法,黄锦辉,李文捷;中文金融新闻中公司名的识别[J];中文信息学报;2002年02期
10 黄德根,岳广玲,杨元生;基于统计的中文地名识别[J];中文信息学报;2003年02期
中国硕士学位论文全文数据库 前2条
1 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
2 吴雪军;面向信息抽取的命名实体识别与模板获取技术研究[D];东北大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 宋立峰;;中文分词算法在专利文献中的应用研究[J];海峡科学;2011年07期
2 王亚宏;;消逝电波的背后——从BBC中文广播停播说起[J];中国记者;2011年08期
3 陈发鸿;;基于核方法的文本极性分类研究[J];海峡科学;2011年08期
4 长江边上;;中文简历快速转英文[J];电脑迷;2011年12期
5 雅丽;;网文创作新高峰两岸线上大PK[J];出版参考;2011年21期
6 ;后记[J];制度经济学研究;2011年02期
7 刘晓雪;;中央电视台中文国际频道百集高清巨制《边疆行》播出[J];当代电视;2011年08期
8 ;蓝光新视界[J];家庭影院技术;2011年07期
9 ;林夕全新力作《毫无代价唱最幸福的歌》出版[J];出版参考;2011年19期
10 ;接力社出版《“暮光之城”官方指南》中文简体字版[J];出版参考;2011年21期
中国重要会议论文全文数据库 前10条
1 陈劲光;何婷婷;李芳;桂卓民;;基于概率和句法分析的中文句子修剪[A];第五届全国青年计算语言学研讨会论文集[C];2010年
2 陈鑫;车万翔;刘挺;;基于主动学习的中文依存句法分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 斯·劳格劳;华沙宝;萨如拉;;基于统计方法的蒙古语依存句法分析模型[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 张晓甜;赵海;;基于树结构模式挖掘的非监督中文短语结构句法分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 王中卿;李寿山;朱巧明;李培峰;周国栋;;基于不平衡数据的中文情感分类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 张伟男;张宇;刘挺;;基于中心理论的中文对话省略恢复研究[A];第六届全国信息检索学术会议论文集[C];2010年
7 王佳;;对中文屋思想实验四个主要版本的考察[A];第三届全国科技哲学暨交叉学科研究生论坛文集[C];2010年
8 王丹;姬东鸿;黄玮;;一种基于MIRA和遗传算法的句法分析模型构造方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
9 才藏太;;基于规则的汉藏机器翻译系统中二分法的句法分析方法研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
10 金朝;蒋宗礼;;中文机构名的识别讨论[A];2011高等职业教育电子信息类专业学术暨教学研讨会论文集[C];2011年
中国重要报纸全文数据库 前10条
1 记者 胡光耀;全美第二届中文大会开幕[N];人民日报海外版;2009年
2 泰国南美有限公司副总经理 陈美琪 整理 本报实习生 杨冰;泰国新一代学中文热潮到来[N];中国新闻出版报;2009年
3 记者 王建刚 吴志强;美国 中文电视举办20周年台庆[N];人民日报海外版;2010年
4 晓路;美国“中文热”遭遇教师荒[N];中国文化报;2011年
5 本报记者 韩言铭;中文在线 全媒体版权运营[N];中国经营报;2011年
6 本报驻外记者 吴乐珺 张旸 本报记者 韩硕 崔悦 姜波;商务中文考试酝酿改革[N];人民日报;2011年
7 记者 古隆媛;中文媒体共携手 发挥更大影响力[N];中国新闻出版报;2009年
8 记者 向杰;网络化中文办公平台获“核高基”立项[N];科技日报;2011年
9 本报记者 任涛;李裕里:中文给了我未来[N];人民日报海外版;2010年
10 汪融;美国人到底有多爱中文[N];中国文化报;2011年
中国博士学位论文全文数据库 前10条
1 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
2 杨潇;基于生成性概率模型的句法分析和多文档自动文摘研究[D];山东大学;2009年
3 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
4 李军辉;中文句法语义分析及其联合学习机制研究[D];苏州大学;2010年
5 李世奇;面向文景转换的中文浅层语义分析方法研究[D];哈尔滨工业大学;2011年
6 付剑锋;面向事件的知识处理研究[D];上海大学;2010年
7 钱线;快速精确的结构化机器学习方法研究[D];复旦大学;2010年
8 唐秀玲;论话题及其在汉语语法分析中的应用[D];上海师范大学;1997年
9 李旭;基于指纹和语义知识表示的中文文档复制检测方法[D];燕山大学;2010年
10 赵世奇;基于统计的复述获取与生成技术研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 赵青;基于概率统计和句法分析的中文语句压缩系统的研究与实现[D];北京邮电大学;2012年
2 皮晓峰;基于概率上下文无关语法的句法分析研究与实现[D];电子科技大学;2005年
3 刘琍;“程度副词+名词”的语义、语用和句法分析[D];四川师范大学;2005年
4 金天;论汉语及英语中否定歧义的消除[D];广东外语外贸大学;2007年
5 尹鹏;基于SVM的中文组块间依存关系分析[D];大连理工大学;2006年
6 张萍;现代汉语标语语法研究[D];南京师范大学;2006年
7 赵德玉;汉语句法分析技术及其在机器人辅助教育智能接口中的应用研究[D];天津师范大学;2004年
8 顾芸;名词短语移位的句法分析[D];南京师范大学;2006年
9 周吉;自然语言处理及搜索引擎的研究[D];吉林大学;2007年
10 魏蓉;限定领域的基本陈述句句法分析[D];天津师范大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026