收藏本站
《第三届学生计算语言学研讨会论文集》2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于机器学习的分词不一致自动识别研究

卢俊之  
【摘要】:分词不一致的处理是建设一个高质量的语料库所无法回避的问题,识别出分词不一致的不同成因是处理的前提和关键。本文提出了一种基于机器学习的分词不一致自动识别方案,通过两遍识别,以特征词法识别结果为基础,让机器从中学习到规则后辅以人工规则再处理第一遍未识别的不一致字串。我们对200万字语料库中的分词不一致字串进行了实验,封闭测试与开放测试的正确率分别达到85.22%和83.13%。
【作者单位】:南京师范大学文学院
【分类号】:TP391.43

手机知网App
【参考文献】
中国期刊全文数据库 前3条
1 刘江,郑家恒,张虎;中文文本语料库分词一致性检验技术的初探[J];计算机应用研究;2005年09期
2 苗玺;郑家恒;;中文语料库分词不一致的分类处理研究[J];山西大学学报(自然科学版);2006年01期
3 杜永萍,郑家恒;分词及词性标注一致性校对系统的设计与实现[J];电脑开发与应用;2001年10期
【共引文献】
中国期刊全文数据库 前7条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
2 刘江,郑家恒,张虎;中文文本语料库分词一致性检验技术的初探[J];计算机应用研究;2005年09期
3 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
4 苗玺;郑家恒;;中文语料库分词不一致的分类处理研究[J];山西大学学报(自然科学版);2006年01期
5 冯志伟;;基于经验主义的语料库研究[J];术语标准化与信息技术;2007年01期
6 王国伟,严隽薇;基于规则的企业模型一致性检查[J];微型电脑应用;2003年01期
7 张春霞,郝天永;汉语自动分词的研究现状与困难[J];系统仿真学报;2005年01期
中国重要会议论文全文数据库 前5条
1 傅思泉;;机器词典中按韵分词及虚词问题[A];江西省语言学会第五届会员大会暨2002年学术年会论文集[C];2002年
2 黄昌宁;林娟;孙承杰;;何谓金本位[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
3 程月;季娜;洪鹿平;;基于语料统计的以“不”开头双字分词不一致研究[A];第三届学生计算语言学研讨会论文集[C];2006年
4 董宇;陈小荷;;带标注语料库中切分变异的统计分析及思考[A];第三届学生计算语言学研讨会论文集[C];2006年
5 张霄军;董宇;陈小荷;;基于语料考察的“组合型歧义”与“切分变异”辨析[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前4条
1 何婷婷;语料库研究[D];华中师范大学;2003年
2 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
3 张春霞;领域文本知识获取方法研究及其在考古领域中的应用[D];中国科学院研究生院(计算技术研究所);2005年
4 傅魁;基于Web的本体学习研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前6条
1 蔡丽;海外华语教材词汇分析研究[D];暨南大学;2002年
2 王用源;废“离合词”兴“组合词”[D];天津大学;2004年
3 张虎;汉语语料库词性标注一致性检查及自动校对方法研究[D];山西大学;2005年
4 刘江;大规模汉语语料库分词一致性检验技术研究[D];山西大学;2005年
5 苗玺;中文语料库切分不一致字串分类校验方法研究[D];山西大学;2006年
6 张卫;中文词性标注的研究与实现[D];南京师范大学;2007年
【同被引文献】
中国期刊全文数据库 前10条
1 徐金颖;关于叠音词与重叠式的区分[J];保定师范专科学校学报;2002年01期
2 屈正林;祈使句中动词重叠式及其语用分析[J];长春师范学院学报;2004年06期
3 符淮青;;略谈《现代汉语词典》(第5版)标注词类的作用[J];辞书研究;2006年02期
4 张敏;从类型学和认知语法的角度看汉语重叠现象[J];当代语言学;1997年02期
5 陶红印;试论语体分类的语法学意义[J];当代语言学;1999年03期
6 李敬国;现代汉语动词重叠式的语法意义研究解析[J];甘肃社会科学;2002年01期
7 陈青松,陈安平;50年来动词重叠研究综述[J];湖南师范大学社会科学学报;2001年S2期
8 张理明;试论动词AABB重叠式[J];汉语学习;1984年04期
9 吴吟;汉语重叠研究综述[J];汉语学习;2000年03期
10 董秀芳;;汉语词缀的性质与汉语词法特点[J];汉语学习;2005年06期
中国重要会议论文全文数据库 前1条
1 程月;季娜;洪鹿平;;基于语料统计的以“不”开头双字分词不一致研究[A];第三届学生计算语言学研讨会论文集[C];2006年
中国硕士学位论文全文数据库 前4条
1 尚英;基于大规模调查的动词重叠形式自动识别方法与形式特征研究[D];北京语言大学;2004年
2 陈晴;基于条件随机场的自动分词技术的研究[D];东北大学;2005年
3 唐余俊;《现代汉语词典》收词原则与收词范围研究[D];南京师范大学;2007年
4 单凤娇;现代汉语动词重叠式的多维度研究[D];贵州大学;2007年
【二级参考文献】
中国期刊全文数据库 前4条
1 杜永萍,郑家恒;分词及词性标注一致性校对系统的设计与实现[J];电脑开发与应用;2001年10期
2 肖云,孙茂松,邹嘉彦;利用上下文信息解决汉语自动分词中的组合型歧义[J];计算机工程与应用;2001年19期
3 郑德权,于凤,王开涛 ,赵铁军;基于汉语二字应成词的歧义字段切分方法[J];计算机工程与应用;2003年01期
4 钱揖丽,郑家恒;文本切分知识获取及其应用[J];计算机工程与应用;2003年02期
中国重要会议论文全文数据库 前1条
1 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
【相似文献】
中国期刊全文数据库 前10条
1 王银涛;黄越;李俊兵;;基于路径参数协同的多移动机器人编队控制[J];计算机仿真;2011年06期
2 闫超;朱伟;;具有动态拓扑和不同时延的二阶多智能体系统的一致性分析[J];重庆邮电大学学报(自然科学版);2011年04期
3 崔艳;贾英民;;具有时滞的二阶多智能体系统的一致性分析[J];计算机仿真;2011年07期
4 赵德平;蔡丽静;李鹏;;基于Newshingling的相似文本检测算法[J];沈阳建筑大学学报(自然科学版);2011年04期
5 刘哲;;数据清洗技术在网络教学评价体系中的应用[J];网络与信息;2011年08期
6 王俊生;施运梅;张仰森;;基于Hadoop的分布式搜索引擎关键技术[J];北京信息科技大学学报(自然科学版);2011年04期
7 贾丙静;吴长勤;葛华;;Web文本聚类的研究与实现[J];长春师范学院学报;2011年06期
8 肖庆;焦健;;网络安全策略与措施的语义一致性研究[J];计算机技术与发展;2011年08期
9 张伟才;宋晶;杨洪星;赵权;;晶片表面Haze值研究[J];半导体技术;2011年09期
10 张如云;;网页设计的基本原则剖析[J];金融科技时代;2011年06期
中国重要会议论文全文数据库 前10条
1 卢俊之;;基于机器学习的分词不一致自动识别研究[A];第三届学生计算语言学研讨会论文集[C];2006年
2 杨上保;朱粤松;;前缘襟翼控制系统通道输出一致性研究[A];中国航空学会控制与应用第十二届学术年会论文集[C];2006年
3 朱乐坤;沙奕卓;温晓清;;土壤湿度观测仪静态准确度和一致性测试与分析[A];第三届全国虚拟仪器大会论文集[C];2008年
4 张国华;吴智铭;;混合动态系统中连续状态系统用离散事件系统描述的一致性[A];1996中国控制与决策学术年会论文集[C];1996年
5 方志耕;刘思峰;张亚斌;张立军;;国际贸易自由化与发展中国家经济利益的一致性与矛盾性分析[A];2002年中国管理科学学术会议论文集[C];2002年
6 李继乾;苏醒;黄奇成;魏翠萍;;区间数判断矩阵的排序及一致性改进算法[A];第四届全国决策科学/多目标决策研讨会论文集[C];2007年
7 陶维兵;;政府竞争力提升与和谐社会建构[A];“构建和谐社会与深化行政管理体制改革”研讨会暨中国行政管理学会2007年年会论文集[C];2007年
8 许莹修;戴思兰;;菊花品种表型性状分类价值研究[A];中国菊花研究论文集(2002—2006)[C];2002年
9 孙涛;高爱军;王征;;鱼雷动力装置振动一致性概念及关键技术探讨[A];第十二届船舶水下噪声学术讨论会论文集[C];2009年
10 冯刚;;三种骨成熟评估法的一致性研究[A];第四军医大学口腔医院2004第七届全国口腔正畸学术会议论文汇编[C];2004年
中国重要报纸全文数据库 前10条
1 耿建萍;关键在于“政策的一致性”[N];山西经济日报;2006年
2 ;需提高数据的一致性及设备自身抗震能力[N];中国电子报;2009年
3 本报记者 周春雨;黄彬:英国馆看点在于形式与内容的一致性[N];中国贸易报;2010年
4 记者 刘蔚;八车厂环保整改全部合格[N];中国环境报;2006年
5 姚丽艳;哈飞汽车通过环保生产一致性免检审核[N];中国航空报;2006年
6 谢伟临;辽宁局积极落实进口车辆一致性证书工作[N];中国国门时报;2009年
7 实习生 倪柏明;环保问题凸现 八家车企如何应对[N];中国经济时报;2006年
8 周报;新车质量的稳定性和一致性仍然较差[N];中国工业报;2010年
9 记者 王璐;备战股改 大股东增持法人股动机明显[N];上海证券报;2005年
10 李瀛;解决好非公党建 “五个一致性”认识问题[N];人民日报;2005年
中国博士学位论文全文数据库 前10条
1 王以松;逻辑程序的相容性与环公式研究[D];贵州大学;2007年
2 魏善碧;多智能体系统分布式预测控制方法研究[D];重庆大学;2009年
3 周启强;英汉构词法的认知研究[D];湖南师范大学;2007年
4 李振中;追求和谐的完美[D];上海外国语大学;2007年
5 朱锦泉;可适应工作流模型及其实现机制研究[D];吉林大学;2005年
6 李冬香;湖南赣语语音研究[D];暨南大学;2005年
7 王学军;群体决策中若干问题的理论与方法研究[D];东北大学;2005年
8 杨文;多智能体系统一致性问题研究[D];上海交通大学;2009年
9 杨华;基于子空间方法的系统辨识及预测控制设计[D];上海交通大学;2007年
10 巩在武;不确定模糊判断矩阵理论方法研究[D];南京航空航天大学;2006年
中国硕士学位论文全文数据库 前10条
1 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
2 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
3 赵春红;外包数据库模型中文本数据完整性检测方案的研究[D];燕山大学;2010年
4 卢育红;半结构化药物数据智能分类技术研究与系统实现(全日制专业学位)[D];北京交通大学;2011年
5 卢忠良;基于多类的汉语文本自动分类研究[D];中国人民解放军国防科学技术大学;2002年
6 苗玺;中文语料库切分不一致字串分类校验方法研究[D];山西大学;2006年
7 张楚屏;从分词的静词作用看分词在计算机英语中的翻译方法[D];华中科技大学;2006年
8 盛鹏;基于全文过滤的垃圾邮件防范机制[D];昆明理工大学;2006年
9 皮鹏;智能搜索引擎系统的研究[D];哈尔滨工程大学;2002年
10 都菁;基于论坛语料的未登录词自动识别新方法[D];西南大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026