收藏本站
《中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集》2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于分词性能的汉语语料库比较研究

张洁  孟遥  于浩  
【摘要】:语料库是计算语言学的基础资源,目前国内外许多单位都在积极地进行语言资源的加工建设,在汉语语料库建设方面也取得了一些重要研究成果。例如,1998年人民日报标注语料库、国家语委5000万标注语料库、宾州大学中文树库等。但各语料库的组织结构不同,加之各家加工过程中所遵循原则的差异, 对同一语言现象的处理方式也存在分歧。因此,如何对各种语料库的特点进行比较研究,如何根据工作的实际需要选择适合的语言资源将是一个很现实的问题。本文提出了一种基于分词性能的汉语语料库比较研究的方法,用1998年人民日报语料,国家语委5000万字标注语料和宾州大学中文树库分别训练基于汉字的隐马尔可夫分词模型,继而通过各自的训练系统进行自测和交叉测试,从本文的实验结果来看,人民日报语料以其过硬的质量和庞大的规模对新闻领域的语料有出色的表现,国家语委语料则表现出较强的稳定性和对不同领域语料的适应力。

【引证文献】
中国硕士学位论文全文数据库 前1条
1 刘远博;基于海外版时政新闻语料库的对外汉语词汇研究[D];吉林大学;2012年
【参考文献】
中国期刊全文数据库 前2条
1 段慧明,松井久仁於,徐国伟,胡国昕,俞士汶;大规模汉语标注语料库的制作与使用[J];语言文字应用;2000年02期
2 ;商务印书馆今年计划出版的哲学译著[J];哲学研究;1959年02期
【共引文献】
中国期刊全文数据库 前10条
1 周海霞;;汉语同源词研究历史综述[J];安康学院学报;2007年04期
2 乔石豪;;语气副词“连”的来源及语法化过程[J];安阳师范学院学报;2007年03期
3 赵艳平;“家”释义献疑[J];保定师范专科学校学报;2005年01期
4 冯宽平;“昜”、“多”字族分析[J];北京大学学报;2000年S1期
5 胡晓萍;;信息不对称条件下的诚信成本和价值选择[J];北京工业大学学报(社会科学版);2007年05期
6 王春晖;;孙子兵法与蓝海战略基本思想比较分析[J];滨州学院学报;2007年05期
7 李建兵;转型时期公共行政精神的嬗变与重塑[J];长白学刊;2004年04期
8 魏现军;河南遂平话的几个特殊语缀[J];承德民族师专学报;2004年04期
9 李艳;;反复问句“X不X”格式探析[J];长春大学学报;2007年07期
10 孙道进,何嘉昆;传统实践观批判[J];重庆工学院学报;2001年04期
中国重要会议论文全文数据库 前7条
1 加米拉·吾守尔;瓦依提·阿布力孜;吐尔根·依布拉音;;《现代维吾尔语语法信息词典》数据库建设的研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 周静;;从三结合角度看对外汉语句式教学——以“被”字句为例[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
3 阚道宏;吴文虎;;句法知识在语音输入系统中的应用[A];第一届全国语言识别学术报告与展示会论文集[C];1990年
4 李小科;;《论自由》中的宗教片论[A];“理性、信仰与宗教”全国学术研讨会论文集[C];2006年
5 梁晓杰;;农民教育布尔乔亚——卢梭与农民的现代道德主体性[A];“理性、信仰与宗教”全国学术研讨会论文集[C];2006年
6 俞士汶;段慧明;朱学锋;;语言工程中同形及兼类词语的处理策略[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
7 俞士汶;;计算语言学的应用研究与基础研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 李包庚;马克思和维特根斯坦哲学革命路向的比较研究[D];苏州大学;2011年
2 WANG Jiayue;[D];广东外语外贸大学;2003年
3 何婷婷;语料库研究[D];华中师范大学;2003年
4 宋春阳;面向信息处理的现代汉语“名+名”逻辑语义研究[D];上海师范大学;2003年
5 李东方;证券监管法律制度研究[D];西南政法大学;2000年
6 高建良;经济、金融全球化进程中的人民币汇率及汇率制度研究[D];中国人民大学;2003年
7 朱勇;新增长理论[D];中国人民大学;1998年
8 于屏方;动作义位释义的框架模式研究[D];广东外语外贸大学;2006年
9 祁顺生;基于价值均衡的企业归核化经营战略研究[D];南京大学;2001年
10 刘辰诞;结构和边界:语言表达式的认知基础[D];河南大学;2006年
中国硕士学位论文全文数据库 前10条
1 吴金星;蒙古语词法标注语料库的构建及相关技术研究[D];内蒙古大学;2011年
2 李慧;对外汉语口语教材中词汇定量分析[D];山东大学;2011年
3 孙蝉娟;航空器及其安全领域术语定义的自动抽取[D];南京航空航天大学;2010年
4 李晋;不平衡数据分类在航空安全领域定义抽取中的应用[D];南京航空航天大学;2011年
5 蔡丽;海外华语教材词汇分析研究[D];暨南大学;2002年
6 宋礼鹏;大规模语料库分词质量评价方法研究[D];山西大学;2004年
7 吕艳辉;基于语料库的现代汉语准口语计量研究[D];山东大学;2005年
8 封鹏程;现代汉语法律语料库的建立及其词汇计量研究[D];南京师范大学;2005年
9 周孚林;接近权及其法律保护[D];湘潭大学;2005年
10 王迎春;基于联合产权制度的企业成长理论[D];湘潭大学;2005年
【同被引文献】
中国期刊全文数据库 前10条
1 杨泉;冯志伟;;一种新型词频统计方法及其在对外汉语教学中的应用[J];长江学术;2010年01期
2 陈建生;关于语料语言学[J];国外语言学;1997年01期
3 卫乃兴;基于语料库和语料库驱动的词语搭配研究[J];当代语言学;2002年02期
4 王谨;;世界了解中国的独特“窗口”——《人民日报》海外版在改革创新中求发展[J];对外传播;2008年11期
5 王治敏;;基于时间跨度的汉语教学常用词表统计研究[J];华文教学与研究;2010年04期
6 王玲娟;张娜;;近三十年来对外汉语报刊阅读教材述评[J];连云港师范高等专科学校学报;2011年03期
7 俞士汶,段慧明,朱学锋,孙斌;北京大学现代汉语语料库基本加工规范[J];中文信息学报;2002年05期
8 俞士汶,段慧明,朱学锋,孙斌;北京大学现代汉语语料库基本加工规范(续)[J];中文信息学报;2002年06期
9 陶家骏;HSK自动化词频统计分析[J];暨南大学华文学院学报;2005年01期
10 崔刚,盛永梅;语料库中语料的标注[J];清华大学学报(哲学社会科学版);2000年01期
中国重要会议论文全文数据库 前1条
1 邹红建;杨尔弘;;面向对外汉语报刊教学的文本难易度分类[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前3条
1 史艳岚;基于中国主流报纸动态流通语料库的对外汉语报刊新闻主题词群及相关研究[D];北京语言大学;2006年
2 韩秀娟;基于动态流通语料库的通用词语用字研究及字词语关系考察[D];北京语言大学;2007年
3 赵小兵;基于动态流通语料库的现代汉语基本词汇自动识别与提取方法研究[D];北京语言大学;2007年
中国硕士学位论文全文数据库 前7条
1 何凤远;基于词频统计的齐夫定律汉语适用性研究[D];安徽大学;2011年
2 陈俊;对外汉语教学阅读文本素材库的选材及标注[D];上海交通大学;2011年
3 徐曼;《中文新闻信息分类标准》研究[D];武汉大学;2005年
4 贺胜;面向现代汉语文本处理的全文检索、自动分词通用系统[D];南京师范大学;2006年
5 杨颖虹;《时文研究支那新闻の读み方》的研究[D];吉林大学;2008年
6 陈斯棋;高级对外汉语报刊阅读教材研究[D];吉林大学;2009年
7 陈曦;《人民日报·海外版》时政新闻中的国家政治形象[D];中央民族大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 邢晓辉;刘慧;;基于LCS的中文缩写字段匹配问题的研究[J];山东科学;2008年04期
2 鲁强;金伟祖;;基于FMM和CRFs双层分词模型的研究[J];电脑知识与技术;2008年28期
3 陈博逊;黄晶晓;;一种基于HMM和CRF的双层分词模型[J];硅谷;2009年22期
4 黄德根,岳函,李丽双;开放式汉语自动分词的学习机制[J];小型微型计算机系统;2005年08期
5 陈琳;何嘉;;基于遗传神经算法优化的汉语分词模型[J];西南师范大学学报(自然科学版);2007年04期
6 张辉;武亚红;黄润才;;基于规则和统计的汉语多输出切分系统[J];微电子学与计算机;2007年07期
7 刘丹;方卫国;周泓;;基于贝叶斯网络的二元语法中文分词模型[J];计算机工程;2010年01期
8 黄德根;焦世斗;周惠巍;;基于子词的双层CRFs中文分词[J];计算机研究与发展;2010年05期
9 张聪品;赵理莉;吴长茂;;基于字词分类的层次分词方法[J];计算机应用;2010年08期
10 李双龙;刘群;王成耀;;基于条件随机场的汉语分词系统[J];微计算机信息;2006年28期
中国重要会议论文全文数据库 前5条
1 张洁;孟遥;于浩;;基于分词性能的汉语语料库比较研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
2 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 胡明耀;唐常杰;金朋伟;;数据库汉语自然语言查询接口IDCQ设计与实现[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
4 吴悦;燕鹏举;翟鲁峰;;基于二元背景模型的新词发现[A];第十一届全国人机语音通讯学术会议论文集(二)[C];2011年
5 吴悦;燕鹏举;翟鲁峰;;一种基于二元背景模型的新词发现方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
中国博士学位论文全文数据库 前2条
1 吴应良;网络计算中的智能信息处理方法研究[D];华南理工大学;2000年
2 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
中国硕士学位论文全文数据库 前10条
1 王为磊;基于多目标优化的中文分词模型的研究[D];苏州大学;2008年
2 杨志胜;基于字根法的古汉语分词模型[D];天津大学;2007年
3 高凌;搜索算法与搜索引擎的研究与应用[D];武汉理工大学;2007年
4 王茜;基于字符串匹配的中英文混合分词技术研究[D];四川师范大学;2011年
5 孙建国;领域汉语理解中的智能分词系统的研究与实现及其在产品设计中的应用[D];西安电子科技大学;2009年
6 王广正;基于知网语义相关度计算的汉语自动分词方法的研究[D];云南师范大学;2006年
7 颜军;基于条件随机场的中文分词研究与应用[D];武汉理工大学;2009年
8 秦健;N-gram技术在中文词法分析中的应用研究[D];中国海洋大学;2009年
9 王靖;基于机械切分和标注的中文分词研究[D];湖南大学;2009年
10 关宏超;基于统计的开放式汉语自动分词[D];大连理工大学;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026