收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

汉语语料库大规模统计与小规模统计的对比

郭曙纶  
【摘要】:本文以上海市中小学语文教材语料库为统计样本,对比统计了大规模汉语语料库与小规模汉语语料库在覆盖率及分布率两个方面的数据,统计分析表明:1.高频字比率随着文本规模的增大而下降,但高频字的绝对数在合计文本统计中基本保持不变,维持在500—600字之间。2.总字次数与平均出现次数及总字种数,呈正相关关系,不过平均出现次数及总字种数的增长幅度不如总字次数大,尤其是总字种数增长幅度要缓慢得多。3.在覆盖率方面大规模统计与小规模统计以及单个的小文本统计三者之间都存在着很大的差异。4.在字种数方面,单个的小文本统计与合计文本统计之间有较大差异,而大规模统计与小规模统计之间差不多。5.从分布率来看,上海市语文教材不同文本之间的共用字是很少的,不能笼统地说,认识500多个汉字就能认识文本中80%的汉字。6.对于由多个子语料库构成的语料库而言,总字种数的大小影响到它们之间共用字种的百分比。一般说,总字种数越小,则共用字种的百分比越大。

知网文化
【相似文献】
中国重要会议论文全文数据库 前2条
1 郭曙纶;;汉语语料库大规模统计与小规模统计的对比[A];第二届全国教育教材语言专题学术研讨会论文集[C];2008年
2 郭曙纶;方有林;;网络汉字的大规模统计与分析[A];第六届汉语词汇语义学研讨会论文集[C];2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978