基于DCC动态流通报纸语料库的流通度词表和使用度词表的对比分析
【摘要】:词表对于中文信息处理等领域具有重要的价值和意义。作者对从2002年10种主流报纸中提取的两个词表(流通度表和使用度表)前3000词语进行了比较,如果把使用度词表作为初表,对比后发现流通度对使用度词表进行了较大幅度的调整,使用度表前3000词语中34.37%的词语到了流通度表中跌出了3000,65.63%的词语保留在了流通度表前3000,同时有1031个词语新进入了流通度表前3000。本文对新进入的词语进行分析,发现2/3的词语具有显著领域特色;标识类名词数量众多,代词和形容词数目偏少。我们还进行了语感验证,结果显示流通度对使用度词表的调整是合理的,最后的结论是:以流通度为标准提取的词表由于加入了发行量和媒体等系数,在内容和顺序上更能反映报纸的动态变化,更加科学实用。
|
|
|
|
1 |
巩政;关高娃;;蒙古文停用词和英文停用词比较研究[J];中文信息学报;2011年04期 |
2 |
丁婉莹;;基于用户标签的个人本体的构建模型研究[J];现代情报;2011年07期 |
3 |
;[J];;年期 |
4 |
;[J];;年期 |
5 |
;[J];;年期 |
6 |
;[J];;年期 |
7 |
;[J];;年期 |
8 |
;[J];;年期 |
9 |
;[J];;年期 |
10 |
;[J];;年期 |
11 |
;[J];;年期 |
12 |
;[J];;年期 |
13 |
;[J];;年期 |
14 |
;[J];;年期 |
15 |
;[J];;年期 |
16 |
;[J];;年期 |
17 |
;[J];;年期 |
18 |
;[J];;年期 |
19 |
;[J];;年期 |
20 |
;[J];;年期 |
|