收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于生语料、最大匹配切分语料以及熟语料的中文词频估计方法

乔维  孙茂松  
【摘要】:词频估计在NLP的各个领域中都有着重要的应用,中文的特点使得中文词频估计对我们来说依然是一个严峻的挑战。其中一个主要因素就是缺少一个供我们作词频估计的“完美的”语料库。我们现有的语料库有:规模可以任意大的生语料库;由生语料库通过自动分词得到的已切分语料库;一些规模较小,由不同机构根据不同的分词标准开发的熟语料库。基于以上所有因素及已有的语料库,本文提出了一种基于折中的思想,综合利用已有信息来进行中文词频估计的方法。实验表明这一策略在多数情况下能够显著提高词频估计的准确度,但在某些情况下,这一方法的性能仍不够满意。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李红;缪道蓉;;规则屈折词形在心理词汇中的表征与提取——基于词频还是规则?[J];外国语言文学研究;2004年04期
2 刘中富;;论《现代汉语常用词表(草案)》处理异形词的得失[J];中国海洋大学学报(社会科学版);2011年04期
3 刘文宇;王小珏;;三语者同形异义词的通达机制研究[J];四川外语学院学报;2009年S2期
4 郭锐;词频与词的功能的相关性[J];语文研究;2001年03期
5 徐彩华,张必隐;现代汉语单音词通达的复杂性——来自认知心理的实验证据[J];语言文字应用;2001年04期
6 胡琳;;汉语语音的语义作用研究[J];心理科学;2006年03期
7 王惠;;词义·词长·词频——《现代汉语词典》(第5版)多义词计量分析[J];中国语文;2009年02期
8 陶家骏;HSK自动化词频统计分析[J];暨南大学华文学院学报;2005年01期
9 陈玉;从COBUILD看积极型英汉学习词典的编纂[J];乐山师范学院学报;2005年07期
10 潘璠,冯跃进;基于语料库的同义词差异性特征调查[J];山东外语教学;2000年04期
11 江新;赵果;黄慧英;柳燕梅;王又民;;外国学生汉语字词学习的影响因素——兼论《汉语水平大纲》字词的选择与分级[J];语言教学与研究;2006年02期
12 王铁琨;侯敏;杨尔弘;;报纸、广播电视、网络用字用词调查[J];语言文字应用;2007年01期
13 毕永峨;;远指词“那”词串在台湾口语中的词汇化与习语化[J];当代语言学;2007年02期
14 许艾明;从语义三角到语义点——谈外语自动化学习模式[J];零陵师范高等专科学校学报;2002年03期
15 张莲;汉语双音词联想研究[J];外语学刊;2004年05期
16 严戎庚;;重源轻流——辞书编纂的最高原则[J];韩山师范学院学报;2007年04期
17 毕永峨;;不定量词词义与构式的互动[J];中国语文;2007年06期
18 周健;李海霞;;对《汉语水平词汇与汉字等级大纲》甲级词的修订意见[J];暨南大学华文学院学报;2008年03期
19 杨蓓;吴语五地词汇相关度的计量研究[J];语言文字应用;2003年01期
20 罗荣华;“词类活用”说之思辨[J];宁夏大学学报(人文社会科学版);2004年01期
中国重要会议论文全文数据库 前10条
1 乔维;孙茂松;;基于生语料、最大匹配切分语料以及熟语料的中文词频估计方法[A];第三届学生计算语言学研讨会论文集[C];2006年
2 刘桐菊;于浩;杨沐昀;;基于TFIDF的专业领域词汇获取的研究[A];第一届学生计算语言学研讨会论文集[C];2002年
3 李芸;王强军;;信息技术领域术语字频、词频及术语长度统计[A];第一届学生计算语言学研讨会论文集[C];2002年
4 张必隐;;中文双字词在心理词典中的分解贮存[A];全国第七届心理学学术会议文摘选集[C];1993年
5 甘抒赟;;从麦克米兰中的语用信息看语料库数据在词典编撰中的显性应用[A];福建省外国语文学会2009年年会暨学术研讨会论文集[C];2009年
6 刘华;周凌燕;张普;;面向词典编撰的词汇聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
7 董宇;陈小荷;;带标注语料库中切分变异的统计分析及思考[A];第三届学生计算语言学研讨会论文集[C];2006年
8 刘冬青;曹炜;;论成语“望文生义”义入典应当缓行——兼与陈璧耀先生商榷[A];中国辞书学会第六届中青年辞书工作者学术研讨会论文集[C];2010年
9 蔡黎;彭星源;柯登峰;赵军;;少数民族汉语考试作文自动评分的特征提取研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
10 姜仁涛;韩翠芳;;《人民日报》近三年100组异形词使用情况分析[A];语文现代化论丛(第七辑)[C];2006年
中国博士学位论文全文数据库 前3条
1 杨梅;现代汉语合成词构词研究[D];南京师范大学;2006年
2 吴恩锋;基于经济报道标题语料库的概念隐喻研究[D];浙江大学;2008年
3 赵小兵;基于动态流通语料库的现代汉语基本词汇自动识别与提取方法研究[D];北京语言大学;2007年
中国硕士学位论文全文数据库 前10条
1 陈琦;医学论文中半技术性词汇的分析[D];第四军医大学;2004年
2 吕艳辉;基于语料库的现代汉语准口语计量研究[D];山东大学;2005年
3 袁媛;收集基础反应时是启动实验不可或缺的步骤[D];广东外语外贸大学;2006年
4 卢金霞;第二语言词汇知识习得:对动词意义及其句法知识的调查[D];中国海洋大学;2007年
5 王巧燕;话题熟悉度和词频对中级韩国学习者伴随性词汇习得的影响[D];北京语言大学;2007年
6 于珊;《中文》词汇重现问题研究[D];暨南大学;2007年
7 刘伟;语义透明度对留学生双音节合成词词汇通达的影响[D];北京语言大学;2004年
8 崔荣辉;5-6岁儿童语言习得状况的考察与研究[D];山东大学;2009年
9 董国珍;语境和词频对汉语词类歧义词歧义消解的影响[D];云南师范大学;2003年
10 高松;汉语词汇化过程中的频率机制[D];黑龙江大学;2008年
中国重要报纸全文数据库 前3条
1 ;第一批异形词整理表[N];新华每日电讯;2001年
2 王鸿良;异形词有了新规矩[N];浙江日报;2002年
3 许家金 北京外国语大学中国外语教育研究中心;语料库语言学研究[N];中国社会科学报;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978