收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于大规模语料的中文词聚类研究与实现

蒋宏飞  曹海龙  杨沐昀  
【摘要】:词聚类算法对自然语言处理具有重要意义。Brown 1990年提出了一个经典的词聚类算法,但是由于算法本身的复杂度较高,故难于对大规模语科进行处理(Brown文中提到词数超过5000便是不可行的)。本研究中我们尝试着对上万词数的中文词语料进行了实现。并且,针对算法时间复杂度高,不能应用于更大规模语料库的问题,提出了一个加速改进思想。在近似的情况下,它可以降低原算法一阶复杂度。本实验所用的语料来自人民日报1998年1月份的部分内容。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 孟广道;三字格语料琐谈[J];固原师专学报;1996年05期
2 孙德金;现代汉语动词做状语考察[J];语言教学与研究;1997年03期
3 张宁志;;汉语教材语料难度的定量分析[J];世界汉语教学;2000年03期
4 邱丽佳;;中古词汇研究的几个问题[J];科技信息;2009年25期
5 贾秀春;;浅谈现代汉语教学方式与学习方式的变革——透视研究性学习[J];黑龙江科技信息;2010年14期
6 刘英林;中国汉语水平考试十年(一)[J];汉语学习;1996年04期
7 梅勇,王群生,徐秉铮;基于 FoxPro for Windows 的汉语语料库系统的构造[J];华南理工大学学报(自然科学版);1998年01期
8 王茂林;解说式广播话语之间断分析[J];暨南大学华文学院学报;2004年03期
9 洪晓鹏,姚鸿勋,徐铭辉;基于句子级的唇读语料库及其切分算法[J];计算机工程与应用;2005年03期
10 王冰;;北朝汉语语料概况及价值分析[J];许昌学院学报;2011年04期
11 王魁伟;太田辰夫语料观说略[J];日本研究;1994年01期
12 高平平;指导学生搜集语料益处多[J];语文建设;1994年06期
13 王魁伟;关于语料问题的几点思考[J];福州大学学报(社会科学版);2000年03期
14 景萍;中国少数民族汉语水平等级考试命题中的若干问题浅析[J];新疆大学学报(社会科学版);2005年01期
15 刘连元;现代汉语语料库研制[J];语言文字应用;1996年03期
16 吴辛;语料和方法[J];语言文字应用;1994年03期
17 吴军,王作英,禹锋,王侠;汉语语料的自动分类[J];中文信息学报;1995年04期
18 陆汝占;汉语词典编纂一体化环境(上)[J];辞书研究;2000年02期
19 张霄军,张凌岚,刘军;基于Web语料挖掘技术及其系统设计[J];上海电力学院学报;2004年02期
20 张能甫;从《旧唐书》看史书语料在汉语史研究中的特点和价值[J];西昌学院学报(人文社会科学版);2004年01期
中国重要会议论文全文数据库 前10条
1 蒋宏飞;曹海龙;杨沐昀;;基于大规模语料的中文词聚类研究与实现[A];第二届全国学生计算语言学研讨会论文集[C];2004年
2 王宁;苑春法;黄昌宁;;汉语名词和形容词的聚类算法研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 刘昆;张建平;颜永红;;统计语言模型中语料的选择[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
4 吴金星;长青;;蒙古语语料库基本加工规范初探[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 曲维光;;分词系统计量研究与改进方案[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 李文;李淼;张建;陈雷;雪艳;;一种带权值参数的非监督式形态切分方法[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 王会珍;朱靖波;陈文亮;季铎;张斌;;基于一元语法模型的中文话题追踪[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 徐洁;;语料是语言研究的根本——读王希杰先生语言论著有悟[A];王希杰修辞思想研究续辑——暨王希杰修辞思想研讨会论文集[C];2004年
9 张昱琪;周强;;大规模真实文本中汉语动词语法搭配模板的自动识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 吾守尔·斯拉木;;前言[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 李线宜;上海手语类标记结构调查研究[D];复旦大学;2010年
2 姚美玲;唐代墓誌词汇研究[D];南京师范大学;2004年
3 李梅;半机构性话语中的他人修正[D];上海外国语大学;2008年
4 贾红霞;普通话儿童空间范畴表达发展的个案研究[D];中国社会科学院研究生院;2009年
5 于飞;两汉常用词研究[D];吉林大学;2008年
6 罗黎丽;五周岁汉语儿童的言语交际研究[D];暨南大学;2012年
7 何婷婷;语料库研究[D];华中师范大学;2003年
8 许菊芳;四种现存托名汉代小说语料鉴别研究[D];浙江大学;2009年
9 王斯日古楞;基于混合策略的汉蒙机器翻译及相关技术研究[D];内蒙古大学;2009年
10 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 李桂东;现代汉语动宾式动词的认知研究[D];上海外国语大学;2009年
2 王晓斌;阜宁方言调查研究[D];南京师范大学;2004年
3 樊谊军;现代汉语“能”与“会”的用法对比及其偏误分析[D];上海师范大学;2012年
4 秦雯;上海地区口语中普通话与上海话之间的语码转换现象[D];华东师范大学;2007年
5 李腊梅;三套对外汉语初中级听力材料对比研究[D];厦门大学;2008年
6 夏远航;手机报语言研究[D];安徽大学;2010年
7 朱鑫;词语搭配自动抽取方法对比研究[D];大连海事大学;2011年
8 林宝珠;隐喻的意识形态力—布什和胡锦涛的政治演讲语料的个案分析[D];福建师范大学;2009年
9 谢玲琍;基于语料的歌曲翻译变化研究[D];湖南大学;2011年
10 张健;翻译过程中翻译策略和翻译单位的TAPs语料研究[D];清华大学;2004年
中国重要报纸全文数据库 前10条
1 温端政;山西社科院试建“汉语俗语语料数据库”[N];中国社会科学院院报;2003年
2 记者 吕诺;掌握千字万词,即可看懂九成中文读物[N];新华每日电讯;2006年
3 本报记者 姚从权;我国自己的大规模口语库即将建成[N];中国社会科学院院报;2004年
4 李玉兰;中国语言文字观念正在变化[N];光明日报;2007年
5 喻京英;国民母语意识增强[N];人民日报海外版;2007年
6 本报记者 塔娜;为中国少数民族语言研究提供资源平台[N];中国社会科学院院报;2007年
7 王铁琨;《2006汉语新词语》序(节选)[N];语言文字周报;2008年
8 王珊;国家语言资源监测与研究中心工作会议在厦门召开[N];语言文字周报;2006年
9 江获;数据库是语言学家的重要工具[N];中国社会科学院院报;2004年
10 本报记者 王继晟 张然;流行语多少财富在流行[N];市场报;2003年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978