收藏本站
《第二届全国学生计算语言学研讨会论文集》2004年
收藏 | 手机打开
二维码
手机客户端打开本文

基于大规模语料的中文词聚类研究与实现

蒋宏飞  曹海龙  杨沐昀  
【摘要】:词聚类算法对自然语言处理具有重要意义。Brown 1990年提出了一个经典的词聚类算法,但是由于算法本身的复杂度较高,故难于对大规模语科进行处理(Brown文中提到词数超过5000便是不可行的)。本研究中我们尝试着对上万词数的中文词语料进行了实现。并且,针对算法时间复杂度高,不能应用于更大规模语料库的问题,提出了一个加速改进思想。在近似的情况下,它可以降低原算法一阶复杂度。本实验所用的语料来自人民日报1998年1月份的部分内容。

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 赵军;胡栓柱;樊兴华;;一种新的词语相似度计算方法[J];重庆邮电大学学报(自然科学版);2009年04期
中国硕士学位论文全文数据库 前1条
1 李锦;仿射传播算法在中文词语聚类中的应用研究[D];昆明理工大学;2011年
【参考文献】
中国期刊全文数据库 前1条
1 牟廉明;数据挖掘中聚类方法比较研究[J];内江师范学院学报;2003年02期
【共引文献】
中国期刊全文数据库 前1条
1 巨瑜芳;雷小锋;戴斌;庄伟;宋丰泰;;基于傅里叶变换和连通图的聚类分析方法[J];计算机应用研究;2012年08期
中国博士学位论文全文数据库 前2条
1 朱长征;国际陆港作用机理与布局规划理论研究[D];长安大学;2010年
2 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
中国硕士学位论文全文数据库 前10条
1 汪涵;金融投资数据仓库中数据融合的设计与实现[D];电子科技大学;2010年
2 李琼琼;网络文本自动分类器的设计与实现[D];电子科技大学;2010年
3 徐长龙;药品集中招标采购中标段划分问题研究[D];哈尔滨工业大学;2010年
4 杨正宽;基于距离的离群挖掘算法研究[D];重庆大学;2011年
5 李森;基于数据挖掘的旅游电子商务系统研究与实现[D];电子科技大学;2011年
6 曹栋;社会网络化医药电子系统的设计与实现[D];电子科技大学;2011年
7 王建军;电信行业运维管理信息系统的设计与实现[D];电子科技大学;2011年
8 郭军华;数据挖掘中聚类分析的研究[D];武汉理工大学;2003年
9 方昭辉;基于内容的图像检索中索引的研究与实现[D];南京师范大学;2004年
10 陶双;基于密度和网格的聚类分析在数据挖掘中的应用[D];大连海事大学;2005年
【同被引文献】
中国期刊全文数据库 前4条
1 董振东,董强;知网和汉语研究[J];当代语言学;2001年01期
2 秦春秀;赵捧未;刘怀亮;;词语相似度计算研究[J];情报理论与实践;2007年01期
3 孙吉贵;刘杰;赵连宇;;聚类算法研究[J];软件学报;2008年01期
4 孙静,朱杰,徐向华;一种新的中文词自动聚类算法[J];上海交通大学学报;2003年S2期
中国重要会议论文全文数据库 前1条
1 王宁;苑春法;黄昌宁;;汉语名词和形容词的聚类算法研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国硕士学位论文全文数据库 前1条
1 史燕;基于HNC的汉语句子相似度算法的研究[D];江苏大学;2009年
【二级引证文献】
中国期刊全文数据库 前3条
1 薛志远;张清华;;复合粒计算模型研究进展[J];重庆邮电大学学报(自然科学版);2010年05期
2 谢刚;刘静;;粒计算研究现状及展望[J];软件;2011年03期
3 吴旭东;成卫青;黄卫东;;改进的主客观结合的词语语义相似度算法[J];计算机技术与发展;2012年09期
中国博士学位论文全文数据库 前1条
1 于娟;基于文本的领域本体学习方法及其应用研究[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前2条
1 杨松;自然语言问答系统的研究及其应用[D];西南交通大学;2012年
2 郜强;基于语义词语相似度计算模型的研究与实现[D];西安电子科技大学;2011年
【二级参考文献】
中国期刊全文数据库 前1条
1 杨广文,郑纬民,王鼎兴,李晓明;一种有效的启发式聚类算法[J];电子学报;1999年02期
【相似文献】
中国期刊全文数据库 前10条
1 孟广道;三字格语料琐谈[J];固原师专学报;1996年05期
2 孙德金;现代汉语动词做状语考察[J];语言教学与研究;1997年03期
3 张宁志;;汉语教材语料难度的定量分析[J];世界汉语教学;2000年03期
4 邱丽佳;;中古词汇研究的几个问题[J];科技信息;2009年25期
5 贾秀春;;浅谈现代汉语教学方式与学习方式的变革——透视研究性学习[J];黑龙江科技信息;2010年14期
6 刘英林;中国汉语水平考试十年(一)[J];汉语学习;1996年04期
7 梅勇,王群生,徐秉铮;基于 FoxPro for Windows 的汉语语料库系统的构造[J];华南理工大学学报(自然科学版);1998年01期
8 王茂林;解说式广播话语之间断分析[J];暨南大学华文学院学报;2004年03期
9 洪晓鹏,姚鸿勋,徐铭辉;基于句子级的唇读语料库及其切分算法[J];计算机工程与应用;2005年03期
10 王冰;;北朝汉语语料概况及价值分析[J];许昌学院学报;2011年04期
中国重要会议论文全文数据库 前10条
1 蒋宏飞;曹海龙;杨沐昀;;基于大规模语料的中文词聚类研究与实现[A];第二届全国学生计算语言学研讨会论文集[C];2004年
2 王宁;苑春法;黄昌宁;;汉语名词和形容词的聚类算法研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 刘昆;张建平;颜永红;;统计语言模型中语料的选择[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
4 吴金星;长青;;蒙古语语料库基本加工规范初探[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 曲维光;;分词系统计量研究与改进方案[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 李文;李淼;张建;陈雷;雪艳;;一种带权值参数的非监督式形态切分方法[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 王会珍;朱靖波;陈文亮;季铎;张斌;;基于一元语法模型的中文话题追踪[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 徐洁;;语料是语言研究的根本——读王希杰先生语言论著有悟[A];王希杰修辞思想研究续辑——暨王希杰修辞思想研讨会论文集[C];2004年
9 张昱琪;周强;;大规模真实文本中汉语动词语法搭配模板的自动识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 吾守尔·斯拉木;;前言[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
中国重要报纸全文数据库 前10条
1 温端政;山西社科院试建“汉语俗语语料数据库”[N];中国社会科学院院报;2003年
2 记者 吕诺;掌握千字万词,即可看懂九成中文读物[N];新华每日电讯;2006年
3 本报记者 姚从权;我国自己的大规模口语库即将建成[N];中国社会科学院院报;2004年
4 李玉兰;中国语言文字观念正在变化[N];光明日报;2007年
5 喻京英;国民母语意识增强[N];人民日报海外版;2007年
6 本报记者 塔娜;为中国少数民族语言研究提供资源平台[N];中国社会科学院院报;2007年
7 王铁琨;《2006汉语新词语》序(节选)[N];语言文字周报;2008年
8 王珊;国家语言资源监测与研究中心工作会议在厦门召开[N];语言文字周报;2006年
9 江获;数据库是语言学家的重要工具[N];中国社会科学院院报;2004年
10 本报记者 王继晟 张然;流行语多少财富在流行[N];市场报;2003年
中国博士学位论文全文数据库 前10条
1 李线宜;上海手语类标记结构调查研究[D];复旦大学;2010年
2 姚美玲;唐代墓誌词汇研究[D];南京师范大学;2004年
3 李梅;半机构性话语中的他人修正[D];上海外国语大学;2008年
4 贾红霞;普通话儿童空间范畴表达发展的个案研究[D];中国社会科学院研究生院;2009年
5 于飞;两汉常用词研究[D];吉林大学;2008年
6 罗黎丽;五周岁汉语儿童的言语交际研究[D];暨南大学;2012年
7 何婷婷;语料库研究[D];华中师范大学;2003年
8 许菊芳;四种现存托名汉代小说语料鉴别研究[D];浙江大学;2009年
9 王斯日古楞;基于混合策略的汉蒙机器翻译及相关技术研究[D];内蒙古大学;2009年
10 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 李桂东;现代汉语动宾式动词的认知研究[D];上海外国语大学;2009年
2 王晓斌;阜宁方言调查研究[D];南京师范大学;2004年
3 樊谊军;现代汉语“能”与“会”的用法对比及其偏误分析[D];上海师范大学;2012年
4 秦雯;上海地区口语中普通话与上海话之间的语码转换现象[D];华东师范大学;2007年
5 李腊梅;三套对外汉语初中级听力材料对比研究[D];厦门大学;2008年
6 夏远航;手机报语言研究[D];安徽大学;2010年
7 朱鑫;词语搭配自动抽取方法对比研究[D];大连海事大学;2011年
8 林宝珠;隐喻的意识形态力—布什和胡锦涛的政治演讲语料的个案分析[D];福建师范大学;2009年
9 谢玲琍;基于语料的歌曲翻译变化研究[D];湖南大学;2011年
10 张健;翻译过程中翻译策略和翻译单位的TAPs语料研究[D];清华大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026