收藏本站
《中国计算语言学研究前沿进展(2009-2011)》2011年
收藏 | 手机打开
二维码
手机客户端打开本文

异种语料融合方法:基于统计的中文词法分析应用

孟凡东  徐金安  姜文斌  刘群  
【摘要】:基于统计的中文词法分析往往依赖大规模标注语料,语料的规模和质量直接影响词法分析系统的性能。高覆盖率、高质量的语料资源非常有限,而且适用于不同领域的语料往往具有不同的分词和词性标注标准,难以直接混合使用,从而导致既有资源未能充分利用,分词精度下降等问题。针对该问题,本论文提出了简单有效的异种语料的自动融合方法,并通过实验验证了提案方法的有效性、较强的实用性以及对多种语料融合的可扩展性。

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 达吾勒·阿布都哈依尔;海拉提·克孜尔别克;;基于规则的哈萨克语词干提取算法的研究[J];新疆大学学报(自然科学版);2011年02期
2 姜文斌;吴金星;乌日力嘎;那顺乌日图;刘群;;蒙古语有向图形态分析器的判别式词干词缀切分[J];中文信息学报;2011年04期
3 李亚丽;徐为群;颜永红;;语义类的提取及其在语音搜索系统中的应用[J];声学学报;2011年05期
4 胡莉;;中文“词”的语言模型识别研究方法综述[J];北方文学(下半月);2011年03期
5 张海军;彭成;栾静;;基于外部排序的字串左右熵快速计算方法[J];计算机工程与应用;2011年19期
6 王艳茹;马万军;温长峰;;相容商空间粒度下的话题倾向性研究[J];硅谷;2011年12期
7 王红玲;袁晓虹;王步康;周国栋;;依存关系上的中文名词性谓词识别研究[J];计算机工程与应用;2011年20期
8 王燕;侯敏;邹煜;;电影对白语言中的语音历时对比分析[J];计算机工程与应用;2011年22期
9 赵赟;;民生新闻语言特色研究[J];中国报业;2011年06期
10 宁慧;文雪巍;邹韵;吴良杰;;基于语义分析的数据驱动型漏洞检测方法[J];应用科技;2011年06期
中国重要会议论文全文数据库 前10条
1 孟凡东;徐金安;姜文斌;刘群;;异种语料融合方法:基于统计的中文词法分析应用[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 陈肖霞;王霞;;对朗读语料的音素标注与研究[A];第六届全国现代语音学学术会议论文集(下)[C];2003年
3 刘昆;张建平;颜永红;;统计语言模型中语料的选择[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
4 孟凡东;徐金安;姜文斌;刘群;;平仄信息对中文词法分析的影响[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
5 李正华;车万翔;刘挺;;基于XML的语言技术平台[A];第五届全国青年计算语言学研讨会论文集[C];2010年
6 诺明花;张立强;刘汇丹;吴健;丁治明;;汉藏短语抽取[A];第五届全国青年计算语言学研讨会论文集[C];2010年
7 蒋宏飞;曹海龙;杨沐昀;;基于大规模语料的中文词聚类研究与实现[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 刘亚斌;李爱军;;朗读语料与自然口语的差异分析[A];第六届全国人机语音通讯学术会议论文集[C];2001年
9 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
10 李勇龙;王承发;徐近霈;;特定领域电话语音数据库的建立[A];第四届全国人机语音通讯学术会议论文集[C];1996年
中国重要报纸全文数据库 前10条
1 温端政;山西社科院试建“汉语俗语语料数据库”[N];中国社会科学院院报;2003年
2 记者 侯梅竹;汉语语料检索系统问世[N];计算机世界;2004年
3 佟文柱;语料更实 题材更广 语速更快[N];中国教师报;2002年
4 陈劲宏;东方快车2003之新鲜体验[N];中国电脑教育报;2002年
5 记者 吕诺;掌握千字万词,即可看懂九成中文读物[N];新华每日电讯;2006年
6 本报记者 姚从权;我国自己的大规模口语库即将建成[N];中国社会科学院院报;2004年
7 通讯员 侯晓斌;运用现代科学技术研究中国传统文化[N];中国社会科学院院报;2006年
8 李琨;IBM百度共拓企业搜索[N];中国计算机报;2006年
9 李玉兰;中国语言文字观念正在变化[N];光明日报;2007年
10 本报记者 杨阳;瓦特开元:一条翻译流水线[N];经济观察报;2007年
中国博士学位论文全文数据库 前10条
1 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
2 王君泽;基于大规模问答语料的问题检索系统[D];华中科技大学;2010年
3 李思;WEB观点挖掘中关键问题的研究[D];北京邮电大学;2012年
4 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
5 周浪;中文术语抽取若干问题研究[D];南京理工大学;2010年
6 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
7 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
8 赵世奇;基于统计的复述获取与生成技术研究[D];哈尔滨工业大学;2009年
9 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
10 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
中国硕士学位论文全文数据库 前10条
1 于立平;图像视觉特征及其描述词汇的对齐研究[D];北京邮电大学;2010年
2 赵理莉;融合统计与规则技术的蒙古语词法分析研究[D];河南师范大学;2011年
3 刘娟;韩国政治类语料特点研究[D];中国人民解放军外国语学院;2005年
4 刘东生;面向专利文献的中文分词技术的研究[D];沈阳航空工业学院;2010年
5 毋菲;数值信息的抽取方法研究[D];山西大学;2010年
6 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
7 周吉;自然语言处理及搜索引擎的研究[D];吉林大学;2007年
8 李桂东;现代汉语动宾式动词的认知研究[D];上海外国语大学;2009年
9 王鲲;多智能体并行设计环境中自然语言通信功能的研究[D];中南大学;2002年
10 王晓斌;阜宁方言调查研究[D];南京师范大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026