收藏本站
《全国第八届计算语言学联合学术会议(JSCL-2005)论文集》2005年
收藏 | 手机打开
二维码
手机客户端打开本文

《人民日报》标注语料的初步统计分析

郭慧志  刘华  谢学敏  张普  
【摘要】:本文介绍了作者在人民日报标注语料库分析上的一些经验,提供了相关的研究结果。采用统计技术对熟语料库进行研究,其目的是为了汉语的自动分析。统计结果表明,即使语料标注经过了人工干预,其标注不一致的现象仍然是存在的,而这主要是由于现代汉语词类研究这一传统语言学的难点造成的,采用统计学习方法进行自动分析只是权益之计,基于语料库技术对词类进行深入研究将是我们今后努力的方向。

手机知网App
【参考文献】
中国期刊全文数据库 前2条
1 俞士汶,段慧明,朱学锋,孙斌;北京大学现代汉语语料库基本加工规范[J];中文信息学报;2002年05期
2 张普;关于大规模真实文本语料库的几点理论思考[J];语言文字应用;1999年01期
中国博士学位论文全文数据库 前1条
1 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
【共引文献】
中国期刊全文数据库 前10条
1 程勇,吴玺宏,迟惠生;汉语韵律边界定位与选音算法研究[J];北京大学学报(自然科学版);2004年03期
2 肖建涛;张仰森;谢宇;;面向汉语词义自动标注研究的软件平台开发[J];北京机械工业学院学报;2007年03期
3 李国英;周晓文;;字料库建设的必要性与可行性[J];北京师范大学学报(社会科学版);2009年05期
4 张普;;论语言的动态[J];长江学术;2008年01期
5 侯敏;;关于新词语编年本编纂的思考[J];辞书研究;2010年02期
6 昝红英;朱学锋;;面向自然语言处理的汉语虚词研究与广义虚词知识库构建[J];当代语言学;2009年02期
7 曲维光;唐旭日;俞敬松;;超大规模语料库精加工技术研究[J];当代语言学;2009年02期
8 黄德根;刘小华;李丽双;;汉英机器翻译中趋向动词处理研究[J];大连理工大学学报;2006年05期
9 代建英,何中市;基于词性信息的汉语时间语词消歧算法[J];重庆大学学报(自然科学版);2005年09期
10 刘亮;;现代汉语广义助词知识库构建与应用[J];光盘技术;2008年04期
中国重要会议论文全文数据库 前10条
1 俞士汶;朱学锋;段慧明;张化瑞;;以词义为主轴的综合型语言知识库[A];第六届汉语词汇语义学研讨会论文集[C];2005年
2 毛力群;;“拇指文化”演绎语言新时尚——手机短信的语体分析[A];第三届全国语言文字应用学术研讨会论文集[C];2004年
3 安娜;刘海涛;侯敏;;语料库中熟语的标记问题[A];第三届全国语言文字应用学术研讨会论文集[C];2004年
4 常宝宝;肖华云;;面向语言学家和词典编纂专家的汉英双语语料库检索系统[A];2004年辞书与数字化研讨会论文集[C];2004年
5 颜伟;;基于动态流通语料库的VSM新词发现策略[A];2004年辞书与数字化研讨会论文集[C];2004年
6 隋岩;张普;;基于“动态流通语料库”进行“有效字符串”提取的初步研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
7 张普;;关于控制论与动态语言知识更新的思考[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
8 张普;;流通度在IT术语识别中的应用分析——关于术语、术语学、术语数据库的研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
9 李芸;王强军;张普;;信息技术领域术语自动提取和动态更新研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
10 王强军;李芸;张普;;信息技术领域术语提取的初步研究[A];第一届学生计算语言学研讨会论文集[C];2002年
中国博士学位论文全文数据库 前10条
1 吴善子;汉韩反诘语气副词对比研究[D];上海外国语大学;2010年
2 周扬;面向中药药性多维表征体系的中药本体研究[D];山东中医药大学;2010年
3 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
4 何婷婷;语料库研究[D];华中师范大学;2003年
5 隋岩;基于“动态流通语料库”的“有效字符串”提取研究[D];北京语言大学;2004年
6 杨建国;基于动态流通语料库(DCC)的汉语熟语单位研究[D];北京语言大学;2005年
7 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
8 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
9 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
10 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年
中国硕士学位论文全文数据库 前10条
1 张军珲;基于统计的常用汉语副词用法自动识别研究[D];郑州大学;2010年
2 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
3 郭瞳康;基于词典的中文分词技术研究[D];哈尔滨理工大学;2010年
4 谷文;基于概念树的Web信息抽取技术研究[D];长春工业大学;2010年
5 孙蝉娟;航空器及其安全领域术语定义的自动抽取[D];南京航空航天大学;2010年
6 范敏敏;企业经营范围字段自动分类方法研究[D];哈尔滨工业大学;2010年
7 高建忠;汉语动宾搭配的自动识别研究[D];北京语言文化大学;2000年
8 李波;一种基于统计的汉语多义词排歧方法[D];大连理工大学;2000年
9 王蕾;基于动态流通语料库的信息技术领域术语通用化研究[D];北京语言文化大学;2003年
10 谢学敏;深层修辞的内部特性及其建构机制研究[D];云南师范大学;2003年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
2 韩客松,王永成,陈桂林;汉语语言的无词典分词模型系统[J];计算机应用研究;1999年10期
3 王晓龙,王开铸,李仲荣,白小华;最少分词问题及其解法[J];科学通报;1989年13期
4 邢红兵;信息领域汉英术语的特征及其在语料中的分布规律[J];术语标准化与信息技术;2000年03期
5 全如瑊;术语的理论与实践 第一部分 引言[J];术语标准化与信息技术;2001年01期
6 张普;关于网络时代语言规划的思考[J];语文研究;1999年03期
7 张普;关于语感与流通度的思考[J];语言教学与研究;1999年02期
8 黄昌宁;关于处理大规模真实文本的谈话[J];语言文字应用;1993年02期
9 张普;中文信息处理专题研究 主持人的话[J];语言文字应用;2000年02期
10 张普;信息处理用语言知识动态更新的总体思考[J];语言文字应用;2000年02期
中国重要会议论文全文数据库 前3条
1 张普;;流通度在IT术语识别中的应用分析——关于术语、术语学、术语数据库的研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
2 李芸;王强军;张普;;信息技术领域术语自动提取和动态更新研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
3 刘桐菊;于浩;杨沐昀;;基于TFIDF的专业领域词汇获取的研究[A];第一届学生计算语言学研讨会论文集[C];2002年
中国硕士学位论文全文数据库 前1条
1 岳炳词;面向语言学研究的大规模汉语生语料库检索工具CCRLT[D];北京工业大学;2001年
【相似文献】
中国期刊全文数据库 前10条
1 胡宜课;信息高速公路与中文信息处理技术[J];计算机工程;1996年S1期
2 张俊林;曲为民;杜林;孙玉芳;;跨语言信息检索研究进展[J];计算机科学;2004年07期
3 谢谦;芮建武;吴健;;编码字符集标准及分类研究[J];中文信息学报;2006年05期
4 陈丹;李宁;李亮;;古文字的联机手写识别研究[J];北京机械工业学院学报;2008年04期
5 林浩;韩冰;杨乐华;;一种基于改进最大匹配快速中文分词算法[J];科技创新导报;2009年09期
6 吴新年;数字图书馆技术之进展[J];图书与情报;2000年02期
7 高定国,龚育昌;现代藏字全集的属性统计研究[J];中文信息学报;2005年01期
8 凌祺,樊孝忠;领域词汇自动获取的研究[J];微机发展;2005年08期
9 翟伟斌;周振柳;蒋卓明;许榕生;;汉语分词词典设计[J];计算机工程与应用;2007年01期
10 祁文青;;一种改进的中文分词算法[J];黄石理工学院学报;2007年04期
中国重要会议论文全文数据库 前10条
1 郭慧志;刘华;谢学敏;张普;;《人民日报》标注语料的初步统计分析[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 王庆林;刘文;;图书馆系统的定量分析与管理——图书馆数据的统计、建模、预报及控制与决策[A];1995中国控制与决策学术年会论文集[C];1995年
3 龚妙昆;万福永;;用统计方法和小波变换确定心电图数据中的R波[A];2006中国控制与决策学术年会论文集[C];2006年
4 熊锦程;杜有如;;NMR弛豫时间测量的计算机数据处理——数据拟合的统计分析[A];第六届全国波谱学学术会议论文摘要集[C];1990年
5 ;中国中文信息学会交流材料[A];2011年网络学术交流研讨会交流材料[C];2011年
6 孙玉芳;;中文信息处理与国家信息化建设[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
7 陈旭;黄泽谦;彭煜玮;曾承;彭智勇;;网上专利个性化管理与服务系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 刘汇丹;芮建武;吴健;;藏文网页的编码识别与转换[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
9 ;前言[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 刘春荣;;我国当务之急是解决中文书写方式的根本变革[A];中国中文信息学会汉字编码专业委员会第九届年会暨学术研讨会论文集[C];2011年
中国重要报纸全文数据库 前10条
1 记者 梁捷;我国中文信息处理技术从实验室走向全面应用[N];光明日报;2009年
2 姚双云 华中师范大学语言与语言教育研究中心;虚词知识库:中文信息处理的基石[N];中国社会科学报;2011年
3 张波 龙雨;中文信息处理国际学术会议在武汉大学召开[N];中国社会科学院院报;2007年
4 记者 韩晓玲通讯员 张波 龙雨;海内外专家聚焦中文信息处理[N];湖北日报;2007年
5 胡唯元;文字编码新标准:不再为“名”所累[N];科技日报;2006年
6 许伟;金友兵 破局国外办公套件垄断[N];中国企业报;2008年
7 ;浙江天宇信息技术有限公司[N];中国计算机报;2009年
8 易言;CRM让您轻松与“上帝”沟通[N];国际商报;2002年
9 记者 刘永龙;我省提升冶金矿山信息统计水平[N];河北经济日报;2010年
10 中文信息学会课题组;如何提高国产手机汉字输入法的市场竞争力[N];语言文字周报;2007年
中国博士学位论文全文数据库 前10条
1 李江;红外图像人脸识别方法研究[D];国防科学技术大学;2005年
2 高国福;中国肿瘤防治数据库的建立[D];中国协和医科大学;2006年
3 刘艳丽;室外场景的光照分析研究[D];浙江大学;2009年
4 陈佳;交通运输信息化建设中开发方法和设计模式的作用机理研究[D];大连海事大学;2008年
5 刘磊;概念内涵属性计算研究[D];上海交通大学;2011年
6 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
7 吴应良;网络计算中的智能信息处理方法研究[D];华南理工大学;2000年
8 梁添才;基于认知机理的汉字智能造字研究[D];华南理工大学;2008年
9 李海奎;统计分析软件研制中的几个问题[D];中国林业科学研究院;2005年
10 卢建平;基于拓扑学和统计学的无字库汉字智能造字研究[D];华南理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 王敏;基于改进的隐马尔科夫模型汉语词性标注[D];山西大学;2007年
2 党兰学;汉字语法语义智能输入法总体设计与部分实现[D];河南大学;2006年
3 白晓梅;校园网中文搜索引掣系统的设计与实现[D];吉林大学;2006年
4 曹林峰;中文文字差错率统计软件的实现[D];西安电子科技大学;2007年
5 冯云;一种基于神经网络和多元统计分析的动态预测建模方法[D];哈尔滨工程大学;2005年
6 李华明;基于中国人面貌形态学特征的人脸姿态估计方法研究[D];西北大学;2005年
7 张玉华;基于码本的输入法评测系统的设计和实现[D];苏州大学;2005年
8 杜莹;汉字语法语义智能输入法核心算法及实现技术[D];河南大学;2006年
9 徐瑞;一个中文语义语料库的研究与建设[D];苏州大学;2006年
10 刘杰;基于唐诗语料词的提取与统计分析的研究[D];吉林大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026