收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

《人民日报》1998年语料库中若干基本语言数据的统计与分析

胡景贺  
【摘要】:本文汇报了对“北京大学计算机语言所1998年《人民日报》语料库”半年语料的统计分析工作。其中统计了语料库中的词频、词在词类上的分布、词类的二元和三元共现、词与二元及三元词类的共现、各种共现在句子首尾端的边界分布。本文还对上述统计结果进行了分析,着重讨论了高频词语词类的分布以及句子的边界情况.这些结论对于该语料库的全面分析提供了重要的基础数据。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘美茹;吴岩;刘挺;王开铸;于明光;;用计算机对文章意义段划分初探[J];东北测绘;1997年04期
2 梁丽;张洋;黄亚明;;应用人工神经网络实现网络资源评价指标体系的重构[J];现代图书情报技术;2006年05期
3 郭玲;孟祥逢;张峰;;基于最大匹配法的中文分词技术改进[J];舰船电子工程;2009年12期
4 史彦军,滕弘飞,金博;抄袭论文识别研究与进展[J];大连理工大学学报;2005年01期
5 康伟;;大规模单语语料的索引及检索[J];鞍山科技大学学报;2007年01期
6 阿里甫·库尔班;吾买尔江·库尔班;吐尔根·伊布拉音;;信息处理维吾尔语词语分类体系及标记研究(Ⅰ)[J];新疆大学学报(自然科学版);2009年04期
7 关毅,王晓龙,张凯;现代汉语计算语言模型中语言单位的频度—频级关系[J];中文信息学报;1999年02期
8 李国强;李瑞芳;;基于计算机的词频统计研究——考证《红楼梦》作者是否唯一[J];沈阳化工学院学报;2006年04期
9 龚伟;瞿堃;李柳柏;;智能决策支持的E-mail过滤模型[J];计算机工程与设计;2008年04期
10 胡强;;优化的互信息特征选择方法[J];湖南师范大学自然科学学报;2010年03期
11 朱颢东;陈宁;李红婵;;优化的互信息特征选择方法[J];计算机工程与应用;2010年26期
12 方华,王振华,陆汝占,刘绍明;运用改进的分词方法进行外国译名识别的研究[J];计算机仿真;2005年03期
13 邓擘;樊孝忠;杨立公;;基于统计分布与集合论的文本分类方法[J];北京理工大学学报;2006年07期
14 夏新松;肖建国;;一种新的错误驱动学习方法在中文分词中的应用[J];计算机科学;2006年03期
15 姜文志;蒋伟俊;张金乙;王迪;;军用词典库的设计[J];兵工自动化;2007年08期
16 林洁;;个性化综合倒排索引在Lucene中的应用[J];电脑知识与技术;2010年04期
17 高松;冯志伟;;基于依存树库的文本聚类研究[J];中文信息学报;2011年03期
18 李蓉蓉;同义异形词的词频实验统计[J];实验室研究与探索;2004年11期
19 张鹏飞,李赟,刘建毅,钟义信;基于相对词频的文本特征抽取方法[J];计算机应用研究;2005年04期
20 钟文青,徐秉铮;音字转换系统中字词频的智能调整[J];华南理工大学学报(自然科学版);1995年10期
中国重要会议论文全文数据库 前10条
1 胡景贺;;《人民日报》1998年语料库中若干基本语言数据的统计与分析[A];第一届学生计算语言学研讨会论文集[C];2002年
2 亢世勇;刘海润;;基于数据库的现代汉语词类优势语法功能统计研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
3 袁里驰;钟义信;;一种新颖的词聚类算法[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
4 丁德鑫;曲维光;于丽丽;陈小荷;李惠;;基于词频和语义信息的组合型歧义消解[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 陈玉忠;;信息处理用现代藏语词语的分类方案[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
6 卢延科;尹宝生;张桂平;苗雪雷;白宇;;基于伪LCS的中文专利句子相似度计算方法[A];第五届全国信息检索学术会议论文集[C];2009年
7 耿崇;宋丹;薛德军;张灿;;基于词位置与同现特征的中文自动文摘研究[A];第五届全国信息检索学术会议论文集[C];2009年
8 林哲民;;为微型语料库标记词类使用田野调查人员记录及基于转换的自动学习[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 罗海飞;虞立群;章志凌;邵晓敏;陈林;汪更生;陈弈秋;何伟杰;;一种改进型CHI的特征抽取方法[A];第二十四届中国控制会议论文集(下册)[C];2005年
10 李军辉;朱巧明;李培峰;;一个基于最大熵模型的文本分类方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
中国博士学位论文全文数据库 前1条
1 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 任美睿;数字图书馆中词频提取和自动文本分类方法的研究[D];黑龙江大学;2002年
2 杨晖;基于标签分类内容共享平台的网页自动文摘模型[D];重庆大学;2007年
3 程娟;中文文档自动摘要技术[D];山东大学;2006年
4 林洁;基于综合倒排索引的个性化搜索技术研究[D];贵州大学;2008年
5 樊波;非智能手机输入法的设计与实现[D];北京邮电大学;2012年
6 岑杰;面向情报领域的文本自动分类系统的设计与实现[D];西安电子科技大学;2008年
7 许海云;搜索查询词与广告相关性研究[D];厦门大学;2007年
8 郑晓亮;基于改进FCM算法的无字典中文文本聚类方法研究[D];浙江大学;2007年
9 王倩;中文文本分类技术的研究[D];北京化工大学;2007年
10 王为磊;基于多目标优化的中文分词模型的研究[D];苏州大学;2008年
中国重要报纸全文数据库 前3条
1 北京 林爽;神奇的英文词典WordNet[N];电脑报;2005年
2 王志军;Google输入法的六大特色功能[N];中国电脑教育报;2007年
3 新疆出版技校 胡建芬;版面设计的基本视觉元素[N];新疆科技报(汉);2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978