收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于K-最近距离方法的哈萨克语报纸分类初探

玛依来·哈帕尔  古丽拉·阿东别克  
【摘要】:本文利用K-最近距离的方法对哈萨克语报纸进行分类,初步实现了利用统计词频信息和语言信息相结合的方法选择特征词,且计算特征的权重值时不仅考虑词频。还利用了特征的集中度、分散度,经过训练和统计对哈萨克文文本形成特征的权重向量,之后根据K-最近距离判断测试文本的所属类别,从而实现了本文提出的哈萨克语报纸分类的目标。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 杨清,游星雅,蒋向红;基于智能信息处理的数字图书馆知识服务系统的研究与设计[J];计算机工程与科学;2004年10期
2 伍建军;康耀红;;一种基于特征词聚类的文本分类方法[J];情报理论与实践;2007年01期
3 黄显堂;;基于本体的语义Web文本分类探讨[J];图书馆;2009年03期
4 陈庆伟;;文本分类系统的设计和实现[J];科技情报开发与经济;2007年27期
5 王志玲;王效岳;;国内文本分类研究论文的统计分析[J];图书情报工作;2006年11期
6 牛玲;;一种基于向量空间模型的改进文本分类算法[J];情报杂志;2006年06期
7 台德艺;谢飞;胡学钢;;文本分类技术研究[J];合肥学院学报(自然科学版);2007年03期
8 陈莉;;基于岭回归和支持向量机结合的数据挖掘新方法[J];情报学报;2008年02期
9 白如江;王效岳;;一种混合文本分类方法研究[J];图书情报工作;2009年14期
10 张春红;谢卫;;基于SVM-KNN算法的特色数据库分类体系初探[J];情报科学;2009年11期
11 殷天石;孙济庆;;基于树型结构的SVM多类组合分类器在文本分类中的应用[J];情报杂志;2006年02期
12 苏志响;邵志清;;基于上下文统计反馈的中文特征词抽取方法[J];情报探索;2006年12期
13 王煜;白石;王正欧;;基于特征权重优化的改进KNN Web文本分类算法[J];情报学报;2007年05期
14 吕震宇;林永民;赵爽;朱卫东;;基于同义词词林的文本特征选择与加权研究[J];情报杂志;2008年05期
15 朱培毅,黄敏;基于Boosting算法的文本自动分类器模型设计[J];高校图书馆工作;2004年05期
16 梁丽;张洋;黄亚明;;应用人工神经网络实现网络资源评价指标体系的重构[J];现代图书情报技术;2006年05期
17 徐海涛;;不平衡文本的PSVM-2分类法[J];情报杂志;2010年09期
18 吴漂生;从关键词词频看我国读者工作的发展[J];现代情报;2005年10期
19 陈世立;高野军;;基于神经网络与贝叶斯的混合文本分类研究[J];情报杂志;2007年05期
20 李纲;程明结;寇广增;;基于情感倾向识别的汽车评论挖掘系统构建[J];情报学报;2011年02期
中国重要会议论文全文数据库 前8条
1 玛依来·哈帕尔;古丽拉·阿东别克;;基于K-最近距离方法的哈萨克语报纸分类初探[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
2 刘华;周凌燕;张普;;面向词典编撰的词汇聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
3 陈荃芳;;我局分类检索文档的现状及几点建议[A];专利法研究(1991)[C];1991年
4 孙雄勇;罗霄;;中图分类法体系下的自动分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
5 郑伟;季铎;蔡东风;;潜在语义索引中特征优化技术的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 王明文;付剑波;罗远胜;陆旭;;基于协同聚类的两阶段文本聚类方法研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
7 季铎;蔡东风;郑伟;于水;;基于相似序列的增量式K均值聚类算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 陈大富;;知识经济与智力资源开发——县级公共图书馆智力资源开发的思考[A];福建省图书馆学会“知识经济与图书馆服务”学术研讨会论文集[C];1999年
中国博士学位论文全文数据库 前2条
1 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
2 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
中国硕士学位论文全文数据库 前8条
1 张超林;文本分类技术在数字图书馆中的应用与研究[D];首都师范大学;2007年
2 甘新玲;循证医学网络文献的分类方法及其应用研究[D];大连海事大学;2008年
3 姜亦宏;海洋文献分类中极小化标注问题的研究[D];中国海洋大学;2009年
4 顾铖;图情档术语自动提取研究[D];南京大学;2011年
5 金晓鸥;互联网舆情信息获取与分析研究[D];上海交通大学;2008年
6 王志玲;基于神经网络的文本自动分类系统研究[D];山东理工大学;2007年
7 黄默丽;NLP技术在中文全文信息处理中的应用研究[D];郑州大学;2010年
8 郦芳;基于机器学习的生物多样性中文文档的信息抽取研究[D];华东师范大学;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978