收藏本站
《中国电子学会第十六届信息论学术年会论文集》2009年
收藏 | 手机打开
二维码
手机客户端打开本文

增量学习的TFIDF_NB协同训练分类算法

刘欣  章勇  王娟  
【摘要】:TFIDF和NB(naive bayesian)都属于有监督的学习算法,采用人工分好类的文档集来训练分类器。训练集的规模会在很大程度上影响分类器的性能,然而获得大规模的已标记文档是不易的。本文在分析了EM算法的基础上,提出了一种新的协同训练算法。该算法利用Naive Bayes和TFIDF两种分类器结合少量已标记和大量未标记文档协同增量训练。实验结果表明,协同训练算法分类精度高,平均错误率较EM低,具有较好的性能。

【参考文献】
中国期刊全文数据库 前1条
1 姜卯生,王浩,姚宏亮;朴素贝叶斯分类器增量学习序列算法研究[J];计算机工程与应用;2004年14期
【共引文献】
中国期刊全文数据库 前10条
1 文翰;肖南峰;;基于特征分布的半监督分类[J];北京工业大学学报;2012年01期
2 刘光远;董立岩;苑森淼;李永丽;刘辉;;基于位差的属性选择算法[J];吉林大学学报(信息科学版);2007年01期
3 唐晓亮;韩敏;;一种基于极端学习机的半监督学习方法[J];大连理工大学学报;2010年05期
4 何尧;张顺淼;;利用未标识文档提高中心分类法性能的研究[J];电脑知识与技术(学术交流);2007年16期
5 李欢;;半监督学习及其在数据挖掘中的应用[J];电脑知识与技术;2010年27期
6 周城;葛斌;蒋林承;;一种基于消息中间件的网页实时处理技术[J];电脑知识与技术;2011年10期
7 李一龙;胡翰;;基于半监督学习与CORBA技术相结合的入侵检测技术[J];电脑知识与技术;2011年20期
8 戴新宇;田宝明;周俊生;陈家骏;;一种基于潜在语义分析和直推式谱图算法的文本分类方法LSASGT[J];电子学报;2008年08期
9 王娇;罗四维;曾宪华;;基于随机子空间的半监督协同训练算法[J];电子学报;2008年S1期
10 侯翠琴;焦李成;;基于图的Co-Training网页分类[J];电子学报;2009年10期
中国重要会议论文全文数据库 前5条
1 赵玲玲;周水生;王雪岩;;基于集成算法的半监督学习[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
2 赖英旭;李征;;未知病毒检测技术的研究[A];2006年全国理论计算机科学学术年会论文集[C];2006年
3 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
4 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
5 陈宁昱;周雅倩;黄萱菁;吴立德;;利用未标注语料改进实体名识别性能[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 尤著宏;基于图和复杂网络理论的蛋白质相互作用数据分析与应用研究[D];中国科学技术大学;2010年
2 张小平;主题模型及其在中医临床诊疗中的应用研究[D];北京交通大学;2011年
3 祁瑞华;不完整数据分类知识发现算法研究[D];大连理工大学;2011年
4 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
5 陈文清;基于免疫机理的水泥生产工艺故障智能诊断方法研究[D];华中科技大学;2011年
6 李明;面向计算机辅助诊断的胶囊内镜图像处理与分析技术研究[D];华中科技大学;2011年
7 王一川;基于内容的海量文本探索式查询导引中若干关键技术的研究[D];北京邮电大学;2011年
8 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
9 刘小兰;基于图和熵正则化的半监督分类算法[D];华南理工大学;2011年
10 陈义明;基于分类的蛋白质功能预测技术研究[D];国防科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 蒋延生;基于图的适应性相似度估算的半监督学习[D];大连理工大学;2010年
2 孔健;基于半监督学习的社团划分算法研究[D];辽宁师范大学;2010年
3 卢加磊;半监督学习中协同训练与多视图方法的比较及改进[D];中国海洋大学;2010年
4 朱莹婷;基于迁移学习理论的Markov检索模型[D];江西师范大学;2010年
5 张庆久;近邻法与多视角学习的理论与算法研究[D];华东师范大学;2011年
6 李保秀;中文文本分类技术研究[D];南昌大学;2010年
7 甘海涛;有监督的模糊聚类算法研究[D];武汉工业学院;2010年
8 赵全;基于半监督学习的中文问句分类研究[D];昆明理工大学;2010年
9 余养强;半监督学习若干问题的研究[D];福建师范大学;2010年
10 陈红;聚类技术及其应用研究[D];福建师范大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 王彦明;奉永桃;奉国和;;1999-2008年我国SVM文本分类文献计量分析[J];图书情报工作;2009年20期
2 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
3 萧嵘,王继成,孙正兴,张福炎;一种SVM增量学习算法[J];南京大学学报(自然科学版);2002年02期
4 陶品,张钹,叶榛;构造型神经网络双交叉覆盖增量学习算法[J];软件学报;2003年02期
5 彭彬彬,孙正兴,金翔宇;多值分类环境下基于SVM增量学习的用户适应性研究(英文)[J];南京大学学报(自然科学版);2004年02期
6 姜卯生,王浩,姚宏亮;朴素贝叶斯分类器增量学习序列算法研究[J];计算机工程与应用;2004年14期
7 杨森,徐海涛,柴乔林;应用支持向量机实现增量入侵检测[J];计算机工程与应用;2004年27期
8 刘璨;粗集神经网络过程监控模型的增量学习法[J];机床与液压;2004年01期
9 滕月阳,唐焕文,张海霞;一种新的支持向量机增量学习算法[J];计算机工程与应用;2004年36期
10 张仕华;王学业;;增量回归支持向量机改进学习算法[J];计算机工程与应用;2006年03期
中国重要会议论文全文数据库 前10条
1 刘欣;章勇;王娟;;增量学习的TFIDF_NB协同训练分类算法[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
2 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
3 包剑;冀明;冯军;;基于模糊支持向量机的文本分类[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年
4 张长利;左万利;彭涛;赫枫龄;彭钊;邵慧勇;;基于无监督聚类的PU文本分类方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
5 徐燕;王斌;李锦涛;孙春明;;知识增益:文本分类中一种新的特征选择方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 殷苌茗;陈焕文;谢丽娟;;基于最大期望学习算法的无标识文本分类[A];2002中国控制与决策学术年会论文集[C];2002年
7 马后锋;樊兴华;;一种改进的增量贝叶斯分类算法[A];2007'仪表,自动化及先进集成技术大会论文集(一)[C];2007年
8 陈东亮;白清源;;基于词频向量的关联文本分类[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
9 张健沛;李忠伟;杨静;;一种基于多支持向量机的并行增量学习方法(英文)[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
10 王玲;穆志纯;郭辉;;基于支持向量回归的增量建模方法[A];第25届中国控制会议论文集(上册)[C];2006年
中国博士学位论文全文数据库 前10条
1 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
2 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
3 赵强利;基于选择性集成的在线机器学习关键技术研究[D];国防科学技术大学;2010年
4 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
5 吴正江;L模糊粗糙集研究[D];西南交通大学;2009年
6 周瑛;神经网络作为分类器的算法研究及在信息检索中的应用[D];安徽大学;2006年
7 陈景年;选择性贝叶斯分类算法研究[D];北京交通大学;2008年
8 王利民;贝叶斯学习理论中若干问题的研究[D];吉林大学;2005年
9 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年
10 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 王懿;基于自然语言处理和机器学习的文本分类及其应用研究[D];中国科学院研究生院(成都计算机应用研究所);2006年
2 徐欣;基于粗糙集理论的文本分类研究[D];浙江理工大学;2011年
3 孟祥国;多类文本分类的支持向量机网络[D];山东大学;2007年
4 余从津;非线性维数约减的研究及其应用[D];天津大学;2004年
5 于楠;基于Ontology的领域知识库层次分类体系的构建[D];东北大学;2005年
6 赵城利;基于Web的信息智能感知技术及应用[D];国防科学技术大学;2004年
7 竭洋;基于模糊支持向量机的多类文本分类方法研究[D];兰州理工大学;2009年
8 谭新;基于语义特征提取的PU文本分类的研究与实现[D];吉林大学;2007年
9 张世荣;支持向量机文本分类算法研究[D];大连理工大学;2007年
10 许晓晴;基于SVM的文本分类算法研究[D];吉林大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026