收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于无监督聚类的PU文本分类方法

张长利  左万利  彭涛  赫枫龄  彭钊  邵慧勇  
【摘要】:以正例(P)和未标识实例集(U)训练分类器的文本分类算法(PU文本分类)是解决某些机器学习中训练样本获取代价过大、尤其是反例样本较难获取的实际问题.而传统的分类算法大都需要正例和反例数据集才能取得良好的效果,因此要使用传统的分类方法来解决面向PU的分类问题,U集中可信反例的提取是分类器能够取得良好效果的关键.提出了有效的可信反例提取算法(基于聚类的可信反例提取算法)——CBRN,并对已有的PU文本分类算法进行了改进,并提出了SPY-SVM算法.实验表明,该方法比目前其他的面向PU的文本分类方法具有更高的准确率和召回率.

知网文化
【相似文献】
中国期刊全文数据库 前1条
1 沈广军;;三催化DCS系统优化[J];中小企业管理与科技(上旬刊);2008年09期
中国重要会议论文全文数据库 前2条
1 张长利;左万利;彭涛;赫枫龄;彭钊;邵慧勇;;基于无监督聚类的PU文本分类方法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 张潮;李晨;王勇;张阳;;uPOSC4.5:一种针对不确定数据的PU学习决策树算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
中国硕士学位论文全文数据库 前4条
1 李晨;PU数据流挖掘研究[D];西北农林科技大学;2011年
2 张星;不确定数据的PU学习决策树研究[D];西北农林科技大学;2012年
3 何佳珍;不确定数据的PU学习贝叶斯分类器研究[D];西北农林科技大学;2012年
4 姚亮;基于DCS的PU反应釜监控系统设计与研究[D];合肥工业大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978