收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

一种分布式数据集上top-n异常点挖掘的高效算法

张重生  冯海军  陈红  梁思维  李翠平  
【摘要】:异常点挖掘是一种从数据中分析并发现潜在的反常对象的数据挖掘技术,它在实际生活中有很多的应用,如入侵检测、金融数据分析、病症数据分析等.异常点挖掘具体技术与所研究的数据类型和数据环境有密切关系,已有研究大多是假定数据是集中分布在一张单表上的,而实际应用中很多数据是分布式的.分析了水平分布的数据集上异常点挖掘的问题,并提出了一个改进的基于Birch的分布式数据集中上top-n异常点挖掘的算法MOD.MOD首先在各分支节点上提取聚类特征概要信息,并将其发送到查询节点.查询节点同步地构造特征向量树CF-tree,并使用K-Means算法对CF-tree的叶节点聚类生成微聚类.通过估量微聚类的异常值的范围,能够排除大量的不包含top-n异常点的微聚类,最后对剩余的候选微聚类中的对象做具体异常值计算.模拟实验验证了MOD能够避免大量数据的传输和集中,在不太影响检测结果的准确度的前提下,能够较好地提高异常点挖掘的效率.

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 杨飚,张曾科,孙政顺;非线性LTS稳健估计方法[J];清华大学学报(自然科学版);2005年10期
2 胡静;刘荣利;文成林;;基于相对主元分析的故障检测与诊断方法[J];弹箭与制导学报;2007年03期
3 刘远东;何丰;;一种基于频繁模式的增量式异常检测方法[J];计算机与现代化;2010年11期
4 陆介平;倪巍伟;孙志挥;;基于关联分析的高维空间异常点发现[J];应用科学学报;2006年01期
5 杨延娇;门维江;;基于异常点挖掘的聚类算法比较研究[J];甘肃联合大学学报(自然科学版);2008年01期
6 杨飚,张曾科,孙政顺;基于LTS稳健初值的选权迭代法[J];科学技术与工程;2005年22期
7 康晓林;程宪平;;高速实时信号检测系统[J];电子测量技术;2005年03期
8 张新荣;;基于鲁棒尺度的统计建模数据中异常点去除算法的研究及应用[J];计算机应用研究;2010年09期
9 陶运信;皮德常;;基于邻域和密度的异常点检测算法[J];吉林大学学报(信息科学版);2008年04期
10 周纯江,杜红文;面向反求技术的测量数据预处理[J];机电工程;2004年05期
11 李宗秀;鲍皖苏;汪翔;;基于Brier-Joye的Elgamal椭圆曲线密码体制研究[J];计算机工程;2006年23期
12 ;数据集N2[J];材料工程;1959年09期
13 李铁,邹立尧,国世友;东北地区低温气象资料数据集及其质量控制[J];应用气象学报;2004年S1期
14 王照,任雁铭;IEC 61850数据集模型的应用[J];电力系统自动化;2005年02期
15 吴骋,贺佳,王志勇;基于LibSVMs软件的基因表达数据处理[J];中国卫生统计;2004年04期
16 杨晓伟;闫丽;;基于模糊分割的支持向量机分类器[J];计算机工程与应用;2007年28期
17 ;《中国常用人口数据集》出版[J];人口研究;1994年04期
18 吴广潮;闫丽;杨晓伟;;基于模糊分割和邻近对的支持向量机分类器[J];计算机应用;2008年01期
19 卢鸣;;基于异常点处理和自劈分合并学习的聚类方法[J];福建电脑;2008年12期
20 童丽,曾泳泓,王正明;异常点剔除及其并行实现[J];数值计算与计算机应用;2000年03期
中国重要会议论文全文数据库 前10条
1 张重生;冯海军;陈红;梁思维;李翠平;;一种分布式数据集上top-n异常点挖掘的高效算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 张琦;乔卫勇;;RACF介绍[A];第二次计算机安全技术交流会论文集[C];1987年
3 梁一平;邓左祥;周小平;;一种多关系数据挖掘中元组ID传播的设计与实现[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
4 周晓云;孙志挥;张柏礼;胡文瑜;;一种基于单调递减阈值函数的高维数据集聚类算法[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
5 何增有;徐晓飞;邓胜春;宋玉福;;dNumber:超大范畴数据集的一个快速聚结算法(英文)[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
6 周晓峥;刘勘;孟波;周洞汝;;基于自组织映射的多维数据集的可视化及聚簇分析[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
7 刘晓艳;王丽珍;杨志强;陈红梅;;基于数学形态学的模糊异常点检测[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
8 李金玖;熊贇;朱扬勇;;不确定数据集上的k-Skyline查询[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
9 王树广;;分布式数据流上的连续异常检测[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
10 吴京生;封秀燕;;浙江自记降水数据集的制作过程[A];第四届长三角科技论坛论文集(下册)[C];2007年
中国博士学位论文全文数据库 前10条
1 吴毅;数字人全身分割数据集的建立及人体胸腔与盆腔的数字化研究[D];第三军医大学;2012年
2 郭晓君;关联课程数据组织及知识管理研究[D];武汉大学;2012年
3 纳赛尔 阿里 穆罕默德 巴拉卡特;复杂化学数据的知识发现新型化学计量学算法研究[D];湖南大学;2005年
4 张晨;数据流聚类分析与异常检测算法[D];复旦大学;2009年
5 马洁;蛋白质组肽段鉴定质量控制方法的研究与应用[D];中国人民解放军军事医学科学院;2010年
6 余雳;虚拟可视鼠样品制备技术研究[D];华中科技大学;2006年
7 丁淑妍;进化分析与结构预测中的若干问题研究[D];大连理工大学;2012年
8 李方涛;基于产品评论的情感分析研究[D];清华大学;2011年
9 冀进朝;针对多维混合属性数据的聚类算法研究[D];吉林大学;2013年
10 梅娟;复杂生物网络聚类分析方法[D];江南大学;2010年
中国硕士学位论文全文数据库 前10条
1 杨金伟;基于距离和信息熵的不确定异常点检测研究[D];云南大学;2011年
2 王春玉;非平衡数据集分类方法研究及其在电信行业中的应用[D];浙江大学;2011年
3 赵伯夷;基于神经网络的异常点挖掘[D];河北大学;2011年
4 张杰;基于支持向量机和蛋白质全序列的蛋白质—蛋白质相互作用预测[D];郑州大学;2010年
5 范先念;数据不平衡分类问题研究[D];中国科学技术大学;2011年
6 周东华;数据挖掘中聚类分析的研究与应用[D];天津大学;2006年
7 孟中楼;入侵检测中的数据集生成和使用技术研究[D];华中科技大学;2004年
8 王灿伟;类别不平衡数据的集成分类研究[D];山东师范大学;2012年
9 赵淑娟;基于非对称加权和核方法的不平衡数据集算法研究[D];南京邮电大学;2013年
10 曾聪;膜蛋白分类的特征提取算法和数据集构建技术研究[D];国防科学技术大学;2010年
中国重要报纸全文数据库 前10条
1 山水;艾斯本与NIST集合数据集[N];中国石化报;2007年
2 李宇;上市预披露将成市场常规[N];中国证券报;2008年
3 郭立;荣昌猪实现数字化[N];中国畜牧兽医报;2005年
4 记者 刘浪 通讯员 廖雅琴;中国首套数字化“可视人”数据集在渝通过成果鉴定[N];重庆日报;2003年
5 秦笃烈;解读 中国造女性数字人[N];健康报;2006年
6 李宇;港交所明年试验上市预披露计划[N];中国证券报;2007年
7 上海 陈纯;初识T-SQL,恋情的开始[N];电脑报;2004年
8 周青 编译;CDP:与快照相得益彰[N];计算机世界;2006年
9 本报记者 周仲全 实习生 蔡为伟;数字虚拟人:为承受人类苦痛而来[N];辽宁日报;2005年
10 本报记者  郝宗强;为社会和谐作贡献[N];人民日报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978