电力大数据属性约简方法的研究
【摘要】:针对目前电力数据预处理面对多类型、海量、实时以及可靠性的特点,传统的属性约简算法难以处理大数据量和消除冗余,并且对包含连续型数据的电力信息表也不能有效处理。因此,本文提出了基于Spark内存计算的模糊属性约简算法,综合运用模糊集理论和粗糙集理论,。利用spark计算架构设计实现了数据并行和任务并行,通过计算属性依赖度实现冗余属性约简。通过在实验室云计算集群上的运行实验,并与现有的基于hadoop技术的约简方法进行对比,证明了提出算法的有效性。
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||||||||||||||||||
|
|
|||||
|