Spark算子之combineByKey

在做数据分析时,往往会碰到很多K-V结构,而处理K-V这种Pair型的数据结构是非常常见的事。下面首先会对combineByKey的各个参数进行简单的介绍,然后通过一个实例来加深对...
阅读全文
机器学习算法比较 数据挖掘

机器学习算法比较

机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法并不容易,所以在实际应用中,如果只在寻找一个"足够好"的算法来解决问题,下面来分析下各个算法的优缺...
阅读全文
PCA主成分分析Python实现 数据挖掘

PCA主成分分析Python实现

PCA主成分分析,主要是用来降低数据集的维度,然后挑选出主要的特征。原理简单,实现也简单。关于原理公式的推导,本文不会涉及,你可以参考下面的参考文献,也可以去Wikipedia,这...
阅读全文