聚类分析中的可视化

数据分析学习社

348
文章

0
评论

2021-05-2509:45:29 评论 1,435 1107字

摘要

当数据没有标签或者有少量标签的时候，我们需要使用聚类分析来发现数据的模式。便于理解聚类分析的结果或者效果，如何对聚类分析做可视化呢？

问题提出

当数据没有标签或者有少量标签的时候，我们需要使用聚类分析来发现数据的模式。便于理解聚类分析的结果或者效果，如何对聚类分析做可视化呢？

解决方法

第一步：安装和加载聚类分析R包-factoextra

library(pacman)
p_load(factoextra)

第二步：导入数据集，采用R语言自带的USArrests

# 导入数据集
data("USArrests")
# 数据集理解
?USArrests
# 数据集检视
head(USArrests)

第三步：数据集准备与处理，对数据集做标准化处理，每列转换为均值为0，标准差为1

df <- scale(USArrests)
head(df, 10)

第四步：聚类分析及可视化。

不管是层次聚类还是划分聚类，都要寻找一个距离度量。然后根据计算后的距离，采用不同的策略进行数据集的汇聚。

4.1 基于相关系数的距离度量和可视化

res.dist <- get_dist(df, method = "pearson")
head(round(as.matrix(res.dist), 2))[, 1:6]
# 可视化相关系数矩阵
fviz_dist(res.dist, lab_size = 8)

聚类分析中的可视化

4.2 增强型分层聚类和可视化

res.hc <- eclust(df, "hclust")
fviz_dend(res.hc, rect = TRUE) # 树图
fviz_cluster(res.hc) # 散点图
fviz_silhouette(res.hc) # 轮廓图

分层树图

聚类分析中的可视化

聚类散点图

聚类分析中的可视化

轮廓图

聚类分析中的可视化

4.3 增强型K均值聚类和可视化

res.km <- eclust(df, "kmeans", nstart = 25) #聚类的散点图
fviz_gap_stat(res.km$gap_stat) # 不同K值下Gap 统计图，指导选择最佳K值
fviz_silhouette(res.km) # 轮廓图，每种聚类下面的分布情况

聚类散点图

聚类分析中的可视化

不同K值Gap统计图

聚类分析中的可视化

轮廓图

聚类分析中的可视化

k均值结果可视化的其他表示方式

p_load(cluster, fpc)
plotcluster(USArrests, res.km$cluster)

聚类分析中的可视化

clusplot(USArrests, res.km$cluster, color=TRUE, shade=TRUE,
labels=2, lines=0)

思考题

如何查看聚类结果的详细信息
如何对K均值聚类的中心点做可视化分析

End.

作者：数据人网

本文为转载分享，如果涉及作品、版权和其他问题，请联系我们第一时间删除（微信号：lovedata0520）

更多文章前往首页浏览http://www.itongji.cn/

历史上的今天

5 月

2020数据分析的4个步骤及如何把每个步骤做更好

我的微信公众号
微信扫一扫

我的微信公众号
微信扫一扫

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

问题提出

解决方法

思考题

历史上的今天

您可以选择一种方式赞助本站

支付宝扫一扫赞助

微信钱包扫描赞助

发表评论 取消回复

登录 注册 找回密码

发表评论取消回复

登录注册找回密码