100种分析思维模型（012号）

林骥

44
文章

0
评论

2021-08-2810:15:38 评论 530 2116字

摘要

你好，我是林骥。俗话说：物以类聚，人以群分。今天介绍第 012 号分析思维模型：聚类分析模型。

1. 模型介绍

聚类分析，也被称为群分析，就是把一些原来没有分类的数据，通过某种算法，让相似的数据「聚」在一起，划分为不同的「类」，从而揭示出数据内在的特征和规律。

比如说，我们现在有客户的性别、年龄、地区等个人信息，还有 RFM 等购物信息，如果是要分析客户的购物特征，那么可以先排除客户的个人信息，只使用购物信息进行聚类，从而避免聚类结果被个人信息所影响。

当我们得到聚类结果之后，可以再结合客户的个人信息，把客户分成若干个不同的类别，给客户打上相应的标签，按照二八法则，识别出优质客户，提供个性化的服务，从而为客户创造价值。

聚类分析属于一种无监督学习，类似于我们认知事物的过程。

当我们面临大量未知的事物时，可以通过寻找其中的规律，挖掘数据内部的分布特性，反映出数据之间的异同，从而建立一套划分的方法，让我们更加深入地了解事物的内在特征，从而提高了我们认知事物的能力。

比如说，当你进入一个陌生的群体时，没有人帮你介绍，你根据外貌、性格、行为等方面，将不同的人划分为不同的类别，并根据经验来定义类别的标签，例如：高富帅、白富美、谨慎型、外向型、体贴型等等。

这个过程就属于无监督学习，因为事先无人教你。

而对于监督学习，就好像有一位老师在旁边教你，这位老师对群体里面的每一个人都很熟悉，他会向你介绍每一个人，帮你先做好了分类，并且贴好了标签。

但是，当老师提供的信息有误时，就会导致你的认知出现偏误。

假如来了一个「异类」，不属于老师所介绍的任一类型，那么就会导致你无法做出正确的判断。

聚类分析模型在很多学科都有重要的应用，包括数学、统计学、计算机科学、经济学和生物学等等。

在商业上，可以用来发现不同的客户群体；在生物上，可以用来对动植物和基因进行分类。

2. 应用举例

下面以 sklearn 中自带的鸢尾花数据集为例，对它进行聚类分析。

为了方便进行数据可视化，我们只选取数据集中的 2 个变量：花萼长度和花瓣长度。

# 导入相关库import numpy as npimport matplotlib.pyplot as pltfrom matplotlib.colors import ListedColormapfrom sklearn import datasetsfrom sklearn.cluster import KMeans# 加载鸢尾花数据集iris = datasets.load_iris()# 为了方便可视化，只选取 2 个特征X = iris.data[:, [0, 2]]# 设置聚类的数量n_clusters = 3# 调用 K-means 聚类算法km = KMeans(n_clusters)km.fit(X)# 聚类的标签lbs = km.labels_# 聚类的中心点cts = km.cluster_centers_# 定义绘制决策边界的函数def plot_decision_boundary(model, axis):    # 生成绘图数据    x0, x1 = np.meshgrid(        np.linspace(axis[0], axis[1], int((axis[1]-axis[0])*100)).reshape(-1,1),        np.linspace(axis[2], axis[3], int((axis[3]-axis[2])*100)).reshape(-1,1)    )    X_new = np.c_[x0.ravel(), x1.ravel()]    # 用模型进行预测    y_predict = model.predict(X_new)    zz = y_predict.reshape(x0.shape)    # 定义颜色    custom_cmap = ListedColormap(["#EF9A9A","#FFF59D","#90CAF9"])    # 绘图    plt.contourf(x0, x1, zz, cmap=custom_cmap) # 设置图形大小plt.figure(figsize=(8, 6))# 绘制决策边界plot_decision_boundary(km, axis=[3, 8, 0, 8])# 绘制散点图for c in range(n_clusters):    plt.scatter(X[lbs == c, 0], X[lbs == c, 1])# 画出每个聚类的中心点plt.scatter(cts[:, 0], cts[:, 1], marker="*", c="r", alpha=0.9, s=200)# 显示图形plt.show()

运行代码，结果如下：

其中不同的颜色代表不同的类别，红色的五角星符号代表聚类的中心点。

最后的话

做聚类分析的时候，首先要考虑解决的问题是什么，然后再选择适当的变量进行聚类。

最后，我们一定要记住：不要脱离业务问题谈模型，而要让模型更好地为业务决策服务。

End.

爱数据网专栏作者：林骥

作者介绍：数据赋能者，专注数据分析 10 多年。

个人公众号：林骥（linjiwx）

本文为挖数网专栏作者原创文章，未经允许禁止转载，需要转载请微信联系授权（微信号：lovedata0520）

更多文章前往爱数据社区网站首页浏览http://www.itongji.cn/

历史上的今天

8 月

我的微信公众号
微信扫一扫

我的微信公众号
微信扫一扫

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

历史上的今天

您可以选择一种方式赞助本站

支付宝扫一扫赞助

微信钱包扫描赞助

发表评论 取消回复

登录 注册 找回密码

发表评论取消回复

登录注册找回密码