ThisAmy

AI算法工程师 | 07机器学习-无监督学习（一）聚类系列算法

文章目录

前言
导图 - 文章框架
机器学习 - 无监督学习之聚类系列算法
- 一、聚类的基本介绍
- - 1. 了解聚类任务
  - 2. 聚类算法
  - 3. 相似度与数据间的相似度
  - 4. 欧氏距离测度与余弦距离测度
- 二、K-Means 聚类
- - 1. K-Means 算法具体流程
  - 2. K-Means 的特点
  - 3. K-Means 的损失函数
  - 4. K-Means 算法 K 的选择
- 三、K-Means 的变形
- - 1. K-Medoids
  - 2. 二分 K-Means
  - 3. K-Means++
  - 4. Mini Batch K-Means
  - 5. Canopy 聚类
  - 6. K-Means 代码测试不同情况下的聚类效果
- 四、层次聚类
- - 1. 分裂法
  - 2. 凝聚法
- 五、密度聚类
- - 1. DBSCAN 密度聚类算法
  - 2. 基于 sklearn 的密度聚类代码
- 六、谱聚类（了解即可）
- - 1. 构图
  - 2. 切图
  - 3. 基于 sklearn 的谱聚类代码

前言

本阶段将开启无监督机器学习的旅程。对于无监督机器学习问题，主要有两种：聚类、降维

聚类 Clustering

本质：根据样本和样本之间的相似度归堆
目标：将一批数据划分到多个组
应用：用户分组、异常检测、前景背景分离

降维 Dimensionality Reduction

本质：去掉冗余信息量或噪声
目标：将数据的维度减少
应用：数据的预处理、可视化、提高模型计算速度

小贴士：
① 聚类就是分组（归堆）；降维类似于换个角度去审视原来的数据。
② 由于维度越多，速度越慢。所以，为提高模型运行速度，通常会做降维的任务。

导图 - 文章框架

机器学习 - 无监督学习之聚类系列算法

一、聚类的基本介绍

1. 了解聚类任务

什么是聚类任务？

属于：无监督机器学习的一种
目标：将已有数据根据相似度划分到不同的簇（组） custer
待达到的效果：簇内样本彼此之间越相似，不同簇的样本之间越不相似，就越好（即：尽可能让组内的相似程度大，组与组之间的相似程度小）

什么情况下要用到聚类？

希望把已知的无标签的数据，划分到不同组中时，可用聚类任务去做
聚类不仅仅可以把已知的数据划分到组中，对未来数据也可进行预测
通过聚类，做异常检测（如：设置一个阈值 Threshold，若某样本点到所有中心点的距离都比阈值大，则该样本点为异常点）

2. 聚类算法

从图中可以看出，不同的聚类算法，对于不同的数据分布场景，其聚类效果有所不同。

本文将针对 K-Means 聚类、层次聚类、密度聚类以及谱聚类展开介绍。

小贴士

scikit-learn：是针对 Python 编程语言的免费软件机器学习库

关于 scikit-learn 的社区地址：外语：scikit-learn.org；中文：scikit-learn.org.cn

3. 相似度与数据间的相似度

3.1 相似度

对于相似度的判断，站在不同的角度会有不同的结果：

不同测量相似度的方式，会得到不同的结果
不同提特征的方式（即：注意力不同），结果不同
计算方式不同，相似度也不同

举例：

看图说话 image caption

3.2 数据间的相似度

概念：

每一条数据都可以理解为多维空间中的一个点
可以根据点和点之间的距离来评价数据间的相似度

欧氏距离、闵mǐn可夫斯基距离：

图解：

小贴士

这些距离可用 “向量的范数” 进行表示，感兴趣的伙伴可阅读：04人工智能基础-高等数学知识强化（三）线性代数基础之向量 —— 文中的 “向量到原点的范式” 部分

4. 欧氏距离测度与余弦距离测度

如何计算样本到中心点的距离？通常有两种方式：① 欧氏距离测度、② 余弦距离测度

4.1 欧氏距离测度 Euclidean Distance Measure

公式：（也就是上文中的欧式距离）

$euclidean(A,B)=\sqrt{\sum_{i=1}^{n}(A_i -B_i)^{2}}$

说明：欧氏距离越大，相似度越低

4.2 余弦距离测度 Cosine Similarity Measure

步骤:

将数据映射为高维空间中的点（向量）
计算向量间的余弦值
余弦相似度的取值范围 [-1,+ 1]，它判断的是向量之间的方向而不是大小
- 越趋近于 1 代表越相似（两向量方向相同），越趋近于 -1 代表方向相反，0 代表正交（两向量方向相对成90°）

公式：（余弦相似度）

$cos(\theta) = \frac{A\cdot B}{\left \| A \right \|\left \| B \right \|} = \frac{\sum_{i=1}^{n}A_iB_i}{\sqrt{\sum_{i=1}^{n}A_i^{2}}\sqrt{\sum_{i=1}^{n}B_i^{2}}}$

说明：夹角越大，余弦值越小，相似度越低

小贴士

余弦距离 = 1 - 余弦相似度

∴ 余弦距离的取值范围：[0, 2]

4.3 选择欧氏距离还是余弦距离？

总结：

欧氏距离：体现数值上的绝对差异；
余弦距离：体现方向上的相对差异。

举例：

示例1：统计两部剧的用户观看行为
- 假设用户 A 的观看向量为（0，1），用户 B 为（1，0）；
- 此时二者的余弦距离很大，而欧氏距离很小；
- 我们分析两个用户对于不同视频的偏好，更关注相对差异，显然应当使用余弦距离。
示例2：分析用户活跃度
- 当以登陆次数（单位:次）和平均观看时长（单位:分钟）作为特征时，
- 余弦距离会认为（1，10）、（10，100）两个用户距离很近；
- 但显然这两个用户活跃度是有着极大差异的，此时我们更关注数值绝对差异，应当使用欧氏距离。

小贴士

欧氏距离测度是常用的距离测度

余弦距离测度更适用于文本：余弦相似度可以评价文章的相似度，从而实现对文章，进行分类

4.4 归一化后欧氏距离与余弦距离在效果上等效

概述：

如果向量的模长是经过归一化的，可以理解为此时向量被投影到了一个长度为 1 的球面上
这时欧氏距离和余弦距离有着单调的关系，即
$||\frac{A}{\begin{Vmatrix}A\end{Vmatrix}}-\frac{B}{\begin{Vmatrix}B\end{Vmatrix}}||_2=\sqrt{2∗(1-cos(A,B))}$

推导：

说明：

在向量的模长归一化的场景下，谁距离最小（相似度最大）就是近邻，那么使用余弦相似度和欧氏距离的查找近邻结果是相同的。

小贴士

参考：余弦相似度和余弦距离的推导与理解

二、K-Means 聚类

❥ K-Means 聚类属于聚类任务的算法之一

1. K-Means 算法具体流程

为什么叫 K-Means 聚类？

也叫：K均值聚类
K：是最终簇数量（即：K 往往代表类别的个数），它是超参数，需要预先设定
在算法计算中会涉及到求均值

K-Means 算法的流程

随机选择 K 个簇中心点（可以选已有的数据作为中心点，也可直接选高维空间中的位置）
样本被分配到离其最近的中心点
K 个簇中心点根据所在簇样本，以求平均值的方式重新计算
开始迭代，重复第2步和第3步直到所有样本的分配不再改变

举例

K-Means 必须首先知道要分为几个组（即：K 需要预先设定）

假设 K = 3，这三个类别的位置，开始是不知道的：

随机选择三个样本点，作为三个类别的初始中心点
通过机器学习算法，不断的迭代，逼近最优结果
迭代：求样本点分别距离这三个中心点的距离，把各样本归入距离中心点最近的那组

问：K-Means 要干的事情是什么？

答：求平均

每个样本点相加除以组中样本个数 → 得到中心位置
当中心点位置变了时，各样本点到中心点的距离便会变，需再次求平均
以此往复，直到中心点位置不变 → 即：收敛了

问：迭代终止条件是什么？

答：没有新的样本点被划分进某组（即：所有样本的分配不再改变；也可以理解为：中心点的位置不再变化）

2. K-Means 的特点

优点：

简单，效果不错（对于大部分数据集而言）

缺点：

对异常值敏感（若有异常值，无论划分到哪个组，均会影响该组内的平均值计算）
对初始值敏感（若随机的中心点距离较近，多次得到的结果极可能不同，可能是局部最优解）
- K-Means 算法不保证找到最好的解（即：不保证收敛全局最优）
- 通常的做法：运行 K-Means 很多次，每次随机初始化不同的初始中心点，然后从多次运行结果中选择最好的局部最优解
对某些分布聚类效果不好（如：当样本的方差不相等时聚类效果不好）

3. K-Means 的损失函数

目标函数

聚类问题的损失函数：求各个样本点到对应簇的中心点的误差平方和

小贴士

参考1：K-Means算法详细介绍(SSE、轮廓分析)

参考2：参数误差统计：SSE、SSR、SST、R_square、MSE、RMSE

4. K-Means 算法 K 的选择

对于聚类数 K 的选择，其中一种方式便是肘部法（elbow method）

肘部法

目标：（找到最合适的点——拐点）

找到一个 K，使得高于该值之后的收益会发生递减；
这个 K 值，称为肘部点（elbow point），因为它看起来像一个人的肘部。

如何判断拐点？

求幅度差（收益 gain），找收益最大的点（如上图所示），也就是一开始下降最快的点

动图-演示：

小贴士

没有所谓最好的选择聚类数的方法，通常是需要根据不同的问题，人工进行选择的。

三、K-Means 的变形

下面介绍一些由 K-Means 所衍生出来的算法，它们针对 K-Means 所暴露出来的不足进行了优化，如：① K-Medoids、② 二分 K-Means、③ K-Means++、④ Mini-batch Kmeans 算法等

算法	针对 K-Means 中的不足点	优化内容
K-Medoids	K-Means 算法对异常值很敏感	从求平均切换为求中位数
二分 K-Means	K-Means 算法的初始中心点位置，很大程度上会影响聚类的效果	再次划分，重新改变中心点位置
K-Means++	K-Means 选择一个好的初始中心非常重要，初始中心点分布不够均匀往往会导致聚类效果不好	改进了 K-Means 算法初始中心点的方式
Mini Batch K-Means	K-Means 算法中需要计算所有样本点到所有质心的距离，计算复杂度较高	随机选择一部分的数据求均值

本节还会介绍一个 Canopy 聚类算法，虽然不是 K-Means 所衍生出来的算法，但它很少单独使用，会结合 K-Means 一起使用。

1. K-Medoids

计算新的簇中心的时候不再选择均值，而是选择中位数
抗噪能力得到加强

说明：

若为中位数，每次得到的点一定是某个样本
K-Medoids 主要针对解决噪音和异常点比较敏感问题

2. 二分 K-Means

步骤：

① 将所有点作为一个簇；
② 将该簇使用 K-Means 算法（K=2）一分为二；
③ 选择其中一个簇继续进行二分，选择哪一个簇进行二分取决于哪个簇有更大得 SSE（误差平方和）值；
④ 不断重复第③步，直到得到用户指定的簇数目 K 为止。

小贴士

参考：机器学习 K-Means 方面的算法

3. K-Means++

优化：

若 K-Means 的初始中心点分布不够均匀，往往会导致聚类效果不好；
为了克服上面的缺点，K-Means++ 通过一个更聪明的初始化中心点方法（通过概率化选择初始中心点）确保改进聚类的质量。
- 除了初始化，该算法其它和标准的 K-Means 算法一样
- 所以，K-Means++ 相当于 => 标准的 K-Means 算法 + 一个更好的初始化中心点的方法

目标：

初始化簇中心点稍微远一些

初始化中心点的步骤：

① 从数据集中随机选择第一个中心点
② 对于每个数据点（样本）计算到它最近邻的已知中心点的距离
③ 将距离转化为概率，进行概率化选择：从数据集中选择下一个中心点，是一个概率化选择，被选择的概率和上一步计算出来的距离成正比
- 例如：某个点到最近邻的已知中心点距离最远，它有最大的可能性被选为下一个中心点
④ 重复第②步和第③步直到 K 个中心点被采样

K-Means++ 用到的范围比较广，如：

sklean（全称 Scikit-Learn）中默认使用的便是 K-Means++；
Spark（分布式计算框架）中 MLlib 模块默认的 K-Means 也是 K-Means++。

小贴士：K-Means++ 的初始化中心点

K-Means++ 是一个一个中心点依次选取出来的

概率化选择时，其概率为均匀分布，在（0,1）间随机取值，由于将距离转化为概率，而距离远的其在数轴中的长度间隔会更大，所以更有可能被选中

4. Mini Batch K-Means

该算法的迭代步骤有两步：

① 从数据集中随机抽取一些数据形成小批量，把他们分配给最近的质心
② 更新质心

区别：

与 K 均值算法相比，Mini Batch K-Means 数据的更新是在每一个小的样本集上。
- 对于每一个小批量，通过计算平均值得到更新质心，并把小批量里的数据分配给该质心，
- 随着迭代次数的增加，这些质心的变化是逐渐减小的，
- 直到质心稳定或达到指定的迭代次数，停止计算。

5. Canopy 聚类

特点：一次迭代，出 k 个中心点的结果

Canopy 聚类的步骤：

设置两个距离 T1 T2，作为超参数；其中 T1>T2
WHILE D 非空∶（ D 为所有点的集合，不断遍历 D，直至所有点都被划分到某簇的 T2 内或成为某簇中心，也就是 D 为空）
- 随机产生 d 属于 D，作为中心点
- 计算所有点到 d 的距离
- 所有距离
- 从 D 中删除 d 及距离小于 T2 的点（删除的这些点不能作为其他簇的中心，D 中剩余的点进行重复前面的操作）

Canopy 聚类的说明：

Canopy 聚类很少单独使用，会结合 K-Means 一起使用
- Canopy 聚类可以作为 K-Means 中第一步初始中心点的选择
- 即：K-Means 中的随机中心值 → 变为使用 Canopy 聚类获得中心值
该聚类一定会把样本划分到某个簇中，且很可能一个样本属于多个类别
与 K-Means++ 类似，其中心点是一个一个找出来的，处理第一个中心点是随机的

K-Means 在初始中心点时，使用 Canopy 聚类的好处：

可以帮助我们得出 k 为多少
能让中心点尽可能远离些

小贴士

参考1：Canopy 聚类、层次聚类、密度聚类-DBSCAN

参考2：Canopy 聚类算法分析

6. K-Means 代码测试不同情况下的聚类效果

下面是基于 sklearn 库做的聚类，使用的算法为 K-Means++

代码：（工具：PyCharm，基于：python3）

各步骤说明：

导入模块

import numpy as np
import matplotlib.pyplot as plt
import sklearn.datasets as ds  # 通过datasets，帮我们创建一些数据集
import matplotlib.colors  # 关于颜色的
from sklearn.cluster import KMeans  # k-means 聚类

数据准备

   N = 400  # 一共想创建400个数据（样本）
   centers = 4  # 告诉函数，要创建4个组（共4个中心点）

   # -----下面创建了三组不同的数据，1、第一组：根据高斯分布，创建同方差的数据（400样本，4个组，每组100个）；2、第二组：高斯分布的方差不同；3、第三组：同方差，但只选择了175条数据（且各组数据个数不同） ------

   # make_blobs 创建数据，括号中的参数：① 创建多少样本，② 每条样本的维度（这里：400行2列），③ 样本分到多少个组中，④ 创建随机种子
   data, y = ds.make_blobs(N, n_features=2, centers=centers, random_state=2)  # 得到每组中的数据data 及 label标签y（每个样本在哪个组）

   # 此处多了个 cluster_std —— 每组对应的方差（此处设置成了不同的），上面那条代码默认同方差的
   data2, y2 = ds.make_blobs(N, n_features=2, centers=centers, cluster_std=(1, 2.5, 0.5, 2), random_state=2)

   # vstack：竖的堆叠，括号中个参数含义：① 将标签y为0的该组中，所有数据取出（100条）；② 组别为1的样本，只取50条；③ 组别为2的样本，只取20条；④ 3的：5条
   data3 = np.vstack((data[y == 0][:], data[y == 1][:50], data[y == 2][:20], data[y == 3][:5]))
   # 这里的 标签y 需要自己写。说明：[0] * 100 这种 —— 是原生的python - 将列表扩展，得：一个列表中有100个0； 加号代表：将列表元素拼在一起
   # 下列代码结果：用列表装数据，前100个为0，50个1,20个2，最后5个为3
   y3 = np.array([0] * 100 + [1] * 50 + [2] * 20 + [3] * 5)

K-Means++ 聚类（核心代码）

	# ----- K-means++ 算法 （核心代码：调用 k-means++ 训练和预测，得到相应的 ŷ 结果）-----

    cls = KMeans(n_clusters=4, init='k-means++')  # 创建k-means对象，括号中参数：① n_clusters：指定K的个数；② init：初始化 k-means 算法的超参数=
    y_hat = cls.fit_predict(data)  # 对对象进行聚类，得到聚类的结果（fit_predict 返回的是：数据的类别号）
    y2_hat = cls.fit_predict(data2)
    y3_hat = cls.fit_predict(data3)

    # 下面：通过矩阵，将原来的数据做了高维空间的线性变换，将其映射到新的维度中（相当于 做了旋转）
    m = np.array(((1, 1), (1, 3)))  # 把元组变为了2行2列的矩阵。矩阵能干的事情：高维空间的线性变换
    data_r = data.dot(m)  # 点乘：用 原始数据data 点乘 矩阵m → 相当于 把数据中的每个向量点，全部进行相对于的旋转，投影到另外一个轴中
    y_r_hat = cls.fit_predict(data_r)

可视化展示

def expand(a, b): # 后续画图时会用到的自定义函数
    d = (b - a) * 0.1
    return a - d, b + d

    # ----- 以下是画图的内容，共画了8个子图 ------------------------------

    matplotlib.rcParams['font.sans-serif'] = [u'SimHei']  # 可展示中文（黑体）
    matplotlib.rcParams['axes.unicode_minus'] = False  # 让负号可以正常显示
    cm = matplotlib.colors.ListedColormap(list('rgbm'))

    plt.figure(figsize=(9, 10), facecolor='w')
    plt.subplot(421)  # 8个子图中的：第一个子图
    plt.title(u'原始数据')  # u：表示unicode字符串
    plt.scatter(data[:, 0], data[:, 1], c=y, s=30, cmap=cm, edgecolors='none')  # 散点图，传真实结果 y
    x1_min, x2_min = np.min(data, axis=0)
    x1_max, x2_max = np.max(data, axis=0)
    x1_min, x1_max = expand(x1_min, x1_max)
    x2_min, x2_max = expand(x2_min, x2_max)
    plt.xlim((x1_min, x1_max))  # x 轴
    plt.ylim((x2_min, x2_max))  # y 轴
    plt.grid(True)  # 网格

    plt.subplot(422)
    plt.title(u'KMeans++聚类')
    plt.scatter(data[:, 0], data[:, 1], c=y_hat, s=30, cmap=cm, edgecolors='none')  # 散点图，传预测结果 ŷ
    plt.xlim((x1_min, x1_max))
    plt.ylim((x2_min, x2_max))
    plt.grid(True)

    plt.subplot(423)
    plt.title(u'旋转后数据')
    plt.scatter(data_r[:, 0], data_r[:, 1], c=y, s=30, cmap=cm, edgecolors='none')
    x1_min, x2_min = np.min(data_r, axis=0)
    x1_max, x2_max = np.max(data_r, axis=0)
    x1_min, x1_max = expand(x1_min, x1_max)
    x2_min, x2_max = expand(x2_min, x2_max)
    plt.xlim((x1_min, x1_max))
    plt.ylim((x2_min, x2_max))
    plt.grid(True)

    plt.subplot(424)
    plt.title(u'旋转后KMeans++聚类')
    plt.scatter(data_r[:, 0], data_r[:, 1], c=y_r_hat, s=30, cmap=cm, edgecolors='none')
    plt.xlim((x1_min, x1_max))
    plt.ylim((x2_min, x2_max))
    plt.grid(True)

    plt.subplot(425)
    plt.title(u'方差不相等数据')
    plt.scatter(data2[:, 0], data2[:, 1], c=y2, s=30, cmap=cm, edgecolors='none')
    x1_min, x2_min = np.min(data2, axis=0)
    x1_max, x2_max = np.max(data2, axis=0)
    x1_min, x1_max = expand(x1_min, x1_max)
    x2_min, x2_max = expand(x2_min, x2_max)
    plt.xlim((x1_min, x1_max))
    plt.ylim((x2_min, x2_max))
    plt.grid(True)

    plt.subplot(426)
    plt.title(u'方差不相等KMeans++聚类')
    plt.scatter(data2[:, 0], data2[:, 1], c=y2_hat, s=30, cmap=cm, edgecolors='none')
    plt.xlim((x1_min, x1_max))
    plt.ylim((x2_min, x2_max))
    plt.grid(True)

    plt.subplot(427)
    plt.title(u'数量不相等数据')
    plt.scatter(data3[:, 0], data3[:, 1], s=30, c=y3, cmap=cm, edgecolors='none')
    x1_min, x2_min = np.min(data3, axis=0)
    x1_max, x2_max = np.max(data3, axis=0)
    x1_min, x1_max = expand(x1_min, x1_max)
    x2_min, x2_max = expand(x2_min, x2_max)
    plt.xlim((x1_min, x1_max))
    plt.ylim((x2_min, x2_max))
    plt.grid(True)

    plt.subplot(428)
    plt.title(u'数量不相等KMeans++聚类')
    plt.scatter(data3[:, 0], data3[:, 1], c=y3_hat, s=30, cmap=cm, edgecolors='none')
    plt.xlim((x1_min, x1_max))
    plt.ylim((x2_min, x2_max))
    plt.grid(True)

    plt.suptitle(u'数据分布对KMeans聚类的影响', fontsize=18)  # 总标题
    plt.tight_layout()  # 会自动调整子图参数,使之填充整个图像区域（防止重叠）

    plt.savefig('cluster_kmeans')  # 将绘图结果保存为png图片
    plt.show()  # 展示

小贴士

若对于 python 中 matplotlib 绘图不太了解的伙伴，可参考文章：AI算法工程师 | 03人工智能基础-Python科学计算和可视化（二）Matplotlib

整体代码：

# !/usr/bin/python
# -*- coding:utf-8 -*-

"""
基于 sklearn 库做聚类：K-Means++
"""

# 导入包
import numpy as np
import matplotlib.pyplot as plt
import sklearn.datasets as ds  # 通过datasets，帮我们创建一些数据集
import matplotlib.colors  # 关于颜色的
from sklearn.cluster import KMeans  # k-means 聚类


def expand(a, b):
    d = (b - a) * 0.1
    return a - d, b + d


if __name__ == "__main__":
    N = 400  # 一共想创建400个数据（样本）
    centers = 4  # 告诉函数，要创建4个组（共4个中心点）

    # -----下面创建了三组不同的数据，1、第一组：根据高斯分布，创建同方差的数据（400样本，4个组，每组100个）；2、第二组：高斯分布的方差不同；3、第三组：同方差，但只选择了175条数据（且各组数据个数不同） ------

    # make_blobs 创建数据，括号中的参数：① 创建多少样本，② 每条样本的维度（这里：400行2列），③ 样本分到多少个组中，④ 创建随机种子
    data, y = ds.make_blobs(N, n_features=2, centers=centers, random_state=2)  # 得到每组中的数据data 及 label标签y（每个样本在哪个组）

    # 此处多了个 cluster_std —— 每组对应的方差（此处设置成了不同的），上面那条代码默认同方差的
    data2, y2 = ds.make_blobs(N, n_features=2, centers=centers, cluster_std=(1, 2.5, 0.5, 2), random_state=2)

    # vstack：竖的堆叠，括号中个参数含义：① 将标签y为0的该组中，所有数据取出（100条）；② 组别为1的样本，只取50条；③ 组别为2的样本，只取20条；④ 3的：5条
    data3 = np.vstack((data[y == 0][:], data[y == 1][:50], data[y == 2][:20], data[y == 3][:5]))
    # 这里的 标签y 需要自己写。说明：[0] * 100 这种 —— 是原生的python - 将列表扩展，得：一个列表中有100个0； 加号代表：将列表元素拼在一起
    # 下列代码结果：用列表装数据，前100个为0，50个1,20个2，最后5个为3
    y3 = np.array([0] * 100 + [1] * 50 + [2] * 20 + [3] * 5)

    # ----- K-means 算法 （核心代码：调用 k-means 训练和预测，得到相应的 ŷ 结果）-----

    cls = KMeans(n_clusters=4, init='k-means++')  # 创建k-means对象，括号中参数：① n_clusters：指定K的个数；② init：初始化 k-means 算法的超参数
    y_hat = cls.fit_predict(data)  # 对对象进行聚类，得到聚类的结果（fit_predict 返回的是：数据的类别号）
    y2_hat = cls.fit_predict(data2)
    y3_hat = cls.fit_predict(data3)

    # 下面：通过矩阵，将原来的数据做了高维空间的线性变换，将其映射到新的维度中（相当于 做了旋转）
    m = np.array(((1, 1), (1, 3)))  # 把元组变为了2行2列的矩阵。矩阵能干的事情：高维空间的线性变换
    data_r = data.dot(m)  # 点乘：用 原始数据data 点乘 矩阵m → 相当于 把数据中的每个向量点，全部进行相对于的旋转，投影到另外一个轴中
    y_r_hat = cls.fit_predict(data_r)

    # ----- 以下是画图的内容，共画了8个子图 ------------------------------

    matplotlib.rcParams['font.sans-serif'] = [u'SimHei']  # 可展示中文（黑体）
    matplotlib.rcParams['axes.unicode_minus'] = False  # 让负号可以正常显示
    cm = matplotlib.colors.ListedColormap(list('rgbm'))

    plt.figure(figsize=(9, 10), facecolor='w')
    plt.subplot(421)  # 8个子图中的：第一个子图
    plt.title(u'原始数据')  # u：表示unicode字符串
    plt.scatter(data[:, 0], data[:, 1], c=y, s=30, cmap=cm, edgecolors='none')  # 散点图，传真实结果 y
    x1_min, x2_min = np.min(data, axis=0)
    x1_max, x2_max = np.max(data, axis=0)
    x1_min, x1_max = expand(x1_min, x1_max)
    x2_min, x2_max = expand(x2_min, x2_max)
    plt.xlim((x1_min, x1_max))  # x 轴
    plt.ylim((x2_min, x2_max))  # y 轴
    plt.grid(True)  # 网格

    plt.subplot(422)
    plt.title(u'KMeans++聚类')
    plt.scatter(data[:, 0], data[:, 1], c=y_hat, s=30, cmap=cm, edgecolors='none')  # 散点图，传预测结果 ŷ
    plt.xlim((x1_min, x1_max))
    plt.ylim((x2_min, x2_max))
    plt.grid(True)

    plt.subplot(423)
    plt.title(u'旋转后数据')
    plt.scatter(data_r[:, 0], data_r[:, 1], c=y, s=30, cmap=cm, edgecolors='none')
    x1_min, x2_min = np.min(data_r, axis=0)
    x1_max, x2_max = np.max(data_r, axis=0)
    x1_min, x1_max = expand(x1_min, x1_max)
    x2_min, x2_max = expand(x2_min, x2_max)
    plt.xlim((x1_min, x1_max))
    plt.ylim((x2_min, x2_max))
    plt.grid(True)

    plt.subplot(424)
    plt.title(u'旋转后KMeans++聚类')
    plt.scatter(data_r[:, 0], data_r[:, 1], c=y_r_hat, s=30, cmap=cm, edgecolors='none')
    plt.xlim((x1_min, x1_max))
    plt.ylim((x2_min, x2_max))
    plt.grid(True)

    plt.subplot(425)
    plt.title(u'方差不相等数据')
    plt.scatter(data2[:, 0], data2[:, 1], c=y2, s=30, cmap=cm, edgecolors='none')
    x1_min, x2_min = np.min(data2, axis=0)
    x1_max, x2_max = np.max(data2, axis=0)
    x1_min, x1_max = expand(x1_min, x1_max)
    x2_min, x2_max = expand(x2_min, x2_max)
    plt.xlim((x1_min, x1_max))
    plt.ylim((x2_min, x2_max))
    plt.grid(True)

    plt.subplot(426)
    plt.title(u'方差不相等KMeans++聚类')
    plt.scatter(data2[:, 0], data2[:, 1], c=y2_hat, s=30, cmap=cm, edgecolors='none')
    plt.xlim((x1_min, x1_max))
    plt.ylim((x2_min, x2_max))
    plt.grid(True)

    plt.subplot(427)
    plt.title(u'数量不相等数据')
    plt.scatter(data3[:, 0], data3[:, 1], s=30, c=y3, cmap=cm, edgecolors='none')
    x1_min, x2_min = np.min(data3, axis=0)
    x1_max, x2_max = np.max(data3, axis=0)
    x1_min, x1_max = expand(x1_min, x1_max)
    x2_min, x2_max = expand(x2_min, x2_max)
    plt.xlim((x1_min, x1_max))
    plt.ylim((x2_min, x2_max))
    plt.grid(True)

    plt.subplot(428)
    plt.title(u'数量不相等KMeans++聚类')
    plt.scatter(data3[:, 0], data3[:, 1], c=y3_hat, s=30, cmap=cm, edgecolors='none')
    plt.xlim((x1_min, x1_max))
    plt.ylim((x2_min, x2_max))
    plt.grid(True)

    plt.suptitle(u'数据分布对KMeans聚类的影响', fontsize=18)  # 总标题
    plt.tight_layout()  # 会自动调整子图参数,使之填充整个图像区域（防止重叠）

    plt.savefig('cluster_kmeans')  # 将绘图结果保存为png图片
    plt.show()  # 展示

结果展示：

四、层次聚类

层次聚类解决了 K-Means 中 K 值选择和初始中心点选择的问题。

其聚类方式分为：① 分裂法、② 凝聚法

层次聚类对比 K-Means：

K-Means 这种扁平聚类产出一个聚类结果（都是独立的）
层次聚类能够根据你的聚类程度不同，有不同的结果
K-Means 需要指定聚类个数 K，层次聚类不用（可以根据距离的远近设置阈值，达到该阈值时不再分裂/合并）
K-Means 比层次聚类要快一些（通常说来）
K-Means（K-均值聚类）用的多，有些时候可以用 K-Median（K-中值聚类）

1. 分裂法

像一棵树一样，不断的分裂

算法步骤：

将所有样本归为一个簇
While 不足 k 个簇或距离阈值（距离阈值作用：表示相似度）：
- 在同一个簇 C 中计算样本间距离，选最远的距离的两个样本 a、b（终止条件检测）
- 将样本 a， b 划入 C1、C2（终止条件检测）
- 计算原簇 C 中样本离谁近，划入谁

说明：二分 K-Means 本质上是层次聚类中的分裂法，它通过不断分裂直到达到预设的簇类个数。

2. 凝聚法

原理：

最初将每个对象看成一个簇，
然后将这些簇根据某种规则被一步步合并，
就这样不断合并直到达到预设的簇类个数。

算法步骤：

将所有点看做一个独立的簇
While 多于 k 个簇或距离阈值︰
- 计算两两簇之间的距离（关键：如何计算聚类簇之间的距离？），找到最小距离的簇 C1 和 C2（多种计算方式，如：欧式距离与余弦距离算出来的不一样）
- 合并 C1、C2

合并 C1、C2 的方式可以有所差别︰（两个簇之间距离的度量）

两个簇间距离最小的样本距离
两个簇间最远的两个点的距离
两个簇之间两两求距离的平均值
两个簇之间两两求距离的中位数
求每个集合的中心点，用中心点的距离代表簇的距离

五、密度聚类

与层次聚类的异同：

同：与层次聚类一样无需设置 K 值
异：
- 层次聚类：有包含关系；算的是距离；
- 密度聚类：无包含关系；算的是密度。

密度聚类最参见的算法为：DBSCAN 算法

1. DBSCAN 密度聚类算法

概述：

DBSCAN ( Density-Based Spatial Clustering of Applications
with Noise）
一个基于密度聚类的算法。它将簇定义为密度相连的点的最大集合，能够把具有高密度的区域划分为簇，并可有效地对抗噪声

什么叫密度相连？

先来了解几个概念：

对象的 $ε$ 邻域：给定对象（某个点）在半径 $ε$ 内的区域；
核心对象：给定一个数目 $m$ ，如果对象（某个点）的 $ε$ 领域内，至少含有 $m$ 个对象（点），该对象就是核心对象；
- 白话：在样本点中间被包围的点，比较具有代表性，是核心对象
直接密度可达：给定一个对象集合 $D$ ，如果 $p$ 在 $q$ 的 $ε$ 邻域内，而 $q$ 是一个核心对象， $p$ 从 $q$ 出发是直接密度可达的；
- 白话：直接密度可达就是他俩直接够得着
密度可达：它是在直接密度可达的基础上的。如果存在一个对象链 $p_1p_2... p_n$ ，令 $p_1=p，p_n=q，p_{i+1}$ 是关于 $ε 、 m$ 是直接密度可达的，那么对象 $p$ 是从对象 $q$ 关于 $ε 、 m$ 密度可达的；
- 即：密度可达满足传递性（对于核心对象而言），但不满足对称性
密度相连：它是在密度可达的基础之上的。如果集合 $D$ 中存在一个对象 $o$ ，使 $o \to p$ 密度可达， $o \to q$ 密度可达，那么 $p$ 和 $q$ 就是关于 $ε 、 m$ 密度相连的。
- 即：密度相连满足对称性

从上述可知，密度聚类有两个超参数： $ε$ 、 $m$

密度可达和密度相连有什么用？

密度可达：相关对象（点）划分到同一个簇
密度相连：也划分到同一个簇

算法步骤：

DBSCAN 通过检查数据集中每个对象的 $ε$ 邻域来寻找聚类

步骤：（下面是更新一个簇的思路）

如果一个点 $p$ 的 $ε$ 邻域中多余 $m$ 个对象，则创建一个 $p$ 为核心对象的新簇；
依据 $p$ 来反复寻找密度相连的集合（有可能合并原有已经生成的簇）；
当没有任何新的点可以被添加到簇中的时候，寻找结束。

根据半径（ $ε$ 邻域）、最少点数（ $m$ ）区分核心点、边界点、噪声点：

核心点：核心点的半径范围（ $ε$ 邻域））内的样本个数 $\geq m$ ；
- 每个簇至少包含一个核心点（核心对象）
边界点：边界点的半径范围内的样本个数 $＜ m$ ，但 $＞ 0$ ；
- 非核心对象可以是簇的一部分，构成簇的边缘
噪声点：噪声点的半径范围的样本个数为 $= 0$ 。
- 包含过少对象的簇被认为是噪声

小贴士

List item

参考1：密度聚类（DBSCAN / MDCA） by loveliuzz

参考2：六种常见聚类算法（参考的文中密度聚类部分） by TingXiao-Ul

2. 基于 sklearn 的密度聚类代码

下面是基于 sklearn 库做的聚类，感受超参数 $ε$ 、 $m$ 不同的情况 DBSCAN 聚类的效果

代码：（工具：PyCharm，基于：python3）

# ----- 导入模块 ----- 
import numpy as np
import matplotlib.pyplot as plt
import sklearn.datasets as ds  # 通过datasets，帮我们创建一些数据集
import matplotlib.colors  # 关于颜色的
from sklearn.cluster import DBSCAN  # 密度聚类
from sklearn.preprocessing import StandardScaler

def expand(a, b):
    d = (b - a) * 0.1
    return a - d, b + d


if __name__ == "__main__":
    # ----- 数据准备 ----------------------
    N = 1000
    centers = [[1, 2], [-1, -1], [1, -1], [-1, 1]]  # 指明簇中心的位置
    # make_blobs 函数：生成数据集。—— 创建1000个样本点，每个样本点有2个特征，指定了4个簇中心，默认使用正态分布-随机初始化数据，random_state:为了保证程序每次运行都分割一样的训练集和测试集
    data, y = ds.make_blobs(N, n_features=2, centers=centers, cluster_std=[0.5, 0.25, 0.7, 0.5], random_state=0)
    data = StandardScaler().fit_transform(data)  # 进行归一化
    # 数据的参数：(epsilon, min_sample) —— 半径，最少的样本的个数。下面创建了六组超参数
    params = ((0.2, 5), (0.2, 10), (0.2, 15), (0.3, 5), (0.3, 10), (0.3, 15))

    # ----- 以下是画图的内容，画了6个子图（因为设置了 6 组超参数，每次循环取出一组进行密度聚类） ------------------------------

    matplotlib.rcParams['font.sans-serif'] = [u'SimHei']  # 可展示中文（黑体）
    matplotlib.rcParams['axes.unicode_minus'] = False  # 让负号可以正常显示

    plt.figure(figsize=(12, 8), facecolor='w')  # 设置画布大小和颜色
    plt.suptitle(u'DBSCAN聚类', fontsize=20)  # 主标题

    for i in range(6):
        # ----- 下面进行密度聚类（核心代码）--------------
        eps, min_samples = params[i]  # 取出每组超参数
        """ 调用 DBSCAN 密度聚类算法
        参数含义:
        · eps: 半径，表示以给定点 p 为中心的圆形部域的范围
        · min_samples: 以点 p 为中心的邻域内最少点的数量
        如果满足 以点 p 为中心,半径为 eps 的领域内，点的个数不少 min_samples ,则称点 p 为【核心点】
        """
        model = DBSCAN(eps=eps, min_samples=min_samples)  # DBSCAN 密度聚类算法
        model.fit(data)  # 训练 DBSCAN 模型
        y_hat = model.labels_  # 拿到每个样本对应的类别聚类的结果。无论核心点还是边界点，只要是同一个簇的都被赋予同样的label，噪声点为-1.

        core_indices = np.zeros_like(y_hat, dtype=bool)  # 生成数据类型和形状和 y_hat 一致的初始化为0的数组。dtype=bool：会覆盖原数据类型，∴是一个布尔数组
        core_indices[model.core_sample_indices_] = True  # model.core_ sample_ 核心点的索引。由于labels_无法区分核心点与边界点，所以要用该索引确定核心点。

        y_unique = np.unique(y_hat)  # 统计总共有几类，其中为 -1 的：表示未分类样本。unique 函数：去除其中重复的元素
        n_clusters = y_unique.size - (1 if -1 in y_hat else 0)  # 得到聚类簇的个数
        print(y_unique, '聚类簇的个数为：', n_clusters)

        plt.subplot(2, 3, i + 1)  # 共6张子图（2行3列），绘制第 i+1 张
        clrs = plt.cm.Spectral(np.linspace(0, 0.8, y_unique.size))  # plt.cm.Spectral 作用：在画图时为不同类别的样本分别分配不同的颜色
        print(clrs)
        for k, clr in zip(y_unique, clrs): # zip() 函数：将可迭代的对象作为参数，把对象中对应的元素打包成一个个元组，并返回由这些元组组成的对象
            cur = (y_hat == k)
            cur = (y_hat == k)
            if k == -1:
                plt.scatter(data[cur, 0], data[cur, 1], s=20, c='k')  # 散点图，用于绘制未分类样本。c='k'：黑色
                continue
            plt.scatter(data[cur, 0], data[cur, 1], s=30, c=clr, edgecolors='k')  # 散点图，绘制正常节点
            plt.scatter(data[cur & core_indices][:, 0], data[cur & core_indices][:, 1], s=60, c=clr, marker='o',
                        edgecolors='k')  # 绘制边界点
        x1_min, x2_min = np.min(data, axis=0)  # 分别找到数据的两列中的最小值
        x1_max, x2_max = np.max(data, axis=0)  # 分别找到数据的两列中的最大值
        x1_min, x1_max = expand(x1_min, x1_max)
        x2_min, x2_max = expand(x2_min, x2_max)
        plt.xlim((x1_min, x1_max))  # 设置 x 轴的数值显示范围
        plt.ylim((x2_min, x2_max))  # 设置 y 轴的数值显示范围
        plt.grid(True)  # 网格
        plt.title(u'epsilon = %.1f  m = %d，聚类数目：%d' % (eps, min_samples, n_clusters), fontsize=16)  # 子图的标题
    plt.tight_layout()  # 会自动调整子图参数,使之填充整个图像区域（防止重叠）
    plt.subplots_adjust(top=0.9)
    plt.savefig('cluster_DBSCAN')  # 将绘图结果保存为png图片
    plt.show()  # 展示

结果展示：

从图中可看出，密度聚类存在的一个问题：

有些点无法聚到任何簇中，即：离群点（噪声点）

离群点为什么聚不进来？

半径够不到、或者 m（最少样本个数）设置的比较大——密度不可达

六、谱聚类（了解即可）

谱聚类的本质：先做降维，再用 K-Means

谱聚类的特点

优点：

对数据的结构没有假设（适应性广）
经过特殊的构图处理后计算很快
不会像 K-Means 一样将一些离散的小簇聚在一起

缺点：

对于不同的构图方式比较敏感
对于超参数设置比较敏感

谱聚类整体思路

先构图，后切图

1. 构图

一个典型的实现由三个基本步骤组成：

根据训练集，计算相似度矩阵 $S$
根据相似度矩阵，采用某种构图方法计算 $W$ 权重矩阵
根据 $W$ 权重矩阵，计算 $D$ 矩阵和拉普拉斯矩阵

∴ 构图：通过 $S$ 相似矩阵 → 得到 $W$ 构图矩阵（构图方式有多种） → $D$ 对角矩阵 → $L$ 拉普拉斯矩阵

步骤一：相似度矩阵 $S$

根据 $n$ 个样本彼此之间的距离（可以选择：欧氏距离或高斯距离）生成一个 $N \times N$ 的相似度矩阵
- 欧式距离: $s_{i,j}=\left \| x_i -x_j\right \|^{2}$
- 高斯距离: $s_{i,j}=e^{\frac{-\left \| x_i -x_j\right \|^{2}}{2\sigma ^{2}}}$
得到了 $S$ 矩阵
- $S$ 矩阵：样本与样本间，两两求相似度，把所有数据都填起来的矩阵

步骤二：根据构图方式计算 $W$ 矩阵（邻接矩阵）

$W$ 矩阵：想表达的是——如何构建的

常见构图方式：

① ε-neighborhood（ $ε$ -邻近法）
- 选取一个阈值 $ε$
- 根据一个规则，生成 $W$ 矩阵
  - 每一个点连接到与其 $ε$ 半径内的所有点；
  - 如果在半径内，权重就是 $ε$ ，否则就是0，没有其他的信息了。
- 说明：距离远近度量很不精确，因此在实际应用中，我们很少使用
② k-nearest neighborhood（K 近邻法）
- 一个参数 k 首先固定下来
- 利用 KNN 算法（K 近邻）遍历所有的样本点，取每个样本最近的 k 个点作为邻近，只有和样本距离最近的 k 个点之间的 $w_{ij}\gt0$
  - 但是这种方法会造成邻接矩阵 $W$ 非对称，后面的算法需要对称邻接矩阵。
- 为了解决上述问题，一般采取下面两种方法其一：
  - a）K 近邻法是只要一个点在另一个点的 K 近邻中，则保留 $s_{i,j}$ ；
  - b）K 近邻法是必须两个点互为 K 近邻，才能保留 $s_{i,j}$ 。
③ fully connected（全连接法）
- 直接保留相似度矩阵作为权重矩阵
- 说明：实际应用中，建立邻接矩阵中最普遍的使用全连接法来建立

步骤三：计算 $D$ 矩阵和拉普拉斯矩阵

2. 切图

切图的过程，就是聚类的过程

内容：

对于原始图的任意两个子图 $A 、 B$ 满足 $A \cap B = \emptyset$ （即：两图无相交部分）
定义切图权重为： $\sum w_{ij}，i\in A，j\in B$
衡量最终切图结果：
- 假设原始图 $V$ 切为了 $k$ 个子图（ $A_1,A_2,...,A_K$ ），有 $A_1\cup A_2\cup ...\cup A_K = V$ 且 $A_1\cap A_2\cap ...\cap A_K = ∅$ ，
- 定义 $cut(A_1,A_2,...,A_K)=\frac{1}{2}\sum_{i}^{k}W(A_i,\bar{A_i})$ （其中， $\bar{A_i}$ 为 $A_i$ 的补集），为该种切法的切边权重和

切图的目的：

每个子图内部：连边的权重平均都较大
每个子图之间：尽量没有边相连，或者连边的权重很低

思考：

如何切图可以让子图内的点权重之和高，子图间的点权重之和低呢？
一个自然的想法就是最小化 $cut(A_1,A_2,\ldots,A_k)$ ，但是可以发现，这种极小化的切图存在问题

切图的问题：

切图方法 ☞ RatioCut：

对于 $L$ 矩阵（拉普拉斯矩阵）取最小的 $k_1$ 个特征值对应的特征向量（每个向量的形状是是 $1 * n$ )
- 说明：求特征值、特征向量：相当于降维
  - 特征向量：相当于方向
  - 特征值：方向上的信息量
将 $k_1$ 个列向量拼成一个 $N$ 行 $k_1$ 列的矩阵 $H$
对这个 $H$ 矩阵按行做标准化
设定超参数 $k_2$ ，对标准化后的 $H$ 矩阵进行 K-Means 聚类，得到的结果便是按照 RatioCut 标准划分出来的子集
- 白话：把原来的点，在不同的坐标系上进行相对应的投影，把投影完后的结果，通过 K-means 进行聚类

3. 基于 sklearn 的谱聚类代码

下面是基于 sklearn 库做的聚类，感受不同超参数下的谱聚类效果

代码：（工具：PyCharm，基于：python3）

# 导入模块
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.colors
from sklearn.cluster import spectral_clustering  # 谱聚类
from sklearn.metrics import euclidean_distances  # 欧式距离


def expand(a, b):
    d = (b - a) * 0.1
    return a-d, b+d


if __name__ == "__main__":
    # -----创建数据-----
    t = np.arange(0, 2*np.pi, 0.1)
    data1 = np.vstack((np.cos(t), np.sin(t))).T
    data2 = np.vstack((2*np.cos(t), 2*np.sin(t))).T
    data3 = np.vstack((3*np.cos(t), 3*np.sin(t))).T
    data = np.vstack((data1, data2, data3))

    n_clusters = 3
    m = euclidean_distances(data, squared=True)  # 欧式距离的开根号（矩阵）
    sigma = np.median(m)  # 中位数

    # ------------- 绘图 --------------

    matplotlib.rcParams['font.sans-serif'] = [u'SimHei']  # 可展示中文（黑体）
    matplotlib.rcParams['axes.unicode_minus'] = False  # 让负号可以正常显示

    plt.figure(figsize=(12, 8), facecolor='w')
    plt.suptitle(u'谱聚类', fontsize=20)
    clrs = plt.cm.Spectral(np.linspace(0, 0.8, n_clusters))
    for i, s in enumerate(np.logspace(-2, 0, 6)):
        print(s)
        af = np.exp(-m ** 2 / (s ** 2)) + 1e-6   # 此处 s 用来判断高斯距离；‘+ 1e-6’：是为了防止值为0
        y_hat = spectral_clustering(af, n_clusters=n_clusters, assign_labels='kmeans', random_state=1)
        plt.subplot(2, 3, i+1)
        for k, clr in enumerate(clrs):
            cur = (y_hat == k)
            plt.scatter(data[cur, 0], data[cur, 1], s=40, c=clr, edgecolors='k')
        x1_min, x2_min = np.min(data, axis=0)
        x1_max, x2_max = np.max(data, axis=0)
        x1_min, x1_max = expand(x1_min, x1_max)
        x2_min, x2_max = expand(x2_min, x2_max)
        plt.xlim((x1_min, x1_max))
        plt.ylim((x2_min, x2_max))
        plt.grid(True)  # 网格
        plt.title(u'sigma = %.2f' % s, fontsize=16)  # 子图的标题
    plt.tight_layout()  # 会自动调整子图参数,使之填充整个图像区域（防止重叠）
    plt.subplots_adjust(top=0.9)
    plt.savefig('cluster_spectral')  # 将绘图结果保存为png图片
    plt.show()  # 展示

结果展示：

—— 说明：本文写于 2022.9.2 和 9.18~9.28 ，文中内容基于 python3，使用工具 PyCharm 编写的代码

你可能感兴趣的:(AI算法工程师,机器学习,聚类,算法,人工智能)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
每日一题——第八十一题互联网打工人no1 C语言程序设计每日一练 c语言
打印如下图案:#includeintmain(){inti,j;charch='A';for(i=1;i<5;i++,ch++){for(j=0;j<5-i;j++){printf("");//控制空格输出}for(j=1;j<2*i;j++)//条件j<2*i{printf("%c",ch);//控制字符输出}printf("\n");}return0;}
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
每日一题——第八十三题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将输入的整形数字输出,输出1990，输出"1990"#include#defineMAX_INPUT1024intmain(){intarrr_num[MAX_INPUT];intnum,i=0;printf("请输入一个数字：");scanf_s("%d",&num);while(num!=0){arrr_num[i++]=num%10;num/=10;}printf("\"");for(
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
每日一题——第八十八题互联网打工人no1 C语言程序设计每日一练 c语言
题目：输入一个9位的无符号整数，判断其是否有重复数字#include#include#includeintmain(){charnum_str[10];printf("请输入一个9位数的无符号数：");scanf_s("%9d",&num_str);if(strlen(num_str)!=9){printf("输入的不是一个9位无符号整数，请重新输入");}else{if(hasDuplicate
mac电脑命令行获取电量小米人er 我的博客 macos 命令行
在macOS上，有几个命令行工具可以用来获取电量信息，最常用的是pmset命令。你可以通过以下方式来查看电池状态和电量信息：查看电池状态：pmset-gbatt这个命令会返回类似下面的输出：Nowdrawingfrom'BatteryPower'-InternalBattery-0(id=1234567)95%;discharging;4:02remainingpresent:true输出中包括电
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

AI算法工程师 | 07机器学习-无监督学习（一）聚类系列算法

文章目录

前言

导图 - 文章框架

机器学习 - 无监督学习 之 聚类系列算法

一、聚类的基本介绍

1. 了解聚类任务

2. 聚类算法

3. 相似度 与 数据间的相似度

4. 欧氏距离测度 与 余弦距离测度

二、K-Means 聚类

1. K-Means 算法具体流程

2. K-Means 的特点

3. K-Means 的损失函数

4. K-Means 算法 K 的选择

三、K-Means 的变形

1. K-Medoids

2. 二分 K-Means

3. K-Means++

4. Mini Batch K-Means

5. Canopy 聚类

6. K-Means 代码测试不同情况下的聚类效果

四、层次聚类

1. 分裂法

2. 凝聚法

五、密度聚类

1. DBSCAN 密度聚类算法

2. 基于 sklearn 的密度聚类代码

六、谱聚类（了解即可）

1. 构图

2. 切图

3. 基于 sklearn 的谱聚类代码

你可能感兴趣的:(AI算法工程师,机器学习,聚类,算法,人工智能)

机器学习 - 无监督学习之聚类系列算法

3. 相似度与数据间的相似度

4. 欧氏距离测度与余弦距离测度