說詤榢

【机器学习】-第8章-聚类算法

文章目录

8-聚类算法
- 8.1 聚类任务
- - 8.1.1 概念
  - 8.1.2 问题描述
  - 8.1.3 算法分类
  - 8.1.4 数学准备
  - - 1) 类或簇
    - 2) 类或簇的特征
    - 3) 类与类之间的距离
- 8.2 评价指标
- - 8.2.1 外部指标
  - - 1) Jaccard系数
    - 2) FM指数
    - 3) Ran指数
    - 4) Mirkin指数
  - 8.2.2 内部指标
  - - DB指数
    - Dunn指数
- 8.3 距离计算(相似度)
- - 1) 性质
  - 2) 闵可夫斯基距离
  - 3) 马哈拉诺比斯距离
  - 4) 相关系数
  - 5) 夹角余弦
- 8.4 原型聚类(划分式聚类)
- - 8.4.1 K均值(k-means)
  - - 1) 概念
    - 2) 算法推导
    - 3) 例子
    - 4) 优缺点
  - 8.4.2 LVQ
  - 8.4.3 高斯混合聚类GMM
  - - 1) 介绍
    - 2) 数学准备
    - - a) 高斯分布
      - b) 多元高斯分布
      - c) 贝叶斯公式
      - d) 极大似然
    - 2) 算法推导
    - 3) 例子
- 8.5 密度聚类
- - 8.5.1 概念
  - 8.5.2 相关概念
  - 8.5.3 DBSCAN算法推导
  - 8.5.4 代码
  - 8.5.5 优缺点
- 8.6 层次聚类
- - 8.6.1 概念
  - 8.6.2 数学准备
  - 8.6.3 算法推导
  - 8.6.4 例子

8-聚类算法

文章链接:https://gitee.com/fakerlove/machine-learning

8.1 聚类任务

什么是聚类，聚类是做什么的

8.1.1 概念

机器学习里面的聚类是无监督的学习问题，它的目标是为了感知样本间的相似度进行类别归纳。它可以用于潜在类别的预测以及数据压缩上去。

潜在类别预测，比如说可以基于通过某些常听的音乐而将用户进行不同的分类。数据压缩则是指将样本进行归类后，就可以用比较少的的One-hot向量来代替原来的特别长的向量。

聚类，既可以作为一个单独的过程，也可以作为其他机器学习任务的预处理模块。

8.1.2 问题描述

给定一个包含 $N$ 个样本的样本集 $X=\{x_1,x_2,...,x_N\}$ ，要给对这N个样本给定一个划分方式，将这些样本划分为m类 $C_1,C_2,C_3,...,C_m$ ,使得满足

$C_i\ne \phi,i=1,2,...,m$

$U_{i=1,2,..,m}C_i=X$

$C_i\bigcap C_j=\phi,i\ne j$

8.1.3 算法分类

聚类算法主要有：

序贯法
层次分析法
基于损失函数最优化的：K-means,概率聚类
基于密度的聚类
其他特殊聚类方法：基因聚类算法，分治限界聚类算法；子空间聚类算法；基于核的聚类方法。

问题的提出

虽然聚类看起来是很棒的，可以进行“物以类分，人以类聚”，但是聚类确守很多方面的影响。
例如：
1.属性选择不同，导致不同的结果
2.相似度度量不同，导致不同的结果
3.聚类的方法不同，导致不同的结果

如何衡量无监督学习的指标

性能指标

距离计算

8.1.4 数学准备

样本集合中由n个样本，每个样本由m个属性的特征向量组成，样本集合可以用矩阵X表示：
$X=[x_{ij}]_{m\times n}=\begin{bmatrix} x_{11}&x_{12}&\cdots&x_{1n} \\ x_{21}&x_{22}&\cdots&x_{2n} \\ \vdots &\vdots&\cdots&\vdots \\ x_{m1}&x_{m2}&\cdots&x_{mn} \end{bmatrix}$
给定样本集合X, $x_i,x_j\in X,x_i=(x_{1i},x_{2i},...,x_{mi})^T,x_j=(x_{1j},x_{2j},...,x_{mj})^T$

1) 类或簇

用 $G$ 表示类或簇，用 $x_i,x_j$ 表示类中的样本， $N_G$ 表示 $G$ 中的样本个数， $d_{ij}$ 表示样本 $x_i$ 与样本 $x_j$ 之间的距离

类或簇的定义

设给定的整数，若集合 $G$ 中的任意两个样本 $x_i,x_j$ ，有 $d_{ij}\le T$ , 则称 $G$ 表示为一个类或簇

2) 类或簇的特征

类的均值 $\overline{x}_G=\frac{1}{N_G}\sum_{i=1}^{N_G}x_i$
类的直径 $D_G=max_{x_i,x_j\in G}d_{ij}$
类的样本散步矩阵 $A_G=\sum_{i=1}^{N_G}(x_i-\overline{x}_G)(x_i-\overline{x}_G)^T$
样本协方差矩阵

$S_G=\frac{1}{m-1}A_G$

$=\frac{1}{m-1}\sum_{i=1}^{N_G}(x_i-\overline{x}_G)(x_i-\overline{x}_G)^T$

3) 类与类之间的距离

类 $C_p$ 和类 $C_q$ 之间的距离 $D (p, q)$ ,也称为连接

前四种方法定义的 $C_p$ 和 $C_q$ 之间的距离如下表所示。

相似度度量标准(距离大小)
最短距离或单连接(Single-link)	$D_{pq}=min{d_{ij
最长距离或完全连接(Complete-link)	$D_{pq}=max{d_{ij}
中心距离	$D_{pq}=d_{\overline{x}_p\overline{x}_q}$
平均距离(UPGMA)	$D_{pq}=\frac{1}{C_pC_q}\sum_{x_i \in C_p}\sum_{x_j \in C_q}d_{ij}$

8.2 评价指标

评价聚类算法性能好坏的

聚类性能度量大致分两类，

一类是将聚类结果与某个"参考模型"，进行比较，称为外部指标，

另一类是直接参考聚类结果而不利用任何参考模型，称为内部指标

8.2.1 外部指标

$a=|SS|,SS=\{(x_i,x_j)|\lambda_i=\lambda_j,\lambda_i^*=\lambda_j^*,ia=∣SS∣,SS={(xi,xj)∣λi=λj,λi∗=λj∗,i<j}b=∣SD∣,SD={(xi,xj)∣λi=λj,λi∗=λj∗,i<j}c=∣DS∣,DS={(xi,xj)∣λi=λj,λi∗=λj∗,i<j}b=∣DD∣,DD={(xi,xj)∣λi=λj,λi∗=λj∗,i<j}$

和混淆矩阵差不多。

其中a表示 $C$ 中隶属于相同簇且在与 $C^*$ 也属于相同簇的样本对，

$b$ 表示 $C$ 中隶属于相同簇但在与 $C^*$ 中隶属于不同簇的样本对

	S	D
S	\|SS\|	\|SD\|
D	\|DS\|	\|DD\|

1) Jaccard系数

(Jaccard Coefficient，简称JC)
$JC=\frac{a}{a+b+c}$

2) FM指数

Fowlkes adn Mallows Index,简称FMI
$FMI=\sqrt{\frac{a}{a+b}\cdot \frac{a}{a+c}}$

3) Ran指数

可知 $a + b + c + d = m (m - 1) / 2$

Rand Index，简称RI

m表示样本总数
$R=\frac{a+d}{a+b+c+d}=\frac{2(a+d)}{m(m-1)}$

4) Mirkin指数

$MK=\frac{b+c}{a+b+c+d}=\frac{2(b+c)}{m(m-1)}$

上诉性能度量的结果均在[0,1]之间，值越大越好

例子

下面，一共有5个样本，分成2簇。

使用聚类计算的答案

类别	物体
$C_1$	$x_1,x_2,x_3$
$C_2$	$x_4,x_5$

目标答案

类别	物体
$C_1^*$	$x_1,x_2,x_4$
$C_2^*$	$x_3,x_5$

根据上面计算的和目标答案，做出

a表示 $C$ 中隶属于相同簇且在与 $C^*$ 也属于相同簇的样本对。只有 $x_1,x_2)$ 符合这样子的条件。

在 $C$ 中 $x_1,x_2)$ 属于 $C_1$ 簇，在 $C^*$ 中 $x_1,x_2)$ 属于 $C_1$ 簇。其他都不满足


a=\|SS\|	$x_1,x_2)$	1
b=\|SD\|	$x_1,x_3),(x_2,x_3),(x_4,x_5)$	3
c=\|DS\|	$x_1,x_4),(x_2,x_4),(x_3,x_5)$	3
d=\|DD\|	$x_1,x_5),(x_2,x_5),(x_3,x_4)$	3

计算的外部指标为

$JC=\frac{a}{a+b+c}=\frac{1}{7}$

$FMI=\sqrt{\frac{a}{a+b}\cdot \frac{a}{a+c}}=\frac{1}{4}$

$R=\frac{2(a+d)}{m(m-1)}=\frac{2}{5}$

8.2.2 内部指标

考虑聚类结果的簇划分 $C=\{C_1,C_2,\cdots,C_k\}$ 定义
$avg(C)=\frac{2}{|C|(|C|-1)}\sum_{1\le iavg(C)=∣C∣(∣C∣−1)21≤i<j≤∣C∣∑dist(xi,xj)diam(C)=1≤i<j≤∣C∣maxdist(xi,xj)dmin(Ci,Cj)=xi∈Ci,xj∈Cjmindist(xi,xj)dcen(Ci,Cj)=dist(μi,μj)$

avg©–簇内样本的平均距离
$avg(C_1)=\frac{2}{3\times (3-1)}\times(|x_1-x_2|+|x_1-x_3|+|x_2-x_3|) \\ avg(C_2)=\frac{2}{2\times (2-1)}\times(|x_4-x_5|) \\ avg(C_3)=\frac{2}{2\times (2-1)}\times(|x_6-x_7|)$
diam©–簇内样本的最大距离
$diam(C_1)=|x_1-x_3| \\ diam(C_2)=|x_4-x_5| \\ diam(C_3)=|x_6-x_7|$
dmin(Ci,Cj)–簇间样本的最小距离
$dmin(C_1,C_2)=|x_3-x_4| \\ dmin(C_2,C_3)=|x_5-x_6| \\ dmin(C_1,C_3)=|x_3-x_6|$
dcen(Ci,Cj)–簇中心间距离
$\mu_1=(C_1,C_2)=\frac{x_1+x_2+x_3}{3},\mu_2=\frac{x_4+x_5}{2},\mu_3=\frac{x_6+x_7}{2} \\ dcen(C_1,C_2)=|\mu_1-\mu_2| \\ dcen(C_2,C_3)=|\mu_2-\mu_2| \\ dcen(C_1,C_3)=|\mu_1-\mu_3|$

DB指数

$DBI=\frac{1}{k}\sum_{i=1}^k\max_{j\ne i}(\frac{avg(C_i)+avg(C_j)}{d_{cen}(\mu_i,\mu_j)})$

Dunn指数

$DI=\min_{1\le i\le k}\{\min_{j\ne i}(\frac{d_{min(C_i,C_j)}}{\max_{1\le l\le k}diam(C_l)}\}$

8.3 距离计算(相似度)

距离越大，相似度越小

样本集合中由 $n$ 个样本，每个样本由 $m$ 个属性的特征向量组成，样本集合可以用矩阵 $X$ 表示：
$X=[x_{ij}]_{m\times n}=\begin{bmatrix} x_{11}&x_{12}&\cdots&x_{1n} \\ x_{21}&x_{22}&\cdots&x_{2n} \\ \vdots &\vdots&\cdots&\vdots \\ x_{m1}&x_{m2}&\cdots&x_{mn} \end{bmatrix}$
给定样本集合X, $x_i,x_j\in X,x_i=(x_{1i},x_{2i},...,x_{mi})^T,x_j=(x_{1j},x_{2j},...,x_{mj})^T$

1) 性质

非负性 $d_{ij}\ge 0$
同一性 $d_{ij}=0$ ,当且仅当 $i = j$
对称性 $d_{ij}=d_{ji}$
直递性 $d_{ij}\le d_{ik}+d_{kj}$

2) 闵可夫斯基距离

$d_{ij}=(\sum_{k=1}^m|x_{ki}-x_{kj}|^p)^{\frac{1}{p}},p\ge 1$

欧氏距离

两点之间直线最短

当 $p = 2$ 时称为欧氏距离（Euclidean distance)

$d_{ij}=(\sum_{k=1}^m|x_{ki}-x_{kj}|^2)^{\frac{1}{2}}$

曼哈顿距离

当p=1时称为曼哈顿距离（Manhattan distance)

$d_{ij}=\sum_{k=1}^m|x_{ki}-x_{kj}|$

切比雪夫距离

当p= $\infty$ 时称为切比雪夫距离（Chebyshev distance)

$d_{ij}=max_k|x_{ki}-x_{kj}|$

3) 马哈拉诺比斯距离

给定一个样本集 $X$ , $X=[x_{ij}]_{m \times n}$ ,其协方差矩阵为S,样本 $x_i$ 与样本 $x_j$ 之间的马哈拉诺比斯距离距离 $d_{ij}$ 定义为
$d_{ij}=[(x_i-x_j)^TS^{-1}(x_i-x_j)]^{\frac{1}{2}} \\ x_i=(x_{1i},x_{2i},...,x_{mi})^T,x_j=(x_{1j},x_{2j},...,x_{mj})^T$

4) 相关系数

样本 $x_i$ 与样本 $x_j$ 之间的相关系数定义为：
$r_{ij}=\frac{\sum_{k=1}^m(x_{ki}-\overline{x}_i)(x_{kj}-\overline{x}_j)}{[\sum_{k=1}^m(x_{ki}-\overline{x}_i)^2\sum_{k=1}^m(x_{kj}-\overline{x}_j)^2]^{\frac{1}{2}}} \\ \overline{x}_i=\frac{1}{m}\sum_{k=1}^mx_{ki},\overline{x}_j=\frac{1}{m}\sum_{k=1}^mx_{kj}$

5) 夹角余弦

$s_{ij}=\frac{\sum_{k=1}^mx_{ki}x_{kj}}{[\sum_{k=1}^mx_{ki}^2\sum_{k=1}^mx_{kj}^2]^\frac{1}{2}}$

参考资料

https://zhuanlan.zhihu.com/p/100557559

8.4 原型聚类(划分式聚类)

8.4.1 K均值(k-means)

1) 概念

K-means是基于损失函数最小化的思想的，给定样本集 $D=\{x_1,x_2,\dots,x_m\}$ ,聚类划分后簇为 $C=\{c_1,c_2,\dots,c_k\}$ ，K-means的损失函数定义为：
$E=\sum_{i=1}^k\sum_{x\in C_i}||x-\mu_i||^2 \\ \mu_i=\frac{1}{|C_i|}\sum_{x\in C_i}x$
$\mu_i$ 是簇 $C_i$ 的均值向量

既然要最小化这个东西，那么只要把各个样本归到离自己最近的那个类别就是啦。

说人话就是

样本之间的欧氏距离为 $d_{ij}=\sum_{k=1}^m(x_{ki}-x_{kj})^2=||x_i-x_j||^2$

损失函数为样本与所属类中心之间距离的总和： $W(C)=\sum_{l=1}^k\sum_{C(i)=l}||x_i-\overline{x}_l||^2$

$\overline{x}_l=\{\overline{x}_{1l},\overline{x}_{2l},\dots,\overline{x}_{ml}\}$ 为第I类的均值或者中心， $W (C)$ 称为能量函数

k均值聚类就是求解最优化问题： $C^*=argminW(C)=argmin_{C}\sum_{l=1}^k\sum_{C(i)=l}||x_i-\overline{x}_l||^2$

2) 算法推导

输入： $n$ 个样本的集合 $X$

输出：样本集合的聚类 $C^*$

初始化,令 $t = 0$ ,随机选择 $k$ 个样本点作为初始聚类中心

$m^{(0)}=(m_1^{(0)},\dots,m_l^{(0)},\dots,m_k^{(0)})$
对样本进行聚类，对固定的类中心 $m^{(t)}=(m_1^{(t)},\dots,m_l^{(t)},\dots,m_k^{(t)})$ ,其中 $m_k^{(t)}$ 为类 $C_l$ 的中心，

计算每个样本到类中心的距离，将每个样本指派到与其最近的中心的类中，构成聚类结果 $C^(t)$
计算新的类中心，对聚类结果 $C^{(t)}$ ，计算当前各个类中的样本的均值，作为新的类中心

$m^{(t+1)}=(m_1^{(t+1)},\dots,m_l^{(t+1)},\dots,m_k^{(t+1)})$
如果迭代收敛或符合停止条件，输出 $C^*=C^{(t)}$ ,后者令 $t = t + 1$

算法复杂度 $O (m n k)$ ,其中m为样本维数，n为样本个数,k为类别个数

3) 例子

迭代过程

import re
import random

import scipy.io as sio
import numpy as np
import matplotlib.pyplot as plt
from time import *

from sklearn.datasets import make_blobs
def find_closet_centroids(X, centroids):
    """
    对样本进行分类
    """
    result = []
    for x in X:
        # 计算每个点 到中心点的距离
        distance = np.sum((x - centroids) ** 2, axis=1)
        # 获取每个点到哪个中心点的位置最小，就划归为哪类
        result.append(np.argmin(np.sqrt(distance)))

    # print(result)
    # [0, 2, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
    # 0 表示是第1 类
    # 2 表示是第2 类
    return np.array(result)


def compute_centroids(X, idx):
    """
    计算新的簇中心
    """
    # K是一共分成的类数
    K = int(np.max(idx)) + 1
    # m为X的行数，300，
    # n 就是2
    m = X.shape[0]
    n = X.shape[-1]
    # 新的簇中心
    centroids = np.zeros((K, n))
    # 计算每个簇，有多少个
    counts = np.zeros((K,n))

    for i in range(m):
        centroids[int(idx[i])] += X[i]
        counts[int(idx[i])] += 1
    # 对簇中心，计算平均值。得到的就是新的簇中心
    centroids = centroids / counts
    # print(counts)
    return centroids

def cost(X, idx, centrodis):
    """
    计算损失函数
    :param X:
    :param idx:
    :param centrodis:
    :return:
    """
    c = 0
    for i in range(len(X)):
        c += np.sum((X[i] - centrodis[int(idx[i])]) ** 2)
    c /= len(X)
    return c


def random_initialization(X, K):
    """
    随机选择K组数据，作为簇中心
    :param X: ndarray,所有点
    :param K: int,聚类的类数
    :return: ndarray,簇中心
    """
    res = np.zeros((1, X.shape[-1]))
    m = X.shape[0]
    rl = []
    while True:
        index = random.randint(0, m)
        if index not in rl:
            rl.append(index)
        if len(rl) >= K:
            break
    for index in rl:
        res = np.concatenate((res, X[index].reshape(1, -1)), axis=0)
    return res[1:]


def k_means(X, K):
    """
    k-means聚类算法，
    :param X: ndarray,所有的数据
    :param K: int,分成聚类的类数
    :return: tuple,(idx, centroids_all)
                idx,ndarray 为每个数据所属类标签
                centroids_all,[ndarray,...]计算过程中每轮的簇中心
    """
    centroids = random_initialization(X, K)
    centroids_all = [centroids]
    idx = np.zeros((1,))
    last_c = -1
    now_c = -2
    # iterations = 200
    # for i in range(iterations):
    while now_c != last_c:  # 当收敛时结束算法，或者可以利用指定迭代轮数
        # 算出每个点所属簇类
        idx = find_closet_centroids(X, centroids)
        last_c = now_c
        # 计算损失函数
        now_c = cost(X, idx, centroids)
        # 根据重新规划后的簇类，重新规划簇类中心点
        centroids = compute_centroids(X, idx)
        # 记录训练过程中所有的中心点
        centroids_all.append(centroids)

    return idx, centroids_all

def visualizing(X, idx, centroids_all):
    """
    可视化聚类结果和簇中心的移动过程
    :param X: ndarray,所有的数据
    :param idx: ndarray,每个数据所属类标签
    :param centroids_all: [ndarray,...]计算过程中每轮的簇中心
    :return: None
    """
    # 绘制图像
    plt.scatter(X[..., 0], X[..., 1], c=idx)
    xx = []
    yy = []
    for c in centroids_all:
        xx.append(c[..., 0])
        yy.append(c[..., 1])

    plt.plot(xx, yy, 'rx--')
    plt.show()


if __name__ == '__main__':
    begin_time = time()
    print("========程序开始============")

    # data = sio.loadmat("ex7data2.mat")
    # X = np.array(data['X'])  # (300,2)
    # 随机生成5组数据
    X, y = make_blobs(centers=5, random_state=20, cluster_std=1)
    # print(x)
    idx, centroids_all = k_means(X, 5)
    visualizing(X, idx, centroids_all)
    end_time = time()
    run_time = end_time - begin_time
    print("========程序结束============")
    print('该循环程序运行时间：', run_time)

4) 优缺点

优点：

原理比较简单，实现也是很容易，收敛速度快；聚类效果较优；算法的可解释度比较强；主要需要调参的参数仅仅是簇数k。

缺点：

1、聚类中心的个数K需要事先给定，这个K值的选定是非常难以估计的。很多时候，事先并不知道给定的数据集应该分成多少个类别才最合适；一般通过交叉验证确定；

2、不同的初始聚类中心可能导致完全不同的聚类结果。算法速度依赖于初始化的好坏，初始质点距离不能太近；

3、如果各隐含类别的数据不平衡，比如各隐含类别的数据量严重失衡，或者各隐含类别的方差不同，则聚类效果不佳；

4、该方法不适于发现非凸面形状的簇或大小差别很大的簇，对于不是凸的数据集比较难收敛；

5、对噪音和异常点比较的敏感。

6、需样本存在均值（限定数据种类）。

7、采用迭代方法，得到的结果只是局部最优。

8.4.2 LVQ

8.4.3 高斯混合聚类GMM

1) 介绍

高斯混合模型（GMM）可以看做是k-means模型的一个优化。它既是一种工业界常用的技术手段，也是一种生成式模型。

高斯混合模型试图找到多维高斯模型概率分布的混合表示，从而拟合出任意形状的数据分布。在最简单的场景中，GMM可以用与k-means相同的方式进行聚类。

只是将高斯分布、贝叶斯公式、极大似然法和聚类的思路混合在这一种方法中，容易被绕来绕去感到云里雾里的。

2) 数学准备

a) 高斯分布

首先是高斯分布的概念。高斯分布即正态分布。一般我们最常见最熟知的一元正态分布的标准形式和曲线是这样的：
$f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

正态分布可以记为 $N(\mu,\sigma^2)$ ，从上面的公式很明显可以看出一元正态分布只有两个参数 $\mu$ 和 $\sigma$ ,且这两个参数决定了正态曲线的“宽窄”、“高矮”。曲线下面积为1。

b) 多元高斯分布

资料参考

https://www.cnblogs.com/bingjianing/p/9117330.html
https://www.zhihu.com/question/36339816

先假设n个变量 $x=[x_1,x_2,\dots,x_n]^T$ ,且服从正态分布（维度不相关多元正态分布），

各个维度的均值 $E(x)=[\mu_1,\mu_2,\dots,\mu_n]^T$ ，

方差 $\sigma(x)=[\sigma_1,\sigma_2,\dots,\sigma_n]^T$

根据联合概率密度公式：
$f(x)=p(x_1,x_2,\dots,x_n)=p(x_1)p(x_2)\dots p(x_n) \\ =\frac{1}{(\sqrt{2\pi})^n\sigma_1\sigma_2\dots\sigma_n}e^{-\frac{(x_1-\mu_1)^2}{2\sigma_1^2}-\frac{(x_2-\mu_2)^2}{2\sigma_2^2}\dots-\frac{(x_n-\mu_n)^2}{2\sigma_n^2}}$
$令z^2=-\frac{(x_1-\mu_1)^2}{2\sigma_1^2}-\frac{(x_2-\mu_2)^2}{2\sigma_2^2}\dots-\frac{(x_n-\mu_n)^2}{2\sigma_n^2},\sigma_z=\sigma_1\sigma_2\dots\sigma_n$

这样多元正态分布又可以写成一元那种漂亮的形式了(注意一元与多元的差别)：
$f(z)=\frac{1}{(\sqrt{2\pi})^n\sigma_n}e^{-\frac{z^2}{2}}$
因为多元正态分布有着很强的几何思想，单纯从代数的角度看待z很难看出z的概率分布规律，这里需要转换成矩阵形式：
$z^2=z^Tz=[x_1-\mu_1,x_2-\mu_2,\dots,x_n-\mu_n] \begin{bmatrix} \frac{1}{\sigma_1^2}&0&\dots&0 \\ 0&\frac{1}{\sigma_2^2}&\dots&0 \\ \vdots&\dots&\dots&\vdots \\ 0&0&\dots&\frac{1}{\sigma_n^2} \end{bmatrix} [x_1-\mu_1,x_2-\mu_2,\dots,x_n-\mu_n]^T$
等式比较长，让我们要做一下变量替换：

$x-\mu_x=[x_1-\mu_1,x_2-\mu_2,\dots,x_n-\mu_n]^T$

定义一个符号

$\sum=\begin{bmatrix}\sigma_1^2&0&\dots&0\\ 0&\sigma_2^2&\dots&0\\ \vdots&\dots&\dots&\vdots\\ 0&0&\dots&\sigma_n^2\end{bmatrix}$

$\sum$ 代表变量 $X$ 的协方差矩阵， i行j列的元素值表示 $x_i与x_j$ 的协方差

因为现在变量之间是相互独立的，所以只有对角线上 $(i = j)$ 存在元素，其他地方都等于0，且 $x_i$ 与它本身的协方差就等于方差

$\sum$ 是一个对角阵，根据对角矩阵的性质，它的逆矩阵：
$(\sum)^{-1}=\begin{bmatrix} \frac{1}{\sigma_1^2}&0&\dots&0 \\ 0&\frac{1}{\sigma_2^2}&\dots&0 \\ \vdots&\dots&\dots&\vdots \\ 0&0&\dots&\frac{1}{\sigma_n^2} \end{bmatrix}$
对角矩阵的行列式 = 对角元素的乘积

$\sigma_z=|\sum|^{\frac{1}{2}}=\sigma_1\sigma_2\dots\sigma_n$

替换变量之后，等式可以简化为：

$z^Tz=(x-\mu_x)^T\sum^{\frac{1}{2}}(x-\mu_x)$

代入以z为自变量的标准高斯分布函数中：

一般的多元高斯具有形式：

$f(z)=\frac{1}{(\sqrt{2\pi})^n\sigma_n}e^{-\frac{z^2}{2}} \\ f(x)=\frac{1}{(\sqrt{2\pi})^n|\sum|^{\frac{1}{2}}}e^{-\frac{(x-\mu_x)^T(\sum)^{-1}(x-\mu_x)}{2}}$

注意前面的系数变化：从非标准正态分布->标准正态分布需要将概率密度函数的高度压缩 $|\sum|^{\frac{1}{2}}$ 倍，从一维 -> n维的过程中，每增加一维，高度将压缩 $\sqrt{2\pi}$ 倍

二元高斯曲线如下图。曲线下面积为1。它多了一个变量。例如x轴是身高，y轴是体重，有了身高体重的数据就可以在z轴找到该身高体重在人群中所占的比例（即概率）。同样地，中等身高且中等体重的人在人群中是最常见的，正如路上普普通通的路人。

c) 贝叶斯公式

$P(A_i|B)=\frac{P(A_i)P(B|A_i)}{\sum_{j=1}^nP(A_j)P(B|A_j)}$

d) 极大似然

2) 算法推导

n维样本的高斯分布为：

$p(x)=\frac{1}{(\sqrt{2\pi})^n|\sum|^{\frac{1}{2}}}e^{-\frac{(x-\mu_x)^T(\sum)^{-1}(x-\mu_x)}{2}}$

由贝叶斯定理，样本 $x_j$ 属于 $i$ 类的后验概率为：

$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ p_M(z_j=i|x_j)…$

将上式简写为 $\gamma_{ji}$

则样本 $x_j$ 分类公式为

$\lambda_j=argmax_{i\in \{1,2,\dots,k\}}\gamma_{ji}$

给每一个分类一个系数，采用对数似然，得

$LL(D)=ln(\prod_{j=1}^mP_M(x_j)) \\ \sum_{j=1}^mln(\sum_{i=1}^k\alpha_i\cdot P(x_j|\mu_i,\sum_i))$

上式分别对 $\sum,\mu$ 求导。令导数为0，得

$\mu_i=\frac{\sum_{j=1}^m\gamma_{ji}x_j}{\sum_{j=1}^m\gamma_{ji}} \\ \sum_i=\frac{\sum_{j=1}^m\gamma_{ji}(x_j-\mu_i)(x_j-\mu_i)^T}{\sum_{j=1}^m\gamma_{ji}}$

系数求和为1，引入此约束，对数似然的拉格朗日形式为

$\alpha_i=\frac{1}{m}\sum_{j=1}^m\gamma_{ji}$

3) 例子

代码

import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import numpy as np

#产生实验数据
from sklearn.datasets.samples_generator import make_blobs
X, y_true = make_blobs(n_samples=700, centers=4,
                       cluster_std=0.5, random_state=2019)
X = X[:, ::-1] #方便画图

from sklearn.mixture import GaussianMixture as GMM
gmm = GMM(n_components=4).fit(X) #指定聚类中心个数为4
labels = gmm.predict(X)
plt.scatter(X[:, 0], X[:, 1], c=labels, s=50, cmap='viridis')

它使用EM算法进行迭代：1.选择位置和初始形状2.循环直至收敛：

E步骤：对于每个点，为每个点分别计算由该混合模型内的每个分量生成的概率。

M步骤：调整模型参数以最大化模型生成这些参数的可能性。

该算法保证该过程内的参数总会收敛到一个局部最优解。

例二

参考资料

https://www.cnblogs.com/lunge-blog/p/11792226.html

数据

序号，密度，含糖量
1,0.697,0.460
2,0.774,0.376
3,0.634,0.264
4,0.608,0.318
5,0.556,0.215
6,0.403,0.237
7,0.481,0.149
8,0.437,0.211
9,0.666,0.091
10,0.243,0.267
11,0.245,0.057
12,0.343,0.099
13,0.639,0.161
14,0.657,0.198
15,0.360,0.370
16,0.593,0.042
17,0.719,0.103
18,0.359,0.188
19,0.339,0.241
20,0.282,0.257
21,0.748,0.232
22,0.714,0.346
23,0.483,0.312
24,0.478,0.437
25,0.525,0.369
26,0.751,0.489
27,0.532,0.472
28,0.473,0.376
29,0.725,0.445
30,0.446,0.459

代码

file='xigua4.txt'
x=[]
with open(file) as f:
    f.readline()
    lines=f.read().split('\n')
    for line in lines:
        data=line.split(',')
        x.append([float(data[-2]),float(data[-1])])
y=np.array(x)

# 2 算法部分
import numpy as np
import random
 
def probability(x,u,cov):
    cov_inv=np.linalg.inv(cov)
    cov_det=np.linalg.det(cov)
    return np.exp(-1/2*((x-u).T.dot(cov_inv.dot(x-u))))/np.sqrt(cov_det)

def gauss_mixed_clustering(x,k=3,epochs=50,reload_params=None):
    features_num=len(x[0])
    r=np.empty(shape=(len(x),k))
#     初始化系数，均值向量和协方差矩阵
    if reload_params!=None:
        a,u,cov=reload_params
    else:
        a=np.random.uniform(size=k)
        a/=np.sum(a)
        u=np.array(random.sample(list(x),k))
        cov=np.empty(shape=(k,features_num,features_num))
#         初始化为只有对角线不为0
        for i in range(k):
            for j in range(features_num):
                cov[i][j]=[0]*j+[0.5]+[0]*(features_num-j-1)
    step=0
    while step<epochs:
#         E步：计算r_ji
        for j in range(len(x)):
            for i in range(k):
                r[j,i]=a[i]*probability(x[j],u[i],cov[i])
            r[j]/=np.sum(r[j])
             
        for i in range(k):
            r_toal=np.sum(r[:,i])
            u[i]=np.sum([x[j]*r[j,i] for j in range(len(x))],axis=0)/r_toal
            cov[i]=np.sum([r[j,i]*((x[j]-u[i]).reshape((features_num,1)).dot((x[j]-u[i]).reshape((1,features_num)))) for j in range(len(x))],axis=0)/r_toal
            a[i]=r_toal/len(x)
        step+=1
    C=[]
    for i in range(k):
        C.append([])
    for j in range(len(x)):
        c_j=np.argmax(r[j,:])
        C[c_j].append(x[j])
    return C,a,u,cov

验证

res,A,U,COV=gauss_mixed_clustering(y)
import matplotlib.pyplot as plt
%matplotlib inline
colors=['green','blue','red','black','yellow','orange']
for i in range(len(res)):
    plt.scatter([d[0] for d in res[i]],[d[1] for d in res[i]],color=colors[i],label=str(i))
plt.scatter([d[0] for d in U],[d[1] for d in U],color=colors[-1],marker='^',label='center')
 
plt.xlabel('density')
plt.ylabel('suger')
plt.legend()

50论过后

res,A,U,COV=gauss_mixed_clustering(y,reload_params=[A,U,COV])
for i in range(len(res)):
    plt.scatter([d[0] for d in res[i]],[d[1] for d in res[i]],color=colors[i],label=str(i))
plt.scatter([d[0] for d in U],[d[1] for d in U],color=colors[-1],marker='^',label='center')
plt.xlabel('density')
plt.ylabel('suger')
plt.legend()

参考资料

https://zhuanlan.zhihu.com/p/81255623

https://blog.csdn.net/lotusng/article/details/79990724

8.5 密度聚类

8.5.1 概念

k-means算法对于凸性数据具有良好的效果，能够根据距离来讲数据分为球状类的簇，但对于非凸形状的数据点，就无能为力了，当k-means算法在环形数据的聚类时，我们看看会发生什么情况。

从上图可以看到，kmeans聚类产生了错误的结果，这个时候就需要用到基于密度的聚类方法了，

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法，类似于均值转移聚类算法，但它有几个显著的优点。

DBSCAN算法的核心思想是：用一个点的ε邻域内的邻居点数衡量该点所在空间的密度，该算法可以找出形状不规则的cluster，而且聚类的时候事先不需要给定cluster的数量。

常用的密度聚类算法：DBSCAN、MDCA、OPTICS、DENCLUE等。

密度聚类的主要特点是：

发现任意形状的簇
对噪声数据不敏感
一次扫描
需要密度参数作为停止条件
计算量大、复杂度高

8.5.2 相关概念

定义一个数据集 $D=\{x_1,x_2,\dots,x_m\}$

$\epsilon$ 表示半径
$\epsilon$ 领域( $\epsilon$ neighborhood，也称为Eps),给定对象在半径 $\epsilon$ 内的区域

$N_\epsilon(x)=\{y\in X:dist(x,y)\le \epsilon\}$
密度

$\epsilon$ 领域中x的密度，是一个整数值，依赖于半径 $\epsilon$

$p(x)=|N_\epsilon(x)|$
MinPts

ε-邻域内样本个数最小值。也简记为M
核心对象

若 $x_i$ 的 $\epsilon$ 领域至少包含MinPts个样本，即| $N_\epsilon(x_i)|\ge MinPts$ ,则 $x_i$ 是一个核心对象
密度直达

若 $x_j$ 位于 $x_i$ 的 $\epsilon$ 领域中，且 $x_i$ 是核心对象，则称 $x_j$ 和 $x_i$ 是密度直达
密度可达(density-reachable)

如果存在一个对象链 $p_1,p_2,..p_m$ ,其中 $p_1=x_i,p_n=x_j,$ 且 $p_{i+1}$ 由 $p_i$ 密度直达,那么称 $x_j$ 是从 $x_i$ 密度可达的。
密度相连(density-connected)

在集合X中，如果存在一个对象o，使得对象x和y是从o关于ε和m密度可达的，那么对象x和y是关于ε和m密度相连的。

可以发现，密度可达是直接密度可达的传递闭包，并且这种关系是非对称的。密度相连是对称关系。DBSCAN目的是找到密度相连对象的最大集合。

从下图可以很容易看出理解上述定义，图中MinPts=5，红色的点都是核心对象，因为其ϵ-邻域至少有5个样本。黑色的样本是非核心对象。所有核心对象密度直达的样本在以红色核心对象为中心的超球体内，如果不在超球体内，则不能密度直达。图中用绿色箭头连起来的核心对象组成了密度可达的样本序列。在这些密度可达的样本序列的ϵ-邻域内所有的样本相互都是密度相连的。

8.5.3 DBSCAN算法推导

1、如果一个点x的ε邻域包含多余m个对象，则创建一个x作为核心对象的新簇；
2、寻找并合并核心对象直接密度可达的对象；
3、没有新点可以更新簇的时候，算法结束。

输入:样本集 $D=\{x_1,x_2,\dots,x_m\}$ ，领域参数 $(\epsilon,MinPts)$ ,样本距离度量方式

输出:簇划分

初始化核心对象集合 $\Omega=\phi$ ,初始化聚类簇k=0,初始化为访问样本集合 $F$ .簇划分 $C=\phi$

对于j=1,2,…,m，按照下面的步骤找出所有的核心对象

a) 通过距离度量的方式没找到样本 $x_j$ 的 $\epsilon$ 领域子样本集 $N_\epsilon(x_j)$

b) 如果子样本集样本个数满足 $|N_\epsilon(x_j)|\ge MinPts$ ，将样本 $x_j$ 加入核心对象样本集合 $\Omega=\Omega \bigcup\{x_j\}$

如果核心对象集合 $\Omega=\phi$ ,则算法结束，否则转入步骤4

在核心对象集合Ω中，随机选择一个核心对象o，初始化当前簇核心对象队列 $\Omega_{current}=\{o\}$ ,初始化类别序号k=k+1，初始化当前簇样本集合 $C_k=\{o\}$ ,更新未访问核心对象为未访问集合 $F=F-\{o\}$ 。

如果当前簇核心对象队列 $\Omega_{current}=\phi$ ,则当前聚类簇 $C_k$ 生成完毕，更新簇划分 $C=\{C_1,C_2,..C_k\}$ ,更新核心对象集合 $\Omega=\Omega-C_k$ ,转入步骤3，否则更新核心对象集合 $\Omega=\Omega-C_k$ 。

在当前簇核心对象队列 $\Omega_{current}$ 中取出一个核心对象 $o^\prime$ 。通过领域距离阈值 $\epsilon领域$ 子样本集 $N_\epsilon(o^\prime)$ ，令 $\Delta=N_\epsilon(o^\prime)\bigcap F$ ,更新当前簇集合 $C_k=C_k\bigcup \Delta$ ,更新为访问样本集合 $F=F-\Delta$ ,更新 $\Omega_{current}=\Omega_{current}\bigcup (\Delta\bigcap \Omega)-o^\prime$ ，转入步骤5

输出结果，簇划分 $C=\{C_1,C_2,...,C_k\}$

算法特征描述:
1、每个簇至少包含一个核心对象。
2、非核心对象可以是簇的一部分，构成簇的边缘。
3、包含过少对象的簇被认为是噪声。

8.5.4 代码

import re
import random
from sklearn.cluster import DBSCAN
import scipy.io as sio
import numpy as np
import matplotlib.pyplot as plt
from time import *

from sklearn.datasets import make_blobs
from sklearn import datasets


def dbscan(data_set, eps, min_pts):
    """
    data_set 数据集，[n,2]
    eps 邻域大小范围
    min_pts 一个邻域至少包含多少个样本
    """
    examples_nus = np.shape(data_set)[0]  # 样本数量

    unvisited = [i for i in range(examples_nus)]  # 未被访问的点
    visited = []  # 已被访问的点
    # cluster为输出结果，表示对应元素所属类别

    # 默认是一个长度为examples_nus的值全为-1的列表，-1表示噪声点
    cluster = [-1 for i in range(examples_nus)]

    k = - 1  # 用k标记簇号，如果是-1表示是噪声点

    while len(unvisited) > 0:  # 只要还有没有被访问的点就继续循环
        p = random.choice(unvisited)  # 随机选择一个未被访问对象
        unvisited.remove(p)
        visited.append(p)

        nighbor = []  # nighbor为p的eps邻域对象集合，密度直接可达
        for i in range(examples_nus):
            if i != p and np.sqrt(np.sum(np.power(data_set[i, :] - data_set[p, :], 2))) <= eps:  # 计算距离，看是否在邻域内
                nighbor.append(i)

        if len(nighbor) >= min_pts:  # 如果邻域内对象个数大于min_pts说明是一个核心对象
            k = k + 1
            cluster[p] = k  # 表示p它属于k这个簇

            for pi in nighbor:  # 现在要找该邻域内密度可达
                if pi in unvisited:
                    unvisited.remove(pi)
                    visited.append(pi)

                    # nighbor_pi是pi的eps邻域对象集合
                    nighbor_pi = []
                    for j in range(examples_nus):
                        if np.sqrt(np.sum(np.power(data_set[j] - data_set[pi], 2))) <= eps and j != pi:
                            nighbor_pi.append(j)

                    if len(nighbor_pi) >= min_pts:  # pi是否是核心对象，通过他的密度直接可达产生p的密度可达
                        for t in nighbor_pi:
                            if t not in nighbor:
                                nighbor.append(t)
                if cluster[pi] == -1:  # pi不属于任何一个簇，说明第pi个值未改动
                    cluster[pi] = k
        else:
            cluster[p] = -1  # 不然就是一个噪声点

    return np.array(cluster)


if __name__ == '__main__':
    # centers = [[1, 1], [-1, -1], [1, -1]]

    # 生成非凸数据 factor表示内外圈距离比
    X, Y1 = datasets.make_circles(n_samples=1000, factor=.4, noise=.07)

    print(X)

    eps = 0.1  # 邻域半径
    min_pts = 2  # 核心对象
    cluster = dbscan(X, eps, min_pts)
    print(cluster.shape)
    print(np.unique(cluster))
    plt.figure()
    plt.scatter(X[:, 0], X[:, 1], c=cluster)
    plt.show()

    plt.figure()
    y_pred = DBSCAN(eps=0.1).fit_predict(X)
    plt.scatter(X[:, 0], X[:, 1], c=y_pred)
    plt.show()

结果如下

想要换个模型

X, Y1 = datasets.make_moons(n_samples=200, noise=None, shuffle=True, random_state=None)

可以自己玩

datasets.make_biclusters() # 为双聚类生成具有常数块对角结构的数组。
datasets.make_blobs() # 生成用于聚类的各向同性高斯斑点。
datasets.make_checkerboard() # 为双聚类生成具有方块棋盘结构的数组。
datasets.make_circles() # 在2维中制作一个包含一个小圆的大圆。
datasets.make_classification() # 生成一个随机n类分类问题。
datasets.make_friedman1() # 生成“Friedman#1”回归问题。
datasets.make_friedman2() # 生成“Friedman#2”回归问题。
datasets.make_friedman3() # 生成“Friedman#3”回归问题。
datasets.make_gaussian_quantiles() # 生成各向同性高斯并按分位数标记样本。
datasets.make_hastie_10_2() # 为Hastine等人使用的二进制分类生成数据。
datasets.make_low_rank_matrix() # 生成具有钟形奇异值的低秩矩阵。
datasets.make_moons() # 做两个交叉的半圆。
datasets.make_multilabel_classification() # 生成一个随机多标签分类问题。
datasets.make_regression() # 生成一个随机回归问题。
datasets.make_s_curve() # 生成S曲线数据集。
datasets.make_sparse_coded_signal() # 将信号生成为字典元素的稀疏组合。
datasets.make_sparse_spd_matrix() # 生成稀疏对称正定矩阵。
datasets.make_sparse_uncorrelated() # 生成具有稀疏不相关设计的随机回归问题。
datasets.make_spd_matrix() # 生成一个随机对称正定矩阵。
datasets.make_swiss_roll() # 生成瑞士卷数据集。

8.5.5 优缺点

**优点：**不需要确定要划分的聚类个数，聚类结果没有偏倚；抗噪声，在聚类的同时发现异常点，对数据集中的异常点不敏感；处理任意形状和大小的簇，相对的，K-Means之类的聚类算法一般只适用于凸数据集。

**缺点：**数据量大时内存消耗大，相比K-Means参数多一些；样本集的密度不均匀、聚类间距差相差很大时，聚类质量较差，这时用DBSCAN聚类一般不适合；

参考资料

https://www.jianshu.com/p/5e5bcf3ec9d6

(3条消息) python实现DBSCAN聚类_啃西瓜的小煤球的博客-CSDN博客_dbscan聚类python实现

8.6 层次聚类

8.6.1 概念

层次聚类(Hierarchical Clustering)是聚类算法的一种，通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中，不同类别的原始数据点是树的最低层，树的顶层是一个聚类的根节点。创建聚类树有自下而上合并和自上而下分裂两种方法，本篇文章介绍合并方法

源数据:

层次聚类:

1.凝聚层次聚类：AGNES算法(自底向上)

首先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到某个终结条件被满足

2.分裂层次聚类：DIANA算法(自顶向下)

首先将所有对象置于一个簇中，然后逐渐细分为越来越小的簇，直到达到了某个终结条件。

8.6.2 数学准备

给定聚类簇 $C_i$ 和 $C_j$ ，两个簇的距离可以通过以下定义得到

最短距离: $d_{min}(C_i,C_j)=min_{p\in C_i,q\in C_j}|p-q|$

最大距离 $d_{max}(C_i,C_j)=max_{p\in _i,q\in C_j}|p-q|$

均值距离 $d_{mean}(C_i,C_j)=|\overline{p}-\overline{q}|,其中\overline{p}=\frac{1}{|C_i|}\sum_{p\in C_i}p,\overline{q}=\sum_{q\in C_j}q$

你可能感兴趣的:(机器学习,聚类,机器学习,算法)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
非对称加密算法————RSA理论及详情 hu19930613
转自：https://www.kancloud.cn/kancloud/rsa_algorithm/48484一、一点历史1976年以前，所有的加密方法都是同一种模式：（1）甲方选择某一种加密规则，对信息进行加密；（2）乙方使用同一种规则，对信息进行解密。由于加密和解密使用同样规则（简称"密钥"），这被称为"对称加密算法"（Symmetric-keyalgorithm）。这种加密模式有一个最大弱点
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
【加密算法基础——对称加密和非对称加密】 XWWW668899 网络安全服务器笔记
对称加密与非对称加密对称加密和非对称加密是两种基本的加密方法，各自有不同的特点和用途。以下是详细比较：1.对称加密特点密钥:使用相同的密钥进行加密和解密。发送方和接收方必须共享这个密钥。速度:通常速度较快，适合处理大量数据。实现:算法相对简单，计算效率高。常见算法AES(高级加密标准)DES(数据加密标准)3DES(三重数据加密标准)RC4(流密码)应用场景文件加密磁盘加密传输大量数据时的加密2.
【算法练习】IDEA集成leetcode插件实现快速刷 2401_84102892 2024年程序员学习算法 intellij-idea leetcode
============点击右侧边leetcode->设置->配置地址、用户名、密码、存放目录、文件模板用户名要登录后在账号信息里看模板代码1.codefilename!velocityTool.camelC
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj

	S	D
S	\|SS\|	\|SD\|
D	\|DS\|	\|DD\|