基于 PCA 的人脸识别系统及人脸姿态分析

文章目录

1 PCA
- 1.1 原理
- 1.2 算法流程
- - 1.2.1 零均值化
  - 1.2.2 计算协方差矩阵
  - 1.2.3 特征值和特征向量
  - 1.2.4 降维得到 K 维特征
  - 1.2.5 PCA 的优缺点
2 Python 实现 PCA
3 基于 PCA 的人脸识别
- 3.1 ORL 数据集
- - 3.1.1 数据读取与数据处理
  - 3.1.2 数据分组
  - 3.1.3 使用 PCA 进行特征提取
  - 3.1.4 人脸识别
  - 3.1.5 人脸识别的 GUI 界面
  - 3.1.6 实验结果
  - 3.1.7 全部代码
- 3.2 Yale 数据集
- - 3.2.1 数据读取和数据处理
  - 3.2.2 数据分组
  - 3.2.3 使用 PCA 进行特征提取
  - 3.2.4 人脸识别及可视化
  - 3.2.5 实验结果
  - 3.2.6 全部代码
- 3.3 UMIST 数据集
- - 3.3.1 数据读取与数据处理
  - 3.3.2 数据分组
  - 3.3.3 使用 PCA 进行特征提取
  - 3.3.4 人脸识别及可视化
  - 3.3.5 实验结果
  - 3.3.6 全部代码
4 基于 MediaPipe 的姿态分析
- 4.1 MediaPipe Solutions
- - 4.1.1 ML 管道
  - 4.1.2 姿态估计质量
  - 4.1.3 人 / 姿势检测模型 (BlazePose 检测器)
  - 4.1.4 Pose Landmark 模型 (BlazePose GHUM 3D)
  - 4.1.5 API
  - 4.1.6 示例
- 4.2 ORL 数据集
- - 4.2.1 数据读取与处理
  - 4.2.2 姿态估计
  - 4.2.3 全部代码
- 4.3 Yale 数据集
- 4.4 UMIST 数据集
- 4.5 结果分析
5 基于 KNN 的人脸识别
- 5.1 KNN
- 5.2 ORL 数据集
- 5.3 Yale 数据集
- 5.4 UMIST 数据集
- 5.5 KNN 的优缺点
- 5.4 UMIST 数据集
- 5.5 KNN 的优缺点

1 PCA

在解决实际问题的时候，多变量问题是经常会遇到的，变量太多，无疑会增加分析问题的难度与复杂性。同时，在许多实际问题中，多个变量之间是具有一定的相关关系的。因此，能否在各个变量之间相关关系研究的基础上，用较少的新变量代替原来较多的变量，而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息？事实上，这种想法是可以实现的。

1.1 原理

PCA(Principal Components Analysis,，主成分分析)是将原来多个变量化为少数几个综合指标的一种统计分析方法，从数学角度来看，这是一种降维处理技术。下面举例说明其原理，加入有以下数据：

可以将上述数据看成一个椭圆形，椭圆有一个长轴和一个短轴。在短轴方向上，数据变化很少；在极端的情况，短轴如果退化成一点，那只有在长轴的方向才能够解释这些点的变化了。这样，由二维到一维的降维就自然完成了。从数据波动上来看，在短轴上数据的方差较小，因此在该轴上的信息属于次信息；而在长轴上数据的方差较大，因此在该轴上的信息属于主信息。了解 PCA 的基本原理之后，我们还要思考一个问题，PCA 优化的目标是什么？请看下图：

我们将上图中的点往两个超平面上投影，分别得到不同超平面的方差分别为：0.045，0.206，因此将所有样本点投影到方差为 0.206 的超平面能在实现降维的目标且保留更多的信息。因此 PCA 要做得是使所有样本的投影尽可能分开，也即找到一个样本投影后的方差最大的超平面来实现降维。我们将上述降维准则称作 最大可分性；同时样本点到这个超平面的距离都足够近，即下图中所有红线(即投影造成的损失)加起来最小，也就是保留了更多的信息，我们将此准则称作 最近重构性。

1.2 算法流程

PCA 整体的算法流程描述如下：

输入：样本集 $\boldsymbol{D = {x_1,x_2, \cdots,x_m}}$ ；低维空间维数 $\boldsymbol{k}$ ;

过程：

1：对所有样本进行零均值化： $\boldsymbol{x_i\leftarrow x_i - \frac{1}{m}\sum_{i=1}^{m}x_i}$ ;

2：计算样本的协方差矩阵 $\boldsymbol{XX^T}$ ;

3：对协方差矩阵 $\boldsymbol{XX^T}$ 做特征值分解；

4：取最大的 $\boldsymbol{k}$ 个的特征值所对应的特征向量 $\boldsymbol{w_1, w_2, \cdots, w_{k}}$ ;

输出：投影矩阵 $\boldsymbol{W = (w_1, w_2, \cdots, w_{k})}$ 。

下面对每个步骤进行详细分析。

1.2.1 零均值化

此步骤的目的是标准化输入数据集，使数据成比例缩小。更确切地说，在使用 PCA 之前必须标准化数据的原因是 PCA 方法对初始变量的方差非常敏感。也就是说，如果初始变量的范围之间存在较大差异，那么范围较大的变量占的比重较大，和较小的变量相比(例如，范围介于 0 和 100 之间的变量较 0 到 1 之间的变量会占较大比重)，这将导致主成分的偏差。通过将数据转换为同样的比例可以防止这个问题。在实现过程中，我们的操作区别于标准的标准化，我们只将每个样本减去它们的均值。

1.2.2 计算协方差矩阵

此步骤的目的是了解输入数据集的变量相对于彼此平均值变化，换句话说，查看它们是否存在关系。因为有时候变量由于高度相关，这样就会包含冗余信息。因此，为了识别变量的相关性，我们计算协方差矩阵。下面以二维矩阵为例：
$\begin{bmatrix} Cov(x,x)&Cov(x,y)&Cov(x, z)\\ Cov(y,x)&Cov(y, y)&Cov(y,z)\\ Cov(z,x)&Cov(z, y)&Cov(z,z) \end{bmatrix}$
上述矩阵中，对角线上分别是特征 $x, y, z$ 的方差，非对角线上是协方差。由于协方差是可交换的 $C o v (a, b) = C o v (b, a)$ ，协方差矩阵关于主对角线是对称的，这意味着上三角部分和下三角部分相等。协方差矩阵可以告诉我们变量之间的关系，总结有如下三点：

如果协方差为正则：两个变量一起增加或减少(正相关)；
如果协方差为负则：两个变量其中一个增加，另一个减少(负相关)；
协方差绝对值越大，两者对彼此的影响越大，反之越小。

1.2.3 特征值和特征向量

求协方差矩阵 $C$ 的特征值 $\lambda$ 和相对应的特征向量 $u$ (每一个特征值对应一个特征向量)：
$\lambda u$
特征值 $\lambda$ 会有 $N$ 个，每一个 $\lambda$ 对应一个特征向量 $u$ ，将特征值 $\lambda$ 按照从大到小的顺序排序，选择最大的前 $K$ 个，并将其相对应的 $K$ 个特征向量拿出来，我们会得到一组 $\{(\lambda_1,u_1),(\lambda_2,u_2),\cdots,(\lambda_k, u_k)\}$ 。为什么只取特征值较大的特征向量，因为较大特征值对应的特征向量保留了原始数据的大部分信息吗，也即方差较大，可作为数据的主成分。

1.2.4 降维得到 K 维特征

选取最大的前 $K$ 个特征值和相对应的特征向量，并进行投影的过程，就是降维的过程。对于每个样本 $X_i$ ，原始的特征是 $(x_1, x_2, \cdots,x_m)$ ，投影之后的新特征是 $(y_1,y_2,\cdots,y_k)$ ，计算过程如下：
$\begin{bmatrix} y_1^i\\ y_2^i\\ \vdots \\ y_k^i\\ \end{bmatrix} = \begin{bmatrix} u^T_1\cdot(x_1^i, x_2^i, \cdots,x_m^i)^T\\ u^T_2\cdot(x_1^i, x_2^i, \cdots,x_m^i)^T\\ \vdots\\ u^T_k\cdot(x_1^i, x_2^i, \cdots,x_m^i)^T \end{bmatrix}$

1.2.5 PCA 的优缺点

优点：

只需以方差衡量信息量，不受数据集以外的因素影响；
各主成分之间正交，可消除原始数据成分间的相互影响；
计算方法简单，主要运算是特征值分解且易于实现。

缺点：

主成分各特征维度的含义具有模糊性，不如原始样本特征的解释性强；
方差小的成分可能含有影响样本差异的重要信息，降维丢弃可能对后续数据处理有影响。

2 Python 实现 PCA

本次实现的流程完全依据于 [1.2 算法流程](# 1.2 算法流程)，代码中有详细注释，便不在另做解释：

class PCA:
    def __init__(self, n_components):
        # 决定降到多少维
        self.n_components = n_components

    def fit(self, X):
        # 均值
        X_mean = np.mean(X, axis = 0)
        # 去均值化
        X_norm = X - X_mean
        # 计算协方差矩阵，将每行也即每一个样本看作一个变量，每列作为观测值
        X_conv = np.cov(X_norm, rowvar = False)
        # 计算特征值何特征向量
        eigenvalues, featurevectors = np.linalg.eig(X_conv)
        # 特征值从小到大的下标
        index = np.argsort(eigenvalues)
        # 取最大的 n_components 个特征值
        n_index = index[ -self.n_components : ]
        # 降维，训练样本的特征脸空间
        self.w = featurevectors[ : , n_index]
        return self

    def transform(self, X):
        # 计算训练样本和测试样本在特征脸空间的投影
        # 映射到图像空间
        eigenfaces = np.dot(X, self.w)

        return eigenfaces

3 基于 PCA 的人脸识别

在前面中，我们从原理开始分析 PCA 算法，最终并使用 Python 实现了 PCA 算法，那这部分主要是使用 PCA 来对不同的人脸识别数据集进行提取特征，并且实现人脸识别。

3.1 ORL 数据集

ORL 人脸数据集共包含 40 个不同人的 400 张图像，是在 1992 年 4 月至 1994 年 4 月期间由英国剑桥的 Olivetti 研究实验室创建。此数据集下包含 40 个目录，每个目录下有 10 张图像，每个目录表示一个不同的人。所有的图像是以 PGM 格式存储，灰度图，图像大小宽度为 92，高度为 112。对每一个目录下的图像，这些图像是在不同的时间、不同的光照、不同的面部表情 (睁眼 / 闭眼，微笑 / 不微笑) 和面部细节 (戴眼镜 / 不戴眼镜) 环境下采集的。所有的图像是在较暗的均匀背景下拍摄的，拍摄的是正脸 (有些带有略微的侧偏)。下载地址为：https://github.com/yasminemedhat/Face-Recognition

人脸识别的流程如下：

数据读取与数据处理；
数据分组；
使用 PCA 进行特征提取；
人脸识别；
人脸识别的 GUI 界面。

3.1.1 数据读取与数据处理

因为 ORL 数据集的图片格式是 .pgm，我使用了 pillow 库中的 Image 类来进行读取。对于每张照片将其拉直，因为 ORL 中图片大小是 (112，92)，拉直之后则变成 (10304，)，然后将所有照片进行拼接，最终得到大小为 (400，10304) 的二维矩阵。再者就是标签的构造，从上到下的人的标签分别是 0，1，2，…，39，要注意每一张图片都要有一个标签。

def Data_Processing(root) :
    X = []
    y = []
    path_list = ['s' + str(i) for i in range(1, 41)]
    for idx, s in enumerate(path_list) :
        for i in range(1, 11) :
            path = os.path.join(root, s, str(i) + '.pgm')
            img = Image.open(path)
            img = np.array(img).ravel()
            X.append(img)
        y.extend([idx] * 10)

    X = np.array(X)
    y = np.array(y)

    return X, y

3.1.2 数据分组

本次数据的分割依据于下面的两种方式：

每个人的前面 8 张照片作为训练并作为测试样本库，后面 2 张作为测试待识别图片；
前 38 个人作为训练，后 12 个人作为测试，其中测试库中每个人的前面 8 张照片为测试样本库，后面 2 张照片作为待识别图片。

def Data_Split(X, y, flag) :
    train_set = []
    train_target = []
    test_set = []
    test_target = []
    face_unrecognized_set = []
    face_unrecognized_target = []
    # 分组一：每个人的任意 8 张照片作为训练并作为测试样本库
    if flag == 1 :
        for i in range(40) :
            train_set.append(X[i * 10 : i * 10 + 8])
            train_target.extend(y[i * 10 : i * 10 + 8])
            face_unrecognized_set.append(X[i * 10 + 8 : (i + 1) * 10])
            face_unrecognized_target.extend(y[i * 10 + 8 : (i + 1) * 10])

        test_set = train_set.copy()
        test_target = train_target.copy()
    # 分组二：前 38 个人作为训练，后 2 个人作为测试
    else :
        train_set = X[: 380, :]
        train_target = y[: 380]
        X_temp = X[380:, :]
        y_temp = y[380:]
        for i in range(2) :
            test_set.extend(X_temp[i * 10: i * 10 + 8])
            test_target.extend(y_temp[i * 10: i * 10 + 8])
            face_unrecognized_set.extend(X_temp[i * 10 + 8 : (i + 1) * 10])
            face_unrecognized_target.extend(y_temp[i * 10 + 8 : (i + 1) * 10])

    train_set = np.array(train_set)
    train_target = np.array(train_target)
    test_set = np.array(test_set)
    test_target = np.array(test_target)
    face_unrecognized_set = np.array(face_unrecognized_set)
    face_unrecognized_target = np.array(face_unrecognized_target)
    return train_set, train_target, \
           test_set, test_target, \
           face_unrecognized_set, face_unrecognized_target

3.1.3 使用 PCA 进行特征提取

本过程对人脸特征进行提取，主要难度在于编写 PCA，我们在前面已经完成。但是我们还有一个非常重要的参数要确定，就是 $\boldsymbol{k}$ 值，如果 $\boldsymbol{k}$ 过大，那 PCA 降维之后数据信息中仍然保留大量的冗余信息；如果 $\boldsymbol{k}$ 过小，则 PCA 降维过程中损失了过多信息，不利于后续的识别工作。为此，我借用 sklearn 来探究在保留 95% 的原始数据应该降到多少纬合适。

from sklearn.decomposition import PCA
pca = PCA(n_components = 0.95)
pca.fit(train_set)
print(pca.n_components_)

最终的测试结果是对于 分组一 和 分组二 的 $\boldsymbol{k}$ 值分别是 161，184。知道 $\boldsymbol{k}$ 值之后，我们就可以进行特征提取，要注意我们只能对训练集进行训练，也即要使用训练集的特征向量对测试集和待识别图片进行 PCA 降维。

pca = PCA(n_components = 161) # or pca = PCA(n_components = 184)
pca.fit(train_set)
train_reduction = pca.transform(train_set)
test_reduction = pca.transform(test_set)
face_unrecognized_reduction = pca.transform(face_unrecognized_set)

3.1.4 人脸识别

经过上述步骤之后，我们可以得到降维后的训练集、测试集和待识别人脸，在这部分我们就可以进行人脸匹配。首先要说明：对于人脸识别而言，如果计算机先前没有看到过关于这个人的照片，那对这个人进行人脸识别是没有意义的，大家可以细细探究一下 分组一 和 分组二。本次人脸识别我使用的准则是 二范数，下面分别对 分组一 和 分组二 进行讲解。

首先是 分组一，因为训练集和测试集一样，都包含了全部人的人脸，也就是说计算机 “看过” 待识别人脸，因此我们可以用训练集或者测试集来进行人脸识别：计算待识别的人脸特征向量与训练集中每一张图片的特征向量的二范数，其中二范数最小的那张图片就是我们在训练集中匹配到的人脸。在此过程我设置了两个返回值分别是 pred 和 labels，前者为匹配到的人脸图片在训练集中的下标，方便后面的 GUI 设计，后者是匹配到的人脸图片的标签，用于后续的识别准确率。

def Predict(X, Y) :
    labels = []
    pred = []
    for i in range(len(Y)) :
        distance = np.linalg.norm(X - Y[i], axis = 1)
        label = np.argmin(distance)
        labels.append(label // 8)
        pred.append(label)
    return np.array(labels), np.array(pred)

其次是 分组二，训练集是前 38 个人的人脸照片，测试集是后两个人的前 8 张图片，待识别图片是后两个人的后两张人脸图片。如果我们使用训练集去匹配待识别图片，这时计算原先没有 “看过” 该人人脸，此时识别是无意义的，因此我们要使用测试集去识别待识别图片。返回值同样是 pred 和 labels，要注意标签的计算方式。

def Predict(X, Y) :
    labels = []
    pred = []
    for i in range(len(Y)) :
        distance = np.linalg.norm(X - Y[i], axis = 1)
        label = np.argmin(distance)
        labels.append(label // 8 + 38)
        pred.append(label)
    return np.array(labels), np.array(pred)

3.1.5 人脸识别的 GUI 界面

为了体现人脸识别系统的完整性，我设计了人脸识别系统的 GUI，在 GUI 页面的左边展示的是待识别人脸图片，在点击按键 “开始识别” 之后，GUI 页面右边会展示识别效果。代码与效果会在下面展示。

3.1.6 实验结果

对于分组一：一共有采集了 80 张待识别人脸图片，最终识别正确率是 0.95，显示别效果如下：

如上图，前面三张识别是成功的，而第四张是识别错误的。

对于分组二：一共有采集了 4 张待识别人脸图片，最终识别正确率是 1.0，显示别效果如下：

如上图，四张待识别图片全部识别正确。

3.1.7 全部代码

import numpy as np
import os
from tkinter import *
from PIL import Image, ImageTk
from tkinter import font

class PCA:
    def __init__(self, n_components):
        # 决定降到多少维
        self.n_components = n_components

    def fit(self, X):
        # 均值
        X_mean = np.mean(X, axis = 0)
        # 去均值化
        X_norm = X - X_mean
        # 计算协方差矩阵，将每行也即每一个样本看作一个变量，每列作为观测值
        X_conv = np.cov(X_norm, rowvar = False)
        # 计算特征值何特征向量
        eigenvalues, featurevectors = np.linalg.eig(X_conv)
        # 特征值从小到大的下标
        index = np.argsort(eigenvalues)
        # 取最大的 n_components 个特征值
        n_index = index[ -self.n_components : ]
        # 降维，训练样本的特征脸空间
        self.w = featurevectors[ : , n_index]
        return self

    def transform(self, X):
        # 计算训练样本和测试样本在特征脸空间的投影
        # 映射到图像空间
        eigenfaces = np.dot(X, self.w)

        return eigenfaces

def Data_Processing(root) :
    X = []
    y = []
    path_list = ['s' + str(i) for i in range(1, 41)]
    for idx, s in enumerate(path_list) :
        for i in range(1, 11) :
            path = os.path.join(root, s, str(i) + '.pgm')
            img = Image.open(path)
            img = np.array(img).ravel()
            X.append(img)
        y.extend([idx] * 10)

    X = np.array(X)
    y = np.array(y)

    return X, y

def Data_Split(X, y, flag) :
    train_set = []
    train_target = []
    test_set = []
    test_target = []
    face_unrecognized_set = []
    face_unrecognized_target = []
    # 分组一：每个人的任意 8 张照片作为训练并作为测试样本库
    if flag == 1 :
        for i in range(40) :
            train_set.append(X[i * 10 : i * 10 + 8])
            train_target.extend(y[i * 10 : i * 10 + 8])
            face_unrecognized_set.append(X[i * 10 + 8 : (i + 1) * 10])
            face_unrecognized_target.extend(y[i * 10 + 8 : (i + 1) * 10])

        test_set = train_set.copy()
        test_target = train_target.copy()
    # 分组二：前 38 个人作为训练，后 2 个人作为测试
    else :
        train_set = X[: 380, :]
        train_target = y[: 380]
        X_temp = X[380:, :]
        y_temp = y[380:]
        for i in range(2) :
            test_set.extend(X_temp[i * 10: i * 10 + 8])
            test_target.extend(y_temp[i * 10: i * 10 + 8])
            face_unrecognized_set.extend(X_temp[i * 10 + 8 : (i + 1) * 10])
            face_unrecognized_target.extend(y_temp[i * 10 + 8 : (i + 1) * 10])

    train_set = np.array(train_set)
    train_target = np.array(train_target)
    test_set = np.array(test_set)
    test_target = np.array(test_target)
    face_unrecognized_set = np.array(face_unrecognized_set)
    face_unrecognized_target = np.array(face_unrecognized_target)
    return train_set, train_target, \
           test_set, test_target, \
           face_unrecognized_set, face_unrecognized_target

def Predict(X, Y) :
    labels = []
    pred = []
    for i in range(len(Y)) :
        distance = np.linalg.norm(X - Y[i], axis = 1)
        label = np.argmin(distance)
        labels.append(label // 8)
        pred.append(label)
    return np.array(labels), np.array(pred)

def Face_GUI(unrecognized, result) :
    img = unrecognized.reshape(112, 92)
    img = Image.fromarray(img)
    photo = ImageTk.PhotoImage(img)

    label = Label(root, text = "图片识别", fg = 'red', font = ("华文行楷", 25, font.BOLD))
    label.place(relx = 0.35, rely = 0.01, relwidth = 0.3, relheight = 0.2)

    lb1 = Label(root, image = photo)
    lb1.place(relx = 0.1, rely = 0.25, relwidth = 0.3, relheight = 0.3)

    label_context1 = Label(root, text = "待识别图片:", fg = 'blue', 
                           							font = ("华文新魏", 15, font.BOLD))
    label_context1.place(relx = 0.1, rely = 0.15, relwidth = 0.3, relheight = 0.1)

    btn = Button(root, text = "开始识别", command = lambda : Match(result), 
                 									font = ("华文新魏", 15, font.BOLD))
    btn.place(relx = 0.35, rely = 0.65, relwidth = 0.3)

    root.mainloop()

def Match(result) :
    img = result.reshape(112, 92)
    img = Image.fromarray(img)
    photo = ImageTk.PhotoImage(img)

    lb2 = Label(root, image = photo)
    lb2.place(relx = 0.6, rely = 0.25, relwidth = 0.3, relheight = 0.3)

    label_context2 = Label(root, text = "识别结果:", fg = 'blue', 
                           							font = ("华文新魏", 15, font.BOLD))
    label_context2.place(relx = 0.6, rely = 0.15, relwidth = 0.3, relheight = 0.1)
    root.mainloop()

if __name__ == '__main__':
    X, y = Data_Processing('ORL')
    train_set, train_target, test_set, test_target, face_unrecognized_set,\
    					face_unrecognized_target = Data_Split(X, y, flag = 1)
    pca = PCA(n_components = 161)
    pca.fit(train_set)
    train_reduction = pca.transform(train_set)
    test_reduction = pca.transform(test_set)
    face_unrecognized_reduction = pca.transform(face_unrecognized_set)
    labels, pred = Predict(train_reduction, face_unrecognized_reduction)
    accuracy = (labels == face_unrecognized_target).sum() / len(face_unrecognized_target)
    print(accuracy)
    print(pred)

    for i in range(len(pred)):
        root = Tk()
        root.geometry('480x480')
        root.title('基于 PCA 的人脸识别系统')
        unrecognized = face_unrecognized_set[i]
        result = train_set[pred[i]]
        Face_GUI(unrecognized, result)

3.2 Yale 数据集

Yale 人脸数据库是一个人脸数据集，主要用于身份鉴定，包含 15 个人，其中每个人有 11 张图像共计 165 个 GIF 格式的灰度图像，每个主题包含不同的面部表情：中心光、带眼镜、快乐、左光、没有眼镜、正常、右光、悲伤、困、惊讶和眨眼。图像大小宽度为 320，高度为 243。下载地址为：https://www.kaggle.com/datasets/olgabelitskaya/yale-face-database

使用 PCA 对 Yale数据集进行人脸识别的流程和对 ORL 数据集的流程一样，但是许多细节需要调整。

3.2.1 数据读取和数据处理

Yale 数据集的文件形式不是我们常见的图片编码格式，因此我使用了 skimage 包中的 io 模块对图片进行读取。

在读取完之后，我们发现原始的人脸图片很大，其大小为我们前面所讲的 (243，320)，一张图中，背景占比很高，如果直接对原图进行展平得到 (77760，) 大小的向量，这对于计算资源的要求很高，而且因为背景的存在会影响人脸特征的提取，并最终影响人脸识别性能。因此，一般的人脸识别系统在特征提取之前会首先做一件事：人脸检测。不能此实验我使用热人脸检测模型是 MTCNN 这是一个深度学习模型，可以达到实施效果，且准确率非常高。可以在命令行通过以下命令进行安装：

pip install mtcnn

MTCNN 的使用模板如下：

from mtcnn.mtcnn import MTCNN
# 要注意输出的图像要是三通道的
detector = MTCNN()
result = detector.detect_faces(img)

返回值为：要注意的是返回的结果可能有多个人脸。

[{'box': [121, 69, 122, 154],
  'confidence': 0.9999041557312012,
  'keypoints': {'left_eye': (160, 122),
   'right_eye': (214, 123),
   'nose': (189, 152),
   'mouth_left': (163, 182),
   'mouth_right': (210, 184)}}]

关于 MTCNN 可以参考：https://arxiv.org/abs/1604.02878，这里不做更多说明。下面看一下人脸检测的效果：

在人脸检测之后，就可以根据结果中的人脸框信息对原图的人脸区域进行裁剪，同时为保证最后提取特征的图片向量维度一致，将裁取图片进行 resize 到 (100，100)。

得到人脸区域之后，我们将该区域展平成向量，以便后续操作。

def Draw_image_with_boxes(data, result_list):
    plt.imshow(data)
    ax = plt.gca()
    for result in result_list:
        print(result)
        # 得到人脸框的起始点坐标和宽高
        x, y, width, height = result['box']
        rect = Rectangle((x, y), width, height, fill = False, color = 'red')
        # 画出人脸框
        ax.add_patch(rect)
    plt.show()

def Data_Processing(root) :
    Yale_path = []
    X = []
    y = []
    faces = []
    for element in os.listdir(root) :
        if element != 'Readme.txt':
            Yale_path.append(os.path.join(root, element))

    for path in Yale_path :
        image = io.imread(path, as_gray = True)
        X.append(image)
        label = int(os.path.split(path)[-1].split('.')[0].replace("subject", "")) - 1
        y.append(label)

    detector = MTCNN()

    for img_src in X :
        # 因为 mtcnn 输入的图片要求是 3 通道，而原始图是灰度图，因此对图像进行拓展
        img = np.stack((img_src, img_src, img_src), axis = 2)
        result = detector.detect_faces(img)
 
        # Draw_image_with_boxes(img, result)
        
        # 依据检测结果中的人脸框信息对原图进行裁取，并 resize 到(100, 100)
        # 因为 mtcnn 是同时检测多个人脸，所以返回是一个列表，
        # 但因我们提供的图片只有一个人脸，则取巧
        box = result[0]['box']
        # 对原图进行裁取
        img1 = img_src[box[1] : box[1] + box[3], box[0] : box[0] + box[2]]
        image = Image.fromarray(img1)
        image = image.resize((100, 100))
        face_array = np.asarray(image)
        # plt.imshow(face_array, vmax = 255, vmin = 0, cmap = 'gray')
        # plt.show()
        faces.append(face_array.ravel())

    faces = np.array(faces)
    y = np.array(y)
    print(faces.shape)
    return faces, y

3.2.2 数据分组

对于 Yale 数据集，我没有像 ORL 数据集那样分组，我直接取每个人的前 8 张图片作为预测集，取每个人的后 3 张图片作为待识别图片，也即训练集维度为 (120，10000)，待识别图片为 (45，10000)。

def Data_Split(X, y) :
    train_set = []
    train_target = []
    face_unrecognized_set = []
    face_unrecognized_target = []
    # 取每个人的前 8 张图片作为预测集，取每个人的后 3 张图片作为待识别图片
    for i in range(15) :
        train_set.extend(X[i * 11 : i * 11 + 8])
        train_target.extend(y[i * 11 : i * 11 + 8])
        face_unrecognized_set.extend(X[i * 11 + 8 : (i + 1) * 11])
        face_unrecognized_target.extend(y[i * 11 + 8 : (i + 1) * 11])

    train_set = np.array(train_set)
    train_target = np.array(train_target)
    face_unrecognized_set = np.array(face_unrecognized_set)
    face_unrecognized_target = np.array(face_unrecognized_target)
    return train_set, train_target, \
           face_unrecognized_set, face_unrecognized_target

3.2.3 使用 PCA 进行特征提取

我们在 [3.1.3 使用 PCA 进行特征提取](# 3.1.3 使用 PCA 进行特征提取) 中通过保留原始数据的 95% 来探究合适的 $\boldsymbol{k}$ 值，对 Yale 数据集采用相同的方法得到保留原始数据的 95% 的 $\boldsymbol{k}$ 值为 46。

pca = PCA(n_components = 46)
pca.fit(train_set)
train_reduction = pca.transform(train_set)
face_unrecognized_reduction = pca.transform(face_unrecognized_set)

3.2.4 人脸识别及可视化

Yale 数据集的标签预测过程与 ORL 数据集的分组一一样，且人脸识别的 GUI 界面也与前面一样。[3.1.4 人脸识别](# 3.1.4 人脸识别)，[3.1.5 人脸识别的 GUI 界面](# 3.1.5 人脸识别的 GUI 界面)。要修改的代码只有一处。

img = result.reshape(100, 100)

3.2.5 实验结果

基于 PCA 算法构建的人脸识别系统对 Yale 数据集的识别正确率有 0.933，这是一个非常不错的正确率，因为 Yale 数据集的外界扰动十分大。识别效果如下：

如上图，一些光照变换很大、戴眼镜的人脸都能识别成，在右下角是一张识别错误的人脸，跟 ORL 数据集相比，PCA 对 Yale 数据集的鲁棒性会稍差一点。

3.2.6 全部代码

import os
import numpy as np
import matplotlib.pyplot as plt
from PCA import PCA
from tkinter import *
from PIL import Image, ImageTk
from tkinter import font
from skimage import io
from mtcnn.mtcnn import MTCNN
from matplotlib.patches import Rectangle

def Draw_image_with_boxes(data, result_list):
    plt.imshow(data)
    ax = plt.gca()
    for result in result_list:
        print(result)
        # 得到人脸框的起始点坐标和宽高
        x, y, width, height = result['box']
        rect = Rectangle((x, y), width, height, fill = False, color = 'red')
        # 画出人脸框
        ax.add_patch(rect)
    plt.show()

def Data_Processing(root) :
    Yale_path = []
    X = []
    y = []
    faces = []
    for element in os.listdir(root) :
        if element != 'Readme.txt':
            Yale_path.append(os.path.join(root, element))

    for path in Yale_path :
        image = io.imread(path, as_gray = True)
        X.append(image)
        label = int(os.path.split(path)[-1].split('.')[0].replace("subject", "")) - 1
        y.append(label)

    detector = MTCNN()

    for img_src in X :
        # 因为 mtcnn 输入的图片要求是 3 通道，而原始图是灰度图，因此对图像进行拓展
        img = np.stack((img_src, img_src, img_src), axis = 2)
        result = detector.detect_faces(img)

        # Draw_image_with_boxes(img, result)

        # 依据检测结果中的人脸框信息对原图进行裁取，并 resize 到(100, 100)
        # 因为 mtcnn 是同时检测多个人脸，所以返回是一个列表，
        # 但因我们提供的图片只有一个人脸，则取巧
        box = result[0]['box']
        # 对原图进行裁取
        img1 = img_src[box[1] : box[1] + box[3], box[0] : box[0] + box[2]]
        image = Image.fromarray(img1)
        image = image.resize((100, 100))
        face_array = np.asarray(image)
        # plt.imshow(face_array, vmax = 255, vmin = 0, cmap = 'gray')
        # plt.show()
        faces.append(face_array.ravel())

    faces = np.array(faces)
    y = np.array(y)
    print(faces.shape)
    return faces, y

def Data_Split(X, y) :
    train_set = []
    train_target = []
    face_unrecognized_set = []
    face_unrecognized_target = []
    # 取每个人的前 8 张图片作为预测集，取每个人的后 3 张图片作为待识别图片
    for i in range(15) :
        train_set.extend(X[i * 11 : i * 11 + 8])
        train_target.extend(y[i * 11 : i * 11 + 8])
        face_unrecognized_set.extend(X[i * 11 + 8 : (i + 1) * 11])
        face_unrecognized_target.extend(y[i * 11 + 8 : (i + 1) * 11])

    train_set = np.array(train_set)
    train_target = np.array(train_target)
    face_unrecognized_set = np.array(face_unrecognized_set)
    face_unrecognized_target = np.array(face_unrecognized_target)
    return train_set, train_target, \
           face_unrecognized_set, face_unrecognized_target

def Predict(X, Y) :
    labels = []
    pred = []
    for i in range(len(Y)) :
        distance = np.linalg.norm(X - Y[i], axis = 1)
        label = np.argmin(distance)
        labels.append(label // 8)
        pred.append(label)
    return np.array(labels), np.array(pred)

def Face_GUI(unrecognized, result) :
    img = unrecognized.reshape(100, 100)
    img = Image.fromarray(img)
    photo = ImageTk.PhotoImage(img)

    label = Label(root, text = "图片识别", fg = 'red', font = ("华文行楷", 25, font.BOLD))
    label.place(relx = 0.35, rely = 0.01, relwidth = 0.3, relheight=0.2)

    lb1 = Label(root, image = photo)
    lb1.place(relx = 0.1, rely = 0.25, relwidth = 0.3, relheight = 0.3)

    label_context1 = Label(root, text = "待识别图片:", fg = 'blue', 
                           						font = ("华文新魏", 15, font.BOLD))
    label_context1.place(relx = 0.1, rely = 0.15, relwidth = 0.3, relheight = 0.1)

    btn = Button(root, text = "开始识别", command = lambda : Match(result), 
                 								font = ("华文新魏", 15, font.BOLD))
    btn.place(relx = 0.35, rely = 0.65, relwidth = 0.3)

    root.mainloop()

def Match(result) :
    img = result.reshape(100, 100)
    img = Image.fromarray(img)
    photo = ImageTk.PhotoImage(img)

    lb2 = Label(root, image = photo)
    lb2.place(relx = 0.6, rely = 0.25, relwidth = 0.3, relheight = 0.3)

    label_context2 = Label(root, text = "识别结果:", fg = 'blue', 
                           						font = ("华文新魏", 15, font.BOLD))
    label_context2.place(relx = 0.6, rely = 0.15, relwidth = 0.3, relheight = 0.1)
    root.mainloop()

if __name__ == '__main__':
    X, y = Data_Processing('Yale')
    train_set, train_target, face_unrecognized_set, \
    				face_unrecognized_target = Data_Split(X, y)
    # print(train_set.shape, train_target.shape, face_unrecognized_set.shape, 															face_unrecognized_target.shape)
    pca = PCA(n_components = 46)
    pca.fit(train_set)
    train_reduction = pca.transform(train_set)
    face_unrecognized_reduction = pca.transform(face_unrecognized_set)
    labels, pred = Predict(train_reduction, face_unrecognized_reduction)
    accuracy = (labels == face_unrecognized_target).sum() / len(face_unrecognized_target)
    print(accuracy)
    print(pred)
    for i in range(len(pred)):
        root = Tk()
        root.geometry('480x480')
        root.title('基于 PCA 的人脸识别系统')
        unrecognized = face_unrecognized_set[i]
        result = train_set[pred[i]]
        Face_GUI(unrecognized, result)

3.3 UMIST 数据集

我这里的数据集是 Sheffield 数据集，是 UMIST 数据集的 “升级版”(也就是加了几张图片)，后面均以 UMIST 数据集代称。UMIST 人脸数据库由 20 个人(混合种族 / 性别 / 外貌)的 564 张图像组成(Sheffield 数据集为 575)。每个人都显示在从侧面到正面视图的一系列姿势，每个人都在一个单独的目录中，标记为 1a、1b、…… 1t，并且图像在拍摄时连续编号。这些文件都是 PGM 格式，大约 220 x 220 像素，256 位灰度。UMIST 数据集有两个版本，一个是原始图片，一个裁剪掉了一些背景区域，裁剪后地图片大小为 (112，92)，与 ORL 数据集一样大小。为实验方便，我所用的版本是裁剪过后的版本。下载地址为：http://eprints.lincoln.ac.uk/id/eprint/16081/

未裁剪的图像示例：

裁剪图像示例：

说一个小插曲：我原本也就是想找 UMIST 数据集来做实验的，但我从前一天的晚上找到第二天早上都没找到，找到的都是一些处理好的文本数据，便放弃不找了。于是想着找 Bern 数据集来替代，却在找 Bern 数据集过程中阴差阳错地找到了 UMIST 数据集。果真我与你有缘！

3.3.1 数据读取与数据处理

对 UMIST 数据集的读取方式与 ORL 数据集有些许差别，但是处理过程与其一样，返回 [3.1.1 数据读取与数据处理](#3.1.1 数据读取与数据处理)。最终得到的数据的二维矩阵大小为 (575, 10304)，标签为 (575，)。

def Data_Processing(root) :
    X = []
    y = []
    path_files = os.listdir(root)
    for idx, path_file in enumerate(path_files) :
        path_images = os.listdir(os.path.join(root, path_file, 'face'))
        for path_image in path_images :
            path = os.path.join(root, path_file, 'face', path_image)
            img = Image.open(path)
            img = np.array(img)
            X.append(img.ravel())
            y.append(idx)

    X = np.array(X)
    y = np.array(y)

    return X, y

3.3.2 数据分组

对于 UMIST 数据集，我取每个人的前 5 张图片作为待识别图片，每个人的其余图片为作为训练集。UMIST 数据集与 ORL、Yale 数据集都不一样，因为它每个的图片数量不一样，意味着不能按照常规方法去分割数据。这里我维护了一个 index 列表，里面存的是每个人的第一张图片的下标，index 列表从第二个元素开始每一个元素减 1 即可得到前面那个人的最后一张图片的下标。然后依据 index 列表对数据进行裁剪，最终得到的待识别图片的维度是 (100，10304)，训练集图片为 (475，10304)。

def Data_Split(X, y) :
    train_set = []
    train_target = []
    face_unrecognized_set = []
    face_unrecognized_target = []

    index = []
    index.append(0)
    for idx in range(1, len(y)) :
        if y[idx] != y[idx - 1] :
            index.append(idx)
    index.append(len(y))

    # 取每个人的后 5 张图片作为待识别图片，其余图片作为训练集
    for i in range(len(index) - 1) :
        face_unrecognized_set.extend(X[index[i] : index[i] + 5])
        face_unrecognized_target.extend(y[index[i]: index[i] + 5])
        train_set.extend(X[index[i] + 5 : index[i + 1]])
        train_target.extend(y[index[i] + 5 : index[i + 1]])

    train_set = np.array(train_set)
    train_target = np.array(train_target)
    face_unrecognized_set = np.array(face_unrecognized_set)
    face_unrecognized_target = np.array(face_unrecognized_target)
    return train_set, train_target, \
           face_unrecognized_set, face_unrecognized_target

3.3.3 使用 PCA 进行特征提取

同样，我采取与前面相同的方法确定了保留原始数据 95% 信息的 $\boldsymbol{k}$ 值为 97。

pca = PCA(n_components = 97)
pca.fit(train_set)
train_reduction = pca.transform(train_set)
face_unrecognized_reduction = pca.transform(face_unrecognized_set)
labels, pred = Predict(train_reduction, face_unrecognized_reduction)

3.3.4 人脸识别及可视化

对于 UMIST 数据集，人脸识别和数据分组一样，都有一个问题就是每个人的照片数量不一样，因此在预测标签时不能简单地进行整除等操作。借鉴数据分组时的思想，我同样维护了一个 index 列表，里面存的是训练集中的每个人的第一张图片的下标，index 列表从第二个元素开始每一个元素减 1 即可得到前面那个人的最后一张图片的下标。在得到预测下标之后，用其与 index 中的元素相比较便可确定标签，更详细地比较方法参考代码如下：

def Predict(X, y, Y):
    # y 表示训练集的标签
    labels = []
    pred = []

    index = []
    index.append(0)
    for idx in range(1, len(y)):
        if y[idx] != y[idx - 1]:
            index.append(idx)
    index.append(len(y))

    for i in range(len(Y)):
        distance = np.linalg.norm(X - Y[i], axis=1)
        label = np.argmin(distance)
        for j in range(len(index) - 1):
            if label >= index[j] and label < index[j + 1]:
                labels.append(j)
        pred.append(label)
    return np.array(labels), np.array(pred)

其次就是人脸识别的 GUI 页面，UMIST 数据集的 GUI 过程与 ORL 数据集一模一样，请参考前面的代码。

3.3.5 实验结果

基于 PCA 算法构建的人脸识别系统对 UMIST 数据集的识别正确率只有 0.88，在三个数据集中最差，其原因可能是 UMIST 数据集中的人的姿态变化幅度较大，如每个人的照片都是从侧面到正面进行拍摄的；其次可能是我对数据的分组不够好，因为前 5 张图片的侧脸角度是最大的。识别效果如下：

如上图，可以看到前 3 张待识别图片的侧面的角度非常大，但是该系统还是能够正确识别出来，如果从这个角度来看 0.88 的正确率也不算很差。而在右下角的这张待识别图片就识别错误了。

3.3.6 全部代码

限于篇幅原因，这里不张贴全部代码了，可以参考前面 ORL 和 Yale 数据集的代码，且关于一些需要改动的地方在前面几点也已解释清楚。

至此，我们从 0 开始构建 PCA 算法，到构建基于 PCA 的人脸识别系统对三种不同的数据集进行人脸识别的的工作全部完成。当然，对于 PCA 算法我们依然有许多值得探究的地方，如 $\boldsymbol{k}$ 值的选取，如若以后有时间，也可多花时间进行研究。

4 基于 MediaPipe 的姿态分析

MediaPipe 是一个用于构建机器学习管道的框架，用于处理视频、音频等时间序列数据。这个跨平台框架适用于桌面 / 服务器、Android、iOS 和嵌入式设备，如 Raspberry Pi 和 Jetson Nano，由谷歌公司开发。自 2012 年起，谷歌在内部的多个产品和服务中使用了它。它最初是为了实时分析 YouTube 上的视频和音频而开发的。渐渐地，它被整合到更多的产品中，比如谷歌镜头的目标检测、增强现实广告等。

4.1 MediaPipe Solutions

Solutions 是基于特定的预训练 TensorFlow 或 TFLite 模型的开源预构建示例。MediaPipe Solutions 构建在框架之上。目前，它提供了 16 个 Solutions，如下所示：

人脸检测
Face Mesh
虹膜
手
姿态
人体
人物分割
头发分割
目标检测
Box Tracking
Instant Motion Tracking
3D 目标检测
特征匹配
AutoFlip
MediaSequence
YouTube-8M

我将使用其中的姿态检测对前面三种数据集进行进行简单姿态检测。下面是 Pose Solutions 的简单的介绍。

4.1.1 ML 管道

Pose Solutions 利用两步检测器 - 跟踪器 ML 管道。使用检测器，管道首先在帧内定位人 / 姿势感兴趣区域 (ROI)。跟踪器随后裁剪帧 ROI 作为输入来预测 ROI 内的姿势标志和分割掩码。请注意，对于视频用例，仅在需要时调用检测器，即在第一帧以及当跟踪器无法再识别前一帧中存在的身体姿势时。对于其他帧，管道只是从前一帧的姿势地标中导出 ROI。

4.1.2 姿态估计质量

使用了三个不同的验证数据集，代表不同的垂直领域：瑜伽、舞蹈。每张图像仅包含距离摄像机 2-4 米的一个人。对 COCO 拓扑中的 17 个关键点进行评估。

Pose Solutions 的模型的设计基于实时感知用例，所以它们都能在大多数现代设备上实时工作。

4.1.3 人 / 姿势检测模型 (BlazePose 检测器)

该检测器的设计思想来自于轻量级 BlazeFace 模型，在 MediaPipe 人脸检测中用作人员检测器的代理。它明确地预测了两个额外的虚拟关键点，这些虚拟关键点将人体中心、旋转和比例牢牢地描述为一个圆圈。受列奥纳多的维特鲁威人的启发，我们预测了一个人臀部的中点、外接整个人的圆的半径以及连接肩部和臀部中点的线的倾斜角。

4.1.4 Pose Landmark 模型 (BlazePose GHUM 3D)

Pose Solutions 中的地标模型预测了 33 个地标的位置，如下：

4.1.5 API

输入参数：

STATIC_IMAGE_MODE：如果设置为 false，该解决方案会将输入图像视为视频流。它将尝试在第一张图像中检测最突出的人，并在成功检测后进一步定位姿势地标。在随后的图像中，它只是简单地跟踪那些地标，而不会调用另一个检测，直到它失去跟踪，以减少计算和延迟。如果设置为 true，则人员检测会运行每个输入图像，非常适合处理一批静态的、可能不相关的图像。默认为 false；
MODEL_COMPLEXITY：姿势地标模型的复杂度：0、1 或 2。地标准确度和推理延迟通常随着模型复杂度的增加而增加。默认为 1；
SMOOTH_LANDMARKS：如果设置为 true，解决方案过滤不同的输入图像上的姿势地标以减少抖动，但如果 static_image_mode 也设置为 true 则忽略。默认为 true；
UPPER_BODY_ONLY：是要追踪 33 个地标的全部姿势地标还是只有 25 个上半身的姿势地标；
ENABLE_SEGMENTATION：如果设置为 true，除了姿势地标之外，该解决方案还会生成分割掩码。默认为 false；
SMOOTH_SEGMENTATION：如果设置为 true，解决方案过滤不同的输入图像上的分割掩码以减少抖动，但如果 enable_segmentation 设置为 false 或者 static_image_mode 设置为 true 则忽略。默认为 true；
MIN_DETECTION_CONFIDENCE：来自人员检测模型的最小置信值 ([0.0, 1.0])，用于将检测视为成功。默认为 0.5；
MIN_TRACKING_CONFIDENCE：来自地标跟踪模型的最小置信值 ([0.0, 1.0])，用于将被视为成功跟踪的姿势地标，否则将在下一个输入图像上自动调用人物检测。将其设置为更高的值可以提高解决方案的稳健性，但代价是更高的延迟。如果 static_image_mode 为 true，则忽略，人员检测在每个图像上运行。默认为 0.5。

输出：

具有 “pose_landmarks” 字段的 NamedTuple 对象，其中包含检测到的最突出人物的姿势标志。

参考：https://google.github.io/mediapipe/solutions/pose

4.1.6 示例

原图：

检测后：

注意为了显示自拍的效果，我将图片进行了水平翻转。

4.2 ORL 数据集

因为本次的姿态估计模型我是直接调用已经训练好的模型，因此只需要将 ORL 数据集当作测试集进行预测即可。

4.2.1 数据读取与处理

因为我们只需要数据集，因此不需要数据的标签与分割，同时因模型要求输入要是图片，则不需要对图片进行展平。此外，MediaPipe Pose 模型要求输入的图片是 RGB 类型，但是我们前面三个数据集的所有图片都是灰度图，则在检测前我们要将灰度图转成 RGB 图，同时不能改变图片的性质。怎么改呢？其实很简单：只需将该灰度图在通道维度拼接 3 次即可。此时，红色、绿色和蓝色的分量是相同的，因此图像仍然是 “灰度图”。

shape：(671, 600)

shape：(671, 600, 3)

其实在技巧在前面使用 mtcnn 进行人脸检测时就使用过这个技巧，只是当时没有具体说明。我们在后续对 Yale 和 UMIST 数据集的姿态预测前会进行同样的处理，在此说明。

def Get_imgList(root) :
    X = []
    path_list = ['s' + str(i) for i in range(1, 41)]
    for idx, s in enumerate(path_list) :
        for i in range(1, 11) :
            path = os.path.join(root, s, str(i) + '.pgm')
            img = Image.open(path)
            img = np.array(img)
            # 将灰度图转成 RGB 图
            image = np.stack((img, img, img), axis=2)
            X.append(image)
            print(image.shape)

    return X

4.2.2 姿态估计

将第一和第二个人的姿态估计结果由如下代码进行拼接。

import cv2
import numpy as np

img_path = ['ORL_Poses/pose_' + str(idx + 1) + '.png'
                                for idx in range(20)]
img = []
for path in img_path :
    image = cv2.imread(path)
    img.append(image)
img_1 = np.concatenate((img[0 : 5]), axis = 1)
img_2 = np.concatenate((img[5 : 10]), axis = 1)
img_3 = np.concatenate((img[10 : 15]), axis = 1)
img_4 = np.concatenate((img[15 : 20]), axis = 1)

img_5 = np.concatenate((img_1, img_2), axis = 0)
img_6 = np.concatenate((img_3, img_4), axis = 0)
cv2.imwrite('people_1.png', img_5)
cv2.imwrite('people_2.png', img_6)

所得结果如下：

第一个人：

第二个人：

4.2.3 全部代码

import cv2
import mediapipe as mp
import numpy as np
import os
from PIL import Image

mp_drawing = mp.solutions.drawing_utils
mp_drawing_styles = mp.solutions.drawing_styles
mp_pose = mp.solutions.pose

def Get_imgList(root) :
    X = []
    path_list = ['s' + str(i) for i in range(1, 41)]
    for idx, s in enumerate(path_list) :
        for i in range(1, 11) :
            path = os.path.join(root, s, str(i) + '.pgm')
            img = Image.open(path)
            img = np.array(img)
            # 将灰度图转成 RGB 图
            image = np.stack((img, img, img), axis=2)
            X.append(image)
            print(image.shape)

    return X

def Pose(imgList):
    with mp_pose.Pose(
            min_detection_confidence = 0.5,
            min_tracking_confidence = 0.5) as pose:

        for idx, image in enumerate(imgList) :
            # 为了提高性能，不需要图像标记
            image.flags.writeable = False
            results = pose.process(image)

            # 在图上绘制姿态点
            image.flags.writeable = True
            mp_drawing.draw_landmarks(
                image,
                results.pose_landmarks,
                mp_pose.POSE_CONNECTIONS,
                landmark_drawing_spec = \
                mp_drawing_styles.get_default_pose_landmarks_style())

            # 水平翻转图片可达到显示自拍效果
            cv2.imshow('MediaPipe Pose', cv2.flip(image, 1))
            if idx < 20:
                cv2.imwrite('ORL_Poses/pose_' + str(idx + 1) + '.png',
                            cv2.flip(image, 1))
            if cv2.waitKey(1) & 0xFF == 27:
                break
    cv2.destroyAllWindows()

imgList = Get_imgList('ORL')
Pose(imgList)

4.3 Yale 数据集

对 Yale 数据集的姿态估计流程和 ORL 数据集一样，同时不用对 Yale 数据集进行人脸检测。对前面两个人的姿态估计效果如下：

第一个人：

第二个人：

全部代码：

import cv2
import mediapipe as mp
import numpy as np
import os
from PIL import Image
from skimage import io

mp_drawing = mp.solutions.drawing_utils
mp_drawing_styles = mp.solutions.drawing_styles
mp_pose = mp.solutions.pose

def Image_concatenate() :
    img_path = ['Yale_Poses/pose_' + str(idx + 1) + '.png'
                for idx in range(22)]
    img = []

    for idx, path in enumerate(img_path):
        image = cv2.imread(path)
        img.append(image)
        if idx == 10 or idx == 21:
            noise = np.full(image.shape, 255).astype(np.uint8)
            print(noise.shape, noise.dtype)
            img.append(noise)

    img_1 = np.concatenate((img[0: 6]), axis=1)
    img_2 = np.concatenate((img[6: 12]), axis=1)
    img_3 = np.concatenate((img[12: 18]), axis=1)
    img_4 = np.concatenate((img[18: 24]), axis=1)

    img_5 = np.concatenate((img_1, img_2), axis=0)
    img_6 = np.concatenate((img_3, img_4), axis=0)
    cv2.imwrite('people_1.png', img_5)
    cv2.imwrite('people_1.png', img_6)

def Get_imgList(root) :
    Yale_path = []
    X = []
    for element in os.listdir(root):
        if element != 'Readme.txt':
            Yale_path.append(os.path.join(root, element))

    for path in Yale_path:
        img = io.imread(path, as_gray=True)
        print(img.shape)
        image = np.stack((img, img, img), axis=2)
        X.append(image)

    return X

def Pose(imgList):
    with mp_pose.Pose(
            min_detection_confidence = 0.5,
            min_tracking_confidence = 0.5) as pose:

        for idx, image in enumerate(imgList) :
            # 为了提高性能，不需要图像标记
            image.flags.writeable = False
            results = pose.process(image)

            # 在图上绘制姿态点
            image.flags.writeable = True
            mp_drawing.draw_landmarks(
                image,
                results.pose_landmarks,
                mp_pose.POSE_CONNECTIONS,
                landmark_drawing_spec = \
                mp_drawing_styles.get_default_pose_landmarks_style())

            # 水平翻转图片可达到显示自拍效果
            cv2.imshow('MediaPipe Pose', cv2.flip(image, 1))
            if idx < 22:
                cv2.imwrite('Yale_Poses/pose_' + str(idx + 1) + '.png',
                            cv2.flip(image, 1))
            if cv2.waitKey(1) & 0xFF == 27:
                break
    cv2.destroyAllWindows()

imgList = Get_imgList('Yale')
print(len(imgList))
Pose(imgList)

4.4 UMIST 数据集

因为 UMIST 中的图像是由人的侧面到正面进行拍摄的，因此我截取了第一和第二个人中间的二十张图片进行姿态估计的结果展示如下：

第一个人：

第二个人：

全部代码：

import cv2
import mediapipe as mp
import numpy as np
import os
from PIL import Image

mp_drawing = mp.solutions.drawing_utils
mp_drawing_styles = mp.solutions.drawing_styles
mp_pose = mp.solutions.pose

def Image_concatenate() :
    img_path = ['UMIST_Poses/pose_' + str(idx + 1) + '.png'
                for idx in range(40)]
    img = []

    for idx, path in enumerate(img_path):
        image = cv2.imread(path)
        img.append(image)

    img_1 = np.concatenate((img[0: 5]), axis=1)
    img_2 = np.concatenate((img[5: 10]), axis=1)
    img_3 = np.concatenate((img[10: 15]), axis=1)
    img_4 = np.concatenate((img[15: 20]), axis=1)
    img_5 = np.concatenate((img[20: 25]), axis=1)
    img_6 = np.concatenate((img[25: 30]), axis=1)
    img_7 = np.concatenate((img[30: 35]), axis=1)
    img_8 = np.concatenate((img[35: 40]), axis=1)

    img_9 = np.concatenate((img_1, img_2, img_3, img_4), axis=0)
    img_10 = np.concatenate((img_5, img_6, img_7, img_8), axis=0)
    cv2.imwrite('people_5.png', img_9)
    cv2.imwrite('people_6.png', img_10)

def Get_imgList(root) :
    X = []
    path_files = os.listdir(root)
    for idx, path_file in enumerate(path_files):
        path_images = os.listdir(os.path.join(root, path_file, 'face'))
        for path_image in path_images:
            path = os.path.join(root, path_file, 'face', path_image)
            img = Image.open(path)
            img = np.array(img)
            # 将灰度图转成 RGB 图
            image = np.stack((img, img, img), axis=2)
            X.append(image)
    X = np.array(X)

    return X

def Pose(imgList):
    with mp_pose.Pose(
            min_detection_confidence = 0.5,
            min_tracking_confidence = 0.5) as pose:

        for idx, image in enumerate(imgList) :
            # 为了提高性能，不需要图像标记
            image.flags.writeable = False
            results = pose.process(image)

            # 在图上绘制姿态点
            image.flags.writeable = True
            mp_drawing.draw_landmarks(
                image,
                results.pose_landmarks,
                mp_pose.POSE_CONNECTIONS,
                landmark_drawing_spec = \
                mp_drawing_styles.get_default_pose_landmarks_style())

            # 水平翻转图片可达到显示自拍效果
            cv2.imshow('MediaPipe Pose', cv2.flip(image, 1))
            if 10 <= idx < 30 :
                cv2.imwrite('UMIST_Poses/pose_' + str(idx + 1 - 10) + '.png', cv2.flip(image, 1))
            if 48 <= idx < 68 :
                cv2.imwrite('UMIST_Poses/pose_' + str(idx + 1 - 28) + '.png', cv2.flip(image, 1))
            if cv2.waitKey(1) & 0xFF == 27:
                break
    cv2.destroyAllWindows()

imgList = Get_imgList('UMIST')
print(len(imgList))
Pose(imgList)

4.5 结果分析

经过对三个数据集的中人的姿态估计，我们能够得到人脸关键部位点的位置，如左右眼角，左右嘴角，鼻子等，而根据这些关键特征点的分布我们可以对该人的形态或者神态进行进一步的预测。比如说，当眼睛那一排特征点的分布是水平的，说明这个人正处于一种较为平和、中立的状态，如果分布波动很大，则说明这个人此时正处于一种较为亢奋的状态，表现出愤怒、开心等表情；当特征点之间的距离很近，则对于摄像机而言这个人表现为侧脸；再者，当两个嘴角点之间的距离较大，即这个人的的嘴巴张的很大，我们可以觉得这个人是在开心大笑…等等。

综上，姿态分析对于视觉领域来说十分重要，我们可以利用姿态进行运动追踪、表情分析、医学诊断等等。

5 基于 KNN 的人脸识别

前面我们通过构建 PCA 降维算法分别对 ORL、Yale 和 UMIST 三种不同的数据集进行了人脸识别，且识别精度分别在 0.95、0.93 和 0.88。而在下面中，我使用了另一种传统机器学习算法——KNN 再次对上述三种数据集进行人脸识别。

5.1 KNN

KNN (K-Nearest Neighbor，K邻近算法)的基本思想是：给定一个训练数据集，对新输入的样本，在训练数据集中找到与该样本最邻近的 k 个实例(也就是所谓的 k 个邻居)，这 k 个实例中的多数属于某个类别，就把输入样本划分到该类别中。k 近邻算法通常又可以分为分类算法和回归算法：

分类算法中采用多数表决法，就是选择 k 个样本中出现最多的类别标记作为预测结果；

回归算法中采用平均法，将 k 个样本实际输出标记的平均值或加权平均值作为预测结果。

而人脸识别本质上也是一个多分类问题，因此可以使用 KNN 来进行人脸识别。

5.2 ORL 数据集

首先是数据的读取与处理，KNN 接受的数据输入与 PCA 算法是一样的，即二维矩阵 (m，n)，m 为样本数，n 为特征向量，因此数据处理与前面完全一样。

def Data_Processing(root) :
    X = []
    y = []
    path_list = ['s' + str(i) for i in range(1, 41)]
    for idx, s in enumerate(path_list) :
        for i in range(1, 11) :
            path = os.path.join(root, s, str(i) + '.pgm')
            img = Image.open(path)
            img = np.array(img).ravel()
            X.append(img)
        y.extend([idx] * 10)

    X = np.array(X)
    y = np.array(y)

    return X, y

对于数据分组，我使用了 sklearn 库中的 train_test_split 函数，将数据划分成 2 : 8，其中训练集为 8，测试集为 2，同时将数据打乱。我还探究了不同 k 值对模型性能的影响。

def Draw_precision(scores) :
    plt.plot(range(1, 6), scores, 'o--', color='blue')
    plt.xlabel('$n\_neighbors$', fontsize=14)
    plt.ylabel('$precision$', fontsize=14)
    for x, y in zip(range(1, 6), scores):
        plt.text(x - 0.18, y - 0.1, f'${y}$', fontsize=14)
    plt.title(f'$precision\ of\ different\ neighors$', fontsize=14)
    plt.xticks(np.arange(1, 6))
    plt.yticks(np.linspace(0, 1, 5))
    plt.show()
    plt.savefig('KNN_ORL_Database.png')

if __name__ == '__main__':
    X, y = Data_Processing('ORL')
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, \
                                train_size=0.8, shuffle=True, random_state=42)
    scores = []

    # 使用不同的邻居数进行训练测试
    for n in range(1, 6):
        knn = KNeighborsClassifier(n_neighbors=n)
        # 训练
        knn.fit(X_train, y_train)
        # 预测
        pred = knn.predict(X_test)
        # 准确率并保留3位小数
        score = round(knn.score(X_test, y_test), 3)
        scores.append(score)

    Draw_precision(scores)

所得结果如下：

如上图所示，k 等于 1 时人脸识别的效果最好，识别正确率达到 0.975，比 PCA 算法的 0.95 要高。

5.3 Yale 数据集

同理，参考 [3.2.1 数据读取和数据处理](# 3.2.1 数据读取和数据处理) 的方法，KNN 的参数设置与前面处理 ORL 数据集的一致。所得结果如下：

如上图所示，使用 KNN 对 Yale 进行识别的效果很不好，不同的 k 值中最高的识别正确率也只有 0.879。原因可能是数据过少，因为在训练之前进行了人脸检测并且裁剪。因此，我采取了下面的数据处理方式，即不进行人脸检测和裁剪等操作。

def Data_Processing(root) :
    Yale_path = []
    X = []
    y = []
    for element in os.listdir(root) :
        if element != 'Readme.txt':
            Yale_path.append(os.path.join(root, element))

    for path in Yale_path :
        image = io.imread(path, as_gray = True)
        X.append(image.ravel())
        label = int(os.path.split(path)[-1].split('.')[0].replace("subject", "")) - 1
        y.append(label)

    X = np.array(X)
    y = np.array(y)
    print(X.shape)
    return X, y

所得结果如下：

如上图所示，当 k 值为 1 时，模型的性能最好，即识别正确率达到 0.939，此结果与 PCA 算法相当。

5.4 UMIST 数据集

UMIST 数据集的读取与处理参照 [3.3.1 数据读取与数据处理](# 3.3.1 数据读取与数据处理)，KNN 的参数的设置与前面相同。所得结果如下：

如上图所示，KNN 对于 UMIST 的鲁棒性非常强，识别性能特别好，在 k 等于 1、2 和 3 时的识别正确率有 0.974、0.965 和 0.957，远超 PCA 算法的 0.88 的正确率。

5.5 KNN 的优缺点

优点：

理论成熟，思想简单，既可以用来做分类又可以做回归；
可以用于非线性分类；
训练时间复杂度低，相比于 PCA，KNN 花费的时间很少；
和朴素贝叶斯之类的算法比，对数据没有假设，准确度高，对异常点不敏感；
由于 KNN 方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属的类别，因此对于类域的交叉或重叠较多的待分类样本集来说，KNN 方法较其他方法更为适合。

缺点：

计算量大，尤其是特征数非常多的时候；
样本不平衡的时候，对稀有类别的预测准确率低；
是惰性学习方法，基本上不学习，导致预测时速度比起逻辑回归之类的算法慢；
KNN 模型的可解释性不强。
0.879。原因可能是数据过少，因为在训练之前进行了人脸检测并且裁剪。因此，我采取了下面的数据处理方式，即不进行人脸检测和裁剪等操作。

def Data_Processing(root) :
    Yale_path = []
    X = []
    y = []
    for element in os.listdir(root) :
        if element != 'Readme.txt':
            Yale_path.append(os.path.join(root, element))

    for path in Yale_path :
        image = io.imread(path, as_gray = True)
        X.append(image.ravel())
        label = int(os.path.split(path)[-1].split('.')[0].replace("subject", "")) - 1
        y.append(label)

    X = np.array(X)
    y = np.array(y)
    print(X.shape)
    return X, y

所得结果如下：

如上图所示，当 k 值为 1 时，模型的性能最好，即识别正确率达到 0.939，此结果与 PCA 算法相当。

5.4 UMIST 数据集

UMIST 数据集的读取与处理参照 [3.3.1 数据读取与数据处理](# 3.3.1 数据读取与数据处理)，KNN 的参数的设置与前面相同。所得结果如下：

5.5 KNN 的优缺点

优点：

理论成熟，思想简单，既可以用来做分类又可以做回归；
可以用于非线性分类；
训练时间复杂度低，相比于 PCA，KNN 花费的时间很少；
和朴素贝叶斯之类的算法比，对数据没有假设，准确度高，对异常点不敏感；
由于 KNN 方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属的类别，因此对于类域的交叉或重叠较多的待分类样本集来说，KNN 方法较其他方法更为适合。

缺点：

计算量大，尤其是特征数非常多的时候；
样本不平衡的时候，对稀有类别的预测准确率低；
是惰性学习方法，基本上不学习，导致预测时速度比起逻辑回归之类的算法慢；
KNN 模型的可解释性不强。

你可能感兴趣的:(深度学习,机器学习,主成分分析,人脸识别,姿态分析,mediapipe)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
抖音乐买买怎么加入赚钱?赚钱方法是什么测评君高省
你会在抖音买东西吗?如果会，那么一定要免费注册一个乐买买，抖音直播间，橱窗，小视频里的小黄车买东西都可以返佣金!省下来都是自己的，分享还可以赚钱乐买买是好省旗下的抖音返佣平台，乐买买分析社交电商的价值，乐买买属于今年难得的副业项目风口机会，2019年错过做好省的搞钱的黄金时期，那么2022年千万别再错过乐买买至于我为何转到高省呢？当然是高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
18-115 一切思考不能有效转化为行动，都TM是扯淡！成长时间线
7月25号写了一篇关于为什么会断更如此严重的反思，然而，之后日更仅仅维持了一周，又出现了这次更严重的现象。从8月2号到昨天8月6号，5天！又是5天没有更文！虽然这次断更时间和上次一样，那为什么说这次更严重？因为上次之后就分析了问题的原因，以及应该如何解决，按理说应该会好转，然而，没过几天严重断更的现象再次出现，想想，经过反思，问题依然没有解决与改变，这让我有些担忧。到底是哪里出了问题，难道我就真的
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
春季养肝正当时 dxn悟
重温快乐2023年2月4日立春。春天来了，春暖花开，小鸟欢唱，那在这样的季节我们如何养肝呢？自然界的春季对应中医五行的木，人体五脏肝属木，“木曰曲直”，是以树干曲曲直直地向上、向外伸长舒展的生发姿态，来形容具有生长、升发、条达、舒畅等特征的食物及现象。根据中医天人相应的理念，肝五行属木，喜条达，主疏泄，与春天相应，所以春天最适合养肝。养肝首先要少生气，因为肝喜条达恶抑郁。人体五志肝为怒，生气发怒最
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
闲鱼鱼小铺怎么开通？鱼小铺开通需要哪些流程？高省APP大九
闲鱼鱼小铺是平台推出的一个专业程度的店铺，与普通店铺相比会有更多的权益，比如说发布的商品数量从50增加到500；拥有专业的店铺数据看板与分析的功能，这对于专门在闲鱼做生意的用户来说是非常有帮助的，那么鱼小铺每个人都能开通吗？大家好，我是高省APP联合创始人蓓蓓导师，高省APP是2021年推出的电商导购平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个可省钱佣金高，能
2019-11-04复盘——飞来山上千寻塔，闻说鸡鸣见日升。那一叶秋
1、大盘篇先上老图，看习惯了，也就知道走势了图1上证指数日线图还是那张老图，自己可以在自己的相关软件上画出来，快变盘了。2、个股篇未加仓、未减仓。分析量能的时候，突然发现这么一个东西：“放量突破年线，缩量回调。”合众科技日线图其实，最近的N只个股，在技术分析上，都到了变盘的临界时候。结合这么久的走势，特别是ZJH不断放开IPO的申请，本质上说是融资难度变大，或者说是为企业的融资开创便利。但现在市场
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
果然只有离职的时候，才有人敢说真话！ return2ok
今天公司出了神贴。今天中午吃饭，同事问我看了论坛上的神贴了吗？什么帖子？我问。同事显得很惊讶，你居然没看，现在那个帖子可能会成为年度最佳帖子。这么厉害？我等不及了，饭没吃完就快速的奔向办公室，打开公司论坛，我要一睹这个帖子的神奇。写这帖子的童鞋胆儿真肥。这哪里是一个帖子，这是很多个帖子，组成了一个系列。某人从公司文化、管理、人事、项目管理等多个方面分析了公司的概况，并抨击了公司的各种弊端，并提出了
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
母亲节如何做小红书营销美橙传媒
小红书的一举一动引起了外界的高度关注。通过爆款笔记和流行话题，我们可以看到“干货”类型的内容在小红书中偏向实用的生活经验共享和生活指南非常受欢迎。根据运营社的分析，这种现象是由小红书用户心智和内容社区背后机制共同决定的。首先，小红书将使用“强搜索”逻辑为用户提供特定的“搜索场景”。在“我必须这样生活”中，大量使用了满足小红书站用户喜好和需求的内容。内容社区自制的高质量内容也吸引了寻找营销新途径的品
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
系统架构设计师需求分析篇二 AmHardy 软件架构设计师系统架构需求分析面向对象分析分析模型 UML和SysML
面向对象分析方法1.用例模型构建用例模型一般需要经历4个阶段：识别参与者：识别与系统交互的所有事物。合并需求获得用例：将需求分配给予其相关的参与者。细化用例描述：详细描述每个用例的功能。调整用例模型：优化用例之间的关系和结构，前三个阶段是必需的。2.用例图的三元素参与者：使用系统的用户或其他外部系统和设备。用例：系统所提供的服务。通信关联：参与者和用例之间的关系，或用例与用例之间的关系。3.识别参
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
Python神器！WEB自动化测试集成工具 DrissionPage 亚丁号 python 开发语言
一、前言用requests做数据采集面对要登录的网站时，要分析数据包、JS源码，构造复杂的请求，往往还要应付验证码、JS混淆、签名参数等反爬手段，门槛较高。若数据是由JS计算生成的，还须重现计算过程，体验不好，开发效率不高。使用浏览器，可以很大程度上绕过这些坑，但浏览器运行效率不高。因此，这个库设计初衷，是将它们合而为一，能够在不同须要时切换相应模式，并提供一种人性化的使用方法，提高开发和运行效率
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
今日分享：有的孩子家长常常在对于小朋友老是说谎，还特别爱推卸责任，很头痛，不知道该怎么办！雨燕Cassie
其实六岁以前都不叫撒谎，只能叫做逃避和害怕，因为他们都是没有撒谎的这个概念，家长所谓的撒谎只能说是因为做错了事情，怕受到责罚而找一个「台阶」给自己一下而已，所以家长不能给孩子一个贴上撒谎的这个标签，如果说孩子出现家长所说的撒谎，我们应该做的是：1.允许孩子将事情的原委进行一个表达，给孩子说明的机会，不提示孩子说谎，不急著批评孩子。2.不使用问句，不恐吓和严刑逼供，耐心的以故事或者以分析的形式和孩子
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(