zhangyuexiang123

人脸检测与识别

人脸检测（ Face Detection ）和人脸识别技术是深度学习的重要应用之一。本章首先会介绍MTCNN算法的原理，它是基于卷积神经网络的一种高精度的实时人脸检测和对齐技术。接着，还会介绍如何利用深度卷积网络提取人脸特征，以及如何利用提取的特征进行人脸识别。最后会介绍如何在TensorFlow 中实践上述算法。

1 MTCNN 的原理

搭建人脸识别系统的第一步是人脸检测，也就是在图片中找到人脸的位置。在这个过程中，系统的输入是一张可能含有人脸的图片，输出是人脸位置的矩形框，如图6-1所示。一般来说，人脸检测应该可以正确检测出图片中存在的所有人脸，不能有遗漏，也不能再错检。

获得包含人脸的矩形框后，第二步要做的是人脸对齐（Face Alignment ）。原始图片中人脸的姿态、位置可能再较大的区别，为了之后统一处理，要把人脸“摆正” 。为此，需要检测人脸中的关键点（ Landmark ），如眼睛的位置、鼻子的位置、嘴巴的位置、脸的轮廓点等。根据这些关键点可以使用仿射变换将人脸统一校准，以尽量消除姿势不同带来的误差，人脸对齐的过程如图6-2 所示。

这里介绍一种基于深度卷积神经网络的人脸检测和人脸对齐方法——
MTCNN 。MT是英文单词Multi-task的简写，意即这种方法可以同时完成人
脸检测和人脸对齐两项任务。相比于传统方法， MTCNN的性能更好，可以
更精确地定位人脸；此外， MTCNN也可以做到实时的检测。

MTCNN 由三个神经网络组成，分别是P-Net 、R-Net 、0-Net。在使用这些网络之前，首先要将原始圄片缩放到不同尺度，形成一个“图像金字塔”，如图6-3所示。接着会对每个尺度的图片通过神经网络计算一遍。这样做的原因在于：原始图片中的人脸存在不同的尺度，如有的人脸比较大，有的人脸比较小。对于比较小的人脸，可以在放大后的图片上检测；对于比较大的
人脸，可以在缩小后的图片上检测。这样，就可以在统一的尺度下检测人脸了。

P-Net网络结构：
现在再来讨论第一个网络P-Net 的结构，如图6-4所示， P-Net的输入是一个宽和高皆为12 像素，同时是3通道的RGB图像， 该网络要判断这个12x12的图像中是否含有人脸，并且给出人脸框相关键点的位置。因此，对应的输出由三部分组成：

第一个部分要判断该图像是否是人脸（图6-4中的face classification）,输出向量的形状为1x1x2，也就是两个值，分别为该图像是人脸的概率，以及该图像不是人脸的概率。这两个值加起来严格等于1。之所以使用两个值来表示，是为了方便定义交叉损失。
第二个部分给出框的准确位置（图6-4中的bounding box regression），一般称之为框回归。P-Net输入的12x12的图像块可能并不是完美的人脸框的位置，如有的时候人脸并不正好为方形，有的时候12x12的图像块可能偏左或偏右，因此需要输出当前框位置相对于完美的人脸框位置的偏移。这个偏移由四个变量组成。一般地，对于下图图像中的框，可以用四个数来表示它的位置：框左上角的横坐标、框左上角的纵坐标、框的宽度、框的高度。因此，框回归输出的值是：框左上角的横坐标的相对偏移、框左上角的纵坐标的相对偏移、框的宽度的误差、框的高度的误差。输出向量的形状就是图中的1x1x4。
第三个部分给出人脸的5 个关键点的位置。5 个关键点分别为：左眼的位置、右眼的位置、鼻子的位置、左嘴角的位置、右嘴角的位置。每个关键点又需要横坐标和纵坐标两维来表示，因此输出一共是10维（即1x1x10)。

至此，我们应该对P-Net的结构比较了解了。在实际计算中，通过P-Net中的第一卷积层的移动，会对图像中每一个12x12的区域都做一次人脸检测，得到的结果如图6-5所示。

图中框的大小各有不同，除了框回归的影响外，主要是因为将图片金字塔中的各个尺度都使用了P-Net计算了一遍，因此形成了大小不同的人脸框。R-Net的网络结构如图6-6 所示。这个结构与之前的P-Net 非常类似，P-Net的输入是12×12×3的图像，R-Net是24x24×3的图像，也就是说，R-Net 判断24×24×3的图像中是否有人脸，以及预测关键点的位置。R-Net的输出和P-Net 完全一样，同样由人脸判别、框回归、关键点位置预测三部分组成。

在实际应用中，对每个P-Net输出可能为人脸的区域都缩放到24x24的大小，再输入到R-Net中，进行进一步判定。得到的结果如图6-7 所示，显然R-Net消除了P-Net中很多误判的情况。

进一步把所刚得到的区域缩放成48×48的大小，输入到最后的0-Net中， 0-Net的结构同样与P-Net类似，不同点在于它的输入是48×48×3的图像，网络的通道数和层数也更多了。0-Net的网络结构如图6-8 所示，检测结果如图6-9所示。

从P-Net到R-Net，最后再到O-Net，网络输入的图片越来越大，卷积层的通道数越来越多，内部的层数也越来越多，因此它们识别人脸的准确率应该是越来越高的。同时， P-Net的运行速度是最快的， R-Net的速度其次，O-Net的运行速度最慢。之所以要使用三个网络，是因为如果一开始直接对图中的每个区域使用O-Net，速度会非常慢。实际上P-Net先做了一遍过滤，将过滤后的结果再交给R-Net进行过滤，最后将过滤后的结果交给效果最好但速度较慢的O-Net进行判别。这样在每一步都提前减少了需要判别的数量，有效降低了处理时间。

最后介绍MTCNN的损失定义和训练过程。MTCNN中每个网络都有三部分输出，因此损失也由三部分组成。针对人脸判别部分，直接使用交叉熵损失，针对框回归和关键点判定，直接使用L2损失。最后这三部分损失各自乘以自身权重再加起来，就形成最后的总损失了。在训练P-Net和R-Net时，更关心框位置的准确性，而较少关注关键点判定的损失，因此关键点判定损失的权重很小。对于O-Net，关键点判定损失的权重较大。

2 使用深度卷积网络提取特征

经过人脸检测和人脸识别两个步骤，就获得了包含人脸的区域图像，接下来就要进行人脸识别了。这一步一般是使用深度卷积网络，将输入的人脸图像转换成一个向量的表示，也就是所谓的“特征” 。

如何针对人脸来提取特征？可以先来回忆VGG16的网络结构（如下图），输入神经网络的是图像，经过一系列卷积计算后，全连接分类得到类别概率。

在通常的图像应用中，可以去掉全连接层，使用卷积层的最后一层当做图像的“特征”。但如果对人脸识别问题同样采用这种方法，即使用卷积层最后一层作为人脸“向量表示”，效果其实是不好的。这其中的原因和改进方法是什么？我们后面会谈到，这里我们先谈谈希望这种人脸的“向量表示”应该具有哪些性质。

在理想的状况下，希望“向量表示”之间的距离可以直接反应人脸的相似度：

对于同一个人的两张人脸图像，对应的向量之间的欧几里得距离应该是比较小的。
对于不同人的两张图像，对应的向量之间的欧几里得距离应该是比较大的。

例如，这人脸图像为x1,x2x1,x2，对应的特征为f(x1),f(x2),f(x1),f(x2),当x1,x2x1,x2对应是同一个人的人脸时，f(x1),f(x2),f(x1),f(x2),的距离||f(x1)−f(x2)||2||f(x1)−f(x2)||2应该很小，而当是不同人脸时，f(x1),f(x2),f(x1),f(x2)的距离||f(x1)−f(x2)||2||f(x1)−f(x2)||2应该很大的。

在原始的CNN模型中，使用的是Softmax损失。Softmax是类别间的损失，对于人脸来说，每一类就是一个人。尽管使用Softmax损失可以区别出每个人，但其本质上没有对每一类的向量表示之间的距离作出要求。

举个例子，使用CNN对MNIST进行分类，设计一个特殊的卷积网络，让最后一层的选哪个量变成2维，此时可以画出每一类对应的2维向量，如图6-10所示。

图6-10是直接使用Softmax训练得到的结果，它不符合希望特征具有的特点：

希望同一类对应的向量表示尽可能接近。但这里同一类的点可能具有很大的类间距离。
希望不同类对应的向量应该尽可能远。但在图中靠中心的位置，各个类别的距离都很近。

对于人脸图像同样会出现类似的情况。对此，有很多改进方法。这里介绍其中两种，一种是使用三元组损失（Triplet Loss），一种是使用中心损失。

2.1 三元组损失的定义

三元组损失（ Triplet Loss ）的原理是：既然目标是特征之间的距离应当具备某些性质，那么就围绕这个距离来设计损失。具体地，每次都在训练数据中去除三张人脸图像，第一张图像记为xaixia，第二张图像记为xpixip，第三张图片记为xnixin。这样一个“三元组”中，xaixia和xpixip对应的是同一个人的图像，而xnixin是另外一个不同人的人脸图像。因此，距离||f(xai)−f(xpi)||2||f(xia)−f(xip)||2应该较小，而距离||f(xai)−f(xni)||2||f(xia)−f(xin)||2应该较大。严格来说，三元组损失要求下面的式子成立
||f(xai)−f(xpi)||22+α<||f(xai)−f(xni)||22||f(xia)−f(xip)||22+α<||f(xia)−f(xin)||22

即相同人脸间的距离平方至少要比不同人脸间的距离平方小αα（取平方主要是方便求导）。据此，设计损失函数为：
Li=[||f(xai)−f(xpi)||22+α−||f(xai)−f(xni)||22]+Li=[||f(xia)−f(xip)||22+α−||f(xia)−f(xin)||22]+

这样的话，当三元组的距离满足
||f(xai)−f(xpi)||22+α<||f(xai)−f(xni)||22||f(xia)−f(xip)||22+α<||f(xia)−f(xin)||22时，不产生任何损失，此时Li=0Li=0。当距离不满足上述等式时，就会有值为||f(xai)−f(xpi)||22+α−||f(xai)−f(xni)||22||f(xia)−f(xip)||22+α−||f(xia)−f(xin)||22的损失。此外，在训练时会固定||f(x)||2=1||f(x)||2=1，以保证特征不会无限地“远离”。

三元组损失直接对距离进行优化，因此可以解决人脸的特征表示问题。但是在训练过程中，三元组的选择非常地高技巧性。如果每次都是随机选择三元组，虽然模型可以正确地收敛，但是并不能达到最好的性能。如果加入“难例挖掘”，即每次都选择最难分辨的三元组进行训练，模型又往往不能正确地收敛。对此，又提出每次都选取那些“半难”（ Semi-hard ）的数据进行训练，让模型在可以收敛的同时也保持良好的性能。此外，使用三元组损失训练人脸模型通常还需要非常大的人脸数据集，才能取得较好的效果。

2.2 中心损失的定义

与三元损失不同，中心损失（Center Loss）不直接对距离进行优化，它保留了原有的分类模型，但又为每个类（在人脸识别模型中，一个类就对应一个人）指定了一个类别中心。同一类的图像对应的特征都应该尽量靠近自己的类别中心，不同类别中心尽量远离。与三元组损失相比，使用中心损失训练人脸魔心不需要使用特别的采样方法，而且利用较少的图像就可以达到与三元损失相似的效果。下面我们就一起来学习中心损失的定义。

还是设输入放入人脸图像为xixi，该人脸对应的类别为yiyi，对每个类别都规定一个类别中心，记作cyicyi。希望每个人脸图像对应的特征f(xi)f(xi)都尽可能接近其中心cyicyi。因此定义中心损失为
Li=12||f(xi)−cyi||22Li=12||f(xi)−cyi||22

多张图像的中心损失就是将他们的值加在一起
Lcenter=∑iLiLcenter=∑iLi

这是一个非常简单的定义。不过还有一个问题没有解决，那就是如何确定每个类别的中心cyicyi呢？从理论上来说，类别yiyi的最佳中心应该就是它对应所有图片的特征的平均值。但如果采取这样的定义，那么在每一次梯度下降时，都要对所有图片计算一次cyicyi，计算复杂度就太高了。针对这种情况，不妨近似处理一下，在初始阶段，先随机确定cyicyi，接着在每个batch内，使用Li=||f(xi)−cyi||22Li=||f(xi)−cyi||22对当前batch内的cyicyi也计算梯度，并使用该梯度更新cyicyi。此外，不能只是用中心损失来训练分类模型，还需要加入Softmax损失，也就是说，最终的损失由两部分构成，即L=Lsoftmax+λLcenter，其中λ是一个超参数。

最后来总结使用中心损失来训练人脸模型的过程。首先随机初始化各个中心cyicyi，接着不断地取出batch进行训练，在每个batch中，使用总的损失LL，除了使用神经网络模型的参数对模型进行更新外，cyicyi也进行梯度计算，并更新中心位置。

中心损失可以让训练处的特征具有“内聚性”。还是以MNIST的例子莱索，在未加入中心损失时，训练的结果不具有内聚性。再加入中心损失后，得到的特征如图6-11所示。

从图中可以看出，当中心损失的权重λ越大时，生成的特征就会具有越明显的“内聚性” 。

3 使用特征设计应用

在上一节中，当提取出特征后，剩下的问题就非常简单了。因为这种特征已经具有了相同人对应的向量的距离小，不同人对应的向量距离大的特点，接下来，一般的应用有以下几类：

人脸验证（Face Identification）。就是检测A、B是否属于同一个人。只需要计算向量之间的距离，设定合适的报警阈值（threshold）即可。
人脸识别（Face Recognition）。这个应用是最多的，给定一张图片，检测数据库中与之最相似的人脸。显然可以被转换为一个求距离的最近邻问题。
人脸聚类（Face Clustering）。在数据库中对人脸进行聚类，直接用K-means即可。

4 在TensorFlow中实现人脸识别

我们在这节会介绍一个项目，该项目支持使用MTCNN进行人脸的检测和对齐，可以使用训练好的模型进行人脸识别，也支持训练自己的模型。接下来，我们首先介绍如何配置该项目的环境，接着介绍如何利用已经训练好的模型在LTW集合自己的图片上进行人脸识别，最后介绍如何重新训练自己的模型，以及在TensorFlow中是如何定义三元组损失和中心损失的。

4.1 项目环境设置

在运行该项目前，需要对环境进行适当设置。首先安装一些引用到的包，包括scipy、scikit-learn、opencv-python、hpy、matplotlib、Pillow、requests、psutil等。我们可以运行下面的代码，检查环境中缺少哪些包，然后自行安装。

# 以下是该项目中需要的库文件
import tensorflow as tf
import sklearn
import scipy
import cv2
import h5py
import matplotlib
import PIL
import requests
import psutil

4.2 LFW人脸数据库

接下来会讲解如何使用已经训练好的模型在LFW ( Labeled Faces in the Wild ）数据库上测试，先来简单介绍下LFW 数据库。

LFW 人脸数据库是由美国马萨诸塞州立大学阿默斯特分校计算机视觉实验室整理完成的数据库，主要用来研究非受限情况下的人脸识别问题。LFW 数据库主要是从E联网上搜集图像，一共含高13000 多张人脸图像，每张图像都被标识出对应的人的名字，其中有1680 人对应不只一张图像。图6-12 展示了部分LFW数据库中的人脸图像：

可以看出，在LFW 数据库中人脸的光照条件、姿态多种多样，有的人脸还存在部分遮挡的情况，因此识别难度较大。现在， LFW 数据库性能测评已经成为人脸识别算法性能的一个重要指标。

我们可以在网站http://vis-www.cs.umass.edu/lfw/lfw.tgz下载LFW数据库，这个数据库完全是开源的。下载后，假设有一个文件夹~/datasets专门保存数据集，就可以使用下面的命令将LFW 数据库解压，留待后面使用。

这里将下载的～/Downloads/Ifw.tgz文件解压到了文件夹～/datasets/lfw/raw 中，数据的结构应该类似于：

即每个文件夹代表着一个人的名字，在每个人的文件夹下是这个人所有的人脸图像，这样LFW数据集就被准备好了。

4.3LFW数据库上的人脸检测和对齐

处理的第一步是使用MTCNN进行人脸检测和对齐并统一缩放到合适的大小。

MTCNN的实现主要在文件夹src/align中。其中，detect_face .py中定义了MTCNN的模型结构，由P-Net 、R-Net 、O-Net 三部分组成。这三部分网络已经提供好了预训练的模型，模型数据分别对应文件det1.npy 、det2.npy 、det3.npy 。align_dataset_ mtcnn. py 是使用MTCNN 的模型进行人脸的检测和对齐的入口代码。该文件夹中还有两个文件align_dataset.py和 align_dlib.py，它们都是使用dlib中的传统方法对人脸进行检测，性能比MTCNN稍差，在这里不再展开描述。

使用脚本align_dataset_mtcnn.py对LFW数据库进行人脸检测和对齐的方法是运行命令：

python src/align/align_dataset_mtcnn.py \
    datasets/lfw/raw \
    datasets/lfw/lfw_mtcnnpy_160 \
    --image_size 160 --margin 32 \
    --random_order

该命令会创建一个datasets/lfw/lfw_mtcnnpy_160的文件夹，并将所有对齐好的人脸图像存放到这个文件夹中，数据的结构和原先datasets/lfw/raw中参数–mage_size 160 –margin 32 的含义是在MTCNN 检测得到的人脸框的基础上缩小32（在训练时使用的数据偏大），并缩放到160×160 大小。因此最后得到的对齐后的图像都是160x160像素的。这样的话，就成功地从原始图像中检测并对齐了人脸。

4.4 使用已有模型验证LFW数据库准确率

项目原作者提供了一个预训练模型。该模型使用的卷积网络结构是Inception ResNet v1，训练数据使用了一个非常大的人脸数据集MS-Celeb-1M，训练好的模型在LFW上可以达到99.2%左右的正确率。下载该模型后，将文件解压到目录~/models/facenet/下。解压后，应该得到一个~/models/facenet/20170512-110547目录，其中一下4个文件（我们可以将模型放到其他文件夹中，不过需要自行更改以下代码的对应部分）：

20170512-110547.pb
model-20170512-110547.ckpt-250000.data-00000-of-00001
model-20170512-110547.ckpt-250000.index
model-20170512-110547.meta

之后，运行下面的代码，可以在对齐好的LFW数据库中验证已有模型的正确率：

python src/validate_on_lfw.py \
    ~/datasets/lfw/lfw_mtcnnpy_160 \
    ~/models/facenet/20170512-110547 /

最终得到的结果：

Runnning forward pass on LFW images
Accuracy: 0.992+-0.003
Validation rate: 0.97467+-0.01477 @ FAR=0.00133
Area Under Curve (AUC): 1.000
Equal Error Rate (EER): 0.007

4.5 在自己的数据库上使用已有模型

当然，在实际应用过程中，还会关心如何在自己的图像上应用已有模型。下面就以计算人脸之间的距离为例，展示如何将模型应用到自己的数据上。

假设现在有三张图片./test_imgs/1.jpg、./test_imgs/2.jpg、./test_imgs/2.jpg。这三张图片中含有一个人的脸，希望计算它们两两之间的距离。使用compare.py就可以实现，运行下面的代码：

python src/compare.py \
    ~/models/facenet/20170512-110547/ \
    ./test_imgs/1.jpg ./test_imgs/2.jpg ./test_imgs/3.jpg

得到结果类似于：

Images:
0: ./test_imgs/1.jpg
1: ./test_imgs/2.jpg
2: ./test_imgs/3.jpg

Distance matrix
      0      1      2
0  0.0000  0.7270  1.1283
1  0.7270  0.0000  1.0913
2  1.1283  1.0913  0.0000

compare.py 首先会使用MTCNN在原始图片中进行检测和对齐：

   # nrof_samples是图片总数目，image_paths存储了这些图片的路径
   nrof_samples = len(image_paths)
   # img_list中存储了对齐后的图像
   img_list = [None] * nrof_samples
   for i in list(range(nrof_samples)):
       # 读入图像
       img = misc.imread(os.path.expanduser(image_paths))
       img_size = np.asarray(img.shape)[0:2]
       # 使用P-Net、R-Net、O-Net(即MTCNN)检测并对齐图像
       # 检测的结果存入bounding_boxes中
       bounding_boxes, _ = align.detect_face.detect_face(img, minsize, pnet, rnet, onet, threshold, factor)
       # 对于检测出的bounding_boxes，减去margin
       det = np.squeeze(bounding_boxes[0, 0:4])
       bb = np.zeros(4, dtype=np.int32)
       bb[0] = np.maximum(det[0] - margin / 2, 0)
       bb[1] = np.maximum(det[1] - margin / 2, 0)
       bb[2] = np.minimum(det[2] + margin / 2, img_size[1])
       bb[3] = np.minimum(det[3] + margin / 2, img_size[0])
       # 裁剪出人脸区域，并缩放到卷积神经网络输入的大小
       cropped = img[bb[1]:bb[3], bb[0]:bb[2], :]
       aligned = misc.imresize(cropped, (image_size, image_size), interp='bilinear')
       prewhitened = facenet.prewhiten(aligned)
       img_list[i] = prewhitened
   images = np.stack(img_list)

对于返回的images，可以将它输入到已经训练好的模型中计算特征了，使用的代码为：

# Load the model
# 载入模型，args.model就是文件夹“~/models/facenet/20170512-110547/”
facenet.load_model(args.model)

# Get input and output tensors
# images_placeholder是输入图像的占位符，后面会把images传递给它
images_placeholder = tf.get_default_graph().get_tensor_by_name("input:0")
# embeddings就是卷积网络最后输出的“特征”
embeddings = tf.get_default_graph().get_tensor_by_name("embeddings:0")
phase_train_placeholder = tf.get_default_graph().get_tensor_by_name("phase_train:0")

# Run forward pass to calculate embeddings
# phase_train_placeholder占位符决定了现在是不是“训练阶段”
# 显然现在不是在训练模型，所以后面会指定phase_train_placeholder为False
# 计算特征
feed_dict = {images_placeholder: images, phase_train_placeholder: False}
emb = sess.run(embeddings, feed_dict=feed_dict)

得到的emb存储了每个图像的“特征”。得到了特征，剩下的问题解决起来就非常简单了。这里是对计算两两之间的距离以得到人脸之间的相似度。对应的代码如下所示：

# nrof_images是图片总数目
nrof_images = len(args.image_files)
# 简单地打印图片名称
print('Images:')
for i in range(nrof_images):
    print('%1d: %s' % (i, args.image_files[i]))
print('')
# 输出距离矩阵
# Print distance matrix
print('Distance matrix')
print('    ', end='')
for i in range(nrof_images):
    print('    %1d     ' % i, end='')
print('')
for i in range(nrof_images):
    print('%1d  ' % i, end='')
    for j in range(nrof_images):
        # 计算距离，emb[i,:]是第i个人脸图像特征，emb[j,:]是第j个人脸图的特征
        dist = np.sqrt(np.sum(np.square(np.subtract(emb[i, :], emb[j, :]))))
        print('  %1.4f  ' % dist, end='')
    print('')

compare.py只是简单地计算了人脸之间的两两距离，我们可以根据得到的特征emb将程序应用到其它方面。例如人脸识别应用中，常常会被给定一张人脸图片，要求在某一个人脸数据库中检测与之最相似的图像。此时，就可以先对人脸数据库中的所有图片先计算一遍特征emb，并把这些特征保存下来，接着只需对给定人脸图片计算特征，并找出与之距离最近的特征即可，相关程序我们可以自行设计完成。

4.6 重新训练新模型

在第4.3~4.5节中，介绍了如何使用预训练的模型验证在LFW数据库上的正确率，以及识别用户自己的图像，本节介绍如何重新训练一个模型。

从头训练一个新模型需要非常多的训练数据，这里使用的是CASIA-WebFace数据集，该数据集包含了10575个人的494414张图像。CASIA-WebFace数据集需要研究机构自行申请，申请地址在http ://www.cbsr.ia.ac.cn/english/CASIA-WebFace-Database.html

获得CASIA-WebFace数据集后，将它解压到~/datasets/casia/raw目录中。此时文件夹~/datasets/casia/raw/中的数据结构应该类似于：

其中，每个文件夹代表一个人，文件夹中对应这个人的所有人脸图片。与LFW数据集类似，同样先利用MTCNN对原始图像进行人脸检测和对齐，对应的代码为：

python src/align/align_dataset_mtcnn.py \
    ~/datasets/casia/raw/ \
    ~/datasets/casia/casia_maxpy_macnnpy_182 \
    --image_size 182 --margin 44

对齐后的人脸图像存放目录~./datasets/casia/casia_maxpy_mtcnnpy_182下。所有的图像像素都是182x182的图像，是为了流出一定空间给数据增强的裁剪环节。会在182x182像素的图像上随机裁剪出160x160的区域，再送入神经网络进行训练。

使用下面的命令即可开始训练：

python src/train_softmax.py \
    --logs_base_dir ~/logs/facenet/ \
    --models_base_dir ~/models/facenet/ \
    --data_dir ~/datasets/casia/casia_maxpy_mtcnnpy_182 \
    --image_size 160 \
    --model_def models.inception_resnet_v1 \
    --lfw_dir ~/datasets/lfw/lfw_mtcnnpy_160 \
    --optimizer RMSPROP \
    --learning_rate -1 \
    --max_nrof_epochs 80 \
    --random_crop --random_flip \
    --learning_rate_schedule_file data/learning_rate_schedule_classifier_casia.txt \
    --weight_decay 5e-5 \
    --center_loss_factor 1e-2 \
    --center_loss_alfa 0.9

这里涉及的参数非常多，不必担心，下面会一一来进行说明。首先是文件src/train_softmax.py，它的功能是使用2.2节中讲解的中心损失来训练模型。之前已经讲过，单独使用中心损失的效果不好，必须结合Softmax损失一起使用，所以对应文件名是train_softmax.py。其他参数的含义如下：

–logs_base_dir ~/logs/facenet/: 将会把日志保存到~/logs/facenet/中。在运行时，会在~/logs/facenet/文件夹下新建一个以当前时间命名的目录，如20170621-114414，最终的日志会卸载~/logs/facenet/20170621-114414中。所谓日志文件，实际上就是TensorFlow中的events文件，包含当前损失、当前训练步数、当前学习率信息，可以使用TensorBoard查看这些信息。
–models_base_dir ~/models/facenet/ ：最后训练好的模型就保存在~/models/facenet/ 目录下。在运行时同样会创建一个以当前时间命名的文件夹，训练好的模型就会被保存在类似~/models/facenet/20170621-114414的目录下。
–data_dir ~/datasets/casia/casia_maxpy_mtcnnpy_182：训练数据的位置。这里使用之前已经对齐好的CASIA-WebFace数据。
–image_size 160：输入网络的尺寸图片是160x160像素。
–model_def models.inception_resnet_v1：比较关键的一个参数，他指定了训练的CNN结构为inception_resnet_v1。项目支持的所有CNN结构在src/models目录下。共支持inceotion_resnet_v1、inception_resnet_v2、squeezenet三个模型，真中前两个模型较大，最后一个模型较小。如果使用–model_def models.inception_resnet_v1后，出现内存或显存消耗光的情况，可以将其替换为–model_def models.squeezenet，来训练一个较小的模型。
–lfw_dir ~/datasets/lfw/lfw_mtcnnpy_160：指定LFW数据集的位置。如果输入这个参数，每次执行完一个epoch，就会在LFW数据集上执行一次测试，并将测试后的正确率写到日志文件中。
–optimizer RMSPROP 指定使用的优化方法。
–learning_rate -1：原意指定学习率，但这里指定了辅助，在程序中将忽略这个参数，而是用后面的–learning_rate_schedule_file参数规划学习率。
–max_nrof_epochs 80表示最多会跑80个epoch。
keep_probability 0.8：在全连接层中，加入了dropout，这个参数表示dropout中链接被保持的概率。
–random_crop –random_flip：这两个参数表示在数据增强时会进行随机的裁剪和翻转。
–learning_rate_schedule_file data/learning_rate_schedule_classifier_casia.txt：在之前指定了–learning_rate -1，因此最终的学习率将有参数–learning_rate_schedule_file决定。这个参数指定了一个文件，该文件的内容为：

# Learning rate schedule
# Maps an epoch number to a learnig rate
0: 0.1
65: 0.01
77: 0.001
1000: 0.0001

也就是说在开始时一直使用0.1作为学习率，而运行到第65个epoch时使用0.01的学习率，运行第77个epoch时使用0.001的学习率。由于一共只运行80个epoch，因此最后的1000：0.0001实际不会生效。

–weight_decay 5e-5：所有变量的正则化系数。
–center_loss_factor 1e-2：中心损失和Softmax损失的平衡参数。
–center_loss_alfa 0.9：中心损失的内部参数。

运行上述命令后即可开始训练，屏幕会打出类似下面的信息：

其中，Epoch：[0][7/1000]表示当前为第0个epoch以及在当前epoch内的训练步数。Time表示在这一步消耗的事件，最后是损失相关的信息。

可以运行TensorBoard对训练情况进行监控。将目录切换至~/logs/facenet/＜开始训练时间>文件夹中，就可以看到生成的events文件。打开TensorBoard的命令为。

tensorboard --logdir ~/logs/facenet/<开始训练时间>/

打开http://localhost:6006，可以方便地监控训练情况。图6-13 展示了整
个训练过程中损失的变化情况（训练的模型为squeezenet ):

与之对应的，每个epoch 结束时程序还会在LFW数据库中自动做一次验证，对应的准确率的变化曲线如图6-14所示。

4.7三元组损失和中心损失的定义

最后，来分析代码中是如何定义三元组损失和中心损失的。
三元组损失的定义在src/facenet.py中，对应的函数为triplet_loss():

def triplet_loss(anchor, positive, negative, alpha):
    with tf.variable_scope('triplet_loss'):
        pos_dist = tf.reduce_sum(tf.square(tf.subtract(anchor, positive)), 1)
        neg_dist = tf.reduce_sum(tf.square(tf.subtract(anchor, negative)), 1)

        basic_loss = tf.add(tf.subtract(pos_dist,neg_dist), alpha)
        loss = tf.reduce_mean(tf.maximum(basic_loss, 0.0), 0)

    return loss

输入的anchor、positive、negative分别为随机选取的人脸样本的特征、anchor的正样本的特征、anchor的负样本特征，它们的形状都是(batch_size，feature_size)。batch_size很好理解，feature_size是网络学习的人脸特征的维数。对应到三元组损失的公式Li=[||f(xai)−f(xpi)||22+α−||f(xai)−f(xni)||22]+Li=[||f(xia)−f(xip)||22+α−||f(xia)−f(xin)||22]+中的haul，anchor的每一行就是一个xaixia，poisitive的每一行就是一个xpixip，negative的每一行就是一个xnixin。先来分别计算正样本和负样本到anchor的L2L2距离。变量pos_dist就是anchor到各自正样本之间的距离||f(xai)−f(xpi)||22||f(xia)−f(xip)||22，变量neg_dist是anchor到负样本的距离||f(xai)−f(xni)||22||f(xia)−f(xin)||22。接下来，用pos_dist减去neg_dist再加上一个alpha,最红损失只计算大于0的部分，这和公式Li=[||f(xai)−f(xpi)||22+α−||f(xai)−f(xni)||22]+Li=[||f(xia)−f(xip)||22+α−||f(xia)−f(xin)||22]+是相符的。

再来看中心损失的定义，同样是在文件src/facenet.py中，对应的center_loss():

def center_loss(features, label, alfa, nrof_classes):
    """Center loss based on the paper "A Discriminative Feature Learning Approach for Deep Face Recognition"
       (http://ydwen.github.io/papers/WenECCV16.pdf)
    """
    # nrof_features就是feature_size，即神经网络计算的人脸维数
    nrof_features = features.get_shape()[1]
    # centers为变量，它是各个类别对应的类别中心
    centers = tf.get_variable('centers', [nrof_classes, nrof_features], dtype=tf.float32,
        initializer=tf.constant_initializer(0), trainable=False)
    label = tf.reshape(label, [-1])
    # 根据label，取出features中每一个样本对应的类别中心
    # centers_batch的形状应该和features一致，为(batch_szie, feature_size)
    centers_batch = tf.gather(centers, label)
    # 计算类别中心和各个样本特征的差距diff
    # diff用来更新各个类别中心的位置
    # 计算diff时用到一个超参数，他可以控制中心位置的更新幅度
    diff = (1 - alfa) * (centers_batch - features)
    # 用diff来更新中心
    centers = tf.scatter_sub(centers, label, diff)
    # 计算loss
    loss = tf.reduce_mean(tf.square(features - centers_batch))
    # 返回loss和更新中心后
    return loss, centers

输入参数features是样本的也正，它的形状为（batch_size, feature_size）。label为这些样本各自的类别标签号（即属于哪一个人），它的形状为（batch_size，）。alfa是一个超参数，它是0~1之间的一个浮点数。nrof_classes是一个整数，他表示全部训练中样本的类别总数。

定义中心损失时，首先会根据各个样本的标签取出响应的类别中心centers_batch，centers_batch的形状和features完全一致，中心损失就是他们之间的L2L2距离。这与2.2节中的中心损失的公式Li=12||f(xi)−cyi||22Li=12||f(xi)−cyi||22只相差一个比例系数。此外，程序还会计算centers_batch和features的差值diff，根据diff来更新类别中心。超参数alfa可以控制更新时的幅度。详细的流程可以参考注释来阅读源码。

5 总结

这篇文章中，首先两部分介绍了使用深度学习进行人脸识别的接本原理，一是可以完成人脸检测和人脸对齐任务的MTCNN，二是使用合适损失来优化卷积神经网络以提取合适的人脸特征。接着，学习了如何在TensorFlow中实践上述内容。

参考：https://blog.csdn.net/czp_374/article/details/81162923

你可能感兴趣的:(计算机视觉)

霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
OpenCV图片操作100例：从入门到精通指南（1）总有刁民想爱朕ha opencv 计算机视觉人工智能
OpenCV图片操作100例：从入门到精通指南本文整理了100个OpenCV实用技巧，涵盖图像处理各个领域，助你轻松掌握计算机视觉核心技能！一、入门必备：基础操作1.图像读写与显示importcv2#读取图像（BGR格式）img=cv2.imread('image.jpg')#显示图像cv2.imshow('示例图片',img)cv2.waitKey(0)#按任意键退出cv2.destroyAll
OpenCV图片操作100例：从入门到精通指南（3）总有刁民想爱朕ha opencv 人工智能计算机视觉
高效学习路径：1️⃣分阶段学习：入门：1-20例（基础操作）进阶：21-50例（图像处理）高级：51-100例（计算机视觉）2️⃣项目驱动学习：证件照背景替换（1-15例）停车场车位检测（30-45例）视频运动追踪（70-85例）3️⃣性能优化技巧：#使用UMat加速图像处理umat_img=cv2.UMat(img)processed=cv2.GaussianBlur(umat_img,(5,5
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
OpenCV入门到精通：从基础到实战的全面指南
摘要：本文旨在为初学者和有一定经验的开发者提供OpenCV从入门到精通的全面指南。文章首先介绍了OpenCV的基本概念和安装方法，然后深入讲解了图像处理基础、特征检测与匹配、视频处理与分析等核心内容，最后通过实战案例展示了OpenCV在计算机视觉任务中的应用。关键词：OpenCV；图像处理；特征检测；视频分析；实战案例引言OpenCV（OpenSourceComputerVisionLibrary
【人工智能面经第五期：模型训练与优化核心面试深度问答】码上有前 Pytorch Python 深度学习人工智能面试职场和发展
作者：“码上有前”文章简介：人工智能面经欢迎小伙伴们点赞、收藏⭐、留言模型训练与优化核心面试深度问答摘要围绕模型训练与优化的训练技巧（正则化、迁移学习）和数据工程（数据增强、标注质量）展开，通过20个关键问题，解析正则化协同策略、迁移学习适配场景、数据增强实践等核心要点，助力读者掌握人工智能与计算机视觉岗位面试中模型训练优化的知识体系，明晰技术原理与实际应用的关联。目录训练技巧-正则化策略相关问题
机器学习手写字体识别系统：技术演进与应用实践万能小贤哥机器学习人工智能
引言：手写字体识别的技术定位与价值在信息处理领域，人工录入手写文本的低效性与机器识别的高效性形成鲜明对比。例如，医疗处方的人工处理需约5分钟/张，而采用手写字体识别技术可将时间缩短至10秒/张，显著提升处理效率。作为计算机视觉与人工智能的重要分支，手写字体识别技术通过将手写文本转换为可编辑电子文本，不仅大幅减少人工输入时间和错误，降低人工处理成本，还能在大量数据处理时保持高于人工录入的准确性，是人
【论文阅读笔记】TimesURL: Self-supervised Contrastive Learning for Universal Time Series 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
TimesURL:Self-supervisedContrastiveLearningforUniversalTimeSeriesRepresentationLearning摘要学习适用于多种下游任务的通用时间序列表示，并指出这在实际应用中具有挑战性但也是有价值的。最近，研究人员尝试借鉴自监督对比学习（SSCL）在计算机视觉（CV）和自然语言处理（NLP）中的成功经验，以解决时间序列表示的问题。
异物检测的计算机视觉算法技术路线思绪漂移计算机视觉算法人工智能
异物检测的计算机视觉算法技术路线在现代智能监测系统中，异物检测有着其必要性和运维重要性，通过计算机视觉算法，可以实时识别各种异常物体，为设备安全运行提供有力保障。本文将介绍异物检测的主要技术路线。一、分类识别适应场景分类识别技术主要适用于已知目标类别的异物检测场景。在运维环境中，这类场景包括：固定区域内的障碍物监测（如轨道区域的石块、工具、动物等）关键部件的异物附着检测（如固定装置上的杂物）安全通
【AI大模型】深入解析预训练：大模型时代的核心引擎我爱一条柴ya 学习AI记录深度学习人工智能 ai python AI编程算法
预训练已成为现代人工智能，尤其是自然语言处理和计算机视觉领域的基石技术。它彻底改变了模型开发范式，催生了BERT、GPT等革命性模型。本文将系统阐述预训练的核心概念、原理、方法、应用及挑战。一、预训练的本质：为何需要它？核心问题：数据标注的瓶颈监督学习依赖海量高质量标注数据，获取成本极高（时间、金钱、专业知识）。对于复杂任务（如理解语义、生成文本），标注难度呈指数级上升。标注数据稀缺导致模型泛化能
OpenCvSharp 实现环形文字识别OCR实例（C#） XisVisual_Basic ocr c#计算机视觉 C#
近年来，随着计算机视觉和图像处理的不断发展，光学字符识别（OCR）技术也变得愈发成熟。OCR技术可以将图像中的文字转换为可编辑和可搜索的文本，为人们带来了极大的便利。在本篇文章中，我们将介绍如何使用OpenCvSharp库来实现环形文字的识别。首先，在使用OpenCvSharp之前，我们需要确保已经在项目中引用了该库，并添加相应的命名空间。usingOpenCvSharp;接下来，我们需要准备一张
Python|OpenCV-实现识别弧形文字(17) 写python的鑫哥 OpenCV入门与进阶 python opencv 人工智能计算机视觉弧形文字环形文字识别
前言本文是该专栏的第19篇，后面将持续分享OpenCV计算机视觉的干货知识，记得关注。我们知道，OCR可以识别文字方面的需求，但是如果遇到那些目标文字是“弧形文字”，需要怎么去识别呢？遇到想要识别“弧形文字”的需求，这个时候你可以借助于Opencv+OCR技术来实现。而本文，笔者将针对上述问题需求，利用OpenCV结合OCR来实现“弧形文字”的识别。废话不多说，具体的细节部分以及详细的解决方案，跟
【小白入门必看】一文读懂深度学习计算机视觉技术及学习路线
一、什么是计算机视觉？计算机视觉，其实就是教机器怎么像我们人一样，用摄像头看看周围的世界，然后理解它。比如说，它能认出这是个苹果，或者那边有辆车。除此之外，还能把拍到的照片或者视频转换成有用的信息，帮我们做决定。整个过程就是为了让机器能看懂图像，然后根据这些图像来做出聪明的选择。二、计算机视觉实现起来难吗？人类依赖视觉，找辆汽车轻而易举，毕竟汽车那么大，一眼就能看出来，所以常误以为计算机视觉简单，
计算机视觉：Transformer的轻量化与加速策略 xcLeigh 计算机视觉CV 计算机视觉 transformer 人工智能 AI 策略
计算机视觉：Transformer的轻量化与加速策略一、前言二、Transformer基础概念回顾2.1Transformer架构概述2.2自注意力机制原理三、Transformer轻量化策略3.1模型结构优化3.1.1减少层数和头数3.1.2优化Patch大小3.2参数共享与剪枝3.2.1参数共享3.2.2剪枝3.3知识蒸馏四、Transformer加速策略4.1模型量化4.2.2TPU加速4.
【机器学习】解密计算机视觉：CNN、目标检测与图像识别核心技术（第25天）吴师兄大模型 0基础实现机器学习入门到精通机器学习计算机视觉 cnn 人工智能目标检测图像识别 pytorch
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
人体坐姿检测系统开发实战（YOLOv8+PyTorch+可视化） Loving_enjoy 计算机学科论文创新点人工智能深度学习迁移学习经验分享
本文将手把手教你构建智能坐姿检测系统，结合目标检测与姿态估计技术，实现不良坐姿的实时识别与预警###一、项目背景与价值现代人每天平均坐姿时间超过8小时，不良坐姿会导致：-脊椎压力增加300%-颈椎病发病率提升45%-腰椎间盘突出风险增加60%本系统通过计算机视觉技术实时监测坐姿状态，对驼背、侧倾、前倾等不良姿势进行智能识别和预警。相较于传统传感器方案，我们的视觉方案具有非接触、低成本、易部署的优势
魔都AI医疗哪家强？全景揭秘科技创新与未来钱景！
引言上海作为中国科技创新的先锋城市，正在AI医疗领域崭露头角。根据2024年12月的数据，上海拥有34家专注于AI药物研发的公司，占全国预临床研究的60%和临床试验的47%。这些公司利用深度学习、大语言模型（LLM）和计算机视觉等技术，革新药物发现、医疗影像分析和数据治理，推动医疗行业的智能化转型。从全球首个人工智能医院“AgentHospital”到AI驱动的诊断系统，上海的AI医疗生态正在重塑
语义分割模型的轻量化与准确率提升研究 pk_xz123456 仿真模型深度学习算法 transformer 深度学习人工智能算法数据结构
语义分割模型的轻量化与准确率提升研究1.引言语义分割是计算机视觉领域的核心任务之一，它要求模型为图像中的每个像素分配一个类别标签。随着深度学习的发展，语义分割模型在多个领域得到了广泛应用，如自动驾驶、医学影像分析、遥感图像解译等。然而，现有的语义分割模型往往面临两个主要挑战：模型复杂度高导致难以部署在资源受限的设备上，以及准确率仍有提升空间以满足实际应用需求。本文将从模型轻量化和准确率提升两个角度
Python深度学习实践：建立端到端的自动驾驶系统 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：建立端到端的自动驾驶系统1.背景介绍自动驾驶系统是当今科技领域最具挑战性和前景的应用之一。它融合了计算机视觉、深度学习、规划与控制等多个领域的先进技术,旨在实现车辆的自主感知、决策和操控。随着人工智能技术的不断发展,越来越多的公司和研究机构投入了大量资源来开发自动驾驶系统。Python作为一种高效、易学且开源的编程语言,在这一领域扮演着重要角色。本文将探讨如何利用Pyth
从0开始学习计算机视觉--Day08--卷积神经网络
之前我们提到，神经网络是通过全连接层对输入做降维处理，将输入的向量通过矩阵和激活函数进行降维，在神经元上输出激活值。而卷积神经网络中，用卷积层代替了全连接层。不同的是，这里的输入不再需要降维，而是可以保留输入的空间结构，例如输入的是32×32×3的图片，在全连接层中是3072×1的向量，而卷积层里则保持不变。这里的改变的地方是对于同样的WX的函数形式，这里是把5×5×3的权重矩阵（也叫卷积核）向量
Python打卡：Day40
#先继续之前的代码importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.dataimportDataLoader,Dataset#DataLoader是PyTorch中用于加载数据的工具fromtorchvisionimportdatasets,transforms#torchvision是一个用于计算机视觉的库，
BigQuery对象引用（ObjectRef）全面指南：一站式整合结构化与非结构化多模态数据分析
引言企业需要同时管理有组织表格中的结构化数据，以及日益增长的非结构化数据（如图片、音频和文档）。传统上，联合分析这些多样化数据类型非常复杂，通常需要使用不同的工具。非结构化媒体通常需要导出到专门的服务进行处理（如图片分析需计算机视觉服务，音频需语音转文本引擎），这会造成数据孤岛，阻碍全局分析视角的建立。以虚构的电商支持系统为例：结构化的工单信息存储在BigQuery表中，而相关的支持通话录音或损坏
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
OpenCV 图像操作：颜色识别、替换与水印添加
目录引言代码实现1.导入必要的库2.图像加法3.图像直接相加4.颜色加权加法5.HSV颜色空间转换概念作用6.查找颜色范围对应的像素点7.与运算-生成掩膜8.添加水印9.主函数总结引言在计算机视觉领域，OpenCV是一个强大的库，提供了丰富的图像操作功能。本文将详细介绍如何使用OpenCV进行图像加法、颜色加权加法、HSV颜色空间转换、颜色范围查找、与运算生成掩膜以及添加水印等操作，并给出相应的P
YOLO学习笔记｜从YOLOv5到YOLOv11：技术演进与核心改进北斗猿 YOLO学习从零到1 YOLO 目标检测算法 python 计算机视觉
从YOLOv5到YOLOv11：技术演进与核心改进深度解析一、YOLO系列发展概述YOLO（YouOnlyLookOnce）目标检测算法自2016年诞生以来，凭借其"单次检测"的独特理念和卓越的实时性能，持续引领着计算机视觉领域的技术革新。从JosephRedmon的初代YOLO到AlexeyBochkovskiy的YOLOv4，再到Ultralytics团队的YOLOv5及后续系列，这一算法家族
《卷积神经网络到Vision Transformer：计算机视觉的十年架构革命》 HeartException 人工智能学习
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站题目《卷积神经网络到VisionTransformer：计算机视觉的十年架构革命》展开深度解析，全文采用技术演进史+架构对比+产业影响的三段式结构，附关键数据与趋势预测：卷积神经网络到VisionTransformer：计算机视觉的十年架构革命副标题：从局部感知到全局建模，一场改变AI视觉基石的
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite