元大宝

人脸识别的损失函数解读

最近在研究自编码器提取特征做分类和生成、重建。所以细致了解人脸识别的各种损失函数！

文章目录

1、概要
2、Softmax Loss
3、Center Loss
4、A-Softmax Loss
5、L-Softmax Loss
6、CosFace Loss
7、AM-Softmax
8、ArcFace/Insight Face
9、小结一下
10、参考链接

1、概要

人脸识别：输入一张图片，进行人脸检测，再提取关键点进行人脸对齐矫正，最后提取人脸特征，进行判别这个人是谁。判别这个人是谁，本质上是分类问题。

既然牵涉到分类，分类的目的就是不同类的类间间距够大，同一类的类内距离足够小。那么我们一步一步介绍人脸识别中常用的损失函数。

2、Softmax Loss

$S o f t m a x$ ：将特征图扁平化后的输出映射到（0，1）之间，给出每个类的概率。假设最后一层特征图尺度是： $5 * 5 * 1000$ 。再将这些特征输入给扁平化为 [ $N$ X $1$ ] 个向量（这里的 $N$ 是 $5 * 5 * 1000 = 25000$ ）。下面扁平化的 [ $N$ X $1$ ] 的向量进入全连接层，全连接层的参数权重是 $W$ [ $T$ X $N$ ]（这里的 $T$ 表示分类的类别数），经过全连接层处理就会得到一个 [ $T$ x $1$ ] 的向量，但是这个向量里面都每个数值的大小都没有限制，或许是无穷大，也有可能是无穷小，均有可能。因此多分类时候，往往在全连接层后面接个 $S o f t m a x$ 层。这个层的输入是 [ $T$ x $1$ ] 的向量，输出也是 [ $T$ x $1$ ] 的向量。但是输出的每个向量都归一化到 $[0 ， 1]$ 之间。这里的 $S o f t m a x$ 输出的向量是该样本属于每一类的概率。

$S o f t m a x$ 公式：
$P_j=\frac{e^{a_j}}{\sum_{k=1}^{T}{e}^{a_k}}$
上面公式中的 $a_j$ 表示这 [ $T$ x $1$ ] 个向量中的第 $j$ 个值，而下面分母表示所有值的求和。上式成功的把 $P_j$ 归一化到 $(0 ， 1)$ 之间。优化目标：属于正确标签的预测概率最高。

下面介绍 $\ Loss$ ：
$L=-\sum_{j=1}^{T}{y_i} \ {\log{p_j}}$ 上式中的 $p_j$ 表示 $S o f t m a x$ 层输出的第 $j$ 的概率值。 $y$ 表示一个 [ $1$ x $T$ ] 的向量，里面的 $T$ 列中只有一个为1，其余为0（真实标签的那个为1，其余不是正确的为0）。这个公式有一个更简单的形式是：
$L=-\log p_j$ 其中的 $j$ 是指当前样本的真实标签。 $l o g$ 函数是个递增的函数，你预测错的概率会比你预测对的概率要大，因为前面加了一个负号。

图像分类里面常用 $\ Loss$ 。

3、Center Loss

$\ Loss$ 来自 $E C C V 2016$ 一篇论文： $\ Discriminative \ Feature \ Learning \ Approach \ for \ Deep \ Face \ Recognition$

对 $M N I S T$ 数据集进行分类，若损失函数采用上述介绍的 $\ Loss$ (因为 $\ Loss$ 能够使特征可分)，那么最后每个类别数字学出来的特征分布下图，我们可以看出类间距离还是比较小，类内距离比较大的，虽然效果很好：

如果损失函数采用 $\ Loss$ ，那么特征分布如下图，我们可以看出相比于 $\ Loss$ 类间距离变大了，类内距离变小了：

所以我们可以看出 $\ Loss$ 能够最小化类内距离的同时保证特征可分，来提高特征之间的可判别性！简单地说，给每一类( $l a b e l$ )定义一个类中心( $C e n t e r$ )，同一类的数据向类中心靠近，离得远要惩罚！于是 $\ Loss$ 就出现了。
$\ Loss = \frac{1}{2m}\sum_{i=1}^{m}{|x_i-c_{y_i}|_2^{2}}$ 其中 $c_{y_i}$ 表示这个样本所对应的第 $y_i$ 类别的特征中心， $m$ 表示每一个 $b a t c h$ 大小。上述公式的意义是：希望 $b a t c h$ 中的每个样本特征距离特征中心的距离的平方和越小越好，也就是负责类内差距。

那么上述的 $c_{y_i}$ 每一 $b a t c h$ 怎么确定的呢？理想情况下， $c_{y_i}$ 需要随着学习到的 $f e a t u r e$ 进行实时更新，也就是在每一次迭代的时候用整个数据集的 $f e a t u r e$ 来计算每个类的中心。但是这样时间复杂度高，于是：用 $b a t c h$ 来更新 $c e n t e r$ ，每一轮计算一下当前 $b a t c h$ 数据与 $c e n t e r$ 的距离，然后这个距离以梯度的形式叠加到 $c e n t e r$ 上。
我们下面对 $x_i$ 求导： $\frac{\partial L_{c}}{\partial x_i}=\frac{1}{m}\sum_{i=1}^{m}{(x_i - c_{y_i})}$ 这里因为每个 $b a t c h$ 的数量 $m$ 太小，那么每次更新 $c e n t e r$ 可能会引起 $c e n t e r$ 抖动。那么梯度上面加个限制 $\alpha$ ，这个值在 $0 - 1$ 之间：
$\Delta c=\frac{\alpha}{m}{\sum_{i=0}^m{}(x_i-y_{i})}$ 为了最小化类内，最大化类间，即满足特征可分和特征可判别，论文中将 $\ Loss$ 和 $\ Loss$ 结合。

有大牛在 $C i f a r 10$ 和 $C i f a r 100$ 上测试过 $\ Loss$ ，发现效果并不是很好，准确率明显低于单独的 $S o f t m a x$ ；在 $M N I S T$ 上测试加上 $\ Loss$ 的 $S o f t m a x$ 好于单独的 $S o f t m a x$ ；所以理解之所以 $\ Loss$ 是针对人脸识别的 $L o s s$ 是有原因的，因为人脸的中心性更强一些，即一个人的所有脸取平均值之后的人脸我们还是可以辨识是不是这个人，所以 $\ Loss$ 才能发挥作用。

4、A-Softmax Loss

$A - S o f t m a x$ 来自于 $C V P R 2017$ 。论文题目：
$\ Hypersphere \ Embedding \ for \ Face \ Recognition》$
拿图像分类来说。卷积神经网络提取特征，然后全连接层进行扁平化，再送入 $S o f t m a x$ 层实现分类。传统的 $S o f t m a x$ 很容易优化，因为它没有尽可能的扩大类间距离，缩小类内距离。

假设最后一层的输出特征向量为 $x_i$ ,它对应的标签是 $y_i$ ,那么 $S o f t m a x$ 又可以写成：
$L_{总}=\frac{1}{N}\sum_{i}L_{i}$ 其中 $L_{i}=-\log p_j$ , $p_{j}=\frac{e^{a_j}}{\sum_{k=1}^{T}{e}^{a_k}}=\frac{e^{f_{y_i}}}{\sum_j{e^{f_j}}}$
那么上式 $L_{总}$ 可以表示为：
$L_{总}=\frac{1}{N}\sum_{i}L_{i}=\frac{1}{N}\sum_{i}-\log(\frac{e^{f_{y_i}}}{\sum_je^{f_j}})$ 其中 $f_{y_i}$ 可以用欧式空间的向量积来表示：
$f_{y_i}=W_{y_i}*x_i(卷积)=||W_{y_i}||*||x_i||*cos(\theta_{y_i})(乘积)$ 上式中 $j$ 表示类别总数，上述公式再进一步限制， $W_{y_{i}}||=1$ ，偏置 $b_{y_i}=0$ （这是一个很重的点哦）。
那么上式又变为：
$L_{总}=\frac{1}{N}\sum_{i}L_{i}$ $=\frac{1}{N}\sum_{i}-\log(\frac{e^{W_{y_i}*{X_i}(卷积)}}{\sum_je^{W_{j}*X_i(卷积)}})$ $=\frac{1}{N}\sum_{i}-\log(\frac{e^{||W_{y_i}||*||x_i||*cos(\theta_{y_i})(乘积)}}{\sum_je^{||W_{j}||*||x_i||*cos(\theta_{j})(乘积)}})$ $=\frac{1}{N}\sum_{i}-\log(\frac{e^{||x_i||*cos(\theta_{y_i})(乘积)}}{\sum_je^{||x_i||*cos(\theta_{j})(乘积)}})$ 上述公式更直白的解释为：二分类， $p_1$ 、 $p_2$ 进行分类，决策界面是 $p_1=p_2$ ，上面 $∣ ∣ W ∣ ∣$ 归一化，且偏置 $b$ 为 0,那么上述就为：
$(W_1-W_2)*x+b_1-b_2=cos(\theta_1)-cos(\theta_2)=0$ 那么我们可以得出：一个输入特征 $x_i$ 属于 $y_i$ 类，那么该 $\theta y_i$ 的角度应该比所有的其他的类都要小(因为 $cos(\theta)$ 是减函数)。

原始的 $S o f t m a x$ ，其中的 $x$ 是类别中学习的特征， $\theta$ 表示 $x$ 到 $W_i$ 的角度。小结一下：原始 $S o f t m a x$ 的目的使得 $W_1*x>W_2*x$ ，即 $∥ W 1 ∥ * ∥ x ∥ * c o s (θ 1) > ∥ W 2 ∥ * ∥ x ∥ * c o s (θ 2)$ ，从而得到 $x$ 正确的分类结果。如果我们使用 $cos(m\theta_1)>cos(\theta_2)$ 时，才判为类别1，这样我们可以看出决策函数更严格，因为这边的 $\theta_1<\frac{\theta_2}{m}$ 才会判定类别1；同理， $cos(\theta_1)<cos(m\theta_2)$ 判断为类别2，也就是 $\theta_2<\frac{\theta_1}{m}$ ，判断为类别2。很抽象，我一开始看的时候也很抽象，所以我们来个直观的解释，超球体解释：
上面的是二维平面，下面是三维超球体解释图。

$A - S o f t m a x$ 使 $W_i||=0,{bias}_i=0$ ，所以依靠的是样本 $x$ 到 $W$ 的角度，这个角度越小就越有可能是这一类，而添加一个 $m$ 的目的：使类间的距离足够大，使类内距离足够小。也就是放大了类间的距离，也因放大了不同类之间的间隔而使类内更聚拢。

但是，原来的 $S o f t m a x$ 里面的 $\theta_{i,j}\in (0,\pi)$ ，如今 $m\theta_{i,j}\in (0,m\pi)$ 超出了向量之间的夹角函数 $c o s$ 定义域范围 $(0,\pi)$ 咋办？把 $n$ 个 $c o s$ 堆叠起来变成一个递减的连续的函数，详细见论文！

5、L-Softmax Loss

$L - S o f t m a x$ 来自于 $I C M L 2016$ 的一篇论文：
$\ Softmax \ Loss \ for \ Convolutional \ Neural \ Networks >$
$L - S o f t m a x$ 与 $A - S o f t m a x$ 的区别在于 $W_i||$ 没有归一化，偏置不必归0。 $L - S o f t m a x$ 与 $A - S o f t m a x$ 的过程类似，我简单再介绍一下：
$L_{总}=\frac{1}{N}\sum_{i}L_{i}$ $=\frac{1}{N}\sum_{i}-\log(\frac{e^{W_{y_i}*{X_i}(卷积)}}{\sum_je^{W_{j}*X_i(卷积)}})$ $=\frac{1}{N}\sum_{i}-\log(\frac{e^{||W_{y_i}||*||x_i||*cos(\theta_{y_i})(乘积)}}{\sum_je^{||W_{j}||*||x_i||*cos(\theta_{j})(乘积)}})$ $=\frac{1}{N}\sum_{i}-\log(\frac{e^{||x_i||*cos(\theta_{y_i})(乘积)}}{\sum_je^{||x_i||*cos(\theta_{j})(乘积)}})$ 上述公式更直白的解释为：二分类， $x$ 属于类别1，我们就希望 $W_1*x>W_2*x$ 。我们把它转成点积，得：
$||W_1||*||x||*cos(\theta_1)>||W_2||*||x||*cos(\theta_2)$ 那么 $L - S o f t m a x$ 将上面表达式修改为：
$||W_1||*||x||*cos(m\theta_1)>||W_2||*||x||*cos(\theta_2)$ 其中 $0<\theta_1<\frac{\pi}{m}$ 。 $m$ 值越大则学习的难度也越大。因此通过这种方式定义损失会逼得模型学到类间距离更大的，类内距离更小的特征。

6、CosFace Loss

来自于 $2018$ 论文：
$\ Margin \ Cosine \ Loss \ for \ Deep \ Face \ Recognition>$
$L M C L$ 从余弦的角度思考 $\ Loss$ ：
$L_{总}=\frac{1}{N}\sum_{i}L_{i}=\frac{1}{N}\sum_{i}-\log(p_i)=\frac{1}{N}\sum_{i}-\log(\frac{e^{f_{y_i}}}{\sum_je^{f_j}})$ 其中 $f_j=W_j*x=||W_j||*||x||*cos(\theta_j)$ ，其中余弦代表特征向量与权重向量的角度余弦值。

人脸识别是根据两个特征向量之间的余弦相似度计算的。这表明，特征向量 $x$ 的范数是对评分功能没有贡献，于是，通过 $L 2$ 归一化范式将 $W_j||$ 设定为1，将 $x_j||$ 设定为 $s$ ，于是 $L o s s$ 公式变成了如下：
$L_{总}=\frac{1}{N}\sum_{i}L_{i}=\frac{1}{N}\sum_{i}-\log(\frac{e^{{s*cos(\theta_{y_i},i)}}}{\sum_je^{s*cos(\theta_{j},i)}})$
接下来，作者把余弦边缘项 $m$ 加上去，与 $A - S o f t m a x$ 不同的是：此时的 $m$ 不是乘积项，而是减法。
$L_{总}=\frac{1}{N}\sum_{i}L_{i}=\frac{1}{N}\sum_{i}-\log(\frac{e^{{s*(cos(\theta_{y_i},i)-m)}}}{{e^{s*(cos(\theta_{j},i)-m)}}+{\sum_{j\neq y_i}e^{s*(cos(\theta_{j},i)-m)}}})$ 同时满足: $W=\frac{W}{||W||}$ $s=x=\frac{x}{||x||}$ $W_j*x_i=1*1*cos(\theta_j,i)=cos(\theta_j,i)$ 所以，其特征会分布在一个超球面上。下图为二维和高维示意图：

7、AM-Softmax

这一部分主要参考下面链接，大牛写的特棒！https://blog.csdn.net/fire_light_/article/details/79602310。
该损失函数来自于 $2018$ 论文：
$\ Margin \ Softmax \ for \ Face \ Verification>$ 。个人感觉 $A M - S o f t m a x$ 与 $C o s - F a c e$ 撞车了，不管啦，那就解读一下上个没解释的一些问题。
首先再回顾一下 $S o f t m a x$ 和 $A - S o f t m a x$ :
$L_{总}=\frac{1}{N}\sum_{i}L_{i}$ $=\frac{1}{N}\sum_{i}-\log(\frac{e^{W_{y_i}*{X_i}(卷积)}}{\sum_je^{W_{j}*X_i(卷积)}})$ $=\frac{1}{N}\sum_{i}-\log(\frac{e^{||W_{y_i}||*||x_i||*cos(\theta_{y_i})(乘积)}}{\sum_je^{||W_{j}||*||x_i||*cos(\theta_{j})(乘积)}})$
$A - S o f t m a x$ :
$L_{总}=\frac{1}{N}\sum_{i}L_{i}$ $=\frac{1}{N}\sum_{i}-\log(\frac{e^{W_{y_i}*{X_i}(卷积)}}{\sum_je^{W_{j}*X_i(卷积)}})$ $=\frac{1}{N}\sum_{i}-\log(\frac{e^{||W_{y_i}||*||x_i||*cos(\theta_{y_i})(乘积)}}{\sum_je^{||W_{j}||*||x_i||*cos(\theta_{j})(乘积)}})$ $=\frac{1}{N}\sum_{i}-\log(\frac{e^{||x_i||*cos(\theta_{y_i})(乘积)}}{\sum_je^{||x_i||*cos(\theta_{j})(乘积)}})$ $=\frac{1}{N}\sum_{i}-\log(\frac{e^{||x_i||*cos(\theta_{y_i})(乘积)}}{e^{||x_i||*cos(\theta_{y_i})(乘积)}+\sum_{j\neq y_i}e^{||x_i||*cos(\theta_{j})(乘积)}})$
上式中的 $cos(\theta_{y_i})$ 可以替换成 $(-1)^Ncos(m\theta_{y_i})-2N$ 。理由上面说明了哈！
然后 $A M - S o f t m a x$ 和 $c o s - F a c e$ 出场了，把上面的 $cos(\theta)$ 变成 $cos(\theta)-m$ 。所以式子就变成了：
$L_{总}=\frac{1}{N}\sum_{i}L_{i}=\frac{1}{N}\sum_{i}-\log(\frac{e^{{s*(cos(\theta_{y_i},i)-m)}}}{{e^{s*(cos(\theta_{j},i)-m)}}+{\sum_{j\neq y_i}e^{s*(cos(\theta_{j},i)-m)}}})$ 同时满足: $W=\frac{W}{||W||}$ $s=x=\frac{x}{||x||}$ $W_j*x_i=1*1*cos(\theta_j,i)=cos(\theta_j,i)$
好处：在于 $A - S o f t m a x$ 的倍角计算是要通过倍角公式，反向传播时不方便求导，而只减m反向传播时导数不用变化。作者认为， $A - s o f t m a x$ 是用 $m$ 乘以 $θ$ ，而 $A M - S o f t m a x$ 是用 $c o s θ$ 减去 $m$ ，这是两者的最大不同之处：一个是角度距离，一个是余弦距离。使用传统的Softmax的时候，角度距离和余弦距离是等价的，即: $cos(\theta_1)=cos(\theta_2)-->\theta_1=\theta_2$ 但是当我们试图要推动决策边界的时候，角度距离和余弦距离就有所不同了。最终的决策边界是和余弦相关的，根据cos的性质，优化角度距离比优化余弦距离更有效果，因为余弦距离相对更密集。之所以选择 $c o s θ - m$ 而不是 $c o s (θ - m)$ ，这是因为我们从网络中得到的是权重 $W$ 和特征 $x$ 的内积，如果要优化 $c o s (θ - m)$ 那么会涉及到 $a r c c o s$ 操作，计算量过大。论文里写的真棒！

8、ArcFace/Insight Face

来自于2018年论文：
$\ Additive \ Angular \ Margin \ Loss \ for \ Deep \ Face \ Recognition$ ，也叫 $\ Face$ 。这个和 $A M - S o f t m a x$ 类似，前者是余弦角度，这边是变成角度问题。这么做的原因：角度距离比余弦距离在对角度的影响更加直接。
在二分类情况下，对于类别1， $A r c F a c e$ 的边界决策函数为:

9、小结一下

决策界面：

10、参考链接

https://blog.csdn.net/u014380165/article/details/76946339
https://blog.csdn.net/lucifer_zzq/article/details/81236174
https://zhuanlan.zhihu.com/p/23444100
https://zhuanlan.zhihu.com/p/41479655
https://www.cnblogs.com/heguanyou/p/7503025.html
https://blog.csdn.net/wfei101/article/details/79518017
https://www.jianshu.com/p/c2653bf83584
https://blog.csdn.net/fire_light_/article/details/79602310
https://blog.csdn.net/Fire_Light_/article/details/79602705
https://blog.csdn.net/wfei101/article/details/80700325

人脸识别的一些代码饿了就干饭 CV相关人脸识别
1、cv2入门函数imread及其相关操作2、（详解）opencv里的cv2.resize改变图片大小Python3、机器学习之人脸识别face_recognition使用4、使用face_recognition进行人脸校准5、简单的人脸识别通用流程示意图（这个看着写的挺好的）6、face_recognition和图像处理中left、top、right、bottom解释7、使用pillow库对图片
基于STM32单片机的人脸识别电子密码锁RFID刷卡门禁锁设计+红外避障检测人流量液晶显示设计DIY25-147 通旺科技单片机 stm32 嵌入式硬件
STM32单片机+红外人流量统计+人脸识别(管理)+RFID刷卡+密码可设+TFT屏+舵机+蜂鸣器+矩阵按键本系统由STM32F103C8T6单片机核心板、1.44寸TFT彩屏、红外避障传感器、人脸识别模块、RFID射频卡读写模块、舵机驱动电路、蜂鸣器报警电路、矩阵按键电路及电源组成。【1】设备识别到已录入的人脸信息、已录入的RFID卡号信息、输入密码正确，则进行舵机控制，打开门禁；同时液晶能够显
美颜特效类sdk在智能硬件中的场景应用是怎样的？ Face Beauty美颜SDK 实时音视频美颜sdk 视频特效美颜智能硬件实时互动实时音视频
前言：FaceBeauty美颜特效SDK是由前相芯科技员工组建创办的新晋美颜厂商品牌，致力于为用户提供更真实自然的美颜效果，以极致性价比，降低高性能美颜的使用门槛。基于人脸识别和图像渲染技术，为客户提供美颜贴纸、美妆、美体、美发、哈哈镜、手势识别等人像人体特效功能，广泛应用于视频直播、一对一社交、短视频、美颜相机、智能硬件等场景。美颜特效类SDK在智能硬件中的应用场景日益广泛，结合实时图像处理、A
安全物理环境 bubble87 安全
物理位置选择基本要求：机房应位于具有防震、防风和防雨能力的建筑内，需提供抗震设防审批文档。避免设置在建筑物顶层或地下室，否则需加强防水防潮措施。测评方法：核查建筑物抗震设防文档、屋顶/墙体/门窗的防雨渗漏情况。检查机房所在楼层是否为顶层或地下室（如机房位于三层和四层不在顶楼，符合要求）。物理访问控制（高风险项）基本要求：机房出入口应配置电子门禁系统（如指纹、密码、人脸识别），记录人员进出信息。测评
人脸识别生物特征脱敏：不可逆编码技术与隐私保护实战燃灯工作室 Ai 自动化 pytorch tensorflow 人工智能
一、技术原理与数学基础1.1特征脱敏核心思想脱敏函数f:Rd→Rk(k
嵌入式人工智能应用- 第七章人脸识别数贾电子科技嵌入式人工智能应用人工智能
嵌入式人工智能应用`文章目录嵌入式人工智能应用1人脸识别1.1dlib介绍1.2dlib特点1.3dlib的安装与编译2人脸识别原理2.1ResNet3代码部署3.1安装[CUDAToolkit12.8](https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=Ubunt
图像识别技术与应用超帅的好吧笔记
第一节课这节课了解了这门专业的就业职位：工资是怎么样的岗位职责和任职要求看到了人类工业文明的演变了解了人工智能的研究、开发、模拟、延伸、理论、方法和技术看到了生活方式的转变比如智能语音闹钟控制系统、自动驾驶和人脸识别考勤智能购物、医疗日常生活的智能比如指纹、淘宝、抖音还能用软件看到天气的好坏了解了典型训练和机器学习中的关键组件机器学习中的关键组件包含：数据模型目标函数优化算法这节课学习了第一节剩下
Faster R-CNN原理详解以及Pytorch实现模型训练与推理阿_旭深度学习实战 cnn pytorch 人工智能 Faster RCNN
《------往期经典推荐------》一、AI应用软件开发实战专栏【链接】项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体检测系统开发】5.【图片风格快速迁移软件开发】6.【人脸表表情识别系统】7.【YOLOv8多目标识别与自动标注软件开发】8.【基于深度学习的行人跌倒检测系统】9.【基于深度学习的PCB板缺陷检测系统
人脸识别，dlib优化，Dlib/OpenCV交叉编译 yiyayiya557 linux 嵌入式
参考文章：GitRepo镜像使用帮助https://mirrors.tuna.tsinghua.edu.cn/help/git-repo/交叉编译Dlib+OpenCV交叉编译移植到ARM64-v8平台（编译不通过，不可用）https://blog.csdn.net/kaychangeek/article/details/80365320Qt移植到ARM64-v8平台(NXPi.MX8M)笔记（未
“面面俱到”！人脸活体检测让应用告别假面攻击 harmonyos
随着人脸识别技术在金融、医疗等多个领域的加速落地，网络安全、信息泄露等问题愈为突出，用户对应用稳定性和安全性的要求也更为严格。HarmonyOSSDK场景化视觉服务（VisionKit）提供人脸动作活体检测能力，增强对于非活体攻击的防御能力和活体通过率。在投资理财、在线支付等高风险金融服务场景中，通过检测用户的组合动作等来验证用户为真实活体操作，抵御攻击，提高安全性，降低业务风险，全方位保障用户体
提高客户体验：人类计算在营销中的应用 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
人类计算与营销：开启个性化时代的未来人类计算与营销：开启个性化时代的未来关键词：人工智能、个性化营销、客户体验、数据驱动、客户关系管理摘要：本文探讨了人类计算在营销中的应用，包括语音识别、人脸识别、自然语言处理等技术，以及如何通过这些技术实现个性化营销、客户关系管理和用户体验优化。文章分析了当前技术的发展趋势和面临的挑战，并提出了未来发展的方向。引言随着人工智能技术的飞速发展，人类计算在各个领域中
全网最简单实用Android平板USB摄像头开发，同时预览多个摄像头，双目摄像头，同时打开手机前后摄像头（红外摄像头、人脸识别、活体检测、Android Camer 云启软件 Android原生笔记
老规矩，先视频8月20日背景：多摄像头有很多实现方案，手机上能实现跑通，但是Android平板USB的找了好久才实现，需要低版本API，废话不多说直接代码：工具类importandroid.graphics.SurfaceTexture;importandroid.hardware.Camera;importandroid.view.TextureView;importjava.io.IOExce
深度解析SSD2351核心板：硬核视频处理+工业级可靠性设计明远智睿嵌入式方案商 arm开发嵌入式硬件人工智能机器人
明远智睿SSD2351核心板基于SigmaStarSSD2351芯片打造，专为高可靠性工业场景设计，其硬件配置与接口能力充分满足复杂环境下的多模态数据处理需求。芯片技术细节：视频处理能力：IVE引擎支持高斯滤波、膨胀/腐蚀等图像预处理；IPU支持人脸识别、运动检测及Transformer网络推理；显示接口支持MIPIDSI2560x1600@60fps，适配工业HMI大屏。音频处理：3通道ADC（
Triplet Loss原理及 Python实现 AIGC_ZY Diffusion Models python 深度学习机器学习
Tripletloss最初是谷歌在FaceNet:AUnifiedEmbeddingforFaceRecognitionandClustering论文中提出的，可以学到较好的人脸的embeddingTripletLoss是一种用于训练特征嵌入（featureembedding）的损失函数，广泛应用于人脸识别、图像检索等需要度量相似性的任务。其核心思想是通过学习将同类样本的嵌入距离拉近，不同类样本的
RV1126笔记六：人脸识别方案＜四＞殷忆枫 RV1126项目实战人工智能
若该文为原创文章，转载请注明原文出处。一、介绍人脸识别方案设计逻辑流程图，方案代码分为分为三个业务流程，主体代码负责抓取、合成图像，算法代码负责人脸识别功能。通过摄像头实时采集数据，识别人脸，并提取人脸特征，把特征值和数据库对比后，把名字合合到图像上，通过自带的RTSP库推流，在PC端播放。二、流程图说明：程序初始化后，创建了三个线程：线程一、循环获取VI数据，实时检测人脸，识别人脸，提取特征值，
使用 Dlib 库进行人脸检测和人脸识别萧鼎 python基础到进阶教程计算机视觉人工智能 python 人脸识别人脸检测
使用Dlib库进行人脸检测和人脸识别什么是Dlib？Dlib是一个广泛使用的C++库，提供了多种用于机器学习和计算机视觉的工具。它包含了人脸检测、人脸识别、物体检测、图像处理等功能。Dlib具有高效、易用的Python接口，因此它也被广泛应用于Python中进行深度学习和计算机视觉任务。安装Dlib首先，我们需要在Python环境中安装Dlib库。你可以通过pip进行安装：pipinstalldl
介绍常见的图片分类模型与算法萧鼎 python基础到进阶教程算法分类数据挖掘
介绍常见的图片分类模型与算法在机器学习和深度学习的领域中，图片分类任务是一个广泛的应用场景。随着深度学习技术的飞速发展，很多强大的图像分类算法和模型已经被提出，广泛应用于从医疗影像到自动驾驶、从人脸识别到图像检索等多个领域。本文将重点介绍多种用于图像分类的经典算法与模型，帮助你了解在图像分类任务中常用的技术。1.传统机器学习模型在深度学习崭露头角之前，传统的机器学习模型是图像分类的主流方法。这些模
一文读懂！OpenCV 实时人脸识别从 0 到 1，小白也能轻松实操的超详细教程（完整教程及源码） AI_DL_CODE opencv 人工智能计算机视觉人脸识别
摘要：本文围绕使用OpenCV实现实时人脸识别展开。从环境搭建入手，详细介绍Python及相关库的安装。数据准备环节涵盖收集、标注及预处理步骤。深入阐述特征提取、模型训练方法，包含传统与深度学习方式，还介绍OpenCV预训练模型的使用与评估。详细讲解实时识别过程，包括打开摄像头、逐帧处理及结果显示优化。针对复杂场景，提出光照、姿态、遮挡等问题的解决办法及模型更新维护策略。通过丰富代码示例与解释，助
OpenCV 100道面试题及参考答案（7万字长文）大模型大数据攻城狮大厂面试大厂面经 android面试计算机视觉 opencv 实时互动 webrtc
OpenCV简介OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉库，它提供了丰富的函数和工具，用于处理图像和视频。OpenCV最初由英特尔公司开发，现在由一个开源社区维护和发展。主要功能和用途OpenCV的主要功能包括图像和视频处理、特征提取、目标检测、人脸识别、物体跟踪等。它可以用于各种领域，如机器人技术、医学影像、安全监控、自动驾驶等。在图像
基于OpenCV的Java人脸识别系统设计与实现小呀白呀兔 java spring boot
基于OpenCV的Java人脸识别系统设计与实现1.引言随着计算机视觉技术的发展，人脸识别在安全监控、身份验证等领域得到了广泛应用。本文将详细介绍如何使用OpenCV库和Java语言构建一个简单的人脸识别系统。该系统能够从图像中检测人脸，并通过深度学习模型提取特征进行比对，最终输出相似度评分及置信度等级。2.环境搭建为了确保项目顺利运行，请按照以下步骤配置开发环境：安装JDK：确保已安装JavaD
Python项目-基于深度学习的校园人脸识别考勤系统天天进步2015 Python项目实战 python
引言随着人工智能技术的快速发展，深度学习在计算机视觉领域的应用日益广泛。人脸识别作为其中的一个重要分支，已经在安防、金融、教育等多个领域展现出巨大的应用价值。本文将详细介绍如何使用Python和深度学习技术构建一个校园人脸识别考勤系统，该系统能够自动识别学生身份并记录考勤信息，大大提高了考勤效率，减轻了教师的工作负担。系统概述功能特点实时人脸检测与识别：能够从摄像头视频流中实时检测并识别人脸自动考
【附源码】Python计算机毕业设计人脸识别考勤系统杰记计算机程序源码 python django 开发语言
项目运行环境配置：Pychram社区版+python3.7.7+Mysql5.7+HBuilderX+listpip+Navicat11+Django+nodejs。项目技术：django+python+Vue等等组成，B/S模式+pychram管理等等。环境需要1.运行环境：最好是python3.7.7，我们在这个版本上开发的。其他版本理论上也可以。2.pycharm环境：pycharm都可以。
基于Django的人脸识别考勤管理系统(源码+LW+部署讲解) 毕业程序员 python 计算机毕业设计 django python 后端
收藏关注不迷路文章目录前言一、项目介绍三、功能介绍四、核心代码五、效果图六、文章目录前言随着信息技术的快速发展和人工智能的广泛应用，人脸识别技术因其独特的识别优势和高效的处理能力，逐渐在考勤管理领域展现出巨大的应用潜力。本文首先回顾了人脸识别技术的发展历程，分析了其在考勤系统中的技术原理和实现方式。随后，文章详细介绍了人脸识别考勤系统的设计架构、核心算法及关键技术，包括图像采集、预处理、特征提取和
微信小程序毕业设计大全 QQ1305637939 小程序毕业设计小程序答辩 java idea
微信小程序程序列表:微信小程序健身房课程预约系统6638微信小程序投票系统6640微信小程序小说阅读推荐系统6641微信小程序垃圾分类识别系统（语音识别，拍照识别）qt-93982微信小程序网上书店qt-93982微信小程序在线购物系统qt-93982微信小程序课堂签到系统qtail-93982微信小程序人脸识别图书馆座位预约系统qt-93982微信小程序二手物品交易系统qt-93982微信小程序
Springboot 整合 Java DL4J 实现企业门禁人脸识别系统伏羲栈人工智能深度学习 Java DL4J -深度学习实战 spring boot java Deeplearning4j deep learning 人工智能深度学习 spring
博主简介：历代文学网（PC端可以访问：https://literature.sinhy.com/#/literature?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于
OpenCV 入门（六） —— Android 下的人脸识别 tmacfrank Android #NDK opencv android 人工智能
OpenCV入门系列：OpenCV入门（一）——OpenCV基础OpenCV入门（二）——车牌定位OpenCV入门（三）——车牌筛选OpenCV入门（四）——车牌号识别OpenCV入门（五）——人脸识别模型训练与Windows下的人脸识别OpenCV入门（六）——Android下的人脸识别OpenCV入门（七）——身份证识别本篇我们来介绍在Android下如何实现人脸识别。上一篇我们介绍了如何在W
【附源码】基于opencv+pyqt5搭建的人脸识别系统 ~啥也不会~ opencv 人工智能计算机视觉人脸识别 pyqt
文章目录前言一、人脸检测二、人脸识别1.训练识别器2.识别人脸三、界面相关1.Qlabel展示图片2.表格跟随内容而增加和减少3.选择图片文件4.警告框四、源码获取总结前言人脸识别技术作为人工智能领域的一颗璀璨明珠，正逐渐渗透到我们生活的每一个角落，从智能手机的解锁到机场的快速通关，从金融交易的安全认证到智慧城市的高效管理，它正以其独特的优势和强大的功能，为我们的生活带来前所未有的便捷与安全。本篇
OpenCV开源机器视觉软件视觉人机器视觉杂说 opencv 开源人工智能
OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉和机器学习软件库，广泛应用于实时图像处理、视频分析、物体检测、人脸识别等领域。它由英特尔实验室于1999年发起，现已成为计算机视觉领域最流行的工具之一，支持多种编程语言（如C++、Python、Java）和操作系统（Windows、Linux、macOS、Android、iOS）。核心功能图像处理基
【openCV-89】人脸检测华东算法王华东算法王-opencv opencv 人工智能计算机视觉
人脸检测简介人脸检测是计算机视觉中的一个重要任务，旨在从图像或视频中识别并定位出人脸的位置。人脸检测不仅是人脸识别、表情分析、面部特征点检测等高级任务的前置步骤，而且在安防监控、智能家居、自动驾驶等多个领域都具有广泛应用。人脸检测的目标人脸检测的目标是从输入的图像或视频流中自动检测出所有人脸的区域，通常用矩形框（boundingbox）表示人脸的位置。人脸检测不仅要识别图像中的人脸，还要在各种条件
说话人识别系统原理醉心编码人工智能基础编程基础技术类人工智能说话人识别语音识别
在当今数字化和智能化飞速发展的时代，说话人识别系统作为一项关键的生物识别技术，正逐渐融入我们生活的方方面面。简单来说，说话人识别系统就像是一位“语音侦探”，能够通过分析语音中的独特特征，精准地判断出说话者的身份。它与指纹识别、人脸识别等技术一样，都属于生物识别技术的范畴，但有着独特的优势——仅通过声音即可实现身份识别，无需额外的物理接触或视觉捕捉。与语音识别不同，语音识别关注的是语音内容的转写，比
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen