L 学习ing

（大佬）睿智的目标检测40——Keras搭建Retinaface人脸检测与关键点定位平台

原文链接：https://blog.csdn.net/weixin_44791964/article/details/106871010

睿智的目标检测40——Keras搭建Retinaface人脸检测与关键点定位平台

学习前言
什么是Retinaface人脸检测算法
源码下载
Retinaface实现思路
- 一、预测部分
- - 1、主干网络介绍
  - 2、FPN特征金字塔
  - 3、SSH进一步加强特征提取
  - 4、从特征获取预测结果
  - 5、预测结果的解码
  - 6、在原图上进行绘制
- 二、训练部分
- - 1、真实框的处理
  - 2、利用处理完的真实框与对应图片的预测结果计算loss
训练自己的Retinaface模型

学习前言

一起来看看Retinaface的keras实现吧。

什么是Retinaface人脸检测算法

Retinaface是来自insightFace的又一力作，基于one-stage的人脸检测网络。
同时开源了代码与数据集，在widerface上有非常好的表现。

源码下载

https://github.com/bubbliiiing/retinaface-keras
喜欢的可以点个star噢。

Retinaface实现思路

一、预测部分

1、主干网络介绍

Retinaface在实际训练的时候使用两种网络作为主干特征提取网络。分别是MobilenetV1-0.25和Resnet。

使用Resnet可以实现更高的精度，使用MobilenetV1-0.25可以在CPU上实现实时检测。

本文以MobilenetV1-0.25进行展示。

MobileNet模型是Google针对手机等嵌入式设备提出的一种轻量级的深层神经网络，其使用的核心思想便是depthwise separable convolution。

对于一个卷积点而言：
假设有一个3×3大小的卷积层，其输入通道为16、输出通道为32。具体为，32个3×3大小的卷积核会遍历16个通道中的每个数据，最后可得到所需的32个输出通道，所需参数为16×32×3×3=4608个。

应用深度可分离卷积，用16个3×3大小的卷积核分别遍历16通道的数据，得到了16个特征图谱。在融合操作之前，接着用32个1×1大小的卷积核遍历这16个特征图谱，所需参数为16×3×3+16×32×1×1=656个。
可以看出来depthwise separable convolution可以减少模型的参数。

如下这张图就是depthwise separable convolution的结构

在建立模型的时候，可以使用Keras中的DepthwiseConv2D层实现深度可分离卷积，然后再利用1x1卷积调整channels数。

通俗地理解就是3x3的卷积核厚度只有一层，然后在输入张量上一层一层地滑动，每一次卷积完生成一个输出通道，当卷积完成后，在利用1x1的卷积调整厚度。

如下就是MobileNet的结构，其中Conv dw就是分层卷积，在其之后都会接一个1x1的卷积进行通道处理，

上图所示是的mobilenetV1-1的结构，本文所用的mobilenetV1-0.25是mobilenetV1-1通道数压缩为原来1/4的网络。

import warnings
import numpy as np
from keras.models import Model
from keras.layers import DepthwiseConv2D,Input,Activation,Dropout,Reshape,BatchNormalization,GlobalAveragePooling2D,GlobalMaxPooling2D,Conv2D
from keras import backend as K

def _conv_block(inputs, filters, kernel=(3, 3), strides=(1, 1)):
x = Conv2D(filters, kernel,
padding=‘same’,
use_bias=False,
strides=strides,
name=‘conv1’)(inputs)
x = BatchNormalization(name=‘conv1_bn’)(x)
return Activation(relu6, name=‘conv1_relu’)(x)

def _depthwise_conv_block(inputs, pointwise_conv_filters,
depth_multiplier=1, strides=(1, 1), block_id=1):

x = DepthwiseConv2D((3, 3),
                    padding='same',
                    depth_multiplier=depth_multiplier,
                    strides=strides,
                    use_bias=False,
                    name='conv_dw_%d' % block_id)(inputs)

x = BatchNormalization(name='conv_dw_%d_bn' % block_id)(x)
x = Activation(relu6, name='conv_dw_%d_relu' % block_id)(x)

x = Conv2D(pointwise_conv_filters, (1, 1),
           padding='same',
           use_bias=False,
           strides=(1, 1),
           name='conv_pw_%d' % block_id)(x)
x = BatchNormalization(name='conv_pw_%d_bn' % block_id)(x)
return Activation(relu6, name='conv_pw_%d_relu' % block_id)(x)

def relu6(x):
return K.relu(x, max_value=6)

def MobileNet(img_input, depth_multiplier=1):

x = _conv_block(img_input, 8, strides=(2, 2))
x = _depthwise_conv_block(x, 16, depth_multiplier, block_id=1)

x = _depthwise_conv_block(x, 32, depth_multiplier, strides=(2, 2), block_id=2)
x = _depthwise_conv_block(x, 32, depth_multiplier, block_id=3)

x = _depthwise_conv_block(x, 64, depth_multiplier, strides=(2, 2), block_id=4)
x = _depthwise_conv_block(x, 64, depth_multiplier, block_id=5)
feat1 = x

x = _depthwise_conv_block(x, 128, depth_multiplier, strides=(2, 2), block_id=6)
x = _depthwise_conv_block(x, 128, depth_multiplier, block_id=7)
x = _depthwise_conv_block(x, 128, depth_multiplier, block_id=8)
x = _depthwise_conv_block(x, 128, depth_multiplier, block_id=9)
x = _depthwise_conv_block(x, 128, depth_multiplier, block_id=10)
x = _depthwise_conv_block(x, 128, depth_multiplier, block_id=11)
feat2 = x

x = _depthwise_conv_block(x, 256, depth_multiplier, strides=(2, 2), block_id=12)
x = _depthwise_conv_block(x, 256, depth_multiplier, block_id=13)
feat3 = x

return feat1, feat2, feat3

2、FPN特征金字塔

与Retinanet类似的是，Retinaface使用了FPN的结构，对Mobilenet最后三个shape的有效特征层进行FPN结构的构建。

构建方式很简单，首先利用1x1卷积对三个有效特征层进行通道数的调整。调整后利用Upsample和Add进行上采样的特征融合。

实现代码为：

def RetinaFace(cfg, backbone="mobilenet"):
    inputs = Input(shape=(None, None, 3))
if backbone == "mobilenet":
    C3, C4, C5 = MobileNet(inputs)
elif backbone == "resnet50":
    C3, C4, C5 = ResNet50(inputs)
else:
    raise ValueError('Unsupported backbone - `{}`, Use mobilenet, resnet50.'.format(backbone))

leaky = 0
if (cfg['out_channel'] <= 64):
    leaky = 0.1
P3 = Conv2D_BN_Leaky(cfg['out_channel'], kernel_size=1, strides=1, padding='same', name='C3_reduced', leaky=leaky)(C3)
P4 = Conv2D_BN_Leaky(cfg['out_channel'], kernel_size=1, strides=1, padding='same', name='C4_reduced', leaky=leaky)(C4)
P5 = Conv2D_BN_Leaky(cfg['out_channel'], kernel_size=1, strides=1, padding='same', name='C5_reduced', leaky=leaky)(C5)

P5_upsampled = UpsampleLike(name='P5_upsampled')([P5, P4])
P4 = Add(name='P4_merged')([P5_upsampled, P4])
P4 = Conv2D_BN_Leaky(cfg['out_channel'], kernel_size=3, strides=1, padding='same', name='Conv_P4_merged', leaky=leaky)(P4)

P4_upsampled = UpsampleLike(name='P4_upsampled')([P4, P3])
P3 = Add(name='P3_merged')([P4_upsampled, P3])
P3 = Conv2D_BN_Leaky(cfg['out_channel'], kernel_size=3, strides=1, padding='same', name='Conv_P3_merged', leaky=leaky)(P3)

3、SSH进一步加强特征提取

通过第二部分的运算，我们获得了P3、P4、P5三个有效特征层。

Retinaface为了进一步加强特征提取，使用了SSH模块加强感受野。

SSH的结构如如下所示：

SSH的思想非常简单，使用了三个并行结构，利用3x3卷积的堆叠代替5x5与7x7卷积的效果：左边的是3x3卷积，中间利用两次3x3卷积代替5x5卷积，右边利用三次3x3卷积代替7x7卷积。

这个思想在Inception里面有使用。

SSH实现代码为：

def SSH(inputs, out_channel, leaky=0.1):
    conv3X3 = Conv2D_BN(out_channel//2, kernel_size=3, strides=1, padding='same')(inputs)
conv5X5_1 = Conv2D_BN_Leaky(out_channel//4, kernel_size=3, strides=1, padding='same', leaky=leaky)(inputs)
conv5X5 = Conv2D_BN(out_channel//4, kernel_size=3, strides=1, padding='same')(conv5X5_1)

conv7X7_2 = Conv2D_BN_Leaky(out_channel//4, kernel_size=3, strides=1, padding='same', leaky=leaky)(conv5X5_1)
conv7X7 = Conv2D_BN(out_channel//4, kernel_size=3, strides=1, padding='same')(conv7X7_2)

out = Concatenate(axis=-1)([conv3X3, conv5X5, conv7X7])
out = Activation("relu")(out)
return out

Retinaface会将我们获得的P3、P4、P5三个有效特征层。都施加上SSH结构。

实现代码为：

def RetinaFace(cfg, backbone="mobilenet"):
    inputs = Input(shape=(None, None, 3))
if backbone == "mobilenet":
    C3, C4, C5 = MobileNet(inputs)
elif backbone == "resnet50":
    C3, C4, C5 = ResNet50(inputs)
else:
    raise ValueError('Unsupported backbone - `{}`, Use mobilenet, resnet50.'.format(backbone))

leaky = 0
if (cfg['out_channel'] <= 64):
    leaky = 0.1
P3 = Conv2D_BN_Leaky(cfg['out_channel'], kernel_size=1, strides=1, padding='same', name='C3_reduced', leaky=leaky)(C3)
P4 = Conv2D_BN_Leaky(cfg['out_channel'], kernel_size=1, strides=1, padding='same', name='C4_reduced', leaky=leaky)(C4)
P5 = Conv2D_BN_Leaky(cfg['out_channel'], kernel_size=1, strides=1, padding='same', name='C5_reduced', leaky=leaky)(C5)

P5_upsampled = UpsampleLike(name='P5_upsampled')([P5, P4])
P4 = Add(name='P4_merged')([P5_upsampled, P4])
P4 = Conv2D_BN_Leaky(cfg['out_channel'], kernel_size=3, strides=1, padding='same', name='Conv_P4_merged', leaky=leaky)(P4)

P4_upsampled = UpsampleLike(name='P4_upsampled')([P4, P3])
P3 = Add(name='P3_merged')([P4_upsampled, P3])
P3 = Conv2D_BN_Leaky(cfg['out_channel'], kernel_size=3, strides=1, padding='same', name='Conv_P3_merged', leaky=leaky)(P3)

SSH1 = SSH(P3, cfg['out_channel'], leaky=leaky)
SSH2 = SSH(P4, cfg['out_channel'], leaky=leaky)
SSH3 = SSH(P5, cfg['out_channel'], leaky=leaky)

SSH_all = [SSH1,SSH2,SSH3]

4、从特征获取预测结果

通过第三步，我们已经可以获得SSH1，SSH2，SHH3三个有效特征层了。在获得这三个有效特征层后，我们需要通过这三个有效特征层获得预测结果。

Retinaface的预测结果分为三个，分别是分类预测结果，框的回归预测结果和人脸关键点的回归预测结果。

1、分类预测结果用于判断先验框内部是否包含物体，原版的Retinaface使用的是softmax进行判断。此时我们可以利用一个1x1的卷积，将SSH的通道数调整成num_anchors x 2，用于代表每个先验框内部包含人脸的概率。

2、框的回归预测结果用于对先验框进行调整获得预测框，我们需要用四个参数对先验框进行调整。此时我们可以利用一个1x1的卷积，将SSH的通道数调整成num_anchors x 4，用于代表每个先验框的调整参数。

3、人脸关键点的回归预测结果用于对先验框进行调整获得人脸关键点，每一个人脸关键点需要两个调整参数，一共有五个人脸关键点。此时我们可以利用一个1x1的卷积，将SSH的通道数调整成num_anchors x 10（num_anchors x 5 x 2），用于代表每个先验框的每个人脸关键点的调整。

实现代码为：

def ClassHead(inputs, num_anchors=2):
    outputs = Conv2D(num_anchors*2, kernel_size=1, strides=1)(inputs)
    return Activation("softmax")(Reshape([-1,2])(outputs))

def BboxHead(inputs, num_anchors=2):
outputs = Conv2D(num_anchors*4, kernel_size=1, strides=1)(inputs)
return Reshape([-1,4])(outputs)

def LandmarkHead(inputs, num_anchors=2):
outputs = Conv2D(num_anchors*10, kernel_size=1, strides=1)(inputs)
return Reshape([-1,10])(outputs)

def RetinaFace(cfg, backbone=“mobilenet”):
inputs = Input(shape=(None, None, 3))

if backbone == "mobilenet":
    C3, C4, C5 = MobileNet(inputs)
elif backbone == "resnet50":
    C3, C4, C5 = ResNet50(inputs)
else:
    raise ValueError('Unsupported backbone - `{}`, Use mobilenet, resnet50.'.format(backbone))

leaky = 0
if (cfg['out_channel'] <= 64):
    leaky = 0.1
P3 = Conv2D_BN_Leaky(cfg['out_channel'], kernel_size=1, strides=1, padding='same', name='C3_reduced', leaky=leaky)(C3)
P4 = Conv2D_BN_Leaky(cfg['out_channel'], kernel_size=1, strides=1, padding='same', name='C4_reduced', leaky=leaky)(C4)
P5 = Conv2D_BN_Leaky(cfg['out_channel'], kernel_size=1, strides=1, padding='same', name='C5_reduced', leaky=leaky)(C5)

P5_upsampled = UpsampleLike(name='P5_upsampled')([P5, P4])
P4 = Add(name='P4_merged')([P5_upsampled, P4])
P4 = Conv2D_BN_Leaky(cfg['out_channel'], kernel_size=3, strides=1, padding='same', name='Conv_P4_merged', leaky=leaky)(P4)

P4_upsampled = UpsampleLike(name='P4_upsampled')([P4, P3])
P3 = Add(name='P3_merged')([P4_upsampled, P3])
P3 = Conv2D_BN_Leaky(cfg['out_channel'], kernel_size=3, strides=1, padding='same', name='Conv_P3_merged', leaky=leaky)(P3)

SSH1 = SSH(P3, cfg['out_channel'], leaky=leaky)
SSH2 = SSH(P4, cfg['out_channel'], leaky=leaky)
SSH3 = SSH(P5, cfg['out_channel'], leaky=leaky)

SSH_all = [SSH1,SSH2,SSH3]

bbox_regressions = Concatenate(axis=1,name="bbox_reg")([BboxHead(feature) for feature in SSH_all])
classifications = Concatenate(axis=1,name="cls")([ClassHead(feature) for feature in SSH_all])
ldm_regressions = Concatenate(axis=1,name="ldm_reg")([LandmarkHead(feature) for feature in SSH_all])

output = [bbox_regressions, classifications, ldm_regressions]

model = Model(inputs=inputs, outputs=output)
return model

5、预测结果的解码

通过第四步，我们可以获得三个有效特征层SSH1、SSH2、SSH3。

这三个有效特征层相当于将整幅图像划分成不同大小的网格，当我们输入进来的图像是(640, 640, 3)的时候。

SSH1的shape为(80, 80, 64)；
SSH2的shape为(40, 40, 64)；
SSH3的shape为(20, 20, 64)

SSH1就表示将原图像划分成80x80的网格；SSH2就表示将原图像划分成40x40的网格；SSH3就表示将原图像划分成20x20的网格，每个网格上有两个先验框，每个先验框代表图片上的一定区域。

Retinaface的预测结果用来判断先验框内部是否包含人脸，并且对包含人脸的先验框进行调整获得预测框与人脸关键点。

1、分类预测结果用于判断先验框内部是否包含物体，我们可以利用一个1x1的卷积，将SSH的通道数调整成num_anchors x 2，用于代表每个先验框内部包含人脸的概率。

2、框的回归预测结果用于对先验框进行调整获得预测框，我们需要用四个参数对先验框进行调整。此时我们可以利用一个1x1的卷积，将SSH的通道数调整成num_anchors x 4，用于代表每个先验框的调整参数。每个先验框的四个调整参数中，前两个用于对先验框的中心进行调整，后两个用于对先验框的宽高进行调整。

完成调整、判断之后，还需要进行非极大移植。
下图是经过非极大抑制的。

下图是未经过非极大抑制的。

可以很明显的看出来，未经过非极大抑制的图片有许多重复的框，这些框都指向了同一个物体！

可以用一句话概括非极大抑制的功能就是：

筛选出一定区域内属于同一种类得分最大的框。

全部实现代码如下：

class BBoxUtility(object):
    def __init__(self, priors=None, overlap_threshold=0.35,
                 nms_thresh=0.45):
        self.priors = priors
        self.num_priors = 0 if priors is None else len(priors)
        self.overlap_threshold = overlap_threshold
        self._nms_thresh = nms_thresh
    def decode_boxes(self, mbox_loc, mbox_ldm, mbox_priorbox):
        # 获得先验框的宽与高
        prior_width = mbox_priorbox[:, 2] - mbox_priorbox[:, 0]
        prior_height = mbox_priorbox[:, 3] - mbox_priorbox[:, 1]
        # 获得先验框的中心点
        prior_center_x = 0.5 * (mbox_priorbox[:, 2] + mbox_priorbox[:, 0])
        prior_center_y = 0.5 * (mbox_priorbox[:, 3] + mbox_priorbox[:, 1])
    # 真实框距离先验框中心的xy轴偏移情况
    decode_bbox_center_x = mbox_loc[:, 0] * prior_width * 0.1
    decode_bbox_center_x += prior_center_x
    decode_bbox_center_y = mbox_loc[:, 1] * prior_height * 0.1
    decode_bbox_center_y += prior_center_y
    
    # 真实框的宽与高的求取
    decode_bbox_width = np.exp(mbox_loc[:, 2] * 0.2)
    decode_bbox_width *= prior_width
    decode_bbox_height = np.exp(mbox_loc[:, 3] * 0.2)
    decode_bbox_height *= prior_height

    # 获取真实框的左上角与右下角
    decode_bbox_xmin = decode_bbox_center_x - 0.5 * decode_bbox_width
    decode_bbox_ymin = decode_bbox_center_y - 0.5 * decode_bbox_height
    decode_bbox_xmax = decode_bbox_center_x + 0.5 * decode_bbox_width
    decode_bbox_ymax = decode_bbox_center_y + 0.5 * decode_bbox_height

    prior_width = np.expand_dims(prior_width,-1)
    prior_height = np.expand_dims(prior_height,-1)
    prior_center_x = np.expand_dims(prior_center_x,-1)
    prior_center_y = np.expand_dims(prior_center_y,-1)

    mbox_ldm = mbox_ldm.reshape([-1,5,2])
    decode_ldm = np.zeros_like(mbox_ldm)
    decode_ldm[:,:,0] = np.repeat(prior_width,5,axis=-1)*mbox_ldm[:,:,0]*0.1 + np.repeat(prior_center_x,5,axis=-1)
    decode_ldm[:,:,1] = np.repeat(prior_height,5,axis=-1)*mbox_ldm[:,:,1]*0.1 + np.repeat(prior_center_y,5,axis=-1)


    # 真实框的左上角与右下角进行堆叠
    decode_bbox = np.concatenate((decode_bbox_xmin[:, None],
                                    decode_bbox_ymin[:, None],
                                    decode_bbox_xmax[:, None],
                                    decode_bbox_ymax[:, None],
                                    np.reshape(decode_ldm,[-1,10])), axis=-1)
    # 防止超出0与1
    decode_bbox = np.minimum(np.maximum(decode_bbox, 0.0), 1.0)
    return decode_bbox
def detection_out(self, predictions, mbox_priorbox, confidence_threshold=0.4):
    
    # 网络预测的结果
    mbox_loc = predictions[0][0]
    # 置信度
    mbox_conf = predictions[1][0][:,1:2]
    # ldm的调整情况
    mbox_ldm = predictions[2][0]
    
    decode_bbox = self.decode_boxes(mbox_loc, mbox_ldm, mbox_priorbox)

    conf_mask = (mbox_conf >= confidence_threshold)[:,0]

    detection = np.concatenate((decode_bbox[conf_mask][:,:4], mbox_conf[conf_mask], decode_bbox[conf_mask][:,4:]), -1)

    best_box = []
    scores = detection[:,4]
    # 根据得分对该种类进行从大到小排序。
    arg_sort = np.argsort(scores)[::-1]
    detection = detection[arg_sort]
    while np.shape(detection)[0]>0:
        # 每次取出得分最大的框，计算其与其它所有预测框的重合程度，重合程度过大的则剔除。
        best_box.append(detection[0])
        if len(detection) == 1:
            break
        ious = iou(best_box[-1],detection[1:])
        detection = detection[1:][ious<self._nms_thresh]

    return best_box

def iou(b1,b2):
b1_x1, b1_y1, b1_x2, b1_y2 = b1[0], b1[1], b1[2], b1[3]
b2_x1, b2_y1, b2_x2, b2_y2 = b2[:, 0], b2[:, 1], b2[:, 2], b2[:, 3]

inter_rect_x1 = np.maximum(b1_x1, b2_x1)
inter_rect_y1 = np.maximum(b1_y1, b2_y1)
inter_rect_x2 = np.minimum(b1_x2, b2_x2)
inter_rect_y2 = np.minimum(b1_y2, b2_y2)

inter_area = np.maximum(inter_rect_x2 - inter_rect_x1, 0) * \
             np.maximum(inter_rect_y2 - inter_rect_y1, 0)

area_b1 = (b1_x2-b1_x1)*(b1_y2-b1_y1)
area_b2 = (b2_x2-b2_x1)*(b2_y2-b2_y1)

iou = inter_area/np.maximum((area_b1+area_b2-inter_area),1e-6)
return iou

6、在原图上进行绘制

通过第5步，我们可以获得预测框在原图上的位置，而且这些预测框都是经过筛选的。这些筛选后的框可以直接绘制在图片上，就可以获得结果了。

二、训练部分

1、真实框的处理

真实框的处理过程可以分为3步：
1、计算所有真实框和所有先验框的重合程度，和真实框iou大于0.35的先验框被认为可以用于预测获得该真实框。
2、对这些和真实框重合程度比较大的先验框进行编码的操作，所谓编码，就是当我们要获得这样的真实框的时候，网络的预测结果应该是怎么样的。
3、编码操作可以分为三个部分，分别是分类预测结果，框的回归预测结果和人脸关键点的回归预测结果的编码。

class BBoxUtility(object):
    def __init__(self, priors=None, overlap_threshold=0.35,
                 nms_thresh=0.45):
        self.priors = priors
        self.num_priors = 0 if priors is None else len(priors)
        self.overlap_threshold = overlap_threshold
        self._nms_thresh = nms_thresh
def iou(self, box):
    # 计算出每个真实框与所有的先验框的iou
    # 判断真实框与先验框的重合情况
    inter_upleft = np.maximum(self.priors[:, :2], box[:2])
    inter_botright = np.minimum(self.priors[:, 2:4], box[2:])

    inter_wh = inter_botright - inter_upleft
    inter_wh = np.maximum(inter_wh, 0)
    inter = inter_wh[:, 0] * inter_wh[:, 1]
    # 真实框的面积
    area_true = (box[2] - box[0]) * (box[3] - box[1])
    # 先验框的面积
    area_gt = (self.priors[:, 2] - self.priors[:, 0])*(self.priors[:, 3] - self.priors[:, 1])
    # 计算iou
    union = area_true + area_gt - inter

    iou = inter / union
    return iou

def encode_box(self, box, return_iou=True):
    iou = self.iou(box[:4])

    encoded_box = np.zeros((self.num_priors, 4 + return_iou + 10))

    # 找到每一个真实框，重合程度较高的先验框
    assign_mask = iou > self.overlap_threshold
    if not assign_mask.any():
        assign_mask[iou.argmax()] = True
    if return_iou:
        encoded_box[:, 4][assign_mask] = iou[assign_mask]
    
    # 找到对应的先验框
    assigned_priors = self.priors[assign_mask]
    # 逆向编码，将真实框转化为efficientdet预测结果的格式

    # 先计算真实框的中心与长宽
    box_center = 0.5 * (box[:2] + box[2:4])
    box_wh = box[2:4] - box[:2]
    # 再计算重合度较高的先验框的中心与长宽
    assigned_priors_center = 0.5 * (assigned_priors[:, :2] +
                                    assigned_priors[:, 2:4])
    assigned_priors_wh = (assigned_priors[:, 2:4] -
                          assigned_priors[:, :2])

    # 逆向求取efficientdet应该有的预测结果
    encoded_box[:, :2][assign_mask] = box_center - assigned_priors_center
    encoded_box[:, :2][assign_mask] /= assigned_priors_wh
    encoded_box[:, :2][assign_mask] /= 0.1

    encoded_box[:, 2:4][assign_mask] = np.log(box_wh / assigned_priors_wh)
    encoded_box[:, 2:4][assign_mask] /= 0.2

    ldm_encoded = np.zeros_like(encoded_box[:, 5:][assign_mask])
    ldm_encoded = np.reshape(ldm_encoded,[-1,5,2])

    ldm_encoded[:, :, 0] = box[[4,6,8,10,12]] - np.repeat(assigned_priors_center[:,0:1],5,axis=-1)
    ldm_encoded[:, :, 1] = box[[5,7,9,11,13]] - np.repeat(assigned_priors_center[:,1:2],5,axis=-1)

    ldm_encoded[:, :, 0] /= np.repeat(assigned_priors_wh[:,0:1],5,axis=-1)
    ldm_encoded[:, :, 1] /= np.repeat(assigned_priors_wh[:,1:2],5,axis=-1)

    ldm_encoded[:, :, 0] /= 0.1
    ldm_encoded[:, :, 1] /= 0.1

    encoded_box[:, 5:][assign_mask] = np.reshape(ldm_encoded,[-1,10])
    # print(encoded_box[assign_mask])
    return encoded_box.ravel()

def assign_boxes(self, boxes):
    assignment = np.zeros((self.num_priors, 4 + 1 + 2 + 1 + 10 + 1))
    assignment[:,5] = 1
    if len(boxes) == 0:
        return assignment
        
    # (n, num_priors, 5)
    encoded_boxes = np.apply_along_axis(self.encode_box, 1, boxes)
    # 每一个真实框的编码后的值，和iou
    # (n, num_priors)
    encoded_boxes = encoded_boxes.reshape(-1, self.num_priors, 15)

    # 取重合程度最大的先验框，并且获取这个先验框的index
    # (num_priors)
    best_iou = encoded_boxes[:, :, 4].max(axis=0)
    # (num_priors)
    best_iou_idx = encoded_boxes[:, :, 4].argmax(axis=0)
    # (num_priors)
    best_iou_mask = best_iou > 0
    # 某个先验框它属于哪个真实框
    best_iou_idx = best_iou_idx[best_iou_mask]

    assign_num = len(best_iou_idx)
    # 保留重合程度最大的先验框的应该有的预测结果
    # 哪些先验框存在真实框
    encoded_boxes = encoded_boxes[:, best_iou_mask, :]

    assignment[:, :4][best_iou_mask] = encoded_boxes[best_iou_idx,np.arange(assign_num),:4]
    assignment[:, 4][best_iou_mask] = 1

    assignment[:, 5][best_iou_mask] = 0
    assignment[:, 6][best_iou_mask] = 1
    assignment[:, 7][best_iou_mask] = 1

    assignment[:, 8:-1][best_iou_mask] = encoded_boxes[best_iou_idx,np.arange(assign_num),5:]
    assignment[:, -1][best_iou_mask] = boxes[best_iou_idx, -1]
    # 通过assign_boxes我们就获得了，输入进来的这张图片，应该有的预测结果是什么样子的

    return assignment

2、利用处理完的真实框与对应图片的预测结果计算loss

loss的计算分为两个部分：
1、Box Smooth Loss：获取所有正标签的框的预测结果的回归loss。
2、MultiBox Loss：获取所有种类的预测结果的交叉熵loss。
3、Lamdmark Smooth Loss：获取所有正标签的人脸关键点的预测结果的回归loss。

由于在Retinaface的训练过程中，正负样本极其不平衡，即存在对应真实框的先验框可能只有若干个，但是不存在对应真实框的负样本却有几千上万个，这就会导致负样本的loss值极大，因此我们可以考虑减少负样本的选取，常见的情况是取七倍正样本数量的负样本用于训练。

在计算loss的时候要注意，Box Smooth Loss计算的是所有被认定为内部包含人脸的先验框的loss，而Lamdmark Smooth Loss计算的是所有被认定为内部包含人脸同时包含人脸关键点的先验框的loss。（在标注的时候有些人脸框因为角度问题以及清晰度问题是没有人脸关键点的）。
实现代码如下：

def softmax_loss(y_true, y_pred):
    y_pred = tf.maximum(y_pred, 1e-7)
    softmax_loss = -tf.reduce_sum(y_true * tf.log(y_pred),
                                    axis=-1)
    return softmax_loss

def conf_loss(neg_pos_ratio = 7,negatives_for_hard = 100):
def _conf_loss(y_true, y_pred):
batch_size = tf.shape(y_true)[0]
num_boxes = tf.to_float(tf.shape(y_true)[1])

    labels         = y_true[:, :, :-1]
    classification = y_pred

    cls_loss = softmax_loss(labels, classification)
    
    num_pos = tf.reduce_sum(y_true[:, :, -1], axis=-1)
    
    pos_conf_loss = tf.reduce_sum(cls_loss * y_true[:, :, -1],
                                  axis=1)
    # 获取一定的负样本
    num_neg = tf.minimum(neg_pos_ratio * num_pos,
                         num_boxes - num_pos)


    # 找到了哪些值是大于0的
    pos_num_neg_mask = tf.greater(num_neg, 0)
    # 获得一个1.0
    has_min = tf.to_float(tf.reduce_any(pos_num_neg_mask))
    num_neg = tf.concat( axis=0,values=[num_neg,
                            [(1 - has_min) * negatives_for_hard]])

    # 求平均每个图片要取多少个负样本
    num_neg_batch = tf.reduce_mean(tf.boolean_mask(num_neg,
                                                  tf.greater(num_neg, 0)))
    num_neg_batch = tf.to_int32(num_neg_batch)

    max_confs = y_pred[:, :, 1]

    # 取top_k个置信度，作为负样本
    x, indices = tf.nn.top_k(max_confs * (1 - y_true[:, :, -1]),
                             k=num_neg_batch)

    # 找到其在1维上的索引
    batch_idx = tf.expand_dims(tf.range(0, batch_size), 1)
    batch_idx = tf.tile(batch_idx, (1, num_neg_batch))
    full_indices = (tf.reshape(batch_idx, [-1]) * tf.to_int32(num_boxes) +
                    tf.reshape(indices, [-1]))

    neg_conf_loss = tf.gather(tf.reshape(cls_loss, [-1]),
                              full_indices)
    neg_conf_loss = tf.reshape(neg_conf_loss,
                               [batch_size, num_neg_batch])
    neg_conf_loss = tf.reduce_sum(neg_conf_loss, axis=1)


    num_pos = tf.where(tf.not_equal(num_pos, 0), num_pos,
                        tf.ones_like(num_pos))
    total_loss = tf.reduce_sum(pos_conf_loss) + tf.reduce_sum(neg_conf_loss)
    total_loss /= tf.reduce_sum(num_pos)
    # total_loss = tf.Print(total_loss,[labels,full_indices,tf.reduce_sum(pos_conf_loss)/tf.reduce_sum(num_pos),tf.reduce_sum(neg_conf_loss)/tf.reduce_sum(num_pos),tf.reduce_sum(num_pos)])
    return total_loss
return _conf_loss

def box_smooth_l1(sigma=1):
sigma_squared = sigma ** 2

def _smooth_l1(y_true, y_pred):
    regression        = y_pred
    regression_target = y_true[:, :, :-1]
    anchor_state      = y_true[:, :, -1]

    # 找到正样本
    indices           = tf.where(keras.backend.not_equal(anchor_state, 0))
    regression        = tf.gather_nd(regression, indices)
    regression_target = tf.gather_nd(regression_target, indices)

    # 计算 smooth L1 loss
    # f(x) = 0.5 * (sigma * x)^2          if |x| < 1 / sigma / sigma
    #        |x| - 0.5 / sigma / sigma    otherwise
    regression_diff = regression - regression_target
    regression_diff = keras.backend.abs(regression_diff)
    regression_loss = backend.where(
        keras.backend.less(regression_diff, 1.0 / sigma_squared),
        0.5 * sigma_squared * keras.backend.pow(regression_diff, 2),
        regression_diff - 0.5 / sigma_squared
    )

    normalizer = keras.backend.maximum(1, keras.backend.shape(indices)[0])
    normalizer = keras.backend.cast(normalizer, dtype=keras.backend.floatx())
    loss = keras.backend.sum(regression_loss) / normalizer

    return loss

return _smooth_l1

def ldm_smooth_l1(sigma=1):
sigma_squared = sigma ** 2

def _smooth_l1(y_true, y_pred):
    regression        = y_pred
    regression_target = y_true[:, :, :-1]
    anchor_state      = y_true[:, :, -1]

    # 找到正样本
    indices           = tf.where(keras.backend.equal(anchor_state, 1))
    regression        = tf.gather_nd(regression, indices)
    regression_target = tf.gather_nd(regression_target, indices)

    # 计算 smooth L1 loss
    # f(x) = 0.5 * (sigma * x)^2          if |x| < 1 / sigma / sigma
    #        |x| - 0.5 / sigma / sigma    otherwise
    regression_diff = regression - regression_target
    regression_diff = keras.backend.abs(regression_diff)
    regression_loss = backend.where(
        keras.backend.less(regression_diff, 1.0 / sigma_squared),
        0.5 * sigma_squared * keras.backend.pow(regression_diff, 2),
        regression_diff - 0.5 / sigma_squared
    )

    normalizer = keras.backend.maximum(1, keras.backend.shape(indices)[0])
    normalizer = keras.backend.cast(normalizer, dtype=keras.backend.floatx())
    loss = keras.backend.sum(regression_loss) / normalizer

    return loss

return _smooth_l1

训练自己的Retinaface模型

Retinaface整体的文件夹构架如下：

本文使用论文中的Widerface数据集用于训练。

数据集我已经按照格式放好上传百度网盘了。
在训练前，在train.py文件里面修改自己所要用的backbone和对应的预训练权重就可以开始训练了。
（有需要的同学可以自己从mobilenetV1-0.25开始训练，也就是下载mobilenetV1-0.25的权重并载入。）

运行train.py即可开始训练。

你可能感兴趣的:(人脸检测)

4.3 基于ROS的人脸检测
启动仿真环境roslaunchwpr_simulationwpr1_single_face.launch编写cv_face_detect.cpp#include#include#include#include#include#includeusingnamespacecv;usingnamespacestd;//定义分类器staticCascadeClassifierface_cascade;st
基于YOLOv11的实时人脸表情识别系统（附完整资源 + PyQt5界面 + 训练代码）霜天红叶 YOLO python pycharm 人工智能算法 cnn
引言在人机交互和情感计算领域，人脸表情识别一直是一个备受关注的研究方向。随着深度学习技术的快速发展，特别是目标检测和图像分类算法的进步，实时、高精度的人脸表情识别系统已经成为可能。本文将详细介绍一个基于YOLOv11的人脸表情识别系统，该系统不仅能够实现实时人脸检测，还能准确识别多种表情状态，具有广泛的应用前景。GitHub地址项目地址：https://github.com/AND-Q/Facia
python二维码识别读取_python+opencv检测图片中二维码 weixin_39875832 python二维码识别读取
缘起需要检测发票中二维码的位置，以确定图像该怎么旋转，同时也可以为提取二维码信息创造先觉条件！（万恶的需求！）失败的尝试--opencv训练大法不感兴趣的可跳过不看！解释：原文作者是训练检测舌头。。（蜜汁尴尬），先通过opencv自带的人脸检测cascade分类器进行人脸检测然后叠加训练的舌头分类器完成舌头的检测任务。不多说。我的实践：按照原作者的方法，换个数据集我来尝试一下。正样本：一波处理操作
12-OPENCV ROCKX项目人脸拍照 s15335 opencv 人工智能计算机视觉
一.检测人脸并拍照1.流程：这个功能只需要用一个主线程就可以完成，首先要初始化VI模块、ROCKX模块并启动VI模块采集摄像头数据。初始化完成之后，则开始获取每一帧的VI码流数据，并且用rockx框架对每一帧视频数据进行人脸检测，若检测出人脸则用Opencv对人脸图像进行截取，并用opencv的API把NV12图像转换为BGR图像，最后把转换后的BGR图像保存起来。2.代码实现/*********
【python实用小脚本-109】人脸识别系统实战：从基础实现到性能优化 Kyln.Wu Python python 开发语言 opencv
一、代码功能解析1.核心功能概述本代码实现了一个基于face_recognition库的人脸识别系统，能够从已知人脸库中识别出输入图像中的人物身份，主要功能包括：已知人脸特征编码存储未知图像人脸检测与编码人脸特征匹配与身份识别结果可视化展示2.关键模块深度解析(1)已知人脸编码模块defget_encoded_faces():encoded={}fordirpath,dnames,fnamesin
基于YOLOv8的人脸识别与跟踪系统设计与实现 YOLO实战营 YOLO ui 目标检测目标跟踪深度学习
1.项目背景与意义随着智能安防、智能监控、人机交互等领域的快速发展，人脸识别与跟踪技术受到了广泛关注。它不仅在安防监控系统中用于身份认证与异常检测，也在智能门禁、自动考勤和营销系统中发挥重要作用。传统的人脸检测多依赖Haar级联或基于特征的检测方法，准确率和鲁棒性有限。深度学习方法，尤其是YOLOv8等先进目标检测框架，实现了实时且高准确度的人脸检测。同时，结合人脸识别（身份验证）和多目标跟踪，可
【OpenCV人脸识别】基于深度学习（Dlib+HOG特征）的人脸识别——QT（C++）+Linux
1.人脸检测工具概述1.DlibDlib是一个开源的C++机器学习和计算机视觉库，用于解决多种任务，包括图像处理、计算机视觉、机器学习、数据分析等。Dlib提供了一系列工具和算法，可用于开发各种应用，从人脸检测和识别，到对象检测、形状预测、图像分类等。以下是Dlib主要的特点和功能：人脸检测和识别：Dlib提供了高性能的人脸检测器，基于HOG特征和深度学习模型。它还包括面部关键点检测和人脸识别的功
鸿蒙开发实战之Basic Services Kit实现美颜相机基础能力筑基 harmonyos-next
一、功能架构全景通过BasicServicesKit为美颜相机App搭建六大基础能力支柱：核心引擎跨进程通信（美颜算法服务化）统一事件总线（300+相机事件管理）网络治理智能重试策略（弱网下上传成功率提升65%）多协议适配（HTTP/3+QUIC支持）数据持久化分级存储策略（热数据内存缓存+冷数据加密存储）跨设备数据同步（时延{switch(code){case1001://人脸检测reply.w
【RV1126/RV1109学习笔记】#RockX篇#（3）人脸检测 JavonPeng RV1126/RV1109 音视频开发笔记学习 git github
文章目录一、概述二、流程三、API说明四、实现代码一、概述人脸检测是人脸识别、人脸属性分类、人脸编辑、人脸跟踪等任务必不可少的早期步骤，其性能直接影响到人脸识别等任务的有效性。尽管在过去的几十年里，不受控制的人脸检测取得了巨大的进步，但在野外准确高效的人脸检测仍然是一个公开的挑战。这是由于姿势的变化、面部表情、比例、光照、图像失真、面部遮挡等因素造成的。与一般的目标检测不同，人脸检测的特点是在纵横
Python构建人脸识别系统实战项目爱你不会累
本文还有配套的精品资源，点击获取简介：本项目详细阐述了如何使用Python语言和face_recognition库实现人脸识别系统。人脸识别技术基于比较人脸图像特征，用于身份验证和识别。该系统利用face_recognition库及其依赖的dlib和OpenCV进行人脸检测和识别，包括人脸检测、特征提取、数据库创建、人脸识别和系统优化等步骤。项目还可能包含示例代码、数据集、配置文件和文档，旨在向开
MATLAB实战：人脸检测与识别实现方案三三十二 matlab 算法开发语言
我们要用电脑识别照片或视频中的人脸，并知道是谁的脸。就像手机相册能自动识别照片里的人是谁一样。人脸检测（找脸）目标：在图片中找到人脸的位置怎么做：用MATLAB的"人脸扫描仪"（vision.CascadeObjectDetector）这个扫描仪的工作原理：像在图片上移动一个"放大镜"检查每个区域是否符合人脸特征（眼睛、鼻子、嘴巴的排列）发现人脸就用方框标出来举个栗子：你给电脑一张班级合照，它会在
深度学习篇---人脸识别中的face-recognition库和深度学习 Ronin-Lotus 深度学习篇图像处理篇程序代码篇深度学习人工智能 python facerecognition
深度学习方法和使用Python的face_recognition库进行人脸识别在技术原理、实现方式和应用场景上有显著区别，以下从多个维度对比分析：一、技术原理1.深度学习方法核心逻辑：基于神经网络（如卷积神经网络CNN）构建模型，通过大量标注人脸数据（如LFW、CASIA-WebFace）训练模型，学习人脸特征的层次化表示（如像素级边缘→语义级面部结构→身份特征）。关键步骤：数据预处理：人脸检测（
实战OpenCV之人脸识别希望_睿智实战OpenCV系列 opencv 人工智能计算机视觉人脸识别 FaceDetectorYN
基础入门随着计算机视觉技术和深度学习的发展，人脸识别已经成为一项广泛应用的技术，涵盖了从安全监控、身份验证、智能家居到大型公共安全项目等多个领域。人脸识别技术通常包括以下几个主要步骤。图像采集：通过摄像头或其他图像采集设备，捕获包含人脸的图像或视频帧。人脸检测：从图像中定位人脸的位置，确定人脸的边界框。常用的方法包括：基于特征的传统方法（比如：Haar特征）、基于深度学习的方法（比如：YOLO、S
实验室人员管理系统开发（Qt+opencv+sql）不抛弃，也不放弃 Qt
实验室人员管理系统开发（Qt+opencv+sql）前1引言1.1系统介绍1.2软件安装2开发实现2.1图像识别2.1.1人脸检测2.1.2人脸识别2.2人机交互界面2.3数据库搭建2.4系统打包与移植3总结1引言一直想学习一下Qt开发上位机程序，之前利用QtCreator做过简单的网络调试助手，了解到Qt软件开发的基本流程以及QtCreator的基本使用。最近想做一个人脸识别的上位机，学习一下o
基于OpenCV的人脸微笑检测实现知舟不叙 opencv 人工智能计算机视觉人脸微笑检测
文章目录引言一、技术原理二、代码实现2.1关键代码解析2.1.1模型加载2.1.2图像翻转2.1.3人脸检测+微笑检测2.2显示效果三、参数调优建议四、总结引言在计算机视觉领域，人脸检测和表情识别一直是热门的研究方向。今天我将分享一个使用Python和OpenCV实现的实时人脸微笑检测系统。这个系统能够通过摄像头捕捉视频流，实时检测人脸并识别微笑表情，非常适合初学者学习计算机视觉的基础应用。一、技
python人脸识别门禁系统 OpenCV+Dlib weixin 346127357 python opencv 开发语言
1、项目介绍计算机毕业设计：python人脸识别门禁系统OpenCV+Dlib（包含文档+源码+部署教程）Python语言、dlib、OpenCV、Pyqt5界面设计、sqlite3数据库方法实现、实现步骤1、实例化人脸检测模型、人脸关键点检测模型、人脸识别模型2、电脑摄像头设备加载一对图片3、分别获取图片中的人脸图片所映射的空间向量，即人脸特征值4、计算特征向量欧氏距离，根据阈值判断是否为同一个
摄像头 + 实时人脸识别实战：打造鸿蒙本地 AI 摄像分析器 HarmonyOS 5.0.0或以上前端付豪3号鸿蒙 x AI 产品实战 harmonyos 人工智能华为
基于HarmonyOS5.0.0或以上版本：静态图片识别已经不够酷？那就来一波实时人脸追踪系统！本篇将教你构建一个摄像头实时捕捉+AI人脸识别+动态标记UI的系统，实现类似“考勤打卡机”“门禁识别”“智能镜子”这样的AI场景。✅实时摄像头预览✅每帧抓图进行人脸检测✅在预览UI上实时标记人脸位置✅HarmonyOS5.0.0+原生支持，无需云端依赖✅技术模块能力模块名摄像头采集@ohos.media
dlib库实现人脸检测湫ccc 计算机视觉 opencv python
摘要本文将向您介绍如何使用dlib库在图片以及视频中实现人脸识别检测。通过简单的Python代码，我们将展示如何定位图片中的人脸并绘制边框。引言人脸识别技术在当今世界越来越普及，应用场景广泛，如安全监控、身份认证、图像处理等。dlib是一个强大的开源机器学习库，其中包括人脸检测和人脸识别功能。本文将向您展示如何使用dlib库在Python中实现图片的人脸识别检测。一、图片人脸检测实现步骤步骤1：导
基于 dlib 的人脸检测（Python）小猫老弟~ python 开发语言
文章目录前言一、环境配置2.激活环境：3.安装OpenCV：4.安装以下两个库：5.whl安装：6.在下载dlib文件的文件夹下运行cmd：二、代码解释1.引入库2.设置人脸检测器和特征提取器3.定义人脸检测函数face_detect_demo4.读取图片、调用检测函数和显示图片5.人脸检测和特征点提取三、结果示例总结前言人脸检测是一种计算机视觉技术，旨在识别并定位图像或视频中人脸的位置。68点人
【计算机视觉】基于深度学习的实时情绪检测系统：emotion-detection项目深度解析白熊188 计算机视觉计算机视觉深度学习人工智能
基于深度学习的实时情绪检测系统：emotion-detection项目深度解析1.项目概述2.技术原理与模型架构2.1核心算法1)数据预处理流程2)改进型MobileNetV22.2系统架构3.实战部署指南3.1环境配置3.2数据集准备3.3模型训练3.4实时推理4.常见问题与解决方案4.1人脸检测失败4.2模型过拟合4.3显存不足5.关键技术论文支撑5.1基础理论5.2前沿进展6.项目优化方向6
人脸专注度检测系统（课堂专注度检测、人脸检测、注意力检测系统）西红柿土豆丶深度学习（Python项目）python 人工智能人脸检测人脸专注度检测课堂专注度检测注意力检测 python项目
人脸专注度检测系统项目介绍本项目是基于Flask、MobileNetV2、Mediapipe的人脸专注度检测系统。项目采用tensorflow.keras库内置的MobileNetV2预训练模型，对自主采集的少量人脸图片数据迁移训练而得到最终的人脸专注度检测模型。项目采用前后端分离的技术框架，基于Flask轻量级Web框架搭建后端服务，结合HTML/CSS/JavaScript实现前端用户界面。人
python3.7-3.11版本whl文件快速直接安装dlib库（无需安装cmake！！！）手把手教你安装 heyday_period Python人脸识别dlib库 python 开发语言
dlib是一个包含多种机器学习和计算机视觉算法的C++开源工具包，其人脸识别功能主要依赖于以下技术人脸检测：使用基于HOG（HistogramofOrientedGradients，方向梯度直方图）特征和级联分类器的方法。HOG特征能够有效地描述图像中的边缘和纹理信息，而级联分类器是一个多层分类器，通过级联方式提高检测精度。1人脸特征提取：利用深度学习技术，特别是29层的卷积神经网络（CNN）。
数据集-目标检测系列- 印度人脸检测数据集 indian face ＞＞ DataBall Xian-HHappy DataBall数据集合（计算机视觉）-数据也可如此美好算法计算机视觉人工智能目标检测印度人脸检测 yolo检测
数据集-目标检测系列-印度人脸检测数据集indianface>>DataBallDataBall助力快速掌握数据集的信息和使用方式。贵在坚持！*相关项目1）数据集可视化项目：gitcode:https://gitcode.com/DataBall/DataBall-detections-100s/overview2）数据集训练、推理相关项目：GitHub-XIAN-HHappy/ultralyti
使用OpenCV和dlib库进行人脸关键点定位知舟不叙 opencv 人工智能计算机视觉
文章目录引言一、环境准备二、代码实现解析1.导入必要的库2.加载图像和人脸检测器3.加载关键点预测模型4.检测并绘制关键点5.显示结果三、68个关键点的含义四、常见问题解决五、总结引言人脸关键点定位是计算机视觉中的一项基础任务，它在人脸识别、表情分析、虚拟化妆等应用中发挥着重要作用。本文将介绍如何使用dlib库来实现精准的人脸关键点检测。一、环境准备在开始之前，我们需要安装必要的Python库：p
模型：飞浆---windows、linux中部署目标检测模型PaddleDetection 等闲之辈莫等闲目标检测 python 人工智能
文章目录一、linux的conda虚拟环境中部署二、Windows的anaconda虚拟环境中部署三、使用paddledetection进行人脸检测并将结果保存到指定目录模型地址：GitHubGitee一、linux的conda虚拟环境中部署安装conda，并创建一个Python3.7版本的虚拟环境：condacreate-npy37python=3.7激活虚拟环境：condaactivatepy
Python实现人脸轮廓提取闲人编程图像处理 python 开发语言人脸轮廓 Dilb
目录一、背景知识1.1人脸检测和轮廓提取的意义1.2人脸检测方法概述1.3轮廓提取方法概述二、常用的人脸轮廓提取方法2.1基于边缘检测的轮廓提取2.2基于形态学操作的轮廓提取2.3基于特征点检测的轮廓提取三、Python实现人脸轮廓提取3.1安装依赖库3.2使用Dlib进行人脸检测和特征点提取3.3代码详解3.4使用轮廓提取进行人脸分割四、实验结果与分析五、应用与挑战5.1应用场景5.2技术挑战六
opencv图像处理之人脸检测不吃香菜？ opencv 图像处理人工智能
一、简介在计算机视觉领域，人脸检测是一项基础且重要的任务，它在安防监控、人机交互、图像编辑等众多应用中都有着广泛的应用。OpenCV作为一个强大的计算机视觉库，提供了简单易用的人脸检测功能。本文将结合具体代码，详细介绍如何使用OpenCV进行人脸检测，并深入探讨其背后的原理。二、原理介绍OpenCV中的人脸检测主要基于Haar级联分类器。Haar级联分类器是一种基于机器学习的目标检测方法，它使用H
【计算机视觉】深度解析MediaPipe：谷歌跨平台多媒体机器学习框架实战指南白熊188 计算机视觉计算机视觉机器学习人工智能
深度解析MediaPipe：谷歌跨平台多媒体机器学习框架实战指南技术架构与设计哲学核心设计理念系统架构概览核心功能与预构建解决方案1.人脸检测2.手势识别3.姿势估计4.物体检测与跟踪实战部署指南环境配置基础环境准备获取源码构建第一个示例（手部追踪）桌面端运行Android端部署自定义计算图开发关键技术深度解析1.高效同步机制2.GPU加速实现3.模型优化技术常见问题与解决方案1.GPU兼容性问题
【计算机视觉】OpenCV : 开源计算机视觉库的全面指南 | 超详细白熊188 计算机视觉计算机视觉 opencv 开源
OpenCV:开源计算机视觉库的全面指南1.OpenCV项目概览核心特性2.核心模块与技术解析2.1基础图像处理2.2特征检测与匹配2.3目标检测与跟踪2.4机器学习与深度学习3.实战案例：从安装到代码实现3.1环境安装与配置Python安装（推荐）C++安装（Linux）3.2案例1：人脸检测（Haar级联）代码实现参数说明3.3案例2：YOLOv5目标检测步骤1：下载模型权重步骤2：代码实现3
程序代码篇---ESP32 Camera Server Ronin-Lotus 程序代码篇嵌入式硬件篇嵌入式通信篇嵌入式硬件
文章目录前言1.代码概述代码功能2.主要组件2.1摄像头相关2.2HTTP服务器2.3人脸检测与识别3.主要功能实现3.1视频流传输3.2图像捕获3.3控制接口4.关键数据结构4.1帧缓冲区4.2JPEG分块传输5.人脸检测与识别实现5.1检测流程5.2识别功能6.HTTP接口7.代码特点多线程处理资源优化模块化设计性能统计跨平台支持8.使用方法前言本文简单介绍了ESP32CameraServer
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，