HamTam12

人脸特征点检测（一）

人脸特征点检测（Facial landmark detection），即人脸特征点定位、人脸对齐(Face Alignment)，是在人脸检测的基础上进行的，对人脸上的特征点例如嘴角、眼角等进行定位。
人脸特征点检测有很多用途，例如：
（1）改善人脸识别：通过人脸特征点检测将人脸对齐到平均脸，对齐后的人脸图像识别算法更加有效。
（2）人脸平均：利用人脸特征点检测的结果，将多个人脸进行融合成新的平均人脸。尝试做了一下2017年巴塞罗那足球俱乐部FCB一线队所有成员的平均脸，如下图，哈哈，很帅有木有？！

（3）人脸交换：利用人脸特征点检测的结果，对两张人脸进行无缝换脸，将一张人脸换到另一张上，做了下把贝克汉姆的脸换到梅西上的效果，如下图所示。

（4）人脸化妆&装扮：这方面的应用很多，感觉也是最具有商业应用价值的。可以做很多有趣的事情，日常生活中常见的，例如给你的脸上加上猫猫狗狗的小胡须、兔耳朵，涂上腮红、带上圣诞帽等装扮。还有美图秀秀美妆相机、美颜相机等，例如粉底、腮红、唇彩、眼影眼线、睫毛、双眼皮、美瞳、亮眼、大眼、鼻子高挺、自动瘦脸、眉毛等人脸化妆，都是在人脸特征点检测的基础上实现的。不得不说，现在的PS技术很强大，而且还是提供了傻瓜式的，用户量很大…

上述这些人脸特征点检测的应用，说明特征点的检测确实很有用很重要。特征点检测的又快又准，接下来的工作才好开展。
论文Facial Landmark Detection by Deep Multi-task Learning对人脸特征点检测有很好的效果，如下图所示，鲁棒性很强，但只公布了演示程序，没有公布源码及提供使用借口，无法实际使用，且论文实现和训练起来难度很大。

在Happynear大神github主页有论文Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Neural Networks的实现代码，暂时还没用到。

Seetaface中科院计算所山世光研究员带领的人脸识别研究组研发，代码基于C++实现，不依赖第三方库，开源免费，其人脸对齐模块支持5个人脸关键点的检测，其采用的是一种由粗到精的自编码器网络（Coarse-to-Fine Auto-encoder Networks, CFAN）来求解这个复杂的非线性映射过程。Dlib库实现了2014年一篇非常经典的人脸特征点检测的论文：Face Alignment at 3000 FPS via Regression Local Binary Features，其人脸特征点检测又快又准。深圳大学于仕祺老师公布的免费的libfacedetect，人脸特征点检测也非常快，效果也不错，和Dlib一样为68特征点检测，但鲁棒性不如Dlib。Seetaface、Dlib和libfacedetect都提供了人脸特征点检测的接口。

下面仅介绍三种方式来实现人脸特征点检测。

1.级联回归CNN人脸特征点检测
2.Dlib人脸特征点检测
3.libfacedetect人脸特征点检测
4.Seetaface人脸特征点检测方法

1.级联回归CNN人脸特征点检测

采用该Cascade级联回归CNN方法来定位一个人脸中的5个特征点，在我的机器上（GTX 1060）耗时7ms，算比较快了（然而，dlib、libfacedetect等做人脸68个特征点检测的速度比这都还要快…），目前人脸特征点检测的耗时主要还是在之前的要做的人脸检测上。用caffe训练网络实现该方法所用到的数据集样本、制作数据集和预测特征点的python脚本打包地址：下载链接

人脸特征点检测实际上是在人脸检测的基础上，在人脸框中预测特征点的位置。很多人脸数据集都提供了图像样本中人脸框的位置及特征点的坐标，我们需要做的是训练能预测特征点在人脸框中相对位置的网络。在实际预测时，我们首先通过人脸检测方法获取人脸框位置，然后在人脸框中预测特征点坐标。
卷积神经网络可以用于分类和回归任务，做分类任务时最后一个全连接层的输出维度为类别数，接着Softmax层采用Softmax Loss计算损失函数，而如果做回归任务，最后一个全连接层的输出维度则是要回归的坐标值的个数，采用的是欧几里何损失Euclidean Loss。

训练卷积神经网络来回归特征点坐标，这里博主只做了人脸中5个特征点的检测（如上图所示）。如果只采用一个网络来做回归训练，会发现得到的特征点坐标并不够准确，为了更加快速、准确的定位人脸特征点，采用级联回归CNN的方法，借鉴级联CNN中的级联思想，进行分段式特征点定位，其具体思路为：
（1）首先在整个人脸图像（蓝色框）上训练一个网络来对人脸特征点坐标进行粗回归，实际采用的网络其输入大小为39x39的人脸区域灰度图，预测时可以得到特征点的大致位置。
（2）设计另一个回归网络，以人脸特征点周围的局部区域图像（红色框）作为输入进行训练，实际采用的网络其输入大小为15x15的特征点局部区域灰度图，以预测到更加准确的特征点位置。
需要注意的是，由于采用的是欧几里何损失，在计算坐标时，使用的是相对坐标而不是绝对坐标，例如，在（1）中使用的是鼻子点在人脸框（蓝色框）中的相对坐标（0~1），在（2）中使用的是鼻子点在选定的周围区域框（红色框）中的相对坐标，这样能够促进模型收敛，避免网络训练发散。

在理解思路后，准备制作数据集并设计或选取网络了，首先是数据集制作。采用的是MTFL人脸数据库，在data\face_fp文件夹下，如图lfw_5590和net_7876文件夹中包括了所有的样本（包括训练集和验证集），训练集和测试集的标签文本trainImageList.txt或testImageList.txt中的每一行，依次对应图像路径、人脸框坐标值和五个特征点的坐标值标签，具体参照Readme.txt。

在第一阶段训练时，对数据集进行了增广（只针对训练集），除了做镜像之外，还对人脸框位置做了两组缩放和四组平移（实际检测时检测出到的人脸框位置可能不够准确，为了克服这种影响，提高泛化能力），然后将图像中的人脸框区域裁剪出来，并统一缩放到39x39大小，这样数据增广了3x5=15倍，会增加训练耗时，但不影响测试时间。事实证明以上的数据增广使得第一阶段预测的特征点更加准确，实际上博主还尝试了对人脸框做两组随机的小角度旋转，但最后对特征点位置预测的准确性并没有多大提高。在做数据增广的时候，对应的特征点坐标也要变换过来，而且要转化为相对坐标（第一阶段是相对人脸框，0~1）。
使用caffe训练CNN网络，由于是回归问题，多标签，而lmdb不支持多标签（虽然可以修改caffe源码以支持多标签，但这里没有必要），因此使用hdf5格式以支持多标签，在data\face_fp下的stage1.py脚本可以执行生成第一阶段的经过数据增广的hdf5格式的训练集和验证集以及对应的标签文本，输出到data\face_fp\1F文件夹下。

# -*- coding: utf-8 -*-
"""
Created on Mon May 15 21:34:35 2017

@author: Administrator
"""
import os
from os.path import join, exists
import cv2
import numpy as np
import h5py
from common_utils import shuffle_in_unison_scary, logger,processImage, getDataFromTxt, BBox
from utils import flip, rotate
import time

###第一阶段，大致确定关键点位置
TRAIN = './'
OUTPUT = './1_F'

if not exists(OUTPUT): 
    os.mkdir(OUTPUT)
assert(exists(TRAIN) and exists(OUTPUT))

###生成hdf5文件，训练集做数据增广
def generate_hdf5(ftxt, output, mode='train', augment=False): #输入参数：(原始图像和关键点坐标标签文本，h5文件输出目录，h5文件名，是否数据增广)

    data = getDataFromTxt(ftxt) #读取存放了文件路径和人脸框及其关键点的标签文本，坐标转换成相对坐标，返回读取结果(图像完整路径，人脸框，关键点绝对坐标)
    F_imgs = [] #人脸框图
    F_landmarks = [] #相对坐标  

    if not augment: #如果不做数据增广
        for (imgPath, bbox, landmarkGt) in data:
            img = cv2.imread(imgPath)
            assert(img is not None) #检查img是否存在
            logger("process %s" % imgPath) #打印信息
            gray = cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)           
            f_bbox = bbox
            f_face = gray[f_bbox.top:f_bbox.bottom+1,f_bbox.left:f_bbox.right+1] #人脸框图像               
            landmarkGt_p = f_bbox.projectLandmark(landmarkGt) #转换成相对人脸框相对坐标

            ### 原图
            f_face = cv2.resize(f_face, (39, 39))       
            F_imgs.append(f_face.reshape((1, 39, 39)))
            F_landmarks.append(landmarkGt_p.reshape(10))  

    else:
        for (imgPath, bbox, landmarkGt) in data:
            img = cv2.imread(imgPath)
            assert(img is not None) #检查img是否存在
            logger("process %s" % imgPath) #打印信息
            gray = cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)       
            height,width = gray.shape

            for exp in range(3): #5x3共15种变换,3种外扩
                bbox_e = bbox.expand(0.1*exp)  #分别往外扩0.0,0.1,0.2                               
                for ori in range(5): #5种平移                    
                    if ori == 1:
                        bbox_s = bbox_e.subBBox(0.1,1.1,0.0,1.0) #向右平移0.1
                    elif ori == 2:
                        bbox_s = bbox_e.subBBox(-0.1,0.9,0.0,1.0) #向左平移0.1
                    elif ori == 3:
                        bbox_s = bbox_e.subBBox(0.0,1.0,0.1,1.1) #向下平移0.1
                    elif ori == 4:
                        bbox_s = bbox_e.subBBox(0.0,1.0,-0.1,0.9) #向上平移0.1
                    else:
                        bbox_s = bbox_e                

                    f_bbox = BBox([int(bbox_s.left),int(bbox_s.right),int(bbox_s.top),int(bbox_s.bottom)]) #人脸框
                    if (f_bbox.top < 0 or f_bbox.left < 0 or f_bbox.bottom + 1 > height or f_bbox.right + 1 > width) : #如果人脸框超出图像边界，忽略之
                        continue
                    f_face = gray[f_bbox.top:f_bbox.bottom+1,f_bbox.left:f_bbox.right+1] #人脸框图像               
                    landmarkGt_p = f_bbox.projectLandmark(landmarkGt) #转换成相对人脸框相对坐标

                    #水平镜像
                    face_flipped, landmark_flipped = flip(f_face, landmarkGt_p) #将人脸框图像和关键点坐标同时镜像

                    face_flipped = cv2.resize(face_flipped, (39, 39)) #人脸框图像缩放到统一大小，默认双线性插值
                    F_imgs.append(face_flipped.reshape((1, 39, 39))) #opencv读取的图像shape为（h,w,c），转变为（c,h,w）
                    F_landmarks.append(landmark_flipped.reshape(10)) #将5x2的标签reshape成一维
                    ### 原图
                    f_face = cv2.resize(f_face, (39, 39))       
                    F_imgs.append(f_face.reshape((1, 39, 39)))
                    F_landmarks.append(landmarkGt_p.reshape(10))
    length = len(F_imgs)
    print 'length = %d' % length
    F_imgs, F_landmarks = np.asarray(F_imgs), np.asarray(F_landmarks) #转化成array
    F_imgs = processImage(F_imgs) #图像预处理：去均值、归一化
    shuffle_in_unison_scary(F_imgs, F_landmarks) #乱序

    logger("generate %s" % output) #打印日志    
    num = length / 100000
    h5files = []
    for index in range(num):
        suffix = '_%d.h5' % index
        h5file = join(output,mode + suffix) #拼接成h5文件全路径
        h5files.append(h5file)
        with h5py.File(h5file, 'w') as h5: #以“写”方式打开h5文件
            h5['data'] = F_imgs[index*100000 : (index + 1)*100000].astype(np.float32) #数据转换成float32类型，存图像
            h5['landmark'] = F_landmarks[index*100000 : (index + 1)*100000].astype(np.float32) #数据转换成float32类型，存坐标标签

    suffix = '_%d.h5' % num
    h5file = join(output,mode + suffix) #拼接成h5文件全路径
    h5files.append(h5file)
    with h5py.File(h5file, 'w') as h5: #以“写”方式打开h5文件
        h5['data'] = F_imgs[num*100000 : length].astype(np.float32) #数据转换成float32类型，存图像
        h5['landmark'] = F_landmarks[num*100000 : length].astype(np.float32) #数据转换成float32类型，存坐标标签       

    #将h5文件全路径，存放到文本文件中
    with open(join(OUTPUT, mode + '.txt'), 'w') as fd:
        for h5file in h5files:
            fd.write(h5file + '\n')

if __name__ == '__main__':
    np.random.seed(int(time.time())) #seed指定随机数生成时所用算法开始的整数值,使随机值的产生随时间而变化，而不会每次产生的随机数都相同    
    # train data
    train_txt = join(TRAIN,'trainImageList.txt') #join函数相当于matlab中的fullfile函数，用来连接目录和文件名，得到完整文件路径
    generate_hdf5(train_txt,OUTPUT,'train',True) #输入参数：(原始图像和关键点坐标标签文本，h5文件输出目录，h5文件名，是否数据增广)

    test_txt = join(TRAIN,'testImageList.txt')
    generate_hdf5(test_txt, OUTPUT, 'test')

准备好了第一阶段的数据集，下面看第一阶段所使用的网络1_F_train.prototxt，网络的输入层大小为39x39的单通道灰度图像，最后一个全连接层的输出维度为10，代表5个特征点的坐标值，而最后一层使用的是欧几里何Euclidean Loss，计算的是网络预测的坐标值与真实值（都是相对值）之间的均方误差的累积。

# This file gives the CNN model to predict all landmark in Stage1
name: "landmark_1_F"
layer {
    name: "hdf5_train_data"
    type: "HDF5Data"
    top: "data"
    top: "landmark"
    include {
        phase: TRAIN
    }
    hdf5_data_param {
        source: "../../data/face_fp/1_F/train.txt"
        batch_size: 128
    }
}
layer {
    name: "hdf5_test_data"
    type: "HDF5Data"
    top: "data"
    top: "landmark"
    include {
        phase: TEST
    }
    hdf5_data_param {
        source: "../../data/face_fp/1_F/test.txt"
        batch_size: 64
    }
}
layer {
    name: "conv1"
    type: "Convolution"
    bottom: "data"
    top: "conv1"
    param {
        lr_mult: 1
    }
    param {
        lr_mult: 2
    }
    convolution_param {
        num_output: 20
        kernel_size: 4
        weight_filler {
            type: "xavier"
        }
        bias_filler {
            type: "constant"
        }
    }
}
layer {
    name: "relu1"
    type: "ReLU"
    bottom: "conv1"
    top: "conv1"
}
layer {
    name: "pool1"
    type: "Pooling"
    bottom: "conv1"
    top: "pool1"
    pooling_param {
        pool: MAX
        kernel_size: 2
        stride: 2
    }
}
layer {
    name: "conv2"
    type: "Convolution"
    bottom: "pool1"
    top: "conv2"
    param {
        lr_mult: 1
    }
    param {
        lr_mult: 2
    }
    convolution_param {
        num_output: 40
        kernel_size: 3
        weight_filler {
            type: "xavier"
        }
        bias_filler {
            type: "constant"
        }
    }
}
layer {
    name: "relu2"
    type: "ReLU"
    bottom: "conv2"
    top: "conv2"
}
layer {
    name: "pool2"
    type: "Pooling"
    bottom: "conv2"
    top: "pool2"
    pooling_param {
        pool: MAX
        kernel_size: 2
        stride: 2
    }
}
layer {
    name: "conv3"
    type: "Convolution"
    bottom: "pool2"
    top: "conv3"
    param {
        lr_mult: 1
    }
    param {
        lr_mult: 2
    }
    convolution_param {
        num_output: 60
        kernel_size: 3
        weight_filler {
            type: "xavier"
        }
        bias_filler {
            type: "constant"
        }
    }
}
layer {
    name: "relu3"
    type: "ReLU"
    bottom: "conv3"
    top: "conv3"
}
layer {
    name: "pool3"
    type: "Pooling"
    bottom: "conv3"
    top: "pool3"
    pooling_param {
        pool: MAX
        kernel_size: 2
        stride: 2
    }
}
layer {
    name: "conv4"
    type: "Convolution"
    bottom: "pool3"
    top: "conv4"
    param {
        lr_mult: 1
    }
    param {
        lr_mult: 2
    }
    convolution_param {
        num_output: 80
        kernel_size: 2
        weight_filler {
            type: "xavier"
        }
        bias_filler {
            type: "constant"
        }
    }
}
layer {
    name: "relu4"
    type: "ReLU"
    bottom: "conv4"
    top: "conv4"
}
layer {
    name: "pool3_flat"
    type: "Flatten"
    bottom: "pool3"
    top: "pool3_flat"
}
layer {
    name: "conv4_flat"
    type: "Flatten"
    bottom: "conv4"
    top: "conv4_flat"
}
layer {
    name: "concat"
    type: "Concat"
    bottom: "pool3_flat" ###
    bottom: "conv4_flat" ###
    top: "faker"
    concat_param {
      concat_dim: 1
    }
}
layer {
    name: "fc1"
    type: "InnerProduct"
    bottom: "faker"
    top: "fc1"
    param {
        lr_mult: 1
    }
    param {
        lr_mult: 2
    }
    inner_product_param {
        num_output: 120
        weight_filler {
            type: "xavier"
        }
        bias_filler {
            type: "constant"
        }
    }
}
layer {
    name: "relu_fc1"
    type: "ReLU"
    bottom: "fc1"
    top: "fc1"
}
layer {
    name: "fc2"
    type: "InnerProduct"
    bottom: "fc1"
    top: "fc2"
    param {
        lr_mult: 1
    }
    param {
        lr_mult: 2
    }
    inner_product_param {
        num_output: 10
        weight_filler {
            type: "xavier"
        }
        bias_filler {
            type: "constant"
        }
    }
}
layer {
    name: "relu_fc2"
    type: "ReLU"
    bottom: "fc2"
    top: "fc2"
}
layer {
    name: "error"
    type: "EuclideanLoss"
    bottom: "fc2"
    bottom: "landmark"
    top: "error"
    include {
        phase: TEST
    }
}
layer {
    name: "loss"
    type: "EuclideanLoss"
    bottom: "fc2"
    bottom: "landmark"
    top: "loss"
    include {
        phase: TRAIN
    }
}

设置训练超参数文件1_F_solver.prototxt如下，然后就可以开始训练了，训练迭代200000次后，loss就降得就很小了。

net: "./1_F_train.prototxt"
test_iter: 55 #3466/64=55
test_interval: 1000
base_lr: 0.01
momentum: 0.9
weight_decay: 0.0005
lr_policy: "inv"
gamma: 0.0001
power: 0.75
#lr_policy: "step"
#gamma: 0.1
#stepsize: 50000
display: 200
max_iter: 500000
snapshot: 20000
snapshot_prefix: "./1_F/"
test_compute_loss: true
solver_mode: GPU

准备好1_F_deploy.prototxt，我们首先看看只用第一阶段训练来做预测的结果，如下图所示，可以看到第一阶段能够大致预测到特征点位置，但仍不够准确，接下来需要我们进行第二阶段的训练。

第二阶段训练，共5个特征点，每个特征点做两组数据集，即第一组数据集取以特征点为中心，局部框大小为(2*0.18*W,2*0.18*H)，其中W、H为人脸框的大小，并对此局部框做随机的微小平移使得特征点在局部框中的位置随机，裁剪出局部框图像并统一到15x15大小，第二组数据集和第一组数据集制作过程一样，只是局部框取得是(2*0.16*W,2*0.16*H)。对每个特征点，针对这两组数据集采用同样的网络模型进行训练，可以得到两组训练好的模型，在预测时，采取两组模型预测的均值作为预测结果，提高预测的准确性。
上述第二阶段数据集的制作代码在stage2.py脚本中，同样需要注意的是需要将特征点的坐标值标签变换为相对于局部框的相对坐标（0~1），最后生成hdf5格式的数据集文件及对应的train.txt、test.txt。

import time
from collections import defaultdict
import cv2
import numpy as np
import h5py
from common_utils import logger, createDir, getDataFromTxt, getPatch, processImage
from common_utils import shuffle_in_unison_scary
from utils import randomShiftWithArgument #,randomShift

types = [(0, 'LE1', 0.16),
         (0, 'LE2', 0.18),
         (1, 'RE1', 0.16),
         (1, 'RE2', 0.18),
         (2, 'N1', 0.16),
         (2, 'N2', 0.18),
         (3, 'LM1', 0.16),
         (3, 'LM2', 0.18),
         (4, 'RM1', 0.16),
         (4, 'RM2', 0.18)] #5个关键点，两种padding
for t in types:
    d = './2_%s' % t[1]
    createDir(d)

def generate(ftxt, mode, augment=False):
    """
        Generate Training Data for LEVEL-2
        mode = train or test
    """
    data = getDataFromTxt(ftxt) #读取存放了文件路径和人脸框及其关键点的标签文本，坐标转换成相对坐标，返回读取结果(图像完整路径，人脸框，关键点绝对坐标)

    trainData = defaultdict(lambda: dict(patches=[], landmarks=[])) #数据字典
    for (imgPath, bbox, landmarkGt) in data:
        img = cv2.imread(imgPath, cv2.CV_LOAD_IMAGE_GRAYSCALE) #读取灰度图像
        assert(img is not None) #检查图像是否存在
        logger("process %s" % imgPath)

        landmarkGt_p = bbox.projectLandmark(landmarkGt) #绝对坐标投影到相对于人脸框的相对坐标
        landmarkPs = randomShiftWithArgument(landmarkGt_p, 0.05, 2) #对关键点相对坐标的位置做2组随机平移，得到2组“新的关键点”，0.05表示关键点相对于人脸框相对坐标的最大平移度
        if not augment:
            landmarkPs = [landmarkPs[0]] #测试集只做一组随机平移

        for landmarkP in landmarkPs: #对做的2组随机平移，将所有局部框图像和关键点相对于局部框的相对坐标送入到数据字典trainData
            for idx, name, padding in types: #对每个关键点和padding
                patch, patch_bbox = getPatch(img, bbox, landmarkP[idx], padding) #根据随机平移过的关键点相对坐标和padding得到局部框图像和局部框
                patch = cv2.resize(patch, (15, 15)) #局部框图像缩放到15x15
                patch = patch.reshape((1, 15, 15))  #每个patch为c,h,w，append之后就变成了n,c,h,w
                trainData[name]['patches'].append(patch)
                _ = patch_bbox.project(landmarkGt[idx]) #‘真’关键点相对人脸框相对坐标反投影到绝对坐标，再投影到局部框得到相对局部框的相对坐标
                trainData[name]['landmarks'].append(_)

    for idx, name, padding in types:
        logger('writing training data of %s'%name)
        patches = np.asarray(trainData[name]['patches']) #从数据字典中取出
        landmarks = np.asarray(trainData[name]['landmarks'])
        patches = processImage(patches) #预处理，去均值、归一化

        shuffle_in_unison_scary(patches, landmarks) #乱序

        with h5py.File('./2_%s/%s.h5'%(name, mode), 'w') as h5: #生成mode.h5(train/test)
            h5['data'] = patches.astype(np.float32)
            h5['landmark'] = landmarks.astype(np.float32)
        with open('./2_%s/%s.txt'%(name, mode), 'w') as fd: #生成mode.txt(train/test)，写入h5文件路径
            fd.write('./2_%s/%s.h5'%(name, mode))


if __name__ == '__main__':
    np.random.seed(int(time.time())) #seed指定随机数生成时所用算法开始的整数值,使随机值的产生随时间而变化，而不会每次产生的随机数都相同
    # trainImageList.txt
    generate('./trainImageList.txt', 'train', augment=True) #生成train.h5和train.txt，训练集做数据增强（实际上只是多做了一组随机平移）
    # testImageList.txt
    generate('./testImageList.txt', 'test') #生成test.h5和test.txt
    # Done

总共5个特征点，每个特征点使用了两种数据集，使用的是同一个网络，最终训练得到10个模型。以下为第二阶段左眼第一组数据集的训练模型2_LE1_train.prototxt，其它训练网络只需修改数据集路径即可。

# This file gives the CNN model to predict landmark in Stage2
name: "landmark_2_LE1"
layer {
    name: "hdf5_train_data"
    type: "HDF5Data"
    top: "data"
    top: "landmark"
    include {
        phase: TRAIN
    }
    hdf5_data_param {
        source: "../../data/face_fp/2_LE1/train.txt"
        batch_size: 64
    }
}
layer {
    name: "hdf5_test_data"
    type: "HDF5Data"
    top: "data"
    top: "landmark"
    include {
        phase: TEST
    }
    hdf5_data_param {
        source: "../../data/face_fp/2_LE1/test.txt"
        batch_size: 64
    }
}
layer {
    name: "conv1"
    type: "Convolution"
    bottom: "data"
    top: "conv1"
    param {
        lr_mult: 1
    }
    param {
        lr_mult: 2
    }
    convolution_param {
        num_output: 20
        kernel_size: 4
        weight_filler {
            type: "xavier"
        }
        bias_filler {
            type: "constant"
        }
    }
}
layer {
    name: "relu1"
    type: "ReLU"
    bottom: "conv1"
    top: "conv1"
}
layer {
    name: "pool1"
    type: "Pooling"
    bottom: "conv1"
    top: "pool1"
    pooling_param {
        pool: MAX
        kernel_size: 2
        stride: 2
    }
}
layer {
    name: "conv2"
    type: "Convolution"
    bottom: "pool1"
    top: "conv2"
    param {
        lr_mult: 1
    }
    param {
        lr_mult: 2
    }
    convolution_param {
        num_output: 40
        kernel_size: 3
        weight_filler {
            type: "xavier"
        }
        bias_filler {
            type: "constant"
        }
    }
}
layer {
    name: "relu2"
    type: "ReLU"
    bottom: "conv2"
    top: "conv2"
}
layer {
    name: "pool2"
    type: "Pooling"
    bottom: "conv2"
    top: "pool2"
    pooling_param {
        pool: MAX
        kernel_size: 2
        stride: 2
    }
}
layer {
    name: "fc1"
    type: "InnerProduct"
    bottom: "pool2"
    top: "fc1"
    param {
        lr_mult: 1
    }
    param {
        lr_mult: 2
    }
    inner_product_param {
        num_output: 60
        weight_filler {
            type: "xavier"
        }
        bias_filler {
            type: "constant"
        }
    }
}
layer {
    name: "relu_fc1"
    type: "ReLU"
    bottom: "fc1"
    top: "fc1"
}
layer {
    name: "fc2"
    type: "InnerProduct"
    bottom: "fc1"
    top: "fc2"
    param {
        lr_mult: 1
    }
    param {
        lr_mult: 2
    }
    inner_product_param {
        num_output: 2
        weight_filler {
            type: "xavier"
        }
        bias_filler {
            type: "constant"
        }
    }
}
layer {
    name: "relu_fc2"
    type: "ReLU"
    bottom: "fc2"
    top: "fc2"
}
layer {
    name: "error"
    type: "EuclideanLoss"
    bottom: "fc2"
    bottom: "landmark"
    top: "error"
    include {
        phase: TEST
    }
}
layer {
    name: "loss"
    type: "EuclideanLoss"
    bottom: "fc2"
    bottom: "landmark"
    top: "loss"
    include {
        phase: TRAIN
    }
}

对应的网络超参数文件2_LE1_solver.prototxt，需要注意的是对不同特征点，可能需要尝试不同的初始学习率来使得模型更好的收敛。因此，需要训练10个小网络，还是挺繁琐的…

net: "./2_LE1_train.prototxt"
test_iter: 55 #3466/64=55
test_interval: 1000
base_lr: 0.005
momentum: 0.9
weight_decay: 0.0005
lr_policy: "inv"
gamma: 0.0001
power: 0.75
#lr_policy: "step"
#gamma: 0.1
#stepsize: 50000
display: 200
max_iter: 100000
snapshot: 20000
snapshot_prefix: "./2_LE1/"
test_compute_loss: true
solver_mode: GPU

接下来就可以开始训练，训练迭代100000次后，loss也降得差不多了。然后接着把剩下的9个都训练完，注意可能要调下学习率，batchsize不用调。

然后准备好预测用的2_LE1_deploy.prototxt，剩下9个deploy.prototxt与其完全一致。现在可以来看看级联后的特征点预测结果了，如图所示，可以看到预测结果更加准确了，但鲁棒性还不够强。

如果采取更大的网络，特征点的预测会更加准确鲁棒，但耗时多，为了在速度和性能上做找到平衡点，使用较小的网络，并采用级联的思想，先进行粗检测，然后微调特征点位置。
下面是最终预测人脸特征点的landmarks_detection.py，其中人脸检测采用的是级联CNN或者opencv人脸检测，在人脸检测的基础上预测人脸特征点位置，并将预测的相对位置转换成图像上的绝对坐标。

#coding:utf-8
import os
from os.path import join
import cv2
import caffe
import numpy as np
from face_detection_functions import *
from load_model_functions import *
import time

#定义一个CNN类，初始化网络，以及前向传播返回结果
class CNN(object):
    """
        Generalized CNN for simple run forward with given Model
    """
    def __init__(self, net, model): 
        self.net = net
        self.model = model
        self.cnn = caffe.Net(net, model, caffe.TEST) # failed if not exists

    def forward(self, data, layer='fc2'): 
        print data.shape
        fake = np.zeros((len(data), 1, 1, 1))
        self.cnn.set_input_arrays(data.astype(np.float32), fake.astype(np.float32)) #指定一块连续的数据
        self.cnn.forward() #前向传播
        result = self.cnn.blobs[layer].data[0] #获取指定layer结果

        t = lambda x: np.asarray([np.asarray([x[2*i], x[2*i+1]]) for i in range(len(x)/2)]) #定义匿名函数t，将输入的10x1坐标数组转换成5x2矩阵
        result = t(result)
        return result

class BBox(object): #BoundingBox类
    """
        Bounding Box of face
    """
    def __init__(self, bbox):
        self.left = int(bbox[0])
        self.right = int(bbox[1])
        self.top = int(bbox[2])
        self.bottom = int(bbox[3])
        self.x = bbox[0]
        self.y = bbox[2]
        self.w = bbox[1] - bbox[0]
        self.h = bbox[3] - bbox[2]

    def expand(self, scale=0.05): #向外扩展
        bbox = [self.left, self.right, self.top, self.bottom]
        bbox[0] -= int(self.w * scale)
        bbox[1] += int(self.w * scale)
        bbox[2] -= int(self.h * scale)
        bbox[3] += int(self.h * scale)
        return BBox(bbox)

    def project(self, point): #投影变换，将点坐标转换为相对于BBox框的相对坐标
        x = (point[0]-self.x) / self.w
        y = (point[1]-self.y) / self.h
        return np.asarray([x, y])

    def reproject(self, point): #投影逆变换，将点相对于BBox框的相对坐标转换成点的绝对坐标值
        x = self.x + self.w*point[0]
        y = self.y + self.h*point[1]
        return np.asarray([x, y])

    def reprojectLandmark(self, landmark): #投影逆变换，将所有关键点相对于BBox框的相对坐标转换成点的绝对坐标值
        print len(landmark)
        if not len(landmark) == 5:
            landmark = landmark[0]
        p = np.zeros((len(landmark), 2))
        for i in range(len(landmark)):
            p[i] = self.reproject(landmark[i])
        return p

    def projectLandmark(self, landmark): #投影变换，将所有点坐标转换为相对于BBox框的相对坐标
        p = np.zeros((len(landmark), 2))
        for i in range(len(landmark)):
            p[i] = self.project(landmark[i])
        return p

    def subBBox(self, leftR, rightR, topR, bottomR): 
        leftDelta = self.w * leftR
        rightDelta = self.w * rightR
        topDelta = self.h * topR
        bottomDelta = self.h * bottomR
        left = self.left + leftDelta
        right = self.left + rightDelta
        top = self.top + topDelta
        bottom = self.top + bottomDelta
        return BBox([left, right, top, bottom])

    def cropImage(self, img): #根据BBox返回裁剪图像
        """
            crop img with left,right,top,bottom
            **Make Sure is not out of box**
        """
        return img[self.top:self.bottom+1, self.left:self.right+1]


class Landmarker(object):
    """
        class Landmarker wrapper functions for predicting facial landmarks
    """

    def __init__(self):
        """
            Initialize Landmarker with files under VERSION
        """
        #model_path = join(PROJECT_ROOT, VERSION)
        deploy_path = "../../models/face_fp"
        model_path = "../../models/face_fp"
        CNN_TYPES = ['LE1', 'RE1', 'N1', 'LM1', 'RM1', 'LE2', 'RE2', 'N2', 'LM2', 'RM2']
        level1 = [(join(deploy_path, '1_F_deploy.prototxt'), join(model_path, '1_F/_iter_200000.caffemodel'))]
        level2 = [(join(deploy_path, '2_%s_deploy.prototxt'%name), join(model_path, '2_%s/_iter_100000.caffemodel'%name)) \
                      for name in CNN_TYPES]
        self.level1 = [CNN(p, m) for p, m in level1] #初始化第一阶段网络
        self.level2 = [CNN(p, m) for p, m in level2] #初始化第二阶段网络

    def detectLandmark(self, image, bbox):
        """
            Predict landmarks for face with bbox in image
            apply level-1 and level-2
        """
        #if not isinstance(bbox, BBox) or image is None:
            #return None, False
        face = bbox.cropImage(image) #裁剪出人脸框图像
        #face = image
        #print face.shape
        face = cv2.resize(face, (39, 39)) #缩放人脸框图像到39x39
        #print face.shape
        face = face.reshape((1, 1, 39, 39)) #人脸框图像数据矩阵->[n,c,h,w]
        face = self._processImage(face) #人脸框图像预处理，归一化
        # level-1, only F in implemented
        landmark = self.level1[0].forward(face) #第一阶段，直接调用CNN类Level1[0]的前向传播函数，返回第一阶段回归结果（相对人脸框的相对坐标）
        # level-2
        landmark = self._level(image, bbox, landmark, self.level2, [0.16, 0.18]) #第二阶段，根据padding和前一阶段的关键点回归结果，重新取人脸框中的局部框，继续回归

        return landmark
    def _level(self, img, bbox, landmark, cnns, padding):
        """
            LEVEL-?
        """
        for i in range(5): #五个关键点
            x, y = landmark[i] #获取上一阶段预测结果的关键点坐标
            patch, patch_bbox = self._getPatch(img, bbox, (x, y), padding[0]) #根据第一种padding获取局部框图像patch、局部框patch_bbox
            patch = cv2.resize(patch, (15, 15)).reshape((1, 1, 15, 15)) #局部小窗口框缩放到15x15
            patch = self._processImage(patch) #预处理，归一化
            d1 = cnns[i].forward(patch) #第一种padding每个关键点对应的网络，前向传播，返回的是相对于局部框的相对坐标

            patch, patch_bbox = self._getPatch(img, bbox, (x, y), padding[1]) #根据第二种padding获取局部框图像patch、局部框patch_bbox
            patch = cv2.resize(patch, (15, 15)).reshape((1, 1, 15, 15))
            patch = self._processImage(patch)
            d2 = cnns[i+5].forward(patch) #第二种padding每个关键点对应的网络，前向传播，返回的是相对于局部框的相对坐标

            d1 = bbox.project(patch_bbox.reproject(d1[0])) #对第一padding，相对局部框patch_size的相对坐标->绝对坐标->相对于人脸的相对坐标
            d2 = bbox.project(patch_bbox.reproject(d2[0])) #对第一padding，相对局部框patch_size的相对坐标->绝对坐标->相对于人脸的相对坐标
            landmark[i] = (d1 + d2) / 2 
        return landmark

    def _getPatch(self, img, bbox, point, padding): #根据相对坐标和padding获取局部框图像patch、局部框patch_bbox
        """
            Get a patch iamge around the given point in bbox with padding
            point: relative_point in [0, 1] in bbox
        """

        point_x = bbox.x + point[0] * bbox.w
        point_y = bbox.y + point[1] * bbox.h
        patch_left = point_x - bbox.w * padding
        patch_right = point_x + bbox.w * padding
        patch_top = point_y - bbox.h * padding
        patch_bottom = point_y + bbox.h * padding
        patch = img[patch_top: patch_bottom+1, patch_left: patch_right+1]
        patch_bbox = BBox([patch_left, patch_right, patch_top, patch_bottom])
        return patch, patch_bbox #返回局部框图像patch、局部框patch_bbox


    def _processImage(self, imgs): #预处理，归一化
        """
            process images before feeding to CNNs
            imgs: N x 1 x W x H
        """
        imgs = imgs.astype(np.float32)
        for i, img in enumerate(imgs):
            m = img.mean()
            s = img.std()
            imgs[i] = (img - m) / s
        return imgs

def drawLandmark(img,  landmark):

    for x, y in landmark:
        cv2.circle(img, (int(x), int(y)), 2, (0,255,0), -1)
    return img

#利用opencv的harr + adaboost人脸检测算法进行人脸检测
def detectFaces(cascadeCls,img):  
    gray = cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)
    gray = cv2.equalizeHist(gray)    

    faces = cascadeCls.detectMultiScale(gray,1.1,3,0,(64,64),(256,256)) #多尺度人脸检测
    return faces

if __name__ == '__main__':

    #cascade级联CNN人脸检测+分段式特征点检测
    # ==================  load models  ======================================
    net_12c_full_conv, net_12_cal, net_24c, net_24_cal, net_48c, net_48_cal = load_face_models(loadNet=True)
    nets = (net_12c_full_conv, net_12_cal, net_24c, net_24_cal, net_48c, net_48_cal)
    min_face_size = 48
    stride = 5
    get_landmark = Landmarker()
    result_folder = './result-folder/'
    test_folder = './test-folder/'
    test_images = os.listdir(test_folder)
    start_time = time.time()
    for test_image in test_images:
        imgPath = test_folder + test_image
        img = cv2.imread(imgPath)
        assert(img is not None)
        print 'imgPath: %s' % imgPath
        print img.shape
        gray = cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)

        img_forward = np.array(img,dtype=np.float32)
        img_forward -= np.array((104,117,123)) #去均值，级联CNN训练时减去的是ImageNet数据集均值

        rects = detect_faces_net(nets,img_forward,min_face_size,stride,True,1.414,0.85) #调用级联CNN人脸检测方法
        for rect in rects:
            cv2.rectangle(img,(rect[0],rect[1]),(rect[2],rect[3]),(255,0,0),2)
            bbox = BBox([rect[0],rect[2],rect[1],rect[3]])
            final_landmark = get_landmark.detectLandmark(gray,bbox)
            final_landmark = bbox.reprojectLandmark(final_landmark)
            img = drawLandmark(img,final_landmark)
        cv2.imwrite(result_folder + test_image,img)                 
    end_time = time.time()
    print 'the time of face detection and feature points location per image:',(end_time - start_time)*1000/len(test_images),'ms'    

    '''
    ###opencv(harr+adaboost)视频中人脸检测 + 分段式特征点提取
    xmlPath = 'D:/OPENCV2.4.9/opencv/sources/data/haarcascades/haarcascade_frontalface_alt2.xml'
    cascadeCls = cv2.CascadeClassifier(xmlPath) #加载xml人脸检测文件，获取CascadeClassifier对象  

    get_landmark = Landmarker() #定义一个关键点类

    video = cv2.VideoCapture('himetan.avi')
    if video.isOpened():
        success,frame = video.read()
        while success:
            faces = detectFaces(cascadeCls,frame)
            if len(faces) == 0:
                cv2.imshow('image',frame)
            else:
                img = frame.copy()
                gray = cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)
                for face in faces:
                    bbox = BBox([face[0],face[0]+face[2],face[1],face[1]+face[3]])
                    cv2.rectangle(img,(bbox.left,bbox.top),(bbox.right,bbox.bottom),(255,0,0),2)

                    final_landmark= get_landmark.detectLandmark(gray, bbox) #调用关键点检测函数，返回检测到的相对坐标

                    final_landmark = bbox.reprojectLandmark(final_landmark) #反投影得到检测到的关键点绝对坐标
                    img = drawLandmark(img,  final_landmark) #在图像上标出所有关键点
                cv2.imshow('image',img)
            if cv2.waitKey(1) > 0:
                break
            success,frame = video.read()
        video.release()
        cv2.destroyAllWindows()
    '''

    '''
    ###opencv(harr+adaboost)文件夹下图像中人脸检测 + 分段式特征点提取
    xmlPath = 'D:/OPENCV2.4.9/opencv/sources/data/haarcascades/haarcascade_frontalface_alt2.xml'
    cascadeCls = cv2.CascadeClassifier(xmlPath) #加载xml人脸检测文件，获取CascadeClassifier对象  
    result_folder = './result-folder/'
    test_folder = './test-folder/'
    test_images = os.listdir(test_folder)    
    get_landmark = Landmarker() #定义一个关键点类
    start_time = time.time()
    for image in test_images:        
        img = cv2.imread(test_folder+image)
        #bbox = BBox([320,391,55,152]) #人脸框位置,left,right,top,bottom
        faces = detectFaces(cascadeCls,img)
        if len(faces) == 0:
            break
        gray = cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)
        for face in faces:
            bbox = BBox([face[0],face[0] + face[2],face[1],face[1] + face[3]])
            cv2.rectangle(img, (bbox.left, bbox.top), (bbox.right, bbox.bottom), (0,0,255), 2)

            #cv2.resize(gray,(256,256))                      

            final_landmark= get_landmark.detectLandmark(gray, bbox) #调用关键点检测函数，返回检测到的相对坐标

            final_landmark = bbox.reprojectLandmark(final_landmark) #反投影得到检测到的关键点绝对坐标
            img = drawLandmark(img,  final_landmark) #在图像上标出所有关键点            
        #cv2.imwrite(result_folder+'level1-'+image, img)
        #cv2.imwrite(result_folder+'level2-'+image, img)
    end_time = time.time()
    print 'the time of face detection and feature points location per image:',(end_time - start_time)*1000/len(test_images),'ms'
    '''

你可能感兴趣的:(caffe,人脸特征点检测)

基于Spring Boot和Vue的人脸识别项目（源码） AI人H哥会Java JAVA大作业项目实战 spring boot vue.js java 人工智能计算机视觉后端 sql
背景随着人工智能技术的迅猛发展，生物识别技术的迅猛发展，人脸识别已经成为最具潜力的人工智能应用之一。它不仅在安全监控、金融支付、智能家居等多个领域得到了广泛应用，也逐渐进入日常生活场景。人脸识别作为一种生物特征识别技术，能够通过分析人脸图像中的特征点，实现对个体的身份识别。利用计算机视觉技术，系统能够快速从大量图片中定位并识别特定人脸，实现身份验证和信息检索。这一技术的应用，不仅提高了安全性，还提
深入了解卷积神经网络（CNN）：图像处理与深度学习的革命性技术 wit_@ cnn python 机器学习深度学习 scikit-learn
深入了解卷积神经网络（CNN）：图像处理与深度学习的革命性技术导语卷积神经网络（CNN）是现代深度学习领域中最重要的模型之一，特别在计算机视觉（CV）领域具有革命性的影响。无论是图像分类、目标检测，还是人脸识别、语音处理，CNN都发挥了举足轻重的作用。随着技术的不断发展，CNN已经成为了解决众多实际问题的核心工具。但对于许多人来说，CNN仍然是一个相对复杂的概念，尤其是初学者可能会被其背后的数学原
开源 AI人脸替换工具离线版V7.0（最好的开源换脸ai，老电脑可运行） struggle2025 人工智能
这是热心网友万能君做的一个整合包，整合包里面已经包含了几个换脸项目和一些高清修复功能。（没有复杂的设置，安装简单，一键操作，适合老电脑）AI人脸替换工具离线版V7.0.zip下载地址夸克网盘分享使用教程夸克网盘分享要顺利使用这个工具，必须做好以下几点第一个这个工具只支持CPU+N卡。(如果没有N卡，用cpu也可以运行，就是稍微慢些，我的老电脑i74790+32g内存完美运行)如果需要使用N卡，一定
K210视觉识别模块 LS_learner 嵌入式嵌入式硬件
K210视觉识别模块是一款功能强大的AI视觉模块，以下是对其的详细介绍：一、核心特性强大的视觉识别功能：K210视觉识别模块支持多种视觉功能，包括但不限于人脸识别、口罩识别、条形码和二维码识别、特征检测、数字识别、颜色识别、路标识别和视觉巡线等。这些功能使得K210视觉识别模块在多个领域都有广泛的应用潜力。高性能的硬件支持：K210视觉识别模块基于RISC-V精简指令集的K210芯片设计，该芯片内
基于深度学习CNN网络 mini-xception网络实现构建一个完整的人脸表情检测_识别分类系统，包括训练、评估、前端和服务端代码计算机c9硕士算法工程师卷积神经网络深度学习 cnn 分类
人脸表情检测该项目已训练好网络模型，配置好环境即可运行使用，效果见图像，实现图像识别、摄像头识别、摄像头识别/识别分类项目-说明文档-UI界面-cnn网络项目基本介绍：【网络】深度学习CNN网络mini-xception网络【环境】python>=3.5tensorflow2opencvpyqt5【文件】训练预测全部源代码、训练好的模型、fer2013数据集、程序算法讲解文档【类别】对7种表情检测
Python AI教程之二十一：监督学习之支持向量机（SVM）算法潜洋人工智能 Python中级支持向量机算法机器学习 python
支持向量机（SVM）算法支持向量机(SVM)是一种功能强大的机器学习算法，广泛用于线性和非线性分类以及回归和异常值检测任务。SVM具有很强的适应性，适用于各种应用，例如文本分类、图像分类、垃圾邮件检测、笔迹识别、基因表达分析、人脸检测和异常检测。SVM特别有效，因为它们专注于寻找目标特征中不同类别之间的最大分离超平面，从而使其对二分类和多分类都具有鲁棒性。在本大纲中，我们将探讨支持向量机(SVM)
如何利用OpenCV和yolo实现人脸检测音视频牛哥大牛直播SDK opencv 人工智能计算机视觉 yolo11 人脸检测 opencv人脸检测 yolo人脸检测
在之前的blog里面，我们有介绍OpenCV和yolo的区别，本文就人脸检测为例，分别介绍下OpenCV和yolo的实现方式。OpenCV实现人脸检测一、安装OpenCV首先确保你已经安装了OpenCV库。可以通过以下方式安装：使用包管理工具安装：在Python环境中，可以使用pip安装：pipinstallopencv-python。二、加载预训练的人脸检测模型OpenCV提供了基于Haar特征
基于深度学习的人脸表情识别系统：YOLOv5 + YOLOv8 + YOLOv10 + UI界面 + 数据集 2025年数学建模美赛深度学习 YOLO ui 分类人工智能
引言随着人工智能的飞速发展，深度学习技术已广泛应用于各个领域，尤其是在计算机视觉领域。人脸识别和表情识别是其中的一个重要应用，能够在多种场景下提供重要的信息，例如安全监控、情感分析、智能客服、健康监测等。在人脸表情识别任务中，准确识别人脸的情感状态（如高兴、愤怒、悲伤等）是一个极具挑战性的任务。随着YOLO系列算法的不断进步，YOLOv5、YOLOv8和YOLOv10的推出大大提高了目标检测的精度
基于YOLOv8深度学习的人脸年龄检测识别系统 2025年数学建模美赛 YOLO 深度学习人工智能 ui 数据挖掘分类
引言随着人工智能和计算机视觉的飞速发展，人脸分析技术在年龄检测领域取得了显著进展。人脸年龄检测系统在安全监控、广告推荐、健康监测等领域有广泛应用。本文将基于YOLOv8目标检测模型和UI界面，开发一个完整的人脸年龄检测识别系统。我们将详细介绍项目的技术实现、数据集构建、模型训练以及UI设计，并附上完整代码。目录引言系统架构设计数据准备公开人脸年龄数据集数据标注格式数据目录结构模型训练YOLOv8环
基于深度学习的人脸表情识别系统（YOLOv10+UI界面+数据集） 2025年数学建模美赛深度学习 YOLO ui 计算机视觉人工智能目标跟踪
在本篇博客中，我们将详细介绍如何构建一个基于深度学习的人脸表情识别系统。该系统主要由三部分组成：YOLOv10（深度学习模型）进行表情识别、UI界面展示识别结果以及数据集的准备和训练过程。我们将从系统架构、数据准备、模型训练、UI设计等多个方面进行全面讲解，最终实现一个能够实时识别并展示人脸表情的系统。目录1.系统架构2.数据集准备2.1FER2013数据集2.2数据预处理3.YOLOv10模型概
基于深度学习的人脸表情识别系统：YOLOv8 + UI界面 + 数据集完整实现 2025年数学建模美赛深度学习 YOLO ui 人工智能代码
1.引言近年来，人脸表情识别在情感计算、智能人机交互、心理学研究等领域有着广泛的应用。深度学习的快速发展，使得高效、准确的人脸表情识别成为可能。通过利用卷积神经网络（CNN）和目标检测技术，可以实现实时、精准的人脸表情识别。本文将基于YOLOv8构建一个完整的人脸表情识别系统。系统集成了数据集准备、YOLOv8模型训练、实时推理以及基于PyQt5的图形用户界面（UI）。通过本文，你将学习如何实现一
如何确保热点产品查询延迟控制在10ms以内?思维导图代码示例（java 架构) 用心去追梦 java 架构开发语言
为了确保热点产品查询的延迟控制在10ms以内，可以采取一系列优化措施和技术手段。以下是一个思维导图的结构和一个简化的Java架构代码示例，用于展示如何实现这一目标。思维导图结构低延迟查询数据预加载热点数据预测提前加载到内存缓存使用高性能缓存内存级缓存（如Caffeine）分布式缓存（如Redis）缓存一致性管理弱一致性模型缓存更新策略（写后失效、读时更新等）并发处理多线程/异步编程线程池管理数据库
Spring Cache自定义过期时间
背景要求：对数据做统计分析，时间截止到当天零点根据要求，每天查询的数据范围都是截止前一天结束，第二天需要查询新数据。那么缓存只保留一天。使用caffeine简单举个例子，主要依赖有：org.springframework.bootspring-boot-starter-web2.7.18org.springframework.bootspring-boot-starter-cache2.7.18c
有一种努力叫：靠自己知势局
我不羡慕别人的笑容，因为我知道他们和我一样，背后也有不为人知的酸楚。我不羡慕别人的财富，因为我知道他付出的代价，忙不完的工作，说不出的辛苦我不羡慕别人的潇洒，因为我知道他过得未必幸福，那些表面看起来的光鲜，其实是强撑过来的孤独。我不羡慕那些不工作不上班，却有钱花，也有人养的人，因为我知道她们伸手要钱时得看人脸色，受了委屈和冷落时，还得忍气吞声。我们不必羡慕别人，自己亦是风景，我们不必依靠别人，自己
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
基于YOLOV5人脸检测打上码赛克 Deep-white YOLO 人工智能深度学习
还在为自己的隐私而烦恼吗，还在为拍摄的视频因不想露脸而无法发布吗。yolov5检测人脸，并打上马赛克，保护自己的隐私。只需下载代码，解压缩后就可以传入你想要打马赛克的视频或者图片了。这个是需要你对代码有一些了解的，等我开发一下使大家都可以用。里面权重已经训练好了，也有一些人脸的数据集，数据量不多，训练完的权重不是很好，但是给自己的视频打上马赛克足够了。大家要是想去增加数据集，可以使用里面的权重利用
Vue + Django的人脸识别系统 DXSsssss python DRF tensorflow 人脸识别
最近在研究机器学习，刚好最近看了vue+Djangodrf的一些课程，学以致用，做了一个人脸识别系统。项目前端使用Vue框架，用到了elementui组件，写起来真是方便。比之前传统的dtl方便了太多。后端使用了drf，识别知识刚开始打算使用opencv+tensorflow,但是发现吧识别以后的结果返回到浏览器当中时使用opencv比较麻烦（主要是我太菜，想不到比较好的方法），因此最终使用了tf
Django+Vue基于OpenCV的人脸识别系统的设计与实现赵广陆 project django vue.js opencv
目录1项目介绍2项目截图3核心代码3.1需要的环境3.2Django接口层3.3实体类3.4config.ini3.5启动类3.5Vue4数据库表设计5文档参考6计算机毕设选题推荐7源码获取1项目介绍博主个人介绍：CSDN认证博客专家，CSDN平台Java领域优质创作者，全网30w+粉丝，超300w访问量，专注于大学生项目实战开发、讲解和答疑辅导，对于专业性数据证明一切！主要项目：javaweb、
规划大二上期白色的风扇学习
英语过四级。这个学期将java核心卷1看完。每天3道sql语句编程题。11月之前将ssmredis学完，过年之前mysql学完，MQ消息队列，ES学完。期末不挂科。问题争取自己解决，如何导入api，如何训练自己的ai,如何人脸识别之类的技术问题争取独立解决。养成一个好的生活习惯，每天争取2点之前就睡，减少油炸食品的摄入，坚持每两天跑一次步，争取这个学期减肥20斤。心态：顺其自然，尽力而为，少于人比
AI技术助长骗局！人脸、声音、视频齐上阵，防不胜防！ njpkhuan
随着人工智能的迅猛发展，诈骗团伙的手段也越来越科技化，竟然用上了AI技术！此前，小媛报道了有人用知名男星AI版的声音差点行骗成功的事情。如果画面和声音同时AI化，那岂不是更容易被骗？如今，害怕的事情真的发生了。近期，“AI换脸”新型诈骗频发，和你视频对话的可能不是本人！有一位福州老板在10分钟内被骗走了430万元。据平安包头官微消息，包头市公安局电信网络犯罪侦查局发布了一起使用智能AI技术进行电信
Stable Diffusion-AI美女模特写真使用InstantID插件（附插件）快乐星球没有乐人工智能 stable diffusion 美女 midjourney 媒体音视频
ControlNet单元1：上传人脸定位照上传任意一张照片，它的作用是控制最终出图的人物脸部位置。我们可以和第一张图片一样。相关[参数设置如下：控制类型：选择"Instant_ID"预处理器：instant_id_face_keypoints模型：control_instant_id_sdxl控制权重：0.5左右（0.45-0.5）【第四步】图片的生成点击【生成】按钮，我们来看一下最终生成的图片效
厌11 电量百分之66
两人也就这个女人的奇怪，断断续续的有了一些对话，而女人也在他们离开的时候，结束了自己的作品，将一切都回归到原位。到了客车站点，三个人也是前后脚就上了车，两个职员，又是相互一对眼，这是巧合吗？这一次，女人依然与他们稍微近，是前后座，所以碍着本人在，两人并没有开口说什么，都各自稍微疑惑了一下。实则两个人是静静地观察着女人，女人脸上有些浓厚的妆，使得猜不出来是什么年纪，其实对于警署的人员，这个应该不难，
实现在不预览情况下获取摄像头原始回调数据 hfut_why android 相机不预览数据 camera
之前在解析百度离线人脸识别SDK的Demo封装的结构时，我就说到后面会介绍如何实现在不预览的情况下获取摄像头回调的元素数据，今天我们就来实现一下。下面先给出实现代码：packageaoto.com.cameranopreviewtest;importandroid.content.Context;importandroid.graphics.PixelFormat;importandroid.ha
解锁Python中的人脸识别：Face Recognition库详解与应用码上飞扬 Recognition 人脸识别
在当今的人工智能时代，人脸识别技术已经成为了计算机视觉领域的一项重要应用。无论是在安全监控、社交媒体还是智能设备中，人脸识别都扮演着不可或缺的角色。在众多的人脸识别工具和库中，Python的FaceRecognition库以其简单易用和高效性而备受青睐。本文将深入探讨FaceRecognition库的使用方法、工作原理及其应用场景，帮助你快速掌握这一强大的工具。一、什么是FaceRecogniti
再过30天，来这6个地方，遇见最美的郑州莫一一一一
初秋，阳光能穿过法桐的树叶洒在行人脸上，留下斑驳迷人的色彩。郑州这座城，有着热切且浓烈的法桐情怀。再过30天，迎宾路、人民路、纬一路这些道路两旁的法桐树就会变的金黄，原本遮天蔽日的树叶，便会随着秋风，落在路上，这应该是法桐最美的一个时刻，夏天绿的时候灿烂，秋天黄的时候烂漫。被秋风吹黄了的树叶，给人民公园也换了新的秋装。人民公园每年秋季会有菊花展，盛放的菊花争奇斗艳，凌风霜不凋谢，是深秋里温暖的色彩
2020-05-02 闫馨羽
昨天还艳阳高照，晒得人脸红彤彤的，今天天气就降温了，真是翻脸比翻书还快啊。儿子问我，“妈妈天空出现了好多乌云，是不是要下雨了？”我点了点头，顺便问了一句，那你的心情怎样呢？他兴奋地说:“那我就可以穿上新买的雨靴和雨衣出去玩了，太棒了，我的雨靴和雨衣终于派上用场了。”天哪这就是孩子的内心世界，我感觉有点吼不住了！身为80后的我，也是有童年的，竟然跟不上这个小家伙的思维了！瞬间开始回忆小时候的自己，虽
构建智能门禁安防系统：树莓派 4B、OpenCV、SQLite 和 MQTT 的应用（代码示例）极客小张 opencv sqlite jvm 单片机物联网计算机视觉树莓派
一、项目概述1.1项目目标和用途本项目旨在开发一个智能门禁安防系统，该系统利用摄像头和人脸识别技术，结合本地人脸库，实现对进出人员的自动识别和管理。系统能够实时记录进出人员的信息，并对未注册人员进行警报提示。通过与物联网平台的集成，用户可以远程监控和管理门禁系统，提升安全性和管理效率。1.2解决的问题和价值传统的门禁系统往往依赖于钥匙或密码，存在安全隐患和管理不便的问题。本项目通过人脸识别技术，解
【深度学习实战】行人检测追踪与双向流量计数系统【python源码+Pyqt5界面+数据集+训练代码】YOLOv8、ByteTrack、目标追踪、双向计数、行人检测追踪、过线计数阿_旭 AI应用软件开发实战深度学习实战深度学习 python 行人检测行人追踪过线计数
《博主简介》小伙伴们好，我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。✌更多学习资源，可关注公-仲-hao:【阿旭算法与机器学习】，共同学习交流~感谢小伙伴们点赞、关注！《------往期经典推荐------》一、AI应用软件开发实战专栏【链接】项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体
【激活函数总结】Pytorch中的激活函数详解： ReLU、Leaky ReLU、Sigmoid、Tanh 以及 Softmax 阿_旭深度学习知识点 pytorch 人工智能 python 激活函数深度学习
《博主简介》小伙伴们好，我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。感谢小伙伴们点赞、关注！《------往期经典推荐------》一、AI应用软件开发实战专栏【链接】项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体检测系统开发】5.【图片风格快速迁移软件开发】6.【人脸表表情识别系统】7.
Java封装大华SDK，实现门禁一体机的常用功能香蕉i java 物联网
Java封装大华SDK，实现门禁人脸一体机的常用功能大华sdk的相关资料在网上很少，刚接触比较难上手，这里将本人近期的研究成果进行分享。从大华官网下载相应环境下的sdk：自定义开发的工具类，这里主要实现的功能有：//1、远程开门//openDoor();//2、开门记录//findAccessRecords();//3、指定数量查询人员信息//findUserInfos();//4、通过ID查询人
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin