qq_41732387

MTCNN学习笔记

本人最近学习了MTCNN，跑了GitHub某大神的code，现在对该code的结构做一个小结，同时我所理解的MTCNN整理成笔记，并且对该大神的code中生成positive,negative,part样本python代码做了完整注释，同时对该code中用的NMS/IOU code部分做了注释。
项目地址：https://github.com/dlunion/mtcnn，>同时参考了几位大神的笔记：https://blog.csdn.net/qq_36782182/article/details/83624357，https://blog.csdn.net/u014380165/article/details/78906898

文章目录

MTCNN学习笔记

@[toc]

MTCNN

前言

代码架构

mtcnn.core.utils代码注释

gen_Pnet_train_data.py注释

运行环境

运行结果

MTCNN

前言

本文的损失函数，
在计算PNET RNET时，并没有考虑L（landmark）

代码架构

首先将数据下载并放入指定目录（具体是看readme）
因为数据集的训练标签是MATLAB格式的，所以先利用python ./anno_store/tool/format/transform.py 转换成txt
然后再利用python ./anno_store/tool/format/change.py 得到图像的原始边框

生成P-Net训练数据（positive、negative、part）
run > python mtcnn/data_preprocessing/gen_Pnet_train_data.py
run > python mtcnn/data_preprocessing/assemble_pnet_imglist.py
训练 P-Net
run > python mtcnn/train_net/train_p_net.py
PNET全称为Proposal Network，其基本的构造是一个全连接网络。对上一步构建完成的图像金字塔，通过一个FCN进行初步特征提取与标定边框，并进行Bounding-Box Regression调整窗口与NMS进行大部分窗口的过滤。
全卷积网络（FCN）就是去除了传统卷积网络的全连接层，然后对最后一个卷积层（或者其他合适的卷积层）的feature map进行上采样，使其恢复到原有图像的尺寸（或者其他），并对得到的图像上的每个像素点都可以进行一个类别的预测，同时保留了原有图像的空间信息。
Bounding-Box regression:
当IOU小于某个值时，一种做法是直接将其对应的预测结果丢弃，而Bounding-Box regression的目的是对此预测窗口进行微调，使其接近真实值。具体逻辑在图像检测里面，子窗口一般使用四维向量(x,y,w,h)表示，代表着子窗口中心所对应的母图像坐标与自身宽高，目标是在前一步预测窗口对于真实窗口偏差过大的情况下，使得预测窗口经过某种变换得到更接近与真实值的窗口。在实际使用之中，变换的输入输出按照具体算法给出的已经经过变换的结果和最终适合的结的变换，可以理解为一个损失函数的线性回归。
生成R-Net训练数据（positive、negative、part）
run > python mtcnn/data_preprocessing/gen_Rnet_train_data.py (可能你需要修改代码中已经训练好的P-Net模型路径，默认的是原来的模型)
run > python mtcnn/data_preprocessing/assemble_rnet_imglist.py
训练 R-Net
run > python mtcnn/train_net/train_r_net.py
R-NET全称为Refine Network，其基本的构造是一个卷积神经网络，相对于第一层的P-Net来说，增加了一个全连接层，因此对于输入数据的筛选会更加严格。在图片经过P-Net后，会留下许多预测窗口，我们将所有的预测窗口送入R-Net，这个网络会滤除大量效果比较差的候选框，最后对选定的候选框进行Bounding-Box Regression和NMS进一步优化预测结果。
生成O-Net训练数据（positive、negative、part）
-run > python mtcnn/data_preprocessing/gen_Onet_train_data.py
run > python mtcnn/data_preprocessing/gen_landmark_48.py #得到的实际人体面部特征点数据下载看readme
训练 O-Net
run > python mtcnn/train_net/train_o_net.py
mtcnn_test.py 可以测试人脸检测效果
O-Net全称为Output Network，基本结构是一个较为复杂的卷积神经网络，相对于R-Net来说多了一个卷积层。O-Net的效果与R-Net的区别在于这一层结构会通过更多的监督来识别面部的区域，而且会对人的面部特征点进行回归，最终输出五个人脸面部特征点。
P-Net主要用来生成一些候选框（bounding box）。在训练的时候该网络的顶部有3条支路用来分别做人脸分类、人脸框的回归和人脸关键点定位；在测试的时候这一步的输出只有N个bounding box的4个坐标信息和score，当然这4个坐标信息已经用回归支路的输出进行修正了，score可以看做是分类的输出（是人脸的概率），具体可以看代码。
R-Net主要用来去除大量的非人脸框。这一步的输入是前面P-Net生成的bounding box，每个bounding box的大小都是2424，可以通过resize操作得到。同样在测试的时候这一步的输出只有M个bounding box的4个坐标信息和score，4个坐标信息也用回归支路的输出进行修正了
O-Net和R-Net有点像，只不过这一步还增加了landmark（人体面部特征）位置的回归。输入大小调整为4848，输出包含P个bounding box的4个坐标信息、score和关键点信息。

整体框架

mtcnn.core.utils代码注释

def IoU(box, boxes):
    """Compute IoU between detect box and gt boxes

    Parameters:
    ----------
    box: numpy array , shape (5, ): x1, y1, x2, y2, score
        input box
    boxes: numpy array, shape (n, 4): x1, y1, x2, y2
        input ground truth boxes

    Returns:
    -------
    ovr: numpy.array, shape (n, )
        IoU
    """
    # 计算原始真实框的面积
    box_area = (box[2] - box[0] + 1) * (box[3] - box[1] + 1)
    # 计算移动后的框的面积，这里计算的是矩阵
    area = (boxes[:, 2] - boxes[:, 0] + 1) * (boxes[:, 3] - boxes[:, 1] + 1)
    # 找到两个框的内部点计算交集
    xx1 = np.maximum(box[0], boxes[:, 0])
    yy1 = np.maximum(box[1], boxes[:, 1])
    xx2 = np.minimum(box[2], boxes[:, 2])
    yy2 = np.minimum(box[3], boxes[:, 3])

    # 然后找到交集区域的长和宽，有的框没有交集那么相差可能为负，所以需要使用0来规整数据
    w = np.maximum(0, xx2 - xx1 + 1)
    h = np.maximum(0, yy2 - yy1 + 1)

    # 两种计算方法：1是交并比等于交集除以并集，2是交集除以最小的面积 本文采用的是第一种
    inter = w * h
    ovr = np.true_divide(inter,(box_area + area - inter))
    #ovr = inter / (box_area + area - inter)
    return ovr

#这个的意思就是网络输入size限定的，工具的作用就是在每个网络输入的时候就是图片纠正，
# 将图片改变成一个正方形的size，便于网络训练，作用其实很简单，因为在网络训练时一般
# 输入的是1212/2424/48*48这种类型的，但是进行我们训练难免会变形为矩形什么的，
# 所以我们就要进行矩形纠正。

def convert_to_square(bbox):
    """Convert bbox to square

    Parameters:
    ----------
    bbox: numpy array , shape n x 5
        input bbox

    Returns:
    -------
    square bbox
    """
    square_bbox = bbox.copy()

    h = bbox[:, 3] - bbox[:, 1] + 1
    w = bbox[:, 2] - bbox[:, 0] + 1
    max_side = np.maximum(h,w)
    square_bbox[:, 0] = bbox[:, 0] + w*0.5 - max_side*0.5
    square_bbox[:, 1] = bbox[:, 1] + h*0.5 - max_side*0.5
    square_bbox[:, 2] = square_bbox[:, 0] + max_side - 1
    square_bbox[:, 3] = square_bbox[:, 1] + max_side - 1
    return square_bbox

# 定义非极大值抑制(NMS)，筛选符合标准的线框
def nms(dets, thresh, mode="Union"):
    """
    greedily select boxes with high confidence
    keep boxes overlap <= thresh
    rule out overlap > thresh
    :param dets: [[x1, y1, x2, y2 score]]
    :param thresh: retain overlap <= thresh
    :return: indexes to keep
    """
    x1 = dets[:, 0]
    y1 = dets[:, 1]
    x2 = dets[:, 2]
    y2 = dets[:, 3]
    scores = dets[:, 4]  #得到iou分数矩阵

    # shape of x1 = (454,), shape of scores = (454,)
    # print("shape of x1 = {0}, shape of scores = {1}".format(x1.shape, scores.shape))
    # time.sleep(5)

    areas = (x2 - x1 + 1) * (y2 - y1 + 1)
    order = scores.argsort()[::-1] # 以计算出的iou从大到小排列
    # print("shape of order {0}".format(order.size)) # (454,)
    # time.sleep(5)

    # eleminates the box which have large interception with the box which have the largest score in order
    # matain the box with largest score and boxes don't have large interception with it
    keep = []
    while order.size > 0:
        i = order[0]
        keep.append(i)
        xx1 = np.maximum(x1[i], x1[order[1:]])
        yy1 = np.maximum(y1[i], y1[order[1:]])
        xx2 = np.minimum(x2[i], x2[order[1:]])
        yy2 = np.minimum(y2[i], y2[order[1:]])

        w = np.maximum(0.0, xx2 - xx1 + 1)
        h = np.maximum(0.0, yy2 - yy1 + 1)
        inter = w * h

        # cacaulate the IOU between box which have largest score with other boxes
        if mode == "Union":
            # area[i]: the area of largest score
            ovr = inter / (areas[i] + areas[order[1:]] - inter)
        elif mode == "Minimum":
            ovr = inter / np.minimum(areas[i], areas[order[1:]])

        inds = np.where(ovr <= thresh)[0]
        order = order[inds + 1] # +1: eliminates the first element in order
        # print(inds)
        # print("shape of order {0}".format(order.shape))  # (454,)
        # time.sleep(2)

    return keep

gen_Pnet_train_data.py注释

"""
采样出positive、part、negative样本并同时得到样本的label信息（采样图片包含三种size：12，24，48），其中Pnet的输入为12
将该程序的输出作为Pnet的输入
"""
import sys
import numpy as np
import cv2
import os
sys.path.append(os.getcwd())   #在windows系统上，导入python库目录
import numpy as np
from mtcnn.data_preprocess.utils import IoU

prefix = ''
anno_file = "./anno_store/anno_train_fixed.txt"   #label存放地址，通过transform.py和wider_loader.py 将图片处理成.txt
                                                      #再通过change.py将txt的bbox提取出来形成原图标注边框，并存入该文件夹
im_dir = "./data_set/face_detection/WIDERFACE/WIDER_train/WIDER_train/images"   #Wider_face主要用于检测任务的训练，数据集，image目录
pos_save_dir = "./data_set/train/12/positive"  #正样本
part_save_dir = "./data_set/train/12/part"     #部分样本
neg_save_dir = './data_set/train/12/negative' #负样本

#  生成文件夹函数
if not os.path.exists(pos_save_dir):
    os.mkdir(pos_save_dir)
if not os.path.exists(part_save_dir):
    os.mkdir(part_save_dir)
if not os.path.exists(neg_save_dir):
    os.mkdir(neg_save_dir)

# 打开保存pos,neg,part文件名、标签的txt文件，这三个是上面代码生成的
f1 = open(os.path.join('./anno_store', 'pos_12.txt'), 'w')
f2 = open(os.path.join('./anno_store', 'neg_12.txt'), 'w')
f3 = open(os.path.join('./anno_store', 'part_12.txt'), 'w')

# 打开原始图片标注txt文件
with open(anno_file, 'r') as f:
    annotations = f.readlines()
num = len(annotations)
print("%d pics in total" % num)

p_idx = 0 # positive
n_idx = 0 # negative
d_idx = 0 # part
idx = 0
box_idx = 0


# 原始图片根据标注的bbox，生成negative,posotive,part图片，标注形式也做相应变化
for annotation in annotations: #逐行读取，每行为一个原图
    annotation = annotation.strip().split(' ') #对读取的每一行，按空格进行切片
    im_path = os.path.join(prefix, annotation[0]) # annotation[0]为图片名，图片地址拼接

    bbox = list(map(float, annotation[1:])) #从第二个开始至最后为bbox
    boxes = np.array(bbox, dtype=np.int32).reshape(-1, 4) #矩阵化，对bbox进行reshape，4个一列
    img = cv2.imread(im_path) #读取图片
    idx += 1
    if idx % 100 == 0:
        print(idx, "images done")

    height, width, channel = img.shape

    neg_num = 0
    # 生成nagative，每个原图生成50个negative sample
    while neg_num < 50:
        # size表示neg样本大小，在12和min(width, height)/2之间随机取一个整数
        size = np.random.randint(12, min(width, height) / 2)
        nx = np.random.randint(0, width - size)
        ny = np.random.randint(0, height - size)
        crop_box = np.array([nx, ny, nx + size, ny + size]) # 随机生成的bbox位置(x1,y1)左上角边框,(x2,y2)右下角边框

        Iou = IoU(crop_box, boxes) # 计算随机生成的crop_box和原图中所有标注边框bboxs的交并比

        cropped_im = img[ny: ny + size, nx: nx + size, :]# 在原图中crop对应的区域图片，作为negative sample
        resized_im = cv2.resize(cropped_im, (12, 12), interpolation=cv2.INTER_LINEAR)# 对crop的图像进行resize，大小为12*12
                                                                                     #因为PNet的输入是12*12

        if np.max(Iou) < 0.3: # 如果crop_box与所有boxes的Iou都小于0.3，那么认为它是nagative sample
            # Iou with all gts must below 0.3
            save_file = os.path.join(neg_save_dir, "%s.jpg" % n_idx)# 保存图片的地址和图片名
            f2.write(save_file + ' 0\n') # 往neg_12.txt文件中写入该negative样本的图片地址和名字，分类标签
            cv2.imwrite(save_file, resized_im)# 保存该负样本图片
            n_idx += 1
            neg_num += 1

    for box in boxes:#逐行读取，每次循环处理一个box
        # box (x_left, y_top, x_right, y_bottom)
        x1, y1, x2, y2 = box
        # w = x2 - x1 + 1
        # h = y2 - y1 + 1
        w = x2 - x1 + 1
        h = y2 - y1 + 1

        #忽略小脸
        # in case the ground truth boxes of small faces are not accurate
        if max(w, h) < 40 or x1 < 0 or y1 < 0:
            continue

        # 产生与实际边框有交叠的负样本
        for i in range(5):
            size = np.random.randint(12, min(width, height) / 2)
            # delta_x and delta_y are offsets of (x1, y1)

            delta_x = np.random.randint(max(-size, -x1), w)
            delta_y = np.random.randint(max(-size, -y1), h)
            nx1 = max(0, x1 + delta_x)
            ny1 = max(0, y1 + delta_y)

            if nx1 + size > width or ny1 + size > height:
                continue
            crop_box = np.array([nx1, ny1, nx1 + size, ny1 + size])
            Iou = IoU(crop_box, boxes)

            cropped_im = img[ny1: ny1 + size, nx1: nx1 + size, :]
            resized_im = cv2.resize(cropped_im, (12, 12), interpolation=cv2.INTER_LINEAR)

            if np.max(Iou) < 0.3:
                # Iou with all gts must below 0.3
                save_file = os.path.join(neg_save_dir, "%s.jpg" % n_idx)
                f2.write(save_file + ' 0\n')
                cv2.imwrite(save_file, resized_im)
                n_idx += 1

        # 生成 positive examples and part faces
        for i in range(20):
            size = np.random.randint(int(min(w, h) * 0.8), np.ceil(1.25 * max(w, h)))# size表示随机生成样本的大小，
                                                                                 # 在int(min(w, h) * 0.8) 和 np.ceil(1.25 * max(w, h)) 之间

            # delta 表示相对于标注box center的偏移量
            delta_x = np.random.randint(-w * 0.2, w * 0.2)
            delta_y = np.random.randint(-h * 0.2, h * 0.2)
            # nx,ny表示偏移后的box坐标位置
            nx1 = max(x1 + w / 2 + delta_x - size / 2, 0)
            ny1 = max(y1 + h / 2 + delta_y - size / 2, 0)
            nx2 = nx1 + size
            ny2 = ny1 + size
            # 去掉超出原图的box
            if nx2 > width or ny2 > height:
                continue
            crop_box = np.array([nx1, ny1, nx2, ny2])
            # bbox偏移量的计算，由 x1 = nx1 + float(size)*offset_x1 推导而来
            offset_x1 = (x1 - nx1) / float(size)
            offset_y1 = (y1 - ny1) / float(size)
            offset_x2 = (x2 - nx2) / float(size)
            offset_y2 = (y2 - ny2) / float(size)

            cropped_im = img[int(ny1): int(ny2), int(nx1): int(nx2), :]
            resized_im = cv2.resize(cropped_im, (12, 12), interpolation=cv2.INTER_LINEAR)

            box_ = box.reshape(1, -1)# 将box reshape为一行
            if IoU(crop_box, box_) >= 0.65:# Iou>=0.65的作为positive examples
                save_file = os.path.join(pos_save_dir, "%s.jpg" % p_idx)# 将图片路径，类别，偏移量写入到pos_12.txt文件中
                f1.write(save_file + ' 1 %.2f %.2f %.2f %.2f\n' % (offset_x1, offset_y1, offset_x2, offset_y2))
                cv2.imwrite(save_file, resized_im)
                p_idx += 1
            elif IoU(crop_box, box_) >= 0.4:# 0.4<=Iou<0.65的作为part faces
                save_file = os.path.join(part_save_dir, "%s.jpg" % d_idx)
                f3.write(save_file + ' -1 %.2f %.2f %.2f %.2f\n' % (offset_x1, offset_y1, offset_x2, offset_y2))
                cv2.imwrite(save_file, resized_im)
                d_idx += 1
        box_idx += 1
        print("%s images done, pos: %s part: %s neg: %s" % (idx, p_idx, d_idx, n_idx))

f1.close()
f2.close()
f3.close()
#产生交叠比小于0.3的负样本，0.4-0.65的部分样本 大于0.6的正样本

运行环境

pytorch1.0 python3.5，win10

运行结果

计算机视觉：经典数据格式(VOC、YOLO、COCO)解析与转换(附代码) 全栈你个大西瓜人工智能计算机视觉 YOLO 目标跟踪人工智能数据标注目标检测 COCO
第一章：计算机视觉中图像的基础认知第二章：计算机视觉：卷积神经网络(CNN)基本概念(一)第三章：计算机视觉：卷积神经网络(CNN)基本概念(二)第四章：搭建一个经典的LeNet5神经网络(附代码)第五章：计算机视觉：神经网络实战之手势识别(附代码)第六章：计算机视觉：目标检测从简单到容易(附代码)第七章：MTCNN人脸检测技术揭秘：原理、实现与实战(附代码)第八章：探索YOLO技术：目标检测的高
生成对抗网络(GAN)：从概念到代码实践(附代码) 全栈你个大西瓜人工智能计算机视觉人工智能 GAN 网络对抗学习手势识别生成器与鉴别器生成对抗网络
第一章：计算机视觉中图像的基础认知第二章：计算机视觉：卷积神经网络(CNN)基本概念(一)第三章：计算机视觉：卷积神经网络(CNN)基本概念(二)第四章：搭建一个经典的LeNet5神经网络(附代码)第五章：计算机视觉：神经网络实战之手势识别(附代码)第六章：计算机视觉：目标检测从简单到容易(附代码)第七章：MTCNN人脸检测技术揭秘：原理、实现与实战(附代码)第八章：探索YOLO技术：目标检测的高
MTCNN 人脸检测技术揭秘：原理、实现与实战(附代码) 全栈你个大西瓜人工智能计算机视觉人工智能 MTCNN 人脸检测卷积神经网络
第一章：计算机视觉中图像的基础认知第二章：计算机视觉：卷积神经网络(CNN)基本概念(一)第三章：计算机视觉：卷积神经网络(CNN)基本概念(二)第四章：搭建一个经典的LeNet5神经网络(附代码)第五章：计算机视觉：神经网络实战之手势识别(附代码)第六章：计算机视觉：目标检测从简单到容易(附代码)第七章：MTCNN人脸检测技术揭秘：原理、实现与实战(附代码)第八章：探索YOLO技术：目标检测的高
face-kkk 山山而川_R face 深度学习
目录一、配置环境1、新建虚拟环境2、配置环境安装包3、下载安装使用环境二、注册新人1、采集照片2、注册新人3、测试视频或摄像头三、配置文件config1、项目配置文件configs/configs.py，用于设置人脸检测模型，特征提取模型二、下面是自己测试用（个人的一个记录，不具备参考意义）MTCNN人脸检测参考项目：GitHub-Sierkinhane/mtcnn-pytorch:Afacede
深度学习论文精读（7）：MTCNN hwl19951007 计算机视觉论文精读
深度学习论文精读（7）：MTCNN论文地址：JointFaceDetectionandAlignmentusingMulti-taskCascadedConvolutionalNetworks译文地址：https://zhuanlan.zhihu.com/p/37884254参考博文1：https://zhuanlan.zhihu.com/p/38520597官方地址：https://kpzhan
MTCNN人脸检测算法 samuelwang_ccnu 深度学习
人脸检测是指识别数字图像中的人脸。人脸检测可以视为目标检测的一种特殊情况。在目标检测中，任务是查找图像中特定类的所有对象的位置和大小。例如行人和汽车。在人脸检测中应用较广的算法就是MTCNN（Multi-taskCascadedConvolutionalNetworks的缩写）。MTCNN算法是一种基于深度学习的人脸检测和人脸对齐方法，它可以同时完成人脸检测和人脸对齐的任务，相比于传统的算法，它的
人脸识别算法MTCNN论文解读纸上得来终觉浅～图像处理 paper阅读人脸识别 mtcnn
论文名称：JointFaceDetectionandAlignmentusingMulti-taskCascadedConvolutionalNetworks论文地址：https://www.lao-wang.com/wp-content/uploads/2017/07/1604.02878.pdf1、MTCNN原理MTCNN，Multi-taskconvolutionalneuralnetwor
MTCNN训练迷若烟雨人脸识别 tensorflow 深度学习 caffe
MTCNN是当前效果最好的开源人脸检测算法之一，作者只提供了训练好的模型以及matlab部署代码，其训练和优化却没有放出来，引发了很多好事者复现如果只是要部署的话可以使用MTCNN，其提供了部署全平台实现，包括C++、python、ncnn和tensorflow，还有加速版本和opencv直接加载版本，是所有版本中的集大成者如果想了解算法原理，可以参考MTCNN_Step_by_Step本文的训练
【人脸识别系列】从知名DeepFace人脸识别库入手详解人脸识别---第三部分DeepFace库使用介绍之人脸检测模型介绍 Hello_WOAIAI CV 人脸识别目标检测计算机视觉视觉检测图像处理 YOLO opencv
【人脸识别系列】从知名DeepFace人脸识别库入手详解人脸识别---第三部分DeepFace库使用介绍之人脸检测器介绍前言DeepFace库人脸检测器OpenCV人脸检测器RetinaFace人脸检测器mtcnn人脸检测器sdd人脸检测器dlib人脸检测器mediapipe人脸检测器yolov8人脸检测器人脸识别系列其他文章【人脸识别系列】从知名DeepFace人脸识别库入手详解人脸识别—第一部
人脸识别数据集整理想努力的人人脸识别深度学习人工智能计算机视觉
转自：人脸识别数据集整理-陈晓涛-博客园insightface提供整理了mtcnn裁剪112x112，mxnet二进制方式保存的数据集https://github.com/deepinsight/insightface/wiki/Dataset-Zoo人脸识别训练数据集：CASIA-Webface(10Kids/0.5Mimages)CASIAWebFaceDataset是一个大规模人脸数据集，主
人脸识别基于MTCNN网络的人脸检测与对齐算法（MTCNN代码复现）郭庆汝 MTCNN人脸识别
人脸识别基于MTCNN网络的人脸检测与对齐算法（MTCNN代码复现）论文背景人脸检测与人脸对齐意义论文的研究成果人脸检测的研究趋势论文采用的方法思路阶段一阶段二：阶段三卷积网络设计层面Loss损失函数的设定面部分类边界框回归人脸关键点定位L2范数在线困难挖掘论文实验数据集网络模块代码实现激活函数P-Net模块代码R-Net模块代码O-Net图像处理过程中图像金字塔MTCNN项目代码实现关于训练流程
MTCNN理论笔记榴莲薄饼
Multi-taskCascadedConvolutionalNetworks(MTCNN)开源资源：论文链接：https://arxiv.org/ftp/arxiv/papers/1604/1604.02878.pdfGithub链接(tensorflow版本)：https://github.com/AITTSMD/MTCNN-Tensorflow1.MTCNN训练过程1.1datainput：
人脸检测与人脸特征点定位 ※海绵※的笑~ 人脸识别人脸识别
本节内容：▸1.人脸识别发展介绍——从非深度到深度▸2.人脸识别的难点▸3.人脸识别的评测方法▸4.重点几种模型的原理理讲解（MTCNN/FaceNet（OpenFace））▸5.TensorFlow实现的MTCNN+FaceNet的人脸检测▸6.推荐的开源的人脸检测项⽬目非深度检测人脸的原理：用一个固定大小的区域不断的遍历整个画面，每一个框和训练的结果做比对（或者是分类），比对结果（分类结果）若
移动端unet人像分割模型--1 xiexiecn 移动端神经网络深度学习 mxnet ncnn unet
个人对移动端神经网络开发一直饶有兴致。去年腾讯开源了NCNN框架之后，一直都在关注。近期成功利用别人训练好的mtcnn和mobilefacenet模型制作了一个ios版本人脸识别swift版本demo。希望maskrcnn移植到ncnn，在手机端实现一些有趣的应用。因为unet模型比较简单，干脆就从这个入手。基本的网络基于keras版本:https://github.com/TianzhongSo
用mtcnn+keras+facenet实现简易的人脸识别胖头鱼青年人工智能-人脸识别 tensorflow 人脸识别深度学习人工智能
人工智能-人脸识别采用mtcnn+keras+facenet深度学习算法文章目录人工智能-人脸识别采用mtcnn+keras+facenet深度学习算法前言：在前段时间的挑板杯和互联网+的双赛中，我们和校企合作的项目疲劳驾驶检测预警，在经专家点评后发现其中的人脸识别功能算法需要完善，所以经过多方学习，根据哔站大牛[**Bubbliiiing**](https://space.bilibili.co
常见人脸检测器, 调用摄像头检测人脸小啊磊_Vv 深度学习和视觉项目实战 opencv python 人工智能深度学习
常见人脸检测器,调用摄像头检测人脸文章目录常见人脸检测器,调用摄像头检测人脸@[TOC](文章目录)前言一、导入相关包二、Haar检测器三、Hog检测器四、CNN检测器五、SSD检测器六、MTCNN检测器七、Opencv结合检测器检测人脸7.1Hog检测器7.2Haar检测器前言主要介绍几种常见的人脸检测器,并结合opencv调用摄像头进行人脸的实时检测。一、导入相关包importcv2impor
MIGraphX推理框架第八章-动态Shape 染念 #MIGraphX推理框架人工智能深度学习 c++python linux MIGraphX 推理框架
第七章介绍了MIGraphX的性能优化，可以在此跳转进行回顾第八章-动态Shape动态shape动态shape的限制支持动态Shape的模型不支持动态shape的解决方案动态shape在实际业务中，我们会遇到有多种输入shape的模型，比如CV领域的目标检测模型MTCNN，SSD和YOLO，在MIGraphX中实现动态shape主要包含下面几个步骤：设置环境变量：exportMIGRAPHX_DY
基于MTCNN和Arc-Loss的人脸识别（详细版）雨落的太敷衍.. AI 深度学习算法 python 神经网络计算机视觉
文章目录一、人脸识别介绍1.1发展历史1.2什么是人脸识别？二：人脸识别步骤2.1人脸侦测2.2特征提取2.3特征对比三：人脸识别难点四：人脸检测原理五：YOLO和MTCNN的比较六：人脸识别的方法6.1早期的机器学习方法（2012年之前）：6.2现在常用的深度学习方法（2016年之后）：七：人脸特征定位八：人脸识别应用案例九：人脸检测模型MTCNN9.1什么是MTCNN?9.2为什么学习MTCN
canvas+face-api人脸实时检测即将牛逼的蛋蛋
实时检测和拍照检测的区别就在于，识别的准确度实时监测的需要根据视频的帧数（当然没多少帧检测一次完全取决于我们）去检测，面部识别只是静态的照片，所以实时检测只采取了Mtcnn检测和面部识别，速度提升，并且实时检测，缺点就是准确度下降上代码：下一篇文章会结合nodejs完成一个前端识别，后端检测的一个功能。视频识别人脸constcanvas=document.getElementById('overl
facenet 人脸模型训练 reset2021 python 人脸识别 python 人脸识别
人脸检测与特征描述是人脸相关项目应用的基础（包括人脸识别，人脸认证以及人脸聚类等）本文以mtcnn与facent算法为基础，讲述怎样训练自己的人脸模型。主题框架采用的是facenet源码，依据具体需求，对facnet做了一定的修改，facenet源码见https://github.com/davidsandberg/facenet1、数据集收集由于目前开源的数据集中，大多数都是欧美人士的，直接用这
多尺度特征融合总结（金字塔结构） m0_53955985 其他计算机视觉人工智能深度学习
多尺度特征融合参考连接：多尺度融合介绍MTCNN论文解读图像金字塔----高斯和拉普拉斯一、什么是多尺度？所谓多尺度，实际上就是对信号的不同粒度的采样，通常在不同的尺度下我们可以观察到不同的特征，从而完成不同的任务通常来说粒度更小/更密集的采样可以看到更多的细节，粒度更大/更稀疏的采样可以看到整体的趋势二、深浅层蕴含的不同信息深层网络的感受野比较大，语义信息表征能力强，但是特征图的分辨率低，几何信
在 Ubuntu20.02下编译 FaceRecognition_MTCNN_FaceNet Tonyfield neo4j
1.compileFaceRecognition_MTCNN_FaceNet-mastergitclonehttps://github.com/Chanstk/FaceRecognition_MTCNN_FaceNet.gitcdFaceRecognition_MTCNN_FaceNetmkdirbuild&&cdbuildcmake.. &&make+----------------------
2019-09-28 MTCNN 实验部分详解2 sharer7717
image.pngimage.pngimage.pngimage.pngimage.pngimage.pngimage.pngimage.pngimage.pngimage.pngimage.pngimage.pngimage.pngimage.pngimage.png
【人脸检测】Compact Cascade CNN和MTCNN算法城市中迷途小书童
【文章导读】目前人脸识别技术已经遍地开花，火车站、机场、会议签到等等领域都有应用，人脸识别的过程中有个重要的环节叫做人脸检测，顾名思义就是在一张图片中找出所有的人脸的位置，早期的人脸检测是用人工提取特征的方式，训练分类器，比如opencv中自带的人脸检测器使用了haar特征，早期的这种算法自然是鲁棒性、抗干扰性太差，本文主要来介绍近几年的几种用卷积神经网络做的经典算法。1、CompactCasca
下载安装mtcnn 使用国内镜像源在cmd窗口或pycharm terminal窗口pip install mtcnn报错 weixin_44194001 pycharm python pip
下载安装MTCNNERROR:Couldnotfindaversionthatsatisfiestherequirementmtcnn(fromversions:none)ERROR:NomatchingdistributionfoundformtcnnERROR:Couldnotfindaversionthatsatisfiestherequirementmtcnn(fromversions:n
tensorflow对深度学习生成的pb模型文件的保存与读取及节点和张量的输出 loveliuzz 深度学习
一、pb模型的保存1、MTCNN人脸检测算法中官网训练好的参数保存在三个文件名称分别为：det1.npy、det2.npy、det3.npy的后缀名为.npy文件中（.npy文件也是一种以二进制保存的文件），将.npy文件转换为.pb模型文件的方法通过以下代码实现：importtensorflowastfimportdetect_faceimportosfromtensorflow.python.
conda中配置MTCNN coding_ksy #计算机视觉 conda
尝试下面的2组的命令第一组condainstall-cconda-forgetensorflowondainstall-cconda-forgemtcnn第二组condainstallmtcnncondainstalltensorflow
人脸检测 - mtcnn @kc++ Computer Vision 深度学习人工智能 python
文章目录1.人脸检测2.mtcnn2.1概述2.2网络结构2.2.1构建图像金字塔2.2.2P-Net2.2.3R-Net（RefineNetwork）：2.2.4O-Net（OutputNetwork）:3.总结4.代码示例4.1mtcnn.py4.2detect.py4.3utils.py1.人脸检测人脸检测/人脸识别，是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集
2019-09-28 MTCNN代码讲解3 sharer7717
1、激活函数：preluimage.pngimage.pngimage.png加入了一个平滑层flattenimage.png2、处理图像，生成图像金字塔image.pngimage.pngimage.png边框回归：image.pngimage.pngimage.png
Python实现人脸识别功能 WYKB_Mr_Q 日常记录 python 开发语言深度学习
Python实现人脸识别功能闲来没事，记录一下前几天学习的人脸识别小项目。要想实现人脸识别，我们首先要搞明白，人脸识别主要分为哪些步骤？为了提高人脸识别的准确性，我们首先要把图像或视频中的人脸检测出来，然后使用分类网络，对检测到的人脸进行分类。概括起来，主要包括：人脸检测和人脸分类两个部分。人脸检测人脸检测部分我们直接使用现成的MTCNN，它的模型结构如下图所示，主要由三个级联的简单网络组成。首先
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla

MTCNN学习笔记

MTCNN学习笔记

文章目录 MTCNN学习笔记 @[toc] MTCNN 前言 代码架构 mtcnn.core.utils代码注释 gen_Pnet_train_data.py注释 运行环境 运行结果

文章目录

MTCNN

前言

代码架构

mtcnn.core.utils代码注释

gen_Pnet_train_data.py注释

运行环境

运行结果

你可能感兴趣的:(MTCNN)

文章目录

MTCNN学习笔记

@[toc]

MTCNN

前言

代码架构

mtcnn.core.utils代码注释

gen_Pnet_train_data.py注释

运行环境

运行结果