「已注销」

MTCNN人脸检测 pytorch实现全流程详解

概述

MTCNN，Multi-task convolutional neural network（多任务卷积神经网络）。该模型利用级联思想，化繁为简，通过三个级联的网络：P-Net（Proposal Network）、R-Net（Refine Network）和O-Net（Output Network），逐层筛选。在每个网络都非常简单，易于训练的同时，实现了高精度的人脸检测。

思路

人脸检测属于单类多目标检测，相对于单类单目标，实现中有以下问题：

人脸数目
因为不知道1张图中需要检测多少人脸，也就不能通过网络直接输出预测值。
解决方法：像卷积操作中卷积核的滑动一样，以一定的大小和步长扫描整张图片，将扫描到的小图输入网络做检测。
人脸大小
紧接着的问题是：如何确定“卷积核”大小？
因为需要检测的人脸大小也不确定，所以考虑应该用不同大小的“卷积核”去扫描。
反之，也可以保持“卷积核”不变，通过数次缩小原图（图像金字塔）来实现。
精度不高
如果像普通单类单目标任务一样，直接回归真实人脸框，那么检测中一旦错过了合适的框，就错过该目标了。
因此MTCNN中一个精妙的点在于：不直接学习真实框，而是学习偏移框，由偏移量反算回真实框。
这样做的好处是：在人脸目标周围，会检测到多个偏移框，从而反算回多个预测框，大大增加了容错率。
一大堆框
这样就可以将不同大小的扫描图片传入P-Net检测，在一大堆重叠的预测框中，我们需要的，只应该是其中最确定的那一个，这就依赖于NMS操作了。

数据处理

选择CelebA人脸数据集，标签为人脸框左上角坐标：x1、y1，宽高：w、h，及5个人脸特征点坐标。

对真实框中心坐标做随机偏移，最大边长+随机量作为新边长，生成正方形框。可以选择将1张图片增样成数张。
将正方形框和原真实框做 IOU，通过设定 IOU 的阈值，将生成框划分为正样本、负样本、部分样本。
裁下正方形框，resize成尺寸12、24、48，分别用于P、R、O网络训练。
计算生成框坐标、5个人脸特征点坐标的偏移量，负样本偏移量均设为0，因其不参与坐标回归训练。
计算偏移量作用相当于归一化，加快收敛。
将置信度、2个生成框坐标偏移量、5个人脸特征点坐标偏移量，共15个值写入txt文件作为训练标签。

生成框坐标偏移量计算如下图，其余特征点坐标偏移量计算方法同 (_x1，_y1)，对左上角点做偏移即可，也可以自己找一个点做偏移，如右下角点或矩形中点，测试时按对应点反算坐标。

我处理后的3种样本数据集，每种尺寸20万张，共60万张。

正样本：

部分样本：

负样本：

工具

非极大值抑制

交并比（Intersection-over-Union，IOU），两个图形交集与并集的比值，表示重叠程度。

需要注意的是：在最后的O网络输出时，将把 IOU 计算公式中分母改为A和B中的面积较小值，从而去除候选框大框套小框的情况。

非极大值抑制（Non-Maximum Suppression，NMS）
作用：在同一个人脸的一堆候选框中，选出最可信的一个。
步骤1：将候选框按置信度降序排序
步骤2：第一个候选框依次与之后的框做 IOU，大于设定阈值的框（认为同一个人脸）舍弃
步骤3：保留第一个候选框，剩余的候选框重复步骤1~步骤3，直至剩下一个框，保留。
最后保留下来的候选框就是 NMS 处理后的结果。

Soft-NMS 是对 NMS 的一种改进。

伪代码如图：

B: 初始检测框集合，S：对应检测框的分数， Nt ：IOU的阈值，M ：得分最高的检测框

NMS 的处理是将大于 IOU 阈值的框直接舍弃（分数置0），这样容易错过一些重合度较大的框。

Soft-NMS 的思路：根据 IOU 的值降低框的得分，最后根据分数阈值统一删除。
降低置信度的方法有两种：

线性加权（不连续）
高斯加权（连续）

这两种方法在实验中效果差别不大，因此代码中我选择第一种更简洁的形式。

def nms(boxes, thresh=0.3, is_min=False, softnms=False):
    if boxes.shape[0] == 0:
        return np.array([])
    _boxes = boxes[(-boxes[:, 14]).argsort()]    # 按置信度排序
    r_boxes = []

    while _boxes.shape[0] > 1:
        a_box = _boxes[0]
        b_boxes = _boxes[1:] 
        score = b_boxes[:, 14]
        r_boxes.append(a_box)

        if softnms:
            score_thresh = 0.5
            # IOU>阈值的框 置信度衰减
            t_idx = np.where(iou(a_box, b_boxes, is_min) > thresh)
            score[t_idx] *= (1 - iou(a_box, b_boxes, is_min))[t_idx]
            # 删除分数<阈值的框
            _boxes = np.delete(b_boxes, np.where(score < score_thresh), axis=0)
        else:
            # 筛选IOU<阈值的框
            index = np.where(iou(a_box, b_boxes, is_min) < thresh)
            _boxes = b_boxes[index]

    # 剩余最后1个框 保留
    if _boxes.shape[0] > 0:
        r_boxes.append(_boxes[0])

    # 把list组装成矩阵
    return np.stack(r_boxes)

下图为 NMS 和Soft-NMS 效果对比

图像金字塔

保持检测框尺寸不变（如12），将待检测图像按一定比例连续缩小，直到图像短边尺寸小于检测框尺寸。
每次缩小的图片上再用检测框滑动检测，这样就能涵盖原图上大于检测框尺寸的所有人脸。
缩小比例一般用0.6或0.7，官方推荐0.709，是根据让每次图像面积缩小一半得出的。

网络结构

P网络采用全卷积结构，最后一层用1×1 的卷积层代替全连接层，这是因为P网络训练时使用的是12×12的图片，但是待检测的图像尺寸并不是，如果最后一层用全连接，shape转换会报错。
P网络输出的建议框，尺寸resize成24、48之后，才传入R、O网络，所以R、O网络最后一层用全连接即可。

我的网络增加了BatchNormal层，因此卷积中的偏置参数可以去掉。
其中池化层还可以用卷积层替代，网络表达能力更好。

import torch
import torch.nn as nn
import torchsummary


class PNet(nn.Module):
    def __init__(self):
        super(PNet, self).__init__()
        self.pre_layer = nn.Sequential(
            nn.Conv2d(3, 10, kernel_size=3, stride=1, bias=False),          # 10*10*10
            nn.BatchNorm2d(10),
            nn.PReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2, padding=0),               # 5*5*10
            nn.Conv2d(10, 16, kernel_size=3, stride=1, bias=False),         # 3*3*16
            nn.BatchNorm2d(16),
            nn.PReLU(),
            nn.Conv2d(16, 32, kernel_size=3, stride=1, bias=False),         # 1*1*32
            nn.BatchNorm2d(32),
            nn.PReLU()
        )

        self.conv_1 = nn.Conv2d(32, 1, kernel_size=1, stride=1)
        self.conv_2 = nn.Conv2d(32, 14, kernel_size=1, stride=1)

    def forward(self, x):
        y = self.pre_layer(x)
        cls = torch.sigmoid(self.conv_1(y))
        offset = self.conv_2(y)
        return cls, offset


class RNet(nn.Module):
    def __init__(self):
        super(RNet, self).__init__()
        self.pre_layer = nn.Sequential(
            nn.Conv2d(3, 28, kernel_size=3, stride=1, bias=False),          # 22*22*28
            nn.BatchNorm2d(28),
            nn.PReLU(),
            nn.MaxPool2d(kernel_size=3, stride=2, padding=1),               # 11*11*28
            nn.Conv2d(28, 48, kernel_size=3, stride=1, bias=False),         # 9*9*48
            nn.BatchNorm2d(48),
            nn.PReLU(),
            nn.MaxPool2d(kernel_size=3, stride=2),                          # 4*4*48
            nn.Conv2d(48, 64, kernel_size=2, stride=1, bias=False),         # 3*3*64
            nn.BatchNorm2d(64),
            nn.PReLU()

        )
        self.fc1 = nn.Sequential(
            nn.Linear(64 * 3 * 3, 128),
            nn.PReLU()
        )
        self.fc2_1 = nn.Linear(128, 1)
        self.fc2_2 = nn.Linear(128, 14)

    def forward(self, x):
        y = self.pre_layer(x)
        y = y.view(y.size(0), -1)
        y = self.fc1(y)
        cls = torch.sigmoid(self.fc2_1(y))
        offset = self.fc2_2(y)
        return cls, offset


class ONet(nn.Module):
    def __init__(self):
        super(ONet, self).__init__()
        self.pre_layer = nn.Sequential(
            nn.Conv2d(3, 32, kernel_size=3, stride=1, bias=False),          # 46*46*32
            nn.BatchNorm2d(32),
            nn.PReLU(),
            nn.MaxPool2d(kernel_size=3, stride=2, padding=1),               # 23*23*32
            nn.Conv2d(32, 64, kernel_size=3, stride=1, bias=False),         # 21*21*64
            nn.BatchNorm2d(64),
            nn.PReLU(),
            nn.MaxPool2d(kernel_size=3, stride=2),                          # 10*10*64
            nn.Conv2d(64, 64, kernel_size=3, stride=1, bias=False),         # 8*8*64
            nn.BatchNorm2d(64),
            nn.PReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2),                          # 4*4*64
            nn.Conv2d(64, 128, kernel_size=2, stride=1, bias=False),        # 3*3*128
            nn.BatchNorm2d(128),
            nn.PReLU()
        )
        self.fc1 = nn.Sequential(
            nn.Linear(128 * 3 * 3, 256),
            nn.PReLU()
        )
        self.fc2_1 = nn.Linear(256, 1)
        self.fc2_2 = nn.Linear(256, 14)

    def forward(self, x):
        y = self.pre_layer(x)
        y = y.view(y.size(0), -1)
        y = self.fc1(y)
        cls = torch.sigmoid(self.fc2_1(y))
        offset = self.fc2_2(y)
        return cls, offset


if __name__ == '__main__':
    # torchsummary.summary(PNet().cuda(), (3, 12, 12))
    torchsummary.summary(RNet().cuda(), (3, 24, 24))
    # torchsummary.summary(ONet().cuda(), (3, 48, 48))

训练流程

用生成的12、24、48尺寸数据分别训练P网络、R网络、O网络，3个网络能力递增，可并行训练。

损失 Loss 分为两部分：

置信度损失
置信度即判断是否为人脸，由正样本和负样本训练，损失函数选择二值交叉熵损失(BCELoss)。
偏移量损失
偏移量用来回归人脸框和特征点坐标，由正样本和部分样本训练，损失函数选择均方差损失(MSELoss)。

置信度损失与偏移量损失的加权和，即为总损失。

P、R网络更加注重分类精度训练，找到可靠的候选区域，回归精度在O网络中达到要求即可。
权重 alpha 值可自行尝试，我选择的值分别为0.8、0.7、0.5。

每5轮绘制训练损失、分类准确率、偏移量r2分数的图像。

import os
import torch
import torch.optim as optim
import numpy as np
from torch.utils.data import DataLoader
from torch import nn
from sample import FaceDataset
from sklearn.metrics import r2_score
import matplotlib.pyplot as plt


class Trainer:
    def __init__(self, net, save_path, dataset_path):、
        self.device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
        self.net = net.to(self.device)
        self.save_path = save_path
        self.dataset_path = dataset_path
        self.cls_loss_fn = nn.BCELoss()
        self.offset_loss_fn = nn.MSELoss()
        self.optim_adam = optim.Adam(self.net.parameters())
        self.optim_sgd = optim.SGD(self.net.parameters(), lr=5e-4, momentum=0.9)
        if os.path.exists(self.save_path):
            # load_state_dict 接收字典对象
            net.load_state_dict(torch.load(self.save_path))
        else:
            print("No Param")

    def train(self, epochs=int(), alpha=0.5):
        dataset = FaceDataset(self.dataset_path)
        loader = DataLoader(dataset, batch_size=2048, shuffle=True, num_workers=4, pin_memory=True)

        loss_list = []
        acc_list = []
        r2_list = []
        for epoch in range(epochs):
            true_num = 0
            all_num = 0
            train_loss = 0
            r2_arr = np.array([])
            optimizer = self.optim_adam if epoch < (epochs / 2) else self.optim_sgd
            print("epoch:\t{}".format(epoch + 1))
            for i, (data, cls, offset) in enumerate(loader):
                data, cls, offset = data.to(self.device), cls.to(self.device), offset.to(self.device)
                output_cls, output_offset = self.net(data)
                # P输出格式 NCHW (N,1,1,1) R/O输出格式 NC (N,1)
                output_cls = output_cls.view(-1, 1)
                output_offset = output_offset.view(-1, 14)

                # 分类损失
                category = torch.masked_select(cls, cls < 2)
                output_cls = torch.masked_select(output_cls, cls < 2)
                pred = torch.where(output_cls > 0.5, torch.tensor(1).cuda(), torch.tensor(0).cuda())
                true_num += (pred == category).sum().item()
                all_num += category.shape[0]
                cls_loss = self.cls_loss_fn(output_cls, category)

                # 偏移量损失
                offset = torch.masked_select(offset, cls > 0)
                output_offset = torch.masked_select(output_offset, cls > 0)
                offset_loss = self.offset_loss_fn(output_offset, offset)

                loss = alpha * cls_loss + (1 - alpha) * offset_loss
                optimizer.zero_grad()
                loss.backward()
                optimizer.step()

                cls_loss = cls_loss.cpu().item()
                offset_loss = offset_loss.cpu().item()
                loss = loss.cpu().item()

                train_loss += (loss * cls.shape[0])

                if i % 20 == 0:
                    r2_ = r2_score(offset.detach().cpu().numpy(), output_offset.detach().cpu().numpy())
                    r2_arr = np.append(r2_arr, r2_)
                    print("loss: {:.8f}\tcls_loss: {:.8f}\toffset_loss: {:.8f}".format(loss, cls_loss, offset_loss))

            train_loss /= len(dataset)
            loss_list.append(train_loss)
            print("loss:\t\t{:.6f}".format(train_loss))

            accuracy = true_num / all_num
            acc_list.append(accuracy)
            print("accuracy:\t{:.4f}%".format(accuracy * 100))

            r2 = r2_arr.mean()
            r2_list.append(r2)
            print("r2_score:\t{:.6f}".format(r2))

            torch.save(self.net.state_dict(), self.save_path)
            print("Saved successfully\n")

            if (epoch + 1) % 5 == 0:
                plt.figure(figsize=(15, 5))
                plt.subplot(131)
                plt.plot(loss_list)
                plt.title('loss')

                plt.subplot(132)
                plt.plot(acc_list)
                plt.title('accuracy')

                plt.subplot(133)
                plt.plot(r2_list)
                plt.title('r2_score')
                plt.savefig('graph/loss{}.png'.format(epoch + 1))

检测流程

检测流程是难点，具体如下：

坐标反算
坐标反算分为两部分：

P网络中由输出特征图反算回偏移框坐标。
偏移框根据偏移量反算回原图坐标

先看第一部分，为了方便画图，暂时忽略5个特征点坐标。P网络输出的是全卷积后的特征图，分为两部分：置信度 cls (1,1,H,W) 和偏移量 offset (1,4,H,W)，共5个通道。
P网络作为全卷积网络，对输入尺寸大于12×12的图片，相当于用12×12的卷积核做卷积，这个过程就巧妙地实现了用检测框扫描全图。需要注意的是，这个卷积过程的步长，相当于P网络中每层卷积的步长乘积，即等于2。
如下图，假设测试图片尺寸为14×16，输入P网络后，输出特征图shape为 (1, 5, 2, 3) 。特征图中红点 (H, W) 的坐标为 (1, 2)，对应卷积前原图中的红框区域，我们的任务就是由 (H, W) 的坐标 (1, 2) 反算回红框在原图中的坐标。

左上角坐标 = (特征图坐标 × 卷积步长)
右下角坐标 = (左上角坐标 + 卷积核大小)

在该栗子中，左上角坐标 = (2, 1) × 2 = (4, 2)，右下角坐标 = (4, 2) + (12, 12) = (16, 14) 。
注意到 (H, W) 应该对应坐标 (y, x)，所以计算时候需要交换位置。
因为原图是经过图像金字塔才输入网络的，所以还需除以相对于原图的缩小比例scale，才能得到原图中的偏移框坐标。

第二部分比较简单，根据生成数据时偏移量的计算公式，由偏移框坐标 (_x1, _y1, _x2, _y2) 、偏移框尺寸_side_len、网络输出的偏移量offset，反算即可。

对P网络得到的预测框，根据置信度进行筛选。
因为P网络的精度最低，任务是要选出所有可能的建议框传给后边的网络，所以筛选较为宽松。比如阈值可以给0.6，所有预测分类置信度大于0.6的框就都留下。
剩余的框进行坐标反算，然后经过 NMS 处理，去除重合度过大的框。这里的 IOU 阈值也是自己给定。
最后将框按长边填充成正方形，resize成24×24，传入R网络。

R网络的处理就较简单了，将输入框重新计算置信度和偏移量，同样进行置信度筛选、坐标反算、NMS、填充正方形、resize成48×48，再传入O网络。
O网络处理和R网络几乎一样，再次提高检测精度，坐标反算后在原图中画出预测框。

年度爆款！全球最火的 AI 编程工具合集 java
大家好，我是R哥最近AI编程工具大乱杀啊，自从Cursor火了之后，国内外各大厂都推出了各自的AI编程工具，我给大家分享一些，以下顺序不分先后。国外主流的AI编程工具汇总：Cursor：出品：Anysphere网站：https://www.cursor.com/收费（最低20美元/月），个人免费使用2周，额度限制WindSurf：出品：Codeium，已被OpenAI收购网站：https://wi
C#.NET Autofac 详解 c#.net
简介Autofac是一个成熟的、功能丰富的.NET依赖注入（DI）容器。相比于内置容器，它额外提供：模块化注册、装饰器（Decorator）、拦截器（Interceptor）、强o的属性/方法注入支持、基于约定的程序集扫描等特性。核心组件ContainerBuilder：用于注册服务的构建器IContainer：服务容器，负责解析依赖ILifetimeScope：生命周期作用域，管理对象生命周期M
AI人工智能领域：Bard的崛起之路 AIGC应用创新大全人工智能 bard ai
AI人工智能领域：Bard的崛起之路关键词：Bard、GoogleAI、大语言模型、对话式AI、自然语言处理、生成式AI、AI竞争摘要：本文深入探讨GoogleBard的发展历程、技术架构及其在AI领域的地位。我们将从Bard的诞生背景开始，分析其核心技术原理，比较与其他大语言模型的异同，并通过实际案例展示其应用场景。最后展望Bard的未来发展方向及面临的挑战。背景介绍目的和范围本文旨在全面解析G
AI人工智能领域深度学习的跨模态检索技术 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能深度学习 ai
AI人工智能领域深度学习的跨模态检索技术关键词：跨模态检索、深度学习、多模态学习、特征提取、相似度计算、注意力机制、Transformer摘要：本文深入探讨了AI领域中基于深度学习的跨模态检索技术。我们将从基础概念出发，详细分析跨模态检索的核心算法原理、数学模型和实际应用。文章包含完整的Python实现示例，展示如何构建一个跨模态检索系统，并讨论当前的技术挑战和未来发展方向。通过本文，读者将全面理
工业缺陷检测深度学习方法综述 2301_80355452 深度学习人工智能
其被广泛地应用于无人质检、智能巡检、质量控制等各种生产与运维场景中.一.工业缺陷检测的背景与特点工业缺陷检测面临着诸多难点:缺陷样本匮乏、缺陷的可视性低、形状不规则、类型未知等,直接使用异常检测方法难以满足工业缺陷检测的任务需求.二.介绍工业缺陷检测问题的定义,分析研究难点与挑战异常：点异常、上下文异常和集群异常。点异常：又称为离群值(outliers)[9],描述数值上偏离正常样本的独立数据。与
Kotlin集合与泛型 Devil枫安卓 kotlin windows 开发语言
一、集合类型Kotlin提供了三种主要的集合类型：List、Set和Map。List（列表）有序集合，允许重复元素。funmain(){//不可变Listvalnumbers:List=listOf(1,2,3,4,5)println("不可变List:$numbers")//可变ListvalmutableNumbers=mutableListOf(10,20,30)mutableNumbers
day48 m0_62568655 python训练营 python
ai举例子通俗易懂理解@浙大疏锦行下面用例子帮你理解这几个知识点：1.随机张量的生成：torch.randn函数torch.randn会生成符合标准正态分布（均值为0，标准差为1）的随机数张量，形状由输入的参数决定。•比如torch.randn(2,3)，会生成一个2行3列的张量，里面的数是随机的，可能像这样：tensor([[0.52,-1.23,0.89],[-0.34,1.56,-0.71]
轻松开发AI应用：Dify、Langchain与Coza全方位对比分析 AI Agent首席体验官人工智能 langchain
1.Dify与Langchain区别Dify和Langchain都是用于开发AI应用的平台，但在设计理念、功能特点及适用场景等方面存在明显差异。以下是两者的详细对比：总体概述Dify：一个开源低代码平台，旨在简化AI应用的开发，提供完整的UI解决方案和无缝的集成能力，适合技术背景不强的用户，帮助他们快速开发和部署AI应用。Langchain：一个灵活的Python开发库，为开发者提供精细控制，适合
js获取文件夹中的所有文件和子文件夹枫叶&情缘 JavaScript jq 前端 javascript 前端开发语言
获取文件夹中的所有文件和子文件夹打开文件夹/***获取按钮元素并添加点击事件处理函数*/varbtn=document.querySelector('button');btn.onclick=asyncfunction(){//显示文件选择器constdirectoryHandle=awaitwindow.showDirectoryPicker();//处理目录awaitproecssHandle
脑机新手指南（七）：OpenBCI_GUI：从环境搭建到数据可视化（上） Brduino脑机接口技术答疑脑机新手指南脑机接口算法人工智能新手入门
一、OpenBCI_GUI项目概述（一）项目背景与目标OpenBCI是一个开源的脑电信号采集硬件平台，其配套的OpenBCI_GUI则是专为该硬件设计的图形化界面工具。对于研究人员、开发者和学生而言，首次接触OpenBCI设备时，往往面临数据可视化、实时处理及跨平台兼容性等挑战。OpenBCI_GUI的核心目标是为所有OpenBCI设备（包括Ganglion、Cyton及CytonwithDais
脑机新手指南（三）：新手小白入门 BCI-从认识到初体验（上）
一、引言脑机接口（Brain-ComputerInterface，简称BCI）作为一项前沿科技，正逐渐改变我们对大脑与外部设备交互方式的认知。本教程旨在为完全不了解BCI的新手提供一个全面且系统的入门指南，帮助大家开启在BCI领域的学习之旅。二、认识BCIBCI的定义BCI是一种能够实现大脑与外部设备直接通信的技术。它通过检测大脑活动产生的电信号、磁信号或其他生理信号，并将这些信号转化为计算机能够
canvas数字雨给我焦虑 canvas vue
exportdefault{name:'vue-matrix-raindrop',//插件的各种参数props:{//canvas宽度canvasWidth:{type:Number,default:800},//canvas高度canvasHeight:{type:Number,default:600},//下落字体大小fontSize:{type:Number,default:20},//字体
从多源融合文档：使用LangChain合并加载器的指南 dsndnwfk langchain php 开发语言 python
#从多源融合文档：使用LangChain合并加载器的指南在数据驱动的世界中，处理和分析数据并不总是来自单一来源。通常，我们需要从多个文档中提取信息，以便全面了解一个主题或进行复杂的数据分析。本文将介绍如何使用LangChain的各种文档加载器来合并多个来源的数据，使得数据处理变得更加高效和简便。##1.引言在现代数据分析中，我们经常需要从多个文档中提取有价值的信息。这些文档可能以不同的格式存在，并
Python程序设计第6章：函数和函数式编程若北辰 Python程序设计 python 开发语言
Python程序设计Python是全球范围内最受欢迎的编程语言之一，学好Python将对个人职业生涯产生很大的助力，Python在机器学习、深度学习、数据挖掘等领域应用极为广泛。在数据科学家/数据分析师、人工智能工程师、网络安全工程师、软件工程师/全栈工程师、自动化测试工程师等岗位，年入50万，很普遍，学好Python，高薪就业不是问题，因此推出Python程序设计系列文章：Python程序设计第
1151 LCA in a Binary Tree (30)
Thelowestcommonancestor(LCA)oftwonodesUandVinatreeisthedeepestnodethathasbothUandVasdescendants.Givenanytwonodesinabinarytree,youaresupposedtofindtheirLCA.InputSpecification:Eachinputfilecontainsonete
脑机新手指南（二十一）基于 Brainstorm 的 MEG/EEG 数据分析（上篇） Brduino脑机接口技术答疑脑机新手指南数据分析数据挖掘
一、脑机接口与神经电生理技术概述脑机接口（Brain-ComputerInterface,BCI）是一种在大脑与外部设备之间建立直接通信通道的技术，它通过采集和分析大脑信号来实现对设备的控制或信息的输出。神经电生理信号作为脑机接口的重要数据来源，主要包括以下几种类型：MEG（脑磁图）：通过测量大脑神经元电活动产生的磁场变化来反映脑功能，具有极高的时间分辨率。EEG（脑电图）：通过头皮电极记录大脑皮
基于RapidOCR与LangChain的PDF图文内容解析器开发要努力啊啊啊 RAG系统开发指南 langchain pdf python
fromtypingimportListfromlangchain.document_loaders.unstructuredimportUnstructuredFileLoaderfromdocument_loaders.ocrimportget_ocrimporttqdmclassRapidOCRPDFLoader(UnstructuredFileLoader):def_get_element
半监督学习+迁移学习：低成本构建高精度AI模型 AI智能探索者 AI Agent 智能体开发实战人工智能学习迁移学习 ai
半监督学习+迁移学习：低成本构建高精度AI模型关键词：半监督学习、迁移学习、低成本、高精度AI模型、数据利用摘要：本文主要探讨了如何通过半监督学习和迁移学习相结合的方式来低成本构建高精度的AI模型。首先介绍了半监督学习和迁移学习的背景知识，然后详细解释了这两个核心概念及其相互关系，接着阐述了相关算法原理、数学模型，还给出了项目实战案例，分析了实际应用场景，推荐了相关工具和资源，最后探讨了未来发展趋
什么是神经网络和机器学习？【云驻共创】一键难忘人工智能机器学习深度学习神经网络网络
什么是神经网络和机器学习？一.背景在当今数字化浪潮中，神经网络和机器学习已成为科技领域的中流砥柱。它们作为人工智能的支柱，推动了自动化、智能化和数据驱动决策的进步。然而，对于初学者和专业人士来说，理解神经网络和机器学习的本质是至关重要的。在本文中，我们将深入探讨这两个概念的内涵、工作原理以及彼此之间的联系。二.神经网络和机器学习简介神经网络和机器学习都是人工智能领域中的重要概念，它们通常用于解决各
数据库AICD特性之--一致性 Consistency 你都会上树？数据库数据库 java oracle
数据库AICD特性之–原子性Atomicity数据库AICD特性之–隔离性Isolation数据库ACID特性之–持久性Durability数据库AICD特性之–一致性Consistency一致性指数据库在事务执行前后，数据始终符合预设的完整性约束和业务规则。事务执行前数据是合法的，执行后也必须合法，不允许出现违反规则的中间状态。一致性并非独立实现，而是依赖ACID中其他特性的协同：原子性（Ato
AI人工智能与OpenCV：实现智能图像编辑功能 AI智能探索者 AI Agent 智能体开发实战人工智能 opencv 计算机视觉 ai
AI人工智能与OpenCV：实现智能图像编辑功能关键词：人工智能、OpenCV、图像处理、计算机视觉、深度学习、智能编辑、图像增强摘要：本文深入探讨如何结合人工智能(AI)和OpenCV实现智能图像编辑功能。我们将从基础概念出发，详细介绍核心算法原理，展示实际代码实现，并分析典型应用场景。文章将涵盖从传统图像处理技术到深度学习方法的演进，重点讲解如何利用OpenCV和AI模型实现自动化的图像增强、
ubuntu安装配置fail2ban 你都会上树？ Linux ubuntu linux 运维
Fail2Ban概述Fail2Ban是一种用于防止暴力破解攻击的安全工具，它通过监控系统的日志文件（如/var/log/auth.log）来检测异常的登录尝试，并自动将可疑的IP地址加入黑名单，从而阻止其进一步的访问请求。Fail2Ban的工作原理日志监控：Fail2Ban持续监控指定的日志文件，寻找失败的登录尝试记录。规则匹配：根据预设的规则（如连续失败的次数和时间间隔），Fail2Ban识别出
一篇文稿，两个AI绝技：从字体识别到视频修复，解锁Adobe高级工作流 top_designer 人工智能音视频 adobe photoshop illustrator AIGC 视频剪辑
设计师的十年，是一场漫长的自我进化。从最初对像素的锱铢必较，到如今与AI协同创作，工具的革新始终在重塑我们的思考边界。我很庆幸，在英国ParvisSchoolofEconomicsandMusic的Adobe教育订阅支持下，我能一直站在技术浪潮的前沿。今天，不谈空泛的理论，只想和大家分享两个我在实战中，真正依赖AI化解危机的具体案例。在创意的世界里，我们不仅是美的创造者，更是问题的解决者。而最棘手
重塑音视频叙事：Premiere文本剪辑与Podcast AI降噪的革命性工作流
一、开篇的另一些心里话最近淘到个好东西，是来自奥地利Blueskyy艺术学院的Adobe教育版授权，深度体验下来，感觉就像是给我的创意工具箱做了一次“满配”升级，有些心得不吐不快，必须跟同路的设计师朋友们碰一碰。在分享那些让我拍案叫绝的技巧之前，依旧惯例，先聊聊这个订阅版最让我心动的几个地方。最直观的就是FireflyAI的积分，每周1500点，用“挥霍”来形容毫不过分，让我在AI创作时彻底告别了
面壁发布 MiniCPM-o 2.6：音视听三合一的“她”（SHE），不需要联网 AI科技大本营
作者|王启隆出品丨AI科技大本营（ID：rgznai100）不知道还有多少人记得那场发布会。去年初春，SamAltman一如既往发了条谜语人风格的推特：“Her”，让人想起电影《Her》里那个和男主情深伉俪的AI女声；然后时任OpenAICTO的另一位美女MiraMurati当晚发布了GPT-4o，视频语音交互丝滑无比，说学逗唱样样精通，还完美复刻了电影里斯嘉丽·约翰逊的声音，给人感觉AGI好像第
构建下一代云原生大模型多租户平台：架构设计与关键挑战慌ZHANG 人工智能云原生后端云原生人工智能
个人主页：慌ZHANG-CSDN博客期待您的关注一、引言：从单用户部署到多租户平台的转型趋势随着开源大语言模型（LLM）能力日益强大，企业部署与应用大模型已从“验证可行性”的早期阶段，逐步迈向“规模化服务”的中后期阶段。在这一背景下，“多租户”成为企业级AI平台建设的核心议题之一：SaaS平台希望一个模型服务多个客户；大企业希望多个部门共享模型资源但相互隔离；教育、医疗等敏感行业需要更精细的数据与
人工智能-基础篇-2-什么是机器学习？（ML，监督学习，半监督学习，零监督学习，强化学习，深度学习，机器学习步骤等） weisian151 人工智能人工智能机器学习学习
1、什么是机器学习？机器学习（MachineLearning,ML）是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析等数学理论。其核心目标是让计算机通过分析数据，自动学习规律并构建模型，从而对未知数据进行预测或决策，而无需依赖显式的程序指令。基本思想：通过数据驱动的方式，使系统能够从经验（数据）中改进性能，形成对数据模式的抽象化表达。基本概念：模型：模型是对现实世界现
AI取代人类？不，真正淘汰你的是“不会用AI”的人 zhuzhi 人工智能 chatgpt
“AI会让人类失业吗？”——这个问题在过去几年被反复讨论。ChatGPT的爆火、MidJourney颠覆设计行业、自动驾驶取代司机……似乎AI正在“抢走”人类的工作。但真相是：AI不会取代所有人，但它会取代那些不会使用AI的人。未来10年，职场竞争不再是“人类VSAI”，而是**“会用AI的人”VS“不用AI的人”**。就像20年前互联网刚普及时，会用搜索引擎的人比只会翻书的人效率高10倍；今天，
2025年AI十大趋势：从多模态大模型到自主智能体 zhuzhi 人工智能大数据
2025年AI十大趋势：从多模态大模型到自主智能体人工智能技术正以前所未有的速度重塑着我们的世界。2025年，AI领域将迎来一系列突破性进展，从多模态大模型的全面进化到自主智能体的广泛应用，这些技术变革正在重新定义人机交互的边界。本文将系统梳理2025年AI发展的十大核心趋势，为读者揭示人工智能技术的最新发展方向及其对社会各领域的深远影响。趋势一：多模态大模型成为基础设施2025年，多模态大模型已
PAT A 1003 Emergency cwn_ 算法数据结构图论 c++
Asanemergencyrescueteamleaderofacity,youaregivenaspecialmapofyourcountry.Themapshowsseveralscatteredcitiesconnectedbysomeroads.Amountofrescueteamsineachcityandthelengthofeachroadbetweenanypairofcities
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S

MTCNN人脸检测 pytorch实现 全流程详解

概述

思路

数据处理

工具

网络结构

训练流程

检测流程

你可能感兴趣的:(AI,深度学习,pytorch,神经网络)

MTCNN人脸检测 pytorch实现全流程详解