小殊小殊

通俗解读人脸检测框架-RetinaFace

一、简介

二、模型结构

1.MobileNet-0.25

2.FPN结构

3.SSH结构

4.Head结构

三、Anchor的编解码

四、Multi-task Loss

一、简介

2019年何凯明提出Focal Loss时为了验证Focal Loss的可行性，顺便（没错，就是顺便）提出了RetinaNet。RetinaFace是在RetinaNet基础上引申出来的人脸检测框架，所以大致结构和RetinaNet非常像。

主要改进：

1.MobileNet-0.25作为Backbone，当然也有ResNet版本。

2.Head中增加关键点检测。

3.Multi-task Loss

论文地址：https://arxiv.org/pdf/1905.00641.pdf

官方代码：https://github.com/deepinsight/insightface/tree/master/RetinaFace

官方代码是mxnet的，我将提供一个Pytorch版：oaifaye/retinafaceoaifaye/retinafaceoaifaye/retinaface

二、模型结构

先看模型整体结构，这里我们使用batch=1，size=640x640作为输入，图中每个块下面灰色的部分是输出。

图1

1.MobileNet-0.25

图1中的ConvDepthwise指MobileNet中的Depthwise Separable Convolution（深度可分离卷积）。常规卷积在提取图像特征图内特征相关性的同时也提取特征图通道间特征相关性，这样参数多而且难以解释。ConvDepthwise将这两项工作分开来做，减少了参数而且提高了可解释性。ConvDepthwise结构如下：

图2

先做3x3的卷积，并且groups设置成输入通道数，这组卷积核只负责提取每个特征图的特征，同时计算量大大减少。然后做1x1的卷积用于改变通道数，这组1x1的卷积核只提取通道间的特征相关性，同时参数大大减少。这么两组操作下来计算量和参数量都降下来了，而且可解释性也有所提升。

代码实现：

def conv_dw(inp, oup, stride = 1, leaky=0.1):
    return nn.Sequential(
        nn.Conv2d(inp, inp, 3, stride, 1, groups=inp, bias=False),
        nn.BatchNorm2d(inp),
        nn.LeakyReLU(negative_slope= leaky,inplace=True),

        nn.Conv2d(inp, oup, 1, 1, 0, bias=False),
        nn.BatchNorm2d(oup),
        nn.LeakyReLU(negative_slope= leaky,inplace=True),
    )

2.FPN结构

FPN（特征金字塔），很成熟的结构了，多用于目标检测，因为目标有大有小，所以不同的特征层做融合有助于检测不同尺度的目标。

这里FPN取了三个关键特征层，然后将通道数都处理成64，这样三个关键特征层由浅到深分别是1,64,80,80、1,64,40,40、1,64,20,20。深层的关键特征层经过2x的Upsampling与浅层进行融合，最后三个融合后的分支分别输出到SSH结构。

3.SSH结构

SSH（Single Stage Headless）模块可以进一步增加感受野，进一步加强特征提取，是个锦上添花的模块。

SSH结构如下：

图3

可以看到，SSH利用的也是多尺度特征融合的思想，融合了三路不同深度的特征，最后cancat到一起，输出和输入尺寸不变。

代码实现：

class SSH(nn.Module):
    def __init__(self, in_channel, out_channel):
        super(SSH, self).__init__()
        assert out_channel % 4 == 0
        leaky = 0
        if (out_channel <= 64):
            leaky = 0.1

        # 3x3卷积
        self.conv3X3 = conv_bn_no_relu(in_channel, out_channel//2, stride=1)

        # 利用两个3x3卷积替代5x5卷积
        self.conv5X5_1 = conv_bn(in_channel, out_channel//4, stride=1, leaky = leaky)
        self.conv5X5_2 = conv_bn_no_relu(out_channel//4, out_channel//4, stride=1)

        # 利用三个3x3卷积替代7x7卷积
        self.conv7X7_2 = conv_bn(out_channel//4, out_channel//4, stride=1, leaky = leaky)
        self.conv7x7_3 = conv_bn_no_relu(out_channel//4, out_channel//4, stride=1)

    def forward(self, inputs):
        conv3X3 = self.conv3X3(inputs)

        conv5X5_1 = self.conv5X5_1(inputs)
        conv5X5 = self.conv5X5_2(conv5X5_1)

        conv7X7_2 = self.conv7X7_2(conv5X5_1)
        conv7X7 = self.conv7x7_3(conv7X7_2)
        
        # 所有结果堆叠起来
        out = torch.cat([conv3X3, conv5X5, conv7X7], dim=1)
        out = F.relu(out)
        return out

4.Head结构

Head分三种：

        BboxHead：框的回归预测结果用于对先验框进行调整获得预测框，即解码前的bounding box的中心点偏移量和宽高。
        ClsHead：分类预测结果用于判断先验框内部是否包含脸。
        LdmHead：解码前的五官关键点坐标。

每个单元的使用两个1:1比例的Anchor(anchor_num=2),三个Head结构如下图。

图4

代码如下：

class ClassHead(nn.Module):
    def __init__(self,inchannels=512,num_anchors=2):
        super(ClassHead,self).__init__()
        self.num_anchors = num_anchors
        self.conv1x1 = nn.Conv2d(inchannels,self.num_anchors*2,kernel_size=(1,1),stride=1,padding=0)

    def forward(self,x):
        out = self.conv1x1(x)
        out = out.permute(0,2,3,1).contiguous()
        
        return out.view(out.shape[0], -1, 2)

class BboxHead(nn.Module):
    def __init__(self,inchannels=512,num_anchors=2):
        super(BboxHead,self).__init__()
        self.conv1x1 = nn.Conv2d(inchannels,num_anchors*4,kernel_size=(1,1),stride=1,padding=0)

    def forward(self,x):
        out = self.conv1x1(x)
        out = out.permute(0,2,3,1).contiguous()
        out = out.view(out.shape[0], -1, 4)
        return out

class LandmarkHead(nn.Module):
    def __init__(self,inchannels=512,num_anchors=2):
        super(LandmarkHead,self).__init__()
        self.conv1x1 = nn.Conv2d(inchannels,num_anchors*10,kernel_size=(1,1),stride=1,padding=0)

    def forward(self,x):
        out = self.conv1x1(x)
        out = out.permute(0,2,3,1).contiguous()

        return out.view(out.shape[0], -1, 10)

三、Anchor的编解码

图5.

借用SSD中的一个图，图2中的SSH输出其实是将原图分割成80x80、40x40、20x20的单元格，图5中每个单元有4个Anchor（两个等比例两个不等比例），与之不同的是，我们每个单元的使用两个等比例的Anchor。

模型训练的时候会用的Anchor编码，将ground truth映射到每个单元格的中心偏移和宽高。

代码如下：

def encode(matched, priors, variances):
    # 进行编码的操作
    g_cxcy = (matched[:, :2] + matched[:, 2:])/2 - priors[:, :2]
    # 中心编码
    g_cxcy /= (variances[0] * priors[:, 2:])
    
    # 宽高编码
    g_wh = (matched[:, 2:] - matched[:, :2]) / priors[:, 2:]
    g_wh = torch.log(g_wh) / variances[1]
    return torch.cat([g_cxcy, g_wh], 1)  # [num_priors,4]

def encode_landm(matched, priors, variances):
    matched = torch.reshape(matched, (matched.size(0), 5, 2))
    priors_cx = priors[:, 0].unsqueeze(1).expand(matched.size(0), 5).unsqueeze(2)
    priors_cy = priors[:, 1].unsqueeze(1).expand(matched.size(0), 5).unsqueeze(2)
    priors_w = priors[:, 2].unsqueeze(1).expand(matched.size(0), 5).unsqueeze(2)
    priors_h = priors[:, 3].unsqueeze(1).expand(matched.size(0), 5).unsqueeze(2)
    priors = torch.cat([priors_cx, priors_cy, priors_w, priors_h], dim=2)

    # 减去中心后除上宽高
    g_cxcy = matched[:, :, :2] - priors[:, :, :2]
    g_cxcy /= (variances[0] * priors[:, :, 2:])
    g_cxcy = g_cxcy.reshape(g_cxcy.size(0), -1)
    return g_cxcy

预测的时候使用Anchor解码，将模型的输出还原为预测框。

代码如下：

def decode(loc, priors, variances):
    boxes = torch.cat((priors[:, :2] + loc[:, :2] * variances[0] * priors[:, 2:],
                    priors[:, 2:] * torch.exp(loc[:, 2:] * variances[1])), 1)
    boxes[:, :2] -= boxes[:, 2:] / 2
    boxes[:, 2:] += boxes[:, :2]
    return boxes


def decode_landm(pre, priors, variances):
    landms = torch.cat((priors[:, :2] + pre[:, :2] * variances[0] * priors[:, 2:],
                        priors[:, :2] + pre[:, 2:4] * variances[0] * priors[:, 2:],
                        priors[:, :2] + pre[:, 4:6] * variances[0] * priors[:, 2:],
                        priors[:, :2] + pre[:, 6:8] * variances[0] * priors[:, 2:],
                        priors[:, :2] + pre[:, 8:10] * variances[0] * priors[:, 2:],
                        ), dim=1)
    return landms

四、Multi-task Loss

如上图，损失函数分为三个部分：

        Face classification loss：是否是人脸的交叉熵loss。
        Face box regression loss：预测框的中心偏移、宽高和ground truth的smooth_l1_loss
        Facial landmark regression loss：预测的人脸关键点的smooth_l1_loss

代码实现：

class MultiBoxLoss(nn.Module):
    def __init__(self, num_classes, overlap_thresh, neg_pos, variance, cuda=True):
        super(MultiBoxLoss, self).__init__()
        #----------------------------------------------#
        #   对于retinaface而言num_classes等于2
        #----------------------------------------------#
        self.num_classes    = num_classes
        #----------------------------------------------#
        #   重合程度在多少以上认为该先验框可以用来预测
        #----------------------------------------------#
        self.threshold      = overlap_thresh
        #----------------------------------------------#
        #   正负样本的比率
        #----------------------------------------------#
        self.negpos_ratio   = neg_pos
        self.variance       = variance
        self.cuda           = cuda

    def forward(self, predictions, priors, targets):
        #--------------------------------------------------------------------#
        #   取出预测结果的三个值：框的回归信息，置信度，人脸关键点的回归信息
        #--------------------------------------------------------------------#
        loc_data, conf_data, landm_data = predictions
        #--------------------------------------------------#
        #   计算出batch_size和先验框的数量
        #--------------------------------------------------#
        num         = loc_data.size(0)
        num_priors  = (priors.size(0))

        #--------------------------------------------------#
        #   创建一个tensor进行处理
        #--------------------------------------------------#
        loc_t   = torch.Tensor(num, num_priors, 4)
        landm_t = torch.Tensor(num, num_priors, 10)
        conf_t  = torch.LongTensor(num, num_priors)

        for idx in range(num):
            # 获得真实框与标签
            truths = targets[idx][:, :4].data
            labels = targets[idx][:, -1].data
            landms = targets[idx][:, 4:14].data

            # 获得先验框
            defaults = priors.data
            #--------------------------------------------------#
            #   利用真实框和先验框进行匹配。
            #   如果真实框和先验框的重合度较高，则认为匹配上了。
            #   该先验框用于负责检测出该真实框。
            #--------------------------------------------------#
            match(self.threshold, truths, defaults, self.variance, labels, landms, loc_t, conf_t, landm_t, idx)
            
        #--------------------------------------------------#
        #   转化成Variable
        #   loc_t   (num, num_priors, 4)
        #   conf_t  (num, num_priors)
        #   landm_t (num, num_priors, 10)
        #--------------------------------------------------#
        zeros = torch.tensor(0)
        if self.cuda:
            loc_t = loc_t.cuda()
            conf_t = conf_t.cuda()
            landm_t = landm_t.cuda()
            zeros = zeros.cuda()

        #------------------------------------------------------------------------#
        #   有人脸关键点的人脸真实框的标签为1，没有人脸关键点的人脸真实框标签为-1
        #   所以计算人脸关键点loss的时候pos1 = conf_t > zeros
        #   计算人脸框的loss的时候pos = conf_t != zeros
        #------------------------------------------------------------------------#  
        pos1 = conf_t > zeros
        pos_idx1 = pos1.unsqueeze(pos1.dim()).expand_as(landm_data)
        landm_p = landm_data[pos_idx1].view(-1, 10)
        landm_t = landm_t[pos_idx1].view(-1, 10)
        loss_landm = F.smooth_l1_loss(landm_p, landm_t, reduction='sum')
        
        pos = conf_t != zeros
        pos_idx = pos.unsqueeze(pos.dim()).expand_as(loc_data)
        loc_p = loc_data[pos_idx].view(-1, 4)
        loc_t = loc_t[pos_idx].view(-1, 4)
        loss_l = F.smooth_l1_loss(loc_p, loc_t, reduction='sum')

        #--------------------------------------------------#
        #   batch_conf  (num * num_priors, 2)
        #   loss_c      (num, num_priors)
        #--------------------------------------------------#
        conf_t[pos] = 1
        batch_conf = conf_data.view(-1, self.num_classes)
        # 这个地方是在寻找难分类的先验框
        loss_c = log_sum_exp(batch_conf) - batch_conf.gather(1, conf_t.view(-1, 1))

        # 难分类的先验框不把正样本考虑进去，只考虑难分类的负样本
        loss_c[pos.view(-1, 1)] = 0
        loss_c = loss_c.view(num, -1)
        #--------------------------------------------------#
        #   loss_idx    (num, num_priors)
        #   idx_rank    (num, num_priors)
        #--------------------------------------------------#
        _, loss_idx = loss_c.sort(1, descending=True)
        _, idx_rank = loss_idx.sort(1)
        #--------------------------------------------------#
        #   求和得到每一个图片内部有多少正样本
        #   num_pos     (num, )
        #   neg         (num, num_priors)
        #--------------------------------------------------#
        num_pos = pos.long().sum(1, keepdim=True)
        # 限制负样本数量
        num_neg = torch.clamp(self.negpos_ratio*num_pos, max=pos.size(1)-1)
        neg = idx_rank < num_neg.expand_as(idx_rank)

        #--------------------------------------------------#
        #   求和得到每一个图片内部有多少正样本
        #   pos_idx   (num, num_priors, num_classes)
        #   neg_idx   (num, num_priors, num_classes)
        #--------------------------------------------------#
        pos_idx = pos.unsqueeze(2).expand_as(conf_data)
        neg_idx = neg.unsqueeze(2).expand_as(conf_data)
        
        # 选取出用于训练的正样本与负样本，计算loss
        conf_p = conf_data[(pos_idx+neg_idx).gt(0)].view(-1,self.num_classes)
        targets_weighted = conf_t[(pos+neg).gt(0)]
        loss_c = F.cross_entropy(conf_p, targets_weighted, reduction='sum')

        N = max(num_pos.data.sum().float(), 1)
        loss_l /= N
        loss_c /= N

        num_pos_landm = pos1.long().sum(1, keepdim=True)
        N1 = max(num_pos_landm.data.sum().float(), 1)
        loss_landm /= N1
        return loss_l, loss_c, loss_landm

总的来说RetinaFace和RetinaNet很像，还有SSD的影子，确实提供了一个可用的高效的人脸检测框架，可改进的地方也有很多，需要大家自己动手实验了。

PyTorch系列教程：编写高效模型训练流程梦想画家人工智能 #python pytorch 人工智能 python
当使用PyTorch开发机器学习模型时，建立一个有效的训练循环是至关重要的。这个过程包括组织和执行对数据、参数和计算资源的操作序列。让我们深入了解关键组件，并演示如何构建一个精细的训练循环流程，有效地处理数据处理，向前和向后传递以及参数更新。模型训练流程PyTorch训练循环流程通常包括：加载数据批量处理执行正向传播计算损失反向传播更新权重一个典型的训练流程将这些步骤合并到一个迭代过程中，在数据集
新一代 AI 软件Manus 将重新将AI市场大洗牌 CircuitWizard 人工智能
Manus是一家专注于手部追踪、虚拟现实（VR）和增强现实（AR）技术的公司，其新一代AI软件结合了先进的机器学习和计算机视觉技术，致力于提升人机交互的自然性和效率。以下是关于Manus新一代AI软件的详细介绍及其核心功能：1.核心技术与创新Manus的AI软件基于以下技术突破：高精度手部追踪：通过深度学习算法和摄像头/传感器数据，实时捕捉手部骨骼、关节和肌肉的细微动作，精度可达亚毫米级，支持复杂
【自然语言处理-NLP】情感分析与主题建模云博士的AI课堂深度学习哈佛博后带你玩转机器学习自然语言处理人工智能情感分析主题建模深度学习机器学习 NLP
以下内容详细剖析了NLP中情感分析（SentimentAnalysis）和主题建模（TopicModeling）的技术与方法，分别展示如何从文本中提取情感倾向和潜在主题，并提供示例代码和讲解，可在Python环境下直接运行。目录情感分析（SentimentAnalysis）1.1概念与方法概览1.2传统机器学习方法1.3深度学习与预训练模型1.4代码示例：基于机器学习的情感分类主题建模（Topic
搜广推校招面经三十八 Y1nhl 搜广推面经算法 pytorch 推荐算法搜索算法机器学习
字节推荐算法一、场景题：在抖音场景下为用户推荐广告词，吸引用户点击搜索，呈现广告这一流程的关键点以及可能遇到的困难。二、Transformer中对梯度消失或者梯度爆炸的处理在Transformer模型中，梯度消失和梯度爆炸是深度学习中常见的问题，尤其是在处理长序列数据时。为了克服这些问题，Transformer采用了一系列技术：2.1.残差连接（ResidualConnections）每个子层（包
眼见不一定为实，孙悟空教你AI换脸换声的技术原理及如何用火眼金睛识别新型诈骗非知名人士人工智能
话说俺老孙自从大闹天宫归来，闲来无事，忽闻人间兴起一门奇术——所谓“换脸换声”。听说那乃现代科学家利用人工智能之奥秘，将人脸、声音通通变换得跟戏法似的，让人真假难辨。俺老孙心生好奇，便跃上筋斗云，直奔这科技之都，打算探个究竟。今就由俺老孙来给你们摆一摆，这换脸换声究竟是咋回事，就像俺大闹天宫时施展变化，变化无穷，妙趣横生！话说那日俺老孙正在花果山上闲逛，忽然听见猪八戒捧着一部闪闪发光的“小机灵”—
【深度学习】PyTorch v2.6 Overview OpenSeek 人工智能 #机器学习 #深度学习 python pytorch 人工智能
PyTorchv2.6OverviewPythonAPILibrariesPyTorch是一个优化的张量库，用于使用GPU和CPU进行深度学习。PythonAPI序号API名称解释1torchPyTorch核心库(中文:火炬)PyTorch的核心库，提供了张量操作、自动求导等基础功能。2torch.nn神经网络模块包含构建神经网络所需的各种模块，如层、损失函数等。3torch.nn.functio
2020年精排模型调研 Marcus-Bao 机器不学习人工智能机器学习大数据算法
❝本文经作者同意转载自:https://zhuanlan.zhihu.com/p/335781101作者:Ruhjkg编辑:MarcusBao谢绝任何形式的二次转载！❞2020年精排模型调研前言最近由于工作需要调研了一下2020年关于精排模型的进展。在广告推荐领域的CTR预估问题上，早期以LR+人工特征工程为主的机器学习方法，但由于人工组合特征工程成本较高，不同任务难以复用。后面FM因子分解机提出
PyTorch 显存分配不均匀 LutingWang debug pytorch 人工智能 python
在使用PyTorch进行深度学习训练时，可能会遇到GPU0的显存占用明显高于其他GPU的情况。这可能导致显存不足，影响训练效率。排查思路：开启两个Shell，ShellA用于运行训练脚本，ShellB用于实时监控显存。在ShellA运行训练脚本。在另一个shell中运行nvidia-smi-l1。这个命令会每秒刷新一次nvidia-smi的结果，方便实时观察各GPU显存的变化情况。观察GPU0何时
PyTorch 训练循环全攻略：从零到精通的深度学习秘籍吴师兄大模型 PyTorch 深度学习 pytorch 人工智能训练循环 LLM 大模型 python
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
python搭建NPL模型的详细步骤和代码百锦再@新空间代码工作室包罗万象 python 开发语言 django flask pygame pip
目录**一、环境准备****二、数据准备****三、文本预处理****1.清理文本****四、特征工程****1.TF-IDF****2.Word2Vec****五、搭建NLP模型****1.逻辑回归****2.LSTM深度学习模型****六、使用预训练的BERT模型****七、模型评估****八、部署模型****总结**1.**人机交互的核心技术**2.**推动AI技术发展的动力**3.**广泛
在 PiscTrace 上使用 YOLO 进行预测与 MiDaS 景深补偿：体验纯视觉自动驾驶的数据分析那雨倾城 PiscTrace 人工智能计算机视觉图像处理自动驾驶 YOLO 视觉检测
随着自动驾驶技术的不断发展，视觉感知系统逐渐成为车辆感知的核心组件。PiscTrace作为一款支持高效视图处理的桌面应用，集成了先进的计算机视觉工具，如YOLO目标检测模型和MiDaS景深估计模型，能够为纯视觉自动驾驶的实现提供强大的支持。通过这两个模型的结合，PiscTrace可以提供高精度的目标识别与环境感知功能，帮助用户进行实时的驾驶数据分析，为决策系统提供宝贵的数据支持。本文将详细介绍如何
golang深度学习-性能分析老狼伙计 golang 编程语言云原生学习笔记 golang 深度学习开发语言
性能分析Go语言原生支持在运行时保留重要的特征指标和状态，有许多工具可以分析甚至可视化程序运行的状态和过程。pprof工具：常用于分析资源的使用情况，可以采集程序运行时的多种不同类型的数据（例如CPU占用、内存消耗和协程数量等），并对数据进行分析聚合生成的报告。trace工具：则关注程序运行时的事件（例如协程状态切换，GC的开始和结束、系统调用等等），常用于分析延迟、阻塞和调度等问题。pprof工
专业英语程序员爱德华英语专业英语
文章目录一、计算机1.计算机基础(1)计算机组成原理(2)计算机网络(3)数据库(4)编译原理(5)离散数学2.软件开发(1)编程词汇(2)开发术语(3)Linux(4)软件3.就业领域(1)职场(2)芯片(3)自动驾驶(4)嵌入式硬件4.深度学习(1)论文(2)深度学习DL(3)计算机视觉CV(4)自然语言处理NLP(5)推荐系统(6)计算机图形学二、数学三、机械、材料四、医药五、英美计量单位一
AI与机器学习、深度学习在气候变化预测中的应用 weixin_贾农业模型气象人必备模型人工智能机器学习深度学习气候数据预测气候变化趋势农业生产气溶胶
全球气候变化是现代社会面临的最重要的环境挑战之一，影响了气温、降水、海平面、农业、生态系统等多个方面。气候变化的驱动因素主要包括温室气体排放、气溶胶浓度、火灾频发、海冰融化、叶绿素变化、农业变化和生态环境变化等。这些因素在全球范围内交互作用，导致复杂的气候变化模式。将学习如何应用ChatGPT、Deepseek辅助Python编程、学习如何下载处理NASA卫星、CMIP6数据。通过机器学习（K-m
python 虚拟环境介绍 The One Neo python 开发语言
一、pippip介绍很简单，但是在学习深度学习的时候，虽然用过，但也仅仅是用过，对其了解不多，更多的是下载包，相对于pip，用的更多的反而是anaconda和miniconda这两个python包管理器。pip是Python的包管理工具，主要用于安装、更新、卸载Python软件包。它是Python官方推荐的工具，能够从PythonPackageIndex(PyPI)下载并安装符合指定依赖关系的包。
LLM大模型安全概述 LLM教程安全人工智能 chatgpt embedding langchain llama
引言2022年底以来，以ChatGPT为代表的大模型飞速发展，正在成为#驱动新质生产力发展#的新动能、人类探索未知的新工具.在显著提升人工智能(artificialintelligence,AI)模型通用理解和生成能力的同时，也带来了前所未有的安全风险.大模型的能力与风险生成式大模型因其强大的智能能力和巨大的应用潜力吸引了众多研究者和企业的关注.从智能能力的角度来看，研究人员观测到：当训练数据和参
2025最新Transformer模型及深度学习前沿技术应用 weixin_贾 Python MATLAB python 深度学习 MATLAB编程深度学习模型图神经网络自编码物理信息神经网络目标检测大语言模型
第一章、注意力（Attention）机制1、注意力机制的背景和动机（为什么需要注意力机制？注意力机制的起源和发展里程碑）。2、注意力机制的基本原理（什么是注意力机制？注意力机制的数学表达与基本公式、用机器翻译任务带你了解Attention机制、如何计算注意力权重？）3、注意力机制的主要类型：键值对注意力机制（Key-ValueAttention）、自注意力（Self-Attention）与多头注意
python版本更新历史_Python3 是否已经完成了取代 Python2 的历史进程？ wongzo python版本更新历史
最新情况：搞web开发之类的还是用py2的多，但搞数据科学现在基本都py3了，之前不推荐py3是因为它不支持一些3D绘图库，但现在一些机器学习库刚出来的新版有的只支持py3，所以搞数据的还是用py3吧。--------------------------------照目前的情形看，哪怕python3退出历史舞台了python2还会活的好好的！官方倒是想让py2早死早超生，然而天不遂人愿，1：由于p
tensorflow keras 报错：No gradients provided for any variable 原因与解决办法研志必有功 tensorflow报错 tensorflow 深度学习机器学习神经网络自然语言处理
错误分析Nogradientsprovidedforanyvariable这个意思是没有梯度给已知的所有函数，为什么会出现这个错误呢，因为在深度学习中，梯度的更新是由于反向传播算法的实现的，如果损失函数没有与已知的任何（除输入）层关联，那么，损失函数就无法求出关于各个函数的梯度，导致错误解决办法例如损失函数defcontrastive_loss_layer(left_inputs,right_in
TensorFlow的基本框架和理解-初学者通过这一篇文章就够了无人不智能，机器不学习 TensorFlow TensorFlow 基本框架 python
tensorflow的理解Tensorflow是一种机器学习框架，如果我们有大量的数据，我们可以利用他协助医生检查糖尿病性视网膜病变来预防患者失明等应用新版本中一个有趣的功能是eagerexecution，允许用户在不创建图形的情况下运行tensorflow代码，一种动态图机制它是一个命令式、由运行定义的接口，一旦从Python被调用，其操作立即被执行。这使得入门TensorFlow变的更简单，也
cv君独家视角 | AI内幕系列十四：【手机、相机防抖大揭秘】数字防抖、鸡头防抖、光学防抖、AI防抖等(附源码+长期更新) cv君原创项目级实战项目 cv君独家视角 AI内幕系列深度学习与计算机视觉精品人工智能 ai isp 科技 python
目录摘要主要防抖技术手机防抖对比某拇指相机技术分析：1.基础介绍2.功能需求2.1功能背景2.2技术背景与技术选型2.3技术方案2.4可行性落地链路2.5竞品调研与市场分析2.6防抖主客观评价源码实现运动防抖步骤：代码实现性能优化与改进代码改进进一步改进与应用深度学习方法示例实时处理与应用示例运动摄影无人机航拍摄像头防抖设备计算资源需求复杂场景处理参数调整和优化实时处理需求误差累积并行和分布式处理
【神经网络】python实现神经网络（一）——数据集获取师兄师兄怎么办机器学习算法 python 神经网络 python 人工智能手写数字识别深度学习机器学习
一.概述在文章【机器学习】一个例子带你了解神经网络是什么中，我们大致了解神经网络的正向信息传导、反向传导以及学习过程的大致流程，现在我们正式开始进行代码的实现，首先我们来实现第一步的运算过程模拟讲解：正向传导。本次代码实现将以“手写数字识别”为例子。二.测试训练数据集的获取首先我们需要通过官网获取到手写数字识别数据集，数据集一共分为四个部分，分别是训练集的图片（六万张）、训练集的标签、测试集的图片
Deepseek r1回答：人工智能的本质是什么？给人类社会带来的意义是什么？相比于之前的互联网革命，这一轮的人工智能革命的特点和异同点有哪些？强化学习曾小健 Deepseek原理与使用人工智能
嗯，用户问的是人工智能的本质、对社会的意义，以及和互联网革命的比较。首先得拆解这三个问题，逐个分析。用户可能对AI有一定了解，但想深入理解其核心和影响。可能需要从技术、社会、历史角度切入。先想AI的本质。本质是什么？是模拟人类智能，还是数据处理？可能需要提到机器学习、深度学习，尤其是神经网络。但本质可能更深层，比如自主决策、模式识别。还要区分弱AI和强AI，现在都是弱AI，专注于特定任务。然后是意
DeepSeek安全：AI网络安全评估与防护策略黑客Jack 安全 web安全
点击文末小卡片，免费获取网络安全全套资料，资料在手，涨薪更快本文基于现有的公开资料，从企业资深网络安全专家的视角，系统梳理DeepSeek技术在网络安全领域的潜在贡献与核心风险，并结合中国自主可控的发展战略，提出针对性的应对策略，旨在为相关企业和机构提供全面、深入的参考，以更好地应对人工智能时代的网络安全挑战。一、引言近年来，人工智能技术在全球范围内引发了深刻的科技变革与产业变革，而中国人工智能初
基于Flask和VUE的YOLOv5目标检测模型部署薄泳蕙Howard
基于Flask和VUE的YOLOv5目标检测模型部署基于Flask和VUE的YOLOv5目标检测模型部署本资源文件提供了一个基于Flask开发后端、VUE开发前端框架的完整项目，用于在WEB端部署YOLOv5目标检测模型。通过本项目，您可以轻松地将YOLOv5模型集成到您的WEB应用中，实现目标检测功能项目地址:https://gitcode.com/open-source-toolkit/20e
基于Flask和VUE的YOLOv5目标检测模型部署：轻松实现WEB端目标检测咎尉裕Lilah
基于Flask和VUE的YOLOv5目标检测模型部署：轻松实现WEB端目标检测【下载地址】Yolov5-Flask-VUE基于Flask和VUE的YOLOv5目标检测模型部署本项目提供了一个基于Flask开发后端、VUE开发前端的框架，用于在WEB端部署YOLOv5目标检测模型。通过本项目，您可以轻松地将YOLOv5模型集成到您的WEB应用中，实现目标检测功能项目地址:https://gitcod
（Pytorch）动手学深度学习：基础内容（持续更新）孔表表uuu 神经网络深度学习 pytorch 人工智能
深度学习前言环境安装(Windows)安装anaconda使用conda或miniconda创建环境下载所需的包下载代码并执行(课件代码)关于线性代数内积(数量积、点乘)外积关于数据操作X.sum(0,keepdim=True)和X.sum(1,keepdim=True)广播机制(broadcast)Softmax函数和交叉熵损失函数Softmax函数交叉熵损失函数感知机多层感知机前言之前看吴恩达
决策树、朴素贝叶斯、随机森林、支持向量机、XGBoost 和 LightGBM算法的R语言实现生信与基因组学生信分析项目进阶技能合集算法机器学习 r语言
基本逻辑（1）使用rnorm函数生成5个特征变量x1到x5，并根据这些特征变量的线性组合生成一个二分类的响应变量y；（2）将生成的数据存储在数据框中，处理缺失值，并将响应变量转换为因子类型；（3）使用决策树、朴素贝叶斯、随机森林、支持向量机、XGBoost和LightGBM六种机器学习模型算法对数据进行训练和评估；（4）将各个模型的准确率和AUC值存储在结果数据框中，并通过柱状图展示结果。1.R包
PyTorch深度学习框架60天进阶学习计划第14天：循环神经网络进阶凡人的AI工具箱深度学习 pytorch 学习人工智能 python AI编程
PyTorch深度学习框架60天进阶学习计划第14天：循环神经网络进阶在深度学习处理序列数据时，循环神经网络(RNN)家族的模型扮演着至关重要的角色。今天，我们将深入探讨循环神经网络的进阶内容，包括BiLSTM的工作机制、注意力机制的数学原理，以及Transformer编码层的实现。目录BiLSTM的双向信息流机制LSTM回顾BiLSTM架构解析时序特征融合策略BiLSTM实现与案例注意力机制原理
AI芯片概述-分类、应用、技术（APU、CPU、DPU、GPU、NPU和TPU）及厂家一码当前 AI基础人工智能分类数据挖掘
写这篇文章的起因是老板想了解下AI芯片（NPU/GPU区别等），他不是搞技术那一挂的，所以就简单整理下，留作记录，顺便分享给各位。文章目录一、AI芯片是什么？二、AI芯片分类1.Training(训练)2.Inference(推理)三、AI芯片应用领域四、AI芯片技术路线五、APU、CPU、DPU、GPU、NPU和TPU六、AI芯片厂家一、AI芯片是什么？AI芯片：针对人工智能算法做了特殊加速设计
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh ickes@192.168.27.211 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

通俗解读人脸检测框架-RetinaFace

一、简介

二、模型结构

1.MobileNet-0.25

2.FPN结构

3.SSH结构

4.Head结构

三、Anchor的编解码

四、Multi-task Loss

你可能感兴趣的:(网络结构,机器学习,深度学习,人工智能,目标检测)