嵌入式视觉

万字长文搞懂MobileNetv1模型

MobileNetv1 论文详解

MobileNet 论文的主要贡献在于提出了一种深度可分离卷积架构（DW+PW 卷积），先通过理论证明这种架构比常规的卷积计算成本（Mult-Adds）更小，然后通过分类、检测等多种实验证明模型的有效性。（正经标题：MobileNet v1 论文详解。）
文章首发于 github 和知乎。

1、相关工作

标准卷积

一个大小为 $h_1\times w_1$ 过滤器（2 维卷积核），沿着 feature map 的左上角移动到右下角，过滤器每移动一次，将过滤器参数矩阵和对应特征图 $h_1 \times w_1 \times c_1$ 大小的区域内的像素点相乘后累加得到一个值，又因为 feature map 的数量（通道数）为 $c_1$ ，所以我们需要一个 shape 为 $ (c_1, h_1, w_1)$ 的滤波器（ 3 维卷积核），将每个输入 featue map 对应输出像素点位置计算和的值相加，即得到输出 feature map 对应像素点的值。又因为输出 feature map 的数量为 $c_2$ 个，所以需要 $c_2$ 个滤波器。标准卷积抽象过程如下图所示。

2D 卷积计算过程动态图如下，通过这张图能够更直观理解卷积核如何执行滑窗操作，又如何相加并输出 $c_2$ 个 feature map ，动态图来源这里。

分组卷积

Group Convolution 分组卷积，最早见于 AlexNet。常规卷积与分组卷积的输入 feature map 与输出 feature map 的连接方式如下图所示，图片来自CondenseNet。

分组卷积的定义：对输入 feature map 进行分组，然后分组分别进行卷积。假设输入 feature map 的尺寸为 $\times W \times c_{1}$ ，输出 feature map 数量为 $c_2$ 个，如果将输入 feature map 按通道分为 $g$ 组，则每组特征图的尺寸为 $\times W \times \frac{c_1}{g}$ ，每组对应的滤波器（卷积核）的尺寸为 $h_{1} \times w_{1} \times \frac{c_{1}}{g}$ ，每组的滤波器数量为 $\frac{c_{2}}{g}$ 个，滤波器总数依然为 $c_2$ 个，即分组卷积的卷积核 shape 为 $(c_2,\frac{c_1}{g}, h_1,w_1)$ 。每组的滤波器只与其同组的输入 map 进行卷积，每组输出特征图尺寸为 $\times W \times \frac{c_{2}}{g}$ ，将 $g$ 组卷积后的结果进行拼接 (concatenate) 得到最终的得到最终尺寸为 $\times W \times c_2$ 的输出特征图，其分组卷积过程如下图所示：

分组卷积的意义：分组卷积是现在网络结构设计的核心，它通过通道之间的稀疏连接（也就是只和同一个组内的特征连接）来降低计算复杂度。一方面，它允许我们使用更多的通道数来增加网络容量进而提升准确率，但另一方面随着通道数的增多也对带来更多的 $M A C$ 。针对 $\times 1$ 的分组卷积， $M A C$ 和 $F L OP s$ 计算如下：

$\begin{align*} & MACC = H \times W \times 1 \times 1 \times \frac{c_{1}}{g}\frac{c_{2}}{g} \times g = \frac{hwc_{1}c_{2}}{g} \\\\ & FLOPs = 2 \times MACC \\\\ & Params = g \times \frac{c_2}{g}\times\frac{c_1}{g} \times 1\times 1 + c_2 = \frac{c_{1}c_{2}}{g} \\\\ & MAC = HW(c_1 + c_2) + \frac{c_{1}c_{2}}{g} \\\\ \end{align*}$

从以上公式可以得出分组卷积的参数量和计算量是标准卷积的 $\frac{1}{g}$ 的结论，但其实对分组卷积过程进行深入理解之后也可以直接得出以上结论。

分组卷积的深入理解：对于 $1\times 1$ 卷积，常规卷积输出的特征图上，每一个像素点是由输入特征图的 $c_1$ 个点计算得到，而分组卷积输出的特征图上，每一个像素点是由输入特征图的 $ \frac{c_1}{g}$个点得到（参考常规卷积计算过程）。卷积运算过程是线性的，自然，分组卷积的参数量和计算量是标准卷积的 $\frac{1}{g}$ 了。

当分组卷积的分组数量 = 输入 feature map 数量 = 输出 feature map 数量，即 $g=c_1=c_2$ ，有 $c_1$ 个滤波器，且每个滤波器尺寸为 $\times K \times K$ 时，Group Convolution 就成了 Depthwise Convolution（DW 卷积），DW 卷积的卷积核权重尺寸为 $c_{1}, 1, K, K)$ 。

常规卷积的卷积核权重 shape 都为（C_out, C_in, kernel_height, kernel_width），分组卷积的卷积核权重 shape 为（C_out, C_in/g, kernel_height, kernel_width），DW 卷积的卷积核权重 shape 为（C_in, 1, kernel_height, kernel_width）。

从 Inception module 到 depthwise separable convolutions

深度可分离卷积（depthwise separable convolutions）的提出最早来源于 Xception 论文，Xception 的论文中提到，对于卷积来说，卷积核可以看做一个三维的滤波器：通道维+空间维（Feature Map 的宽和高），常规的卷积操作其实就是实现通道相关性和空间相关性的联合映射。Inception 模块的背后存在这样的一种假设：卷积层通道间的相关性和空间相关性是可以退耦合（完全可分）的，将它们分开映射，能达到更好的效果（the fundamental hypothesis behind Inception is that cross-channel correlations and spatial correlations are sufficiently decoupled that it is preferable not to map them jointly.）。

引入深度可分离卷积的 Inception，称之为 Xception，其作为 Inception v3 的改进版，在 ImageNet 和 JFT 数据集上有一定的性能提升，但是参数量和速度并没有太大的变化，因为 Xception 的目的也不在于模型的压缩。深度可分离卷积的 Inception 模块如图 Figure 4 所示。

Figure 4 中的“极限” Inception 模块与本文的主角-深度可分离卷积模块相似，区别在于：深度可分离卷积先进行 channel-wise 的空间卷积，再进行 $\times 1$ 的通道卷积，Figure 4 的 Inception 则相反；

2、MobileNets 结构

depthwise separable convolutions

MobileNets 是谷歌 2017 年提出的一种高效的移动端轻量化网络，其核心是深度可分离卷积。depthwise separable convolutions（深度可分离卷积）的核心思想是将一个完整的卷积运算分解为两步进行，分别为 Depthwise Convolution（DW 卷积）与 Pointwise Convolution（PW 卷积）。深度可分离卷积的计算步骤和滤波器尺寸如下所示。

Depthwise 卷积

注意本文 DW 和 PW 卷积计算量的计算与论文有所区别，本文的输出 Feature map 大小是 $D_G \times D_G$ ，论文公式是 $D_F \times D_F$ 。

不同于常规卷积操作， Depthwise Convolution 的一个卷积核只负责一个通道，一个通道只能被一个卷积核卷积（不同的通道采用不同的卷积核卷积），也就是输入通道、输出通道和分组数相同的特殊分组卷积，因此 Depthwise（DW）卷积不会改变输入特征图的通道数目。深度可分离卷积的 DW卷积步骤如下图：

DW 卷积的计算量 $\times D_{G}^{2} \times D_{K}^{2}$

Pointwise 卷积

上述 Depthwise 卷积的问题在于它让每个卷积核单独对一个通道进行计算，但是各个通道的信息没有达到交换，从而在网络后续信息流动中会损失通道之间的信息，因此论文中就加入了 Pointwise 卷积操作，来进一步融合通道之间的信息。PW 卷积是一种特殊的常规卷积，卷积核的尺寸为 $\times 1$ 。PW 卷积的过程如下图：

假设输入特征图大小为 $D_{G} \times D_{G} \times M$ ，输出特征图大小为 $D_{G} \times D_{G} \times N$ ，则滤波器尺寸为 $\times 1 \times M$ ，且一共有 $N$ 个滤波器。因此可计算得到 PW 卷积的计算量 $\times M \times D_{G}^{2}$ 。

综上：Depthwise 和 Pointwise 卷积这两部分的计算量相加为 $\times D_{G}^{2} \times D_{K}^{2} + N \times M \times D_{G}^{2}$ ，而标准卷积的计算量 $\times D_{G}^{2} \times D_{K}^{2} \times M$ 。所以深度可分离卷积计算量于标准卷积计算量比值的计算公式如下。

$\begin{align*} \frac{Depthwise \ Separable \ Conv}{Standard \ Conv} &= \frac{M \times D_{G}^{2}(D_{K}^{2} + N)}{N \times D_{G}^{2} \times D_{K}^{2} \times M} \\\\ &= \frac{D_{K}^{2} + N}{D_{K}^{2} \times N} \\\\ &= \frac{1}{N} + \frac{1}{D_{K}^{2}} \\\\ \end{align*}$

可以看到 Depthwise + Pointwise 卷积的计算量相较于标准卷积近乎减少了 $N$ 倍， $N$ 为输出特征图的通道数目，同理参数量也会减少很多。在达到相同目的（即对相邻元素以及通道之间信息进行计算）下，深度可分离卷积能极大减少卷积计算量，因此大量移动端网络的 backbone 都采用了这种卷积结构，再加上模型蒸馏，剪枝，能让移动端更高效的推理。

深度可分离卷积的详细计算过程可参考 Depthwise卷积与Pointwise卷积。

2.2、网络结构

$\times 3$ 的深度可分离卷积 Block 结构如下图所示：

左边是带 bn 和 relu 的标准卷积层，右边是带 bn 和 relu 的深度可分离卷积层。
$\times 3$ 的深度可分离卷积 Block 网络的 pytorch 代码如下：

class MobilnetV1Block(nn.Module):
    """Depthwise conv + Pointwise conv"""
    def __init__(self, in_channels, out_channels, stride=1):
        super(MobilnetV1Block, self).__init__()
        # dw conv kernel shape is (in_channels, 1, ksize, ksize)
        self.dw = nn.Conv2d(in_channels, in_channels, kernel_size=3,stride=stride,padding=1, groups=in_channels, bias=False)
        self.bn1 = nn.BatchNorm2d(in_channels)
        self.pw = nn.Conv2d(in_channels, out_channels, kernel_size=1, stride=1, padding=0, bias=False)
        self.bn2 = nn.BatchNorm2d(out_channels)
    
    def forward(self, x):
        out1 = F.relu(self.bn1(self.dw(x)))
        out2 = F.relu(self.bn2(self.pw(out1)))
        return out2

MobileNet v1 的 pytorch 模型导出为 onnx 模型后，深度可分离卷积 block 结构图如下图所示。

仅用 MobileNets 的 Mult-Adds（乘加操作）次数更少来定义高性能网络是不够的，确保这些操作能够有效实施也很重要。例如非结构化稀疏矩阵运算（unstructured sparse matrix operations）通常并不会比密集矩阵运算（dense matrix operations）快，除非是非常高的稀疏度。

这句话是不是和 shufflenet v2 的观点一致，即不能仅仅以 FLOPs 计算量来表现网络的运行速度，除非是同一种网络架构。

MobileNet 模型结构将几乎所有计算都放入密集的 1×1 卷积中（dense 1 × 1 convolutions），卷积计算可以通过高度优化的通用矩阵乘法（GEMM）函数来实现。卷积通常由 GEMM 实现，但需要在内存中进行名为 im2col 的初始重新排序，然后才映射到 GEMM。 caffe 框架就是使用这种方法实现卷积计算。 1×1 卷积不需要在内存中进行重新排序，可以直接使用 GEMM（最优化的数值线性代数算法之一）来实现。

如表 2 所示，MobileNet 模型的 1x1 卷积占据了 95% 的计算量和 75% 的参数，剩下的参数几乎都在全连接层中， 3x3 的 DW 卷积核常规卷积占据了很少的计算量（Mult-Adds）和参数。

2.3、宽度乘系数-更小的模型

尽管基本的 MobileNet 体系结构已经很小且网络延迟 latency 很低，但很多情况下特定用例或应用可能要求模型变得更小，更快。为了构建这些更小且计算成本更低的模型，我们引入了一个非常简单的参数 $\alpha$ ，称为 width 乘数。宽度乘数 $\alpha$ 的作用是使每一层的网络均匀变薄。对于给定的层和宽度乘数 $\alpha$ ，输入通道的数量变为 $\alpha M$ ，而输出通道的数量 $N$ 变为 $\alpha N$ 。具有宽度乘数 $\alpha$ 的深度可分离卷积（其它参数和上文一致）的计算成本为：

$\alpha M \times D_{G}^{2} \times D_{K}^{2} + \alpha N \times \alpha M \times D_{G}^{2}$

其中 $\alpha \in (0,1]$ ，典型值设置为 1、0.75、0.5 和 0.25。 $\alpha = 1$ 是基准 MobileNet 模型， $\alpha < 1$ 是缩小版的 MobileNets。宽度乘数的作用是将计算量和参数数量大约减少 $\alpha^2$ 倍，从而降低了网络计算成本（ computational cost of a neural network）。宽度乘数可以应用于任何模型结构，以定义新的较小模型，且具有合理的准确性、网络延迟 latency 和模型大小之间的权衡。它用于定义新的精简结构，需要从头开始进行训练模型。基准 MobileNet 模型的整体结构定义如表 1 所示。

2.4、分辨率乘系数-减少表示

减少模型计算成本的的第二个超参数（hyper-parameter）是分辨率因子 $\rho$ ，论文将其应用于输入图像，则网络的每一层 feature map 大小也要乘以 $\rho$ 。实际上，论文通过设置输入分辨率来隐式设置 $\rho$ 。
将网络核心层的计算成本表示为具有宽度乘数 $\alpha$ 和分辨率乘数 $\rho$ 的深度可分离卷积的公式如下：
$\alpha M \times \rho D_{G}^{2} \times D_{K}^{2} + \alpha N \times \alpha M \times \rho D_{G}^{2}$
其中 $\rho \in (0,1]$ ，通常是隐式设置的，因此网络的输入分辨率为 224、192、160 或 128。 $\rho = 1$ 时是基准(baseline) MobilNet， $\rho < 1$ 时缩小版 MobileNets。分辨率乘数的作用是将计算量减少 $\rho^2$ 。

2.5、模型结构总结

整个网络不算平均池化层与 softmax 层，且将 DW 卷积和 PW 卷积计为单独的一层，则 MobileNet 有 28 层网络。+ 在整个网络结构中步长为2的卷积较有特点，卷积的同时充当下采样的功能；
第一层之后的 26 层都为深度可分离卷积的重复卷积操作，分为 4 个卷积 stage；
每一个卷积层（含常规卷积、深度卷积、逐点卷积）之后都紧跟着批规范化和 ReLU 激活函数；
最后一层全连接层不使用激活函数。

3、实验

作者分别进行了 Stanford Dogs dataset 数据集上的细粒度识别、大规模地理分类、人脸属性分类、COCO 数据集上目标检测的实验，来证明与 Inception V3、GoogleNet、VGG16 等 backbone 相比，MobilNets 模型可以在计算量（Mult-Adds）数 10 被下降的情况下，但是精度却几乎不变。

4、结论

论文提出了一种基于深度可分离卷积的新模型架构，称为 MobileNets。在相关工作章节中，作者首先调查了一些让模型更有效的重要设计原则，然后，演示了如何通过宽度乘数和分辨率乘数来构建更小，更快的 MobileNet，通过权衡合理的精度以减少模型大小和延迟。然后，我们将不同的 MobileNets 与流行的模型进行了比较，这些模型展示了出色的尺寸，速度和准确性特性。最后，论文演示了 MobileNet 在应用于各种任务时的有效性。

5、基准模型代码

自己复现的基准 MobileNet v1 代模型 pytorch 代码如下：

import torch
import torch.nn as nn
import torch.nn.functional as F
import torchvision.models as models
from torch import flatten

class MobilnetV1Block(nn.Module):
    """Depthwise conv + Pointwise conv"""

    def __init__(self, in_channels, out_channels, stride=1):
        super(MobilnetV1Block, self).__init__()
        # dw conv kernel shape is (in_channels, 1, ksize, ksize)
        self.dw = nn.Sequential(
            nn.Conv2d(in_channels, 64, kernel_size=3,
                      stride=stride, padding=1, groups=4, bias=False),
            nn.BatchNorm2d(in_channels),
            nn.ReLU(inplace=True)
        )
        # print(self.dw[0].weight.shape)  # print dw conv kernel shape
        self.pw = nn.Sequential(
            nn.Conv2d(in_channels, out_channels, kernel_size=1,
                      stride=1, padding=0, bias=False),
            nn.BatchNorm2d(out_channels),
            nn.ReLU(inplace=True)
        )

    def forward(self, x):
        x = self.dw(x)
        x = self.pw(x)
        return x


def convbn_relu(in_channels, out_channels, stride=2):
    return nn.Sequential(nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride,
                                   padding=1, bias=False),
                         nn.BatchNorm2d(out_channels),
                         nn.ReLU(inplace=True))


class MobileNetV1(nn.Module):
    # (32, 64, 1) means MobilnetV1Block in_channnels is 32, out_channels is 64, no change in map size.
    stage_cfg = [(32, 64, 1), 
           (64, 128, 2), (128, 128, 1),     # stage1 conv
           (128, 256, 2), (256, 256, 1),    # stage2 conv
           (256, 512, 2), (512, 512, 1), (512, 512, 1), (512, 512, 1), (512, 512, 1), (512, 512, 1), # stage3 conv
           (512, 1024, 2), (1024, 1024, 1)  # stage4 conv
    ]
    def __init__(self, num_classes=1000):
        super(MobileNetV1, self).__init__()
        self.first_conv = convbn_relu(3, 32, 2)  # Input image size reduced by half
        self.stage_layers = self._make_layers(in_channels=32)
        self.linear = nn.Linear(1024, num_classes)  # 全连接层

    def _make_layers(self, in_channels):
        layers = []
        for x in self.stage_cfg:
            in_channels = x[0]
            out_channels = x[1]
            stride = x[2]
            layers.append(MobilnetV1Block(in_channels, out_channels, stride))
            in_channels = out_channels
        return nn.Sequential(*layers)

    def forward(self, x):
        """Feature map shape(h、w) is 224 -> 112 -> 56 -> 28 -> 14 -> 7 -> 1"""
        x = self.first_conv(x)
        x = self.stage_layers(x)

        x = F.avg_pool2d(x, 7)  # x shape is 7*7
        x = flatten(x, 1)       # x = x.view(x.size(0), -1)
        x = self.linear(x)

        return x


if __name__ == "__main__":
    model = MobileNetV1()
    model.eval()                  # set the model to inference mode
    input_data = torch.rand(1, 3, 224, 224)
    outputs = model(input_data)
    print("Model output size is", outputs.size())

程序运行结果如下：

Model output size is torch.Size([1, 1000])

参考资料

Group Convolution分组卷积，以及Depthwise Convolution和Global Depthwise Convolution
理解分组卷积和深度可分离卷积如何降低参数量
深度可分离卷积（Xception 与 MobileNet 的点滴）
MobileNetV1代码实现
Depthwise卷积与Pointwise卷积
【CNN结构设计】深入理解深度可分离卷积

本地部署deepseek-r1:14b 批量调用 Python调用本地deepseek-r1:14b实现对本地数据库的AI管理朴拙Python交易猿 python 数据库开发语言
这篇文章主要为大家详细介绍了Python如何基于DeepSeek模型，调用本地deepseek-r1:14b实现对本地数据库的AI管理场景描述基于DeepSeek模型，实现对本地数据库的AI管理。实现思路1、本地python+flask搭建个WEB，配置数据源。2、通过DeepSeek模型根据用户输入的文字需求，自动生成SQL语句。3、通过SQL执行按钮，实现对数据库的增删改查。模型服务方法1启动
vue使用el-select下拉框匹配不到值的优化方案，el-select显示，当选择框的选项无法与选择框的value值匹配时，不显示value值的处理办法 Kingsaj 项目实操 vue.js elementui javascript
问题描述：新建表单数据，下拉框选项一般从接口获取的数据列表，比如后期某个数据关停了，这条数据就会被删除，导致我们取不到这条数据。就会出现el-select下拉框匹配不到值的情况。所以我们要处理这种情况的。复现步骤：数据字典新增一条【数据项】新添加一条工单数据绑定这个新增的【数据项】，提交保存操作。保存成功后，删除数据字典新增的【数据项】。然后点击当前新添加的工单数据编辑，操作，查看工单数据字典这一
原创LabVIEW与台达EtherCAT运动控制卡完整测试程序代码 LabVIEW热爱者 labview
利用LabVIEW调用台达提供的库函数，控制台达EtherCAT运动控制卡，实现初始化、IO、运动控制、模拟量读取等功能。LabVIEW2013以上版本可以打开。可实现单轴、多轴运动控制。
免费GIS工具箱：支持多种格式的模型预览及编辑，还能进行协同编辑 GISBox GISBox GIS 切片分发倾斜摄影 OBJ FBX OSGB
市面上不少GIS软件价格高昂，功能却不尽人意。但GISBox却不太一样，它的切片、分发功能完全免费，能预览、编辑多种格式模型，还支持协同编辑，性价比远超同类软件，如果你想进一步了解它，不妨看看这篇文章。01打破价格与功能的双重困境在地理信息系统（GIS）领域，大多数软件的高价一直是小型企业、科研团队以及个人开发者的一大阻碍。这些软件不仅采购成本高，后续的维护和升级费用也不低。与此同时，很多软件功能
OSGB编辑复杂又困难？试试这款免费GIS工具箱，高效实现场景编辑 GISBox GISBox vue.js webgl node.js edge 数据分析科技经验分享
在当今的地理信息科学（GIS）领域，数据的精确处理与直观展示无疑扮演着核心角色。无论是城市规划的精细布局、环境保护的科学决策，还是灾害预警的迅速响应，都离不开准确、实时的地理信息基石。然而，面对庞大的GIS数据，许多软件在处理、编辑和转换上都显得力不从心，尤其是对于倾斜摄影模型、地形和影像的编辑，更是成为了许多用户的棘手难题。1.GISBox简介GISBox作为一款免费的GIS工具箱，支持OSGB
Ollama 本地部署 FuWen_Hao ai
文章目录前言一、Ollama是什么？二、使用步骤1.安装OllamaWindows检验是否安装成功2.运行ollama模型库运行模型提问修改配置（可选）如果有个性化需求，需要修改默认配置：参考前言Ollama是一个易于使用的本地大模型运行框架，支持Mac、Windows和WSL2环境。文章介绍了如何在Widows上安装Ollama。一、Ollama是什么？Ollama是一个简明易用的本地大模型运行
Matplotlib如何创建交互式图表？ EdgarBertram matplotlib
Matplotlib是一个强大的Python绘图库，它可以用于生成高质量的静态图像。然而，Matplotlib同样支持创建交互式图表，这对于数据分析和可视化非常有用。交互式图表允许用户通过交互方式探索数据，例如缩放、平移或者查询数据点。下面我们将详细介绍如何使用Matplotlib创建交互式图表。一、安装与配置首先，确保你已经安装了Matplotlib库。你可以使用pip来安装：bash复制代码p
C++中函数模板与类模板的简单使用 CoderIsArt C++11 c++函数模板类模板
在C++中，模板是实现泛型编程的核心机制，允许开发者编写与类型无关的代码。以下是函数模板和类模板的详细介绍及实际示例。一、函数模板定义函数模板通过参数化类型实现泛型操作，只需编写一次代码即可处理多种数据类型，避免重复。语法template返回类型函数名(参数列表){...}typenameT表示类型占位符，编译时根据实参类型自动实例化。真实示例‌交换两个值（swap）templatevoidswa
Deepseek-r1:14b+ScraperAPI实现联网本地大模型回答 FuWen_Hao python 人工智能
文章目录前言一、Deekseek本地部署二、SerpAPI1.什么是SerpAPI？2.如何使用SerpAPI进行Web搜索三、实现Deepseek-r1:14b+ScraperAPI实现联网本地大模型回答1.Code前言我需要对本地的Deepseek-r1:14b进行提问，我发现它对于实时的问题，或者不知道的问题，会不回答或者乱回答。基于这点我想通过WebAPI传输更多的信息给到Deekseek
hdc工具安装、常用命令及使用技巧 MardaWang HarmonyOS NEXT harmonyos 华为
介绍：hdc（OpenHarmonyDeviceConnector）是为开发人员提供的用于设备连接调试的命令行工具，该工具需支持部署在Windows/Linux/Mac等系统上与OpenHarmony设备（或模拟器）进行连接调试通信。简单来讲，hdc是OpenHarmony提供的用于开发人员调试硬件、应用的命令行工具，用在电脑与开发板之间的交互。hdc适用于OpenHarmony应用、硬件开发及测
Gone v2 使用 Gone Viper 组件进行本地配置 dapeng-大鹏 Gone框架介绍 Gone框架配置管理 Viper配置组件多格式配置文件配置自动加载机制环境变量配置覆盖层级化配置结构 Go应用配置注入
发现gone-io/gone：一个优雅的Go依赖注入框架！它让您的代码更简洁、更易测试。框架轻量却功能强大，完美平衡了灵活性与易用性。⭐如果您喜欢这个项目，请给我们点个星！您的支持是我们前进的动力！欢迎贡献代码或提出建议，一起让gone变得更好！‍#golang#依赖注入#开源github.com/gone-io/gone本文原地址：https://github.com/gone-io/goner
蒙特卡罗树搜索算法依赖游戏树，也就是游戏的状态空间和可选动作的构成。游戏树是游戏设计者为了实现对战或博弈的目的 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介20世纪末到21世纪初，计算机科学和互联网科技迅速发展。在这些新兴领域中，蒙特卡罗方法是一个显著的研究热点。蒙特卡罗方法源自物理学和数学领域，其目的是模拟物理系统的随机运动，从而解决很多数学、物理等领域的问题。蒙特卡loor方法被广泛应用于各类模拟、预测、优化、控制等领域。在计算机领域，蒙特卡罗方法也扮演了重要角色。现如今，计算性能已经足够强大，人们可以轻松地进
【大语言模型_5】xinference部署embedding模型和rerank模型没枕头我咋睡觉大语言模型语言模型 embedding 人工智能
一、安装xinferencepipinstallxinference二、启动xinference./xinference-local--host=0.0.0.0--port=5544三、注册本地模型1、注册embedding模型curl-XPOST"http://localhost:5544/v1/models"\-H"Content-Type:application/json"\-d'{"mod
向量检索、检索增强生成（RAG）、大语言模型及相关系统架构——典型面试问题及简要答案快撑死的鱼算法工程师宝典（面试学习最新技术必备）语言模型系统架构面试
1.什么是向量检索？它与传统基于关键字的检索相比有什么不同？答案要点：向量检索是将文本、图像、音频等数据映射为向量，在高维向量空间中基于相似度或距离进行搜索。与传统基于关键字的检索（如倒排索引）相比，向量检索更关注“语义”或“特征”，能找出语义上相似但未必包含相同关键词的内容。向量检索非常适合多模态场景（例如“以图搜图”）或自然语言问答（同义词、上下文关联等）。2.什么是检索增强生成（RAG）？核
HarmonyOS Next 企业级分布式办公应用实战：构建高效协同的办公新生态 lyc233333 harmonyos 分布式华为
在数字化办公浪潮汹涌的当下，企业对于高效、便捷且协同性强的办公应用需求愈发迫切。华为鸿蒙HarmonyOSNext系统凭借其先进的分布式技术，为打造创新型企业级分布式办公应用提供了坚实的基础。本文将基于实际开发经验，深入剖析如何利用HarmonyOSNext构建企业级分布式办公应用，涵盖从需求分析到系统架构搭建，再到核心功能实现以及性能优化等关键环节。一、办公应用需求与系统架构搭建（一）企业级分布
探索Astra DB与LangChain的集成：从向量存储到对话历史 eahba 数据库 langchain python
技术背景介绍AstraDB是DataStax推出的一款无服务器的向量数据库，基于ApacheCassandra®构建，并通过易于使用的JSONAPI提供服务。AstraDB的独特之处在于其强大的向量存储能力，这在处理自然语言处理任务时尤为突出。LangChain与AstraDB的集成为开发者提供了强大的工具链，从数据存储到语义缓存，再到自查询检索，帮助简化复杂的数据操作。核心原理解析LangCha
如何评估一个RAG系统（RAGas评测框架）-下篇写程序的小火箭大语言模型人工智能语言模型 chatgpt langchain gpt
RAGas是一个用于评测RAG系统的评测框架，它支持与不同大语言模型的集成，并与langchain生态打通，能够很方便的构建评测系统。下面是RAGas的一些链接论文：https://arxiv.org/pdf/2309.15217官方文档：Ragashttps://github.com/explodinggradients/ragas官方文档及github对框架的使用介绍的比较详细，本文不会就该方
【AI大模型应用开发】【RAG评估】0. 综述：一文了解RAG评估方法、工具与指标同学小张大模型人工智能笔记经验分享 gpt agi AIGC
大家好，我是同学小张，日常分享AI知识和实战案例欢迎点赞+关注，持续学习，持续干货输出。+v:jasper_8017一起交流，一起进步。微信公众号也可搜【同学小张】本站文章一览：前面我们学习了RAG的基本框架并进行了实践，我们也知道使用它的目的是为了改善大模型在一些方面的不足：如训练数据不全、无垂直领域数据、容易出现幻觉等。那么如何评估RAG的效果呢？本文我们来了解一下。文章目录推荐前置阅读0.R
Java 环境配置与 JAR 文件问题解决全攻略不羁。。杂记丨每天亿点小知识 java jar 开发语言
目录一、Java环境配置指南1.Windows系统配置步骤1.1下载安装JDK1.2配置环境变量2.Linux/macOS系统配置2.1终端命令配置二、JAR文件问题诊断与修复1.检查JAR文件完整性1.1命令行验证1.2哈希值校验2.依赖库管理方案2.1Maven依赖配置示例2.2命令行指定依赖三、常见问题解决方案1.环境变量不生效处理1.1清除系统缓存1.2路径优先级调整2.旧版本残留处理2.
HarmonyOS Next--实现炫酷下拉刷新与上拉加载 harmonyos-next
摘要：本文通过HarmonyOS的PullToRefresh组件，结合Canvas绘图技术，实现具有动态小球特效的下拉刷新与上拉加载功能。文章将详细解析动画绘制原理、手势交互逻辑以及性能优化要点。一、效果预览实现功能包含：弹性下拉刷新：带有透明度渐变的圆形聚合动画波浪加载动画：三个小球按序弹跳的加载效果数据动态加载：模拟异步数据请求与列表更新流畅交互体验：支持列表惯性滑动与边缘回弹二、核心实现原理
一步到位！7大模型部署框架深度测评：从理论到DeepSeek R1:7B落地实战人肉推土机人工智能 python
本文在掘金同步发布：文章地址更多优质文章，请关注本人掘金账号：人肉推土机的掘金账号随着大语言模型（LLM）的广泛应用，如何高效部署和推理模型成为开发者关注的核心问题。本文深入解析主流模型部署框架（Transformers、ModelScope、vLLM、LMDeploy、Ollama、SGLang、DeepSpeed），结合其技术原理、优缺点及适用场景，并提供DeepSeekR1:7B的详细部署实
【论文阅读】PERSONALIZE SEGMENT ANYTHING MODEL WITH ONE SHOT s1ckrain 计算机视觉论文阅读计算机视觉人工智能
PERSONALIZESEGMENTANYTHINGMODELWITHONESHOT原文摘要研究背景与问题：SAM是一个基于大规模数据预训练的强大提示框架，推动了分割领域的发展。尽管SAM具有通用性，但在无需人工提示的情况下，针对特定视觉概念（如自动分割用户宠物狗）的定制化研究尚不充分。方法提出：提出了一种无需训练的SAM个性化方法，称为PerSAM。仅需单次数据（一张带参考掩码的图像），即可在新
使用BLSTM自动评估句子级构音障碍的可理解性帅小柏声音的未来：语音识别文献解读深度学习人工智能分类
使用BLSTM自动评估句子级构音障碍的可理解性原文：AutomaticAssessmentofSentence-LevelDysarthriaIntelligibilityUsingBLSTM引言构音障碍简介构音障碍的定义与特征构音障碍是一种由神经原因引起的运动性言语障碍表现为肌肉无力、瘫痪或协调不良，导致言语清晰度下降可理解性的重要性可理解性是衡量言语障碍严重程度的重要指标自动评估可帮助语言病理
MDC-Mapped Diagnostic Context（映射诊断上下文） NEUMaple 微服务 spring boot java MDC
MDC，全称为MappedDiagnosticContext（映射诊断上下文），是SLF4J（SimpleLoggingFacadeforJava）提供的一种机制，用于在多线程应用中存储和管理与特定线程相关的上下文信息。这种机制特别适用于需要跨多个方法调用或服务边界传递诊断信息的场景，例如跟踪分布式系统中的请求流。MDC的主要用途日志关联：在分布式系统或多线程应用中，MDC可以用来携带一些上下文信
DeepSeek-R1核心技术深度解密：动态专家网络与多维注意力融合的智能架构实现全解析 Coderabo DeepSeek R1模型企业级应用架构 DeepSeek-R1
DeepSeek-R1智能架构核心技术揭秘：从动态路由到分布式训练的完整实现指南一、DeepSeek-R1架构设计原理1.1动态专家混合系统DeepSeek-R1采用改进型MoE（MixtureofExperts）架构，核心公式表达为：y=∑i=1nG(x
计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
对MCP工作流的一些个人认知持续学习的老赵人工智能
最近在学习MCP系统，虽尚未深入掌握，但已对其工作原理有了初步认识，在此分享下学习收获。MCP是一套能实现客户端、多种服务与大模型协同工作的系统，能处理任务请求并及时反馈。其工作流程如下：一、获取并更新服务使用方法（一）收集整理使用方法MCP正常运行依赖于对各类服务使用方法的了解，这要靠已在系统注册且可识别的功能模块。一旦有新模块注册或旧模块更新，系统会自动检测并获取其使用方法信息。MCP订阅服务
Web端驱动的综合打印方案与场景 #六脉神剑 Web打印 myBuilder 产品运营
随着Web技术的快速发展，基于Web端的打印方案逐渐成为主流，它能够满足多样化的打印需求，并提供更便捷、高效的打印体验。以下是一些常见的Web端驱动综合打印方案与应用场景：一、方案概述浏览器直接打印原理:利用浏览器自带的打印功能，调用操作系统打印接口，直接打印网页内容。优点:简单易用，无需额外开发。缺点:打印样式控制有限，兼容性差，无法满足复杂打印需求。适用场景:打印简单的网页内容，例如文章、表格
B端安全网关的简单实现 #六脉神剑 java java 网络安全 spring boot
安全网关中的DMZ内网穿透是一种结合网络安全隔离与穿透技术的解决方案，主要用于实现外部网络对内网资源的安全访问。其核心逻辑如下：一、DMZ区的安全隔离作用网络分区机制‌：DMZ（非军事区）是安全网关设置的中间隔离区域，用于部署对外提供服务的设备（如Web服务器、邮件服务器），与内网核心数据区域物理隔离‌。访问控制‌：外网用户仅能访问DMZ区资源，无法直接触及内网敏感数据，即使DMZ区设备被攻破，内
【入门初级篇】报表基础操作与功能介绍 #六脉神剑低代码 myBuilder 产品运营
【入门初级篇】报表的基本操作与功能介绍视频要点（1）报表组件的创建（2）指标组件的使用：一级、二级指标操作演示（3）表格属性设置介绍（4）图表属性设置介绍（5）报表预览：绑定静态数据（6）介绍myBuilder内部模块：用报表低代码开发的示例介绍点击访问myBuilder产品运营平台CSDN站内资源下载myBuilder交流请加微信：MyBuilder88
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb