Dreamcatcher风

【AI】《ResNet》论文解读、代码实现与调试找错

前言

残差网络Resnet，被誉为撑起计算机视觉半边天的文章，重要性不言而喻。另外，文章作者何凯明，在2022年AI 2000人工智能最具影响力学者排行里排名第一：

为什么这篇文章影响力这么大呢？

通常来说，在同等条件下，网络越深，性能越好（暂且这样认为）。在resnet提出之前，网络无法做到“很深”，堆叠到二十多层就极容易出现梯度消失等问题，导致模型难以训练。resnet的出现，解决了这个问题，模型可以轻易堆叠到几十层上百层（一千层的都有）。那么，接下来就来看看这个网络是如何解决问题的吧。

下文主要包括：

论文分析
从头搭建resnet_50
Pytorch张量表示方法，搭建网络出错时该如何调试找错

正文：论文解读

论文地址：https://arxiv.org/abs/1512.03385

首先看摘要，实际上讲了一件事情：

以往的模型设计，往往通过增加网络的深度来实现更好的性能，但问题是，层数堆叠多了，一是极易造成梯度消失，二是难以训练，因此先前的模型如果能堆叠到二十多层并成功训练就已经万事大吉了。作者经过研究，发现问题主要出在信息传递这个过程中：每一次传递都没有可以“参考”的东西，只能根据上一层的信息来学习；如果在传递的过程中不断给予“指导”，就能够解决这个问题。

如何理解呢？

举个形象的例子：5个人、10个人、20个人分别进行传话，5个人的时候，传到最后可能还保留不少原始信息，10个人的时候，传到最后可能意思都变了一大半了，但还可以保留一部分有用信息，20个人的时候，传到最后可能已经大相径庭。如果第一个人能不断地提示后面的人，那么传到最后时，信息就能较为完整地保留下来。

下面给出论文中用的最多的一张图：

输入的x就是第一个传话人说的内容，中间的weight layer就是中间传话的人，右边的x(identity)就是第一个传话人提示后面某个人的真实内容；F(x)就是中间人传话的内容丢失情况，F(x)+x就是真实内容对传话内容的纠错。

例子举完了，相信大家也大致明白为什么要使用“残差”结构了。下面就从数学角度来看一下这种残差结构，分析一下为什么能够work：

一、为什么能够解决梯度消失的问题？

首先看核心公式：

①式为恒等映射函数h(·)和残差函数F(·)之和，即：对第l层的输入x计算残差，再和x的恒等映射加起来，记作y；②式表示对y进行激活，得到第l层的输出（也就是第l+1层的输入）；③式是对①和②的整理，可以用一个式子统一起来书写。

上面的公式是针对相邻两层的情况，那么对于任意深的单元L和任意浅的单元l有：

该式表示第L层的输入等于第l层的输出加上第l层到第L-1层的残差和，那么在优化的时候，只需要拟合残差项（后面的∑(·)），使之尽可能为0，就能实现第L层和第l层恒等，从而做到信息不丢失。为什么需要拟合残差呢？我个人的理解是：第L层和第l层之间的每一个部分，都会对当前造成影响，有些地方是不好的残差，那么优化方向可能会被带偏，起到反作用。

假如损失函数为ε，在反向传播时，对上面的式子求偏导，得到：

可以看到，左边蓝框框里的项没有权重信息，意味着反向传播的时候，信息能够从第L层直接传递到第l层，而无需经过权重，这就保证了信息的完整性。右边蓝框框里是1+▲是防止梯度消失的关键，因为目前大多用的是批量梯度下降算法，每次是把一个批量（batch）的样本送进去计算，那么不可能所有批量计算偏导的结果都为-1，从而1+▲在大部分情况下不会为0，因此即便某个批量计算的权重很小，都不会发生梯度消失。

二、为什么能够加快收敛速度？

实际上还是可以从上面的偏导公式来解释，在计算batch的梯度时，大多数情况可以获得一个较大的梯度值（因为有一个1在那里），从而可以大步向前走，更快地找到最优值。

另外，在整个模型中，浅层网络提取到的是低级特征，深层网络提取到的是复杂特征，如果没有恒等映射连接，那么最后是利用复杂特征进行拟合，从而比较费时，加入恒等映射，相当于保留了一部分低级特征用来判断。

理论方面讲完了，现在看看网络架构是什么样的：

以50-layer为例，也就是后面将要实现的resnet_50，可以看到总共有6个模块，分别是：conv1、conv2_x、conv3_x、conv4_x、conv5_x、fc。

conv1主要是对原始输入图像进行第一波卷积，把输入图像从224缩小为112（这里的224和112指图像的长宽，后面同理）；conv2/3/4/5_x是4个卷积模块，每个模块包含了多个由3个卷积层组成的小模块，例如，对于conv3_x这个模块来说，包含了4个小模块（右边有一个×4），每个小模块包含了3个卷积层。

fc主要是实现分类作用，这个层可以保留，也可以不要。

可视化网络架构：

注：可以看到图中跳跃连接的地方有实线和虚线之分，区别是：实线表示不需要改变图像大小（卷积步长为1），虚线表示要把图像大小减半（卷积步长为2）

正文：代码实现——从头搭建resnet_50

一、模型搭建（很多坑）

Pytorch已经在torchvision.models里集成了resnet模型，但是官方代码较为复杂，因为resnet模型有多种结构（resnet_18/34/50/108/152），还有很多变种（不同宽度、不同组数），而官方都在一个代码文件里进行实现，因此看上去比较繁琐。因为这篇文章主要是介绍resnet_50，因此我把源码做了大量修改，以便更容易读懂。下面给出resnet_50的简洁实现方式。

考虑到用注释的方式讲解代码不太合适，编辑器里无法修改字体样式，所以需要重点讲解的地方将放在后面。

注意！！这里代码块无法显示行号，而后面的讲解是基于行号来讲的，所以推荐大家去我的微信公众号看这篇文章，公众号在文末可查看。（我也没办法）

import torch
import torch.nn as nn

class BottleNeck(nn.Module):
    expension = 4 # 瓶颈层里的第三个卷积层的通道数是第二个的4倍

    def __init__(self, in_channel, out_channel, stride=1, channel_match = None):

        super(BottleNeck, self).__init__()

        # 第一个卷积层
        self.conv1 = nn.Conv2d(in_channels=in_channel, out_channels=out_channel,
                               kernel_size=1, stride=stride, bias=False)
        self.bn1 = nn.BatchNorm2d(out_channel)

        # 第二个卷积层
        self.conv2 = nn.Conv2d(in_channels=out_channel, out_channels=out_channel,
                               kernel_size=3, stride=1, padding=1, bias=False)
        self.bn2 = nn.BatchNorm2d(out_channel)

        # 第三个卷积层
        self.conv3 = nn.Conv2d(in_channels=out_channel, out_channels=out_channel*self.expension, # 这里扩充通道数
                               kernel_size=1, stride=1, bias=False)

        self.bn3 = nn.BatchNorm2d(out_channel*self.expension)
        self.relu = nn.ReLU(inplace=False)

        self.channel_match = channel_match

    def forward(self, x):

        identity = x
        if self.channel_match is not None: # 这个if一定要加上
            identity = self.channel_match(x)
        # print('x:',x.shape)
        # print('identity:', identity.shape)
        # 卷积层1
        out = self.conv1(x)
        out = self.bn1(out)
        out = self.relu(out)
        # print('x1:', out.shape) # x1: torch.Size([2, 64, 56, 56]) 

        # 卷积层2
        out = self.conv2(out)
        out = self.bn2(out)
        out = self.relu(out)
        # print('x2:', out.shape)

        # 卷积层3
        out = self.conv3(out)
        out = self.bn3(out)
        # print('x3:', out.shape)

        # 直连+跳跃
        out += identity
        out = self.relu(out)

        return out

class ResNet_50(nn.Module):

    def __init__(self,
                 block = BottleNeck,
                 block_nums = [3,4,6,3],
                 num_classes=14):
        super(ResNet_50, self).__init__()

        self.in_channel = 64

        self.conv1 = nn.Conv2d(3, self.in_channel, kernel_size=7, stride=2, padding=3, bias=False)
        self.bn1 = nn.BatchNorm2d(self.in_channel)
        self.relu = nn.ReLU(inplace=False)

        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
        self.layer1 = self.make_layer(block, 64, block_nums[0])
        self.layer2 = self.make_layer(block, 128, block_nums[1], stride=2)
        self.layer3 = self.make_layer(block, 256, block_nums[2], stride=2)
        self.layer4 = self.make_layer(block, 512, block_nums[3], stride=2)

        self.avepool = nn.AvgPool2d(kernel_size=7, stride=1)
        self.fc = nn.Linear(2048, num_classes)

    def make_layer(self, block, first_channel, block_num, stride = 1):

        expansion = 4
        channel_match = None
        layers = []
        
        channel_match = nn.Sequential(nn.Conv2d(self.in_channel, first_channel*expansion,
                                                kernel_size=1, stride=stride, bias=False),
                                      nn.BatchNorm2d(first_channel*expansion)
                                      )

        layers.append(block(self.in_channel, first_channel,
                            channel_match = channel_match, stride = stride)) # 只有这里需要channel_match！
        self.in_channel = first_channel*expansion

        for _ in range(1, block_num): # 这里不需要channel_match！
            layers.append(block(self.in_channel, first_channel))

        return nn.Sequential(*layers)

    def forward(self, x):

        # print('输入x:',x.shape)
        x = self.conv1(x)
        x = self.bn1(x)
        x = self.relu(x)
        # print('conv1 x:', x.shape)

        x = self.maxpool(x)
        # print('conv2_x_maxpool x:', x.shape)
        x = self.layer1(x)
        # print('conv2_x_1 x:', x.shape)
        x = self.layer2(x)
        # print('conv2_x_2 x:', x.shape)
        x = self.layer3(x)
        # print('conv2_x_3 x:', x.shape)
        x = self.layer4(x)
        # print('conv2_x_4 x:', x.shape)

        x = self.relu(x)
        x = self.avepool(x)
        # print('avepool x:', x.shape)
        x = torch.flatten(x,1)
        # print('flatten x:', x.shape)
        x = self.fc(x)

        return x

代码关键地方讲解：

1. 第4行：定义一个BottleNeck类，也就是论文中对应的conv2/3/4/5_x，之所以要单独定义，是因为这样做可以更方便地搭建中间的小模块，因为这些小模块中，卷积核的大小都是规律的(1×1,3×3,1×1)，只有通道数不同，那么只需把通道数设为一个参数，就能够用for循环快速搭建中间的那48个卷积层。

代码框架如下：

2. 第26行，self.relu = nn.ReLU(inplace=False)这里有个bug，ReLU里面的参数需要置为False，不然会报错，有的人认为是Pytorch版本的问题，但我跑AlexNet的时候，参数置为True就不会报错...看来真是bug看人品。

3. 第33-34行，if self.channel_match is not None: 这条语句不能漏！因为每一个小模块里，只有第一个卷积层（红色框）需要通道匹配（channel_match），而剩余两个是不需要匹配的，由第7行可知参数channel_match = None是默认的，第89-92行定义了channel_match（not None），第94-95行传入这个not None的channel_match给第7行，从而第33-34行的if语句就判为真，执行identity = self.channel_match(x)，从而使得跳跃连接的通道数能够匹配上。

4. 第75-78行，只有self.layer1不指定步长stride的参数，从而是第7行默认参数stride=1，其余的层都需要指定参数stride=2，因为把特征图从112砍半的事情，conv1的maxpool层已经做了（第74行MaxPool2d的参数stride=2），而conv3/4/5_x需要自己通过卷积核的stride=2来砍半。

正文：Pytorch张量表示方法&调试方法

在这个模块中，将介绍Pytorch框架下张量的一些表示方法。这部分我觉得挺重要的，因为不论是跑别人的模型，还是自己搭模型，有一个很重要的环节就是张量的形状匹配，很多的Error都出现在这个地方。

一、张量表示方法。

conv2_x_maxpool x: torch.Size([4, 64, 56, 56])
conv2_x_1 x: torch.Size([4, 256, 56, 56])
conv2_x_2 x: torch.Size([4, 512, 28, 28])
conv2_x_3 x: torch.Size([4, 1024, 14, 14])
conv2_x_4 x: torch.Size([4, 2048, 7, 7])
avepool x: torch.Size([4, 2048, 1, 1])
flatten x: torch.Size([4, 2048])
fc x: torch.Size([4, 14])

第1行，对应下图红框处的输出，torch.Size([4, 64, 56, 56])中的数字分别表示：(batch_size,通道数,特征图宽,特征图高)

第2-5行，对应下图红框处的输出：

后面以此类推。

下面画个图来捋一捋batch、通道数等之间的关系：（这个图用PPT画了很久）

二、模型调试方法（主要针对张量大小问题）

前排tips：如果出错了，最好用print(tensor.shape)输出张量的大小来查看是哪里的问题。

当你在开始训练时，突然报错了，看Traceback可知，是特征图的大小出了问题，那么可以判断：应该是kernel_size或stride或padding出问题了：

往上找，发现在这个位置输出x1的形状，说明是conv1的参数设置错了（bn和 relu不会改变张量形状）：

经过检查，发现是paddind设置错了，需要修改：

经过修改，再次运行，发现形状正确：

如果张量的形状全部能够匹配上，那么就成功一大半了！还有其它调试方法待我继续尝试，后面再分享吧。

后记：虽然resnet看上去挺简单的，但实现起来并不简单，看一遍源码和自己写一遍是两码事，因为很多细节只有在调试的时候才会发现。尽管写这篇文章花了很多精力，但是能把知识分享出去就挺开心的。

如有新的想法，期待交流探讨

关注我的微信公众号“风的思考笔记”，我们一起思考当下，探索未来自由之路。

DeepSeek 模型未来怎么走？技术创新、行业落地全解析！网罗开发 AI 大模型人工智能人工智能职场和发展
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
分享12个国内AI对话聊天的免费网站（含DeepSeek大模型）码上飞扬人工智能语言模型 DeepSeek
在人工智能领域，基于对话的语言模型已成为当前研究的热点，其中以ChatGPT为代表的模型凭借其卓越的语言理解与交互能力备受瞩目。为帮助用户更好地选择和使用这类AI工具，本文将介绍12个国内可直接体验对话聊天功能的平台，为用户提供实用参考。1、腾讯元宝地址：https://hunyuan.tencent.com/bot/chat腾讯混元大模型是由腾讯全链路自研的通用大语言模型，拥有超千亿参数规模，预
《今日AI-人工智能-编程日报》-源自2025年3月21日小亦编辑部人工智能
一、AI编程领域最新动态AI编程工具崛起，程序员职业面临挑战Anthropic首席执行官DarioAmodei预言，未来一年内，90%的代码将由AI生成，传统程序员的工作可能被大幅替代。最新发布的AI编程模型（如Claude3.7、Sonnet3.7）在初级开发评估中表现优异，得分率超过60%，部分模型甚至在全球程序员排名中位列前0.1%。字节跳动的Trae海外版接入Claude3.7和GPT-4
《今日AI-人工智能-编程日报》-源自2025年3月19日小亦编辑部每日AI-人工智能-编程日报人工智能
1.豆包AI编程功能迎来三项重磅升级豆包平台今日宣布其AI编程功能迎来三项重要升级，包括：HTML实时预览：支持用户在编写HTML代码时实时查看网页效果，显著提升前端开发效率，尤其适用于小游戏和网页制作。Python代码直接运行与一键修复：用户可直接运行Python代码，并在出错时一键修复，极大降低了编程门槛，提升了开发效率。生成完整项目：新增生成完整项目的功能，帮助用户快速创建应用程序，缩短开发
模拟退火算法：原理、应用与优化策略尹清雅算法
摘要模拟退火算法是一种基于物理退火过程的随机搜索算法，在解决复杂优化问题上表现出独特优势。本文详细阐述模拟退火算法的原理，深入分析其核心要素，通过案例展示在函数优化、旅行商问题中的应用，并探讨算法的优化策略与拓展方向，为解决复杂优化问题提供全面的理论与实践指导，助力该算法在多领域的高效应用与创新发展。一、引言在现代科学与工程领域，复杂优化问题无处不在，如资源分配、路径规划、机器学习模型参数调优等。
普通人学习AI应该如何入手？2025年最新AI大模型学习路线+全套学习资料，适合新手小白！小城哇哇人工智能学习大数据语言模型 AI大模型 agi ai
引言随着人工智能（AI）技术的飞速发展，越来越多的人开始意识到掌握这项技能的重要性。然而，对于许多没有编程背景或数学基础的人来说，进入AI领域似乎是一个遥不可及的梦想。但实际上，通过合理的规划和适当的学习资源，任何人都可以逐步掌握AI的核心知识，并应用到实际工作中去。本文将为普通读者提供一份详细的2025年最新AI大模型学习路线图，并附带一套完整的自学资料，帮助您从零基础起步，顺利开启AI学习之旅
【猫狗分类】Pytorch VGG16 实现猫狗分类1-数据清洗+制作标签文件努力的小巴掌 pytorch分类项目 pytorch 分类人工智能
Pytorch猫狗分类用Pytorch框架，实现分类问题，好像是学习了一些基础知识后的一个小项目阶段，通过这个分类问题，可以知道整个pytorch的工作流程是什么，会了一个分类，那就可以解决其他的分类问题，当然了，其实最重要的还是，了解她的核心是怎么工作的。那首先，我们的第一个项目，就做猫狗的分类。声明：整个数据和代码来自于b站，链接：使用pytorch框架手把手教你利用VGG16网络编写猫狗分类
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
知识蒸馏：让大模型“瘦身“而不失智慧的魔术一休哥助手人工智能人工智能
引言：当AI模型需要"减肥"在人工智能领域，一个有趣的悖论正在上演：大模型的参数规模每年以10倍速度增长，而移动设备的算力却始终受限。GPT-4的1750亿参数需要价值500万美元的GPU集群运行，但现实中的智能设备可能只有指甲盖大小。这种矛盾催生了一项神奇的技术——知识蒸馏（KnowledgeDistillation），它就像给AI模型进行"脑外科手术"，将庞然大物的智慧浓缩到轻量模型中。第一章
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
使用大语言模型API在AI应用中的实现 qq_37836323 人工智能语言模型自然语言处理 python
随着人工智能技术的迅速发展，大语言模型（LLM）在自然语言处理（NLP）领域的应用越来越广泛。本文将介绍如何使用大语言模型API来实现一些基础的AI应用，并提供一个简单的demo代码，帮助大家更好地理解和使用这些技术。大语言模型API简介大语言模型（如GPT-4）能够理解和生成类似人类的文本。这些模型可以应用于各种任务，包括文本生成、语言翻译、情感分析、对话系统等。为了方便国内用户访问这些强大的模
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
【深度学习】DeepSeek模型介绍与部署 Nerous_ 深度学习深度学习人工智能
原文链接：DeepSeek-V31.介绍DeepSeek-V3，一个强大的混合专家(MoE)语言模型，拥有671B总参数，其中每个token激活37B参数。为了实现高效推理和成本效益的训练，DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分验证。此外，DeepSeek-V3首次提出了无辅助损失的负载平衡策略，并设置了多to
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
【DNN量化工具】QKeras 工具简介 kanhao100 笔记 dnn 人工智能神经网络
QKeras工具简介QKeras是一个用于量化深度学习模型的Keras扩展库，旨在使深度学习模型的量化（即将模型的浮点权重转换为低精度格式）变得简单而高效。QKeras主要目标是优化模型的存储和推理速度，特别适用于需要在资源受限的设备（如移动设备和嵌入式系统）上运行深度学习模型的场景。QKeras的主要特点量化支持：QKeras提供了对不同类型量化的支持，包括权重量化和激活量化。用户可以根据需求选
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
探索Sfm-python: 一款强大的计算机视觉库缪昱锨Hunter
探索Sfm-python:一款强大的计算机视觉库去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，Sfm-python是一个值得关注的开源项目，它以简洁高效的Python接口提供结构化从运动（StructurefromMotion,SfM）算法。如果你对3D重建、图像匹配或地理定位有兴趣，那么这个项目将是你不可或缺的工具。让我们一起深入了解一下它的技术细节、应用场景
QKeras、Brevitas和QONNX量化工具对比 kanhao100 笔记深度学习边缘计算
QKeras、Brevitas和QONNX量化工具对比一、引言在深度学习模型部署领域，量化技术已成为提升模型执行效率的关键手段。通过将浮点权重转换为低精度表示，量化能显著减小模型体积、降低内存占用并加速推理过程。对于资源受限的设备（如移动设备、嵌入式系统和边缘计算设备），量化技术尤为重要。本文深入对比三款主流量化工具：QKeras、Brevitas和QONNX，从用户实际应用角度剖析它们的技术特点
Umi-OCR：解锁高效文字识别的新时代水熠芝Dark-Haired
Umi-OCR：解锁高效文字识别的新时代Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda项目介绍在数字化浪潮席卷全球的今天，文字识别技术已成为提升工作效率和生活质量的关键工具。Umi-OCR，作为一款基于深度学习技术的开源文字识别工具，凭借其强大的功能和高效的性能，迅速成为众多用户的首选。无
Umi-OCR：一款强大而高效的文字识别工具裘心国Trent
Umi-OCR：一款强大而高效的文字识别工具Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda介绍Umi-OCR是一款基于深度学习技术的开源文字识别工具，特别适合日常办公、学术研究及数据分析等场景。它能有效解决将图像中的文字快速转化为可编辑文本的需求，极大提升工作效率。此工具依托于先进的计算机
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
机器学习是怎么一步一步由神经网络发展到今天的Transformer架构的？ yuanpan 机器学习神经网络 transformer
机器学习和神经网络的发展经历了一系列重要的架构和技术阶段。以下是更全面的总结，涵盖了从早期神经网络到卷积神经网络之前的架构演变：1.早期神经网络：感知机（Perceptron）时间：1950年代末至1960年代。背景：感知机由FrankRosenblatt提出，是第一个具有学习能力的神经网络模型。它由单层神经元组成，可以用于简单的二分类任务。特点：输入层和输出层之间直接连接，没有隐藏层。使用简单的
30秒生成电子合同：B2B系统+AI引擎缩短80%交易周期|数商云数商云网络 B2B系统数字化电商平台人工智能大数据云计算数据库运维 java spring
引言在数字经济时代，B2B（Business-to-Business）电子商务正在以前所未有的速度改变着企业的运营模式。随着交易量的不断攀升，传统的合同生成和审核流程逐渐成为制约交易效率的瓶颈。然而，随着人工智能（AI）技术的飞速发展，结合B2B系统的智能化升级，我们正见证一场合同生成效率的革命。本文将深入探讨“30秒生成电子合同：B2B系统+AI引擎缩短80%交易周期”这一创新模式，解析其背后的
关于误差平面小记文弱_书生乱七八糟平面算法神经网络机器学习
四维曲面的二维切片：误差平面详解在深度学习优化过程中，我们通常研究损失函数（LossFunction）的变化，试图找到权重的最优配置。由于神经网络的参数空间通常是高维的，我们需要使用低维可视化的方法来理解优化过程和误差平面（ErrorSurface）。在这里，我们讨论一个四维曲面的二维切片，其中：三个维度是网络的权重（w1,w2,w3w_1,w_2,w_3w1,w2,w3）。第四个维度是误差（损失
关于神经网络中的激活函数文弱_书生乱七八糟神经网络人工智能深度学习
激活函数（ActivationFunction）详解理解首先煮波解释一下这四个字，“函数”相信大家都不陌生，能点进来看这篇文章说明你一定经历至少长达十年的数学的摧残，关于这个概念煮波就不巴巴了，煮波主要说一下“激活”，大家可能或多或少的看过类似于古装，玄幻，修仙等类型的小说或者电视剧。剧中的主角往往是天赋异禀或则什么神啊仙啊的转世，但是这一世他却被当成了普通人，指导某一时刻才会迸发出全部的能量（主
奇异值分解（SVD）文弱_书生乱七八糟神经网络人工智能
奇异值分解(SVD)介绍奇异值分解(SVD)，这是最强大的矩阵分解技术之一。SVD广泛应用于机器学习、数据科学和其他计算领域，用于降维、降噪和矩阵近似等应用。与仅适用于方阵的特征分解不同，SVD可以应用于任何矩阵，使其成为一种多功能工具。在这里煮啵将分解SVD背后的理论，通过手动计算示例进行分析，并展示如何在Python中实现SVD。在本节结束时，您将清楚地了解SVD的强大功能及其在机器学习中的应
常见经典目标检测算法 109702008 人工智能 #深度学习目标检测人工智能
ChatGPT目标检测（ObjectDetection）是计算机视觉领域的一个重要分支，其目的是识别数字图像中的不同对象，并给出它们的位置和类别。近年来，许多经典的目标检测算法被提出并广泛应用。以下是一些常见的经典目标检测算法：1.R-CNN（RegionswithCNNfeatures）:R-CNN通过使用区域提议方法（如选择性搜索）首先生成潜在的边界框，然后使用卷积神经网络(CNN)提取特征，
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class

【AI】《ResNet》论文解读、代码实现与调试找错

你可能感兴趣的:(机器学习/深度学习,深度学习,人工智能,pytorch,计算机视觉,神经网络)