什么都一般的咸鱼

深度学习基础 - 基础笔记复习（自问自答）

深度学习基础

1. 什么是感知机？如何训练感知机？

感知机，也就是单个神经元。可以理解为广义线性回归 Y = f（WX + B）；即它可以接收信号X，并加上偏值，通过一个激活函数输出。但是单个感知机的能力很弱（从它只能处理二分类线性可分问题可以看出），因此，我们可以引入多个神经元，多层神经元来提高它的能力。（多个多层神经元构成神经网络。）

训练感知机的方法就是利用梯度下降法，反向传播。因此我们需要一个loss，即输出值和真实值之间的距离，并使用梯度下降法在训练中不断缩小他们的差距。（loss=（y-y‘）^2+正则化项）

对于神经网络模型：Linear -> ReLu -> Linear -> MSE(Loss function)来说，反向传播就是根据链式法则对求导，用输出误差的均方差（MSE）对模型的输出求导，并将导数传回上一层神经网络，用于它们来对w、b和x（上上层的输出）求导，再将x的导数传回到它的上一层神经网络，由此将输出误差的均方差通过递进的方式反馈到各神经网络层。

2. 什么是激活函数，它有什么用？

在神经网络中，我们希望神经元之间传递的信息是不同的，是经过加工处理过的。如果我们不使用激活函数，用线性函数直接输出到下一层神经元，那整个神经网络的运作等同于单个感知机，因为每个神经元直接把信息传递给下一个神经元。因此，激活函数在每一个神经元中起到很大的作用。
激活函数给神经元起到了非线性能力。我们知道我们认识的很多函数实际上都不是线性的，什么三角函数什么幂函数等等。我们希望神经网络能够处理所有的函数，因此使用激活函数，给神经元提供非线性能力，让他们也能够处理非线性问题。

3. 激活函数有哪些？该如何选择？

（1）sigmoid函数：这是最早使用的激活函数之一，它可以将输入的数值挤压到0-1之间。越接近0表示该神经元没被激活，越接近1表示该神经元被激活。但是它存在的问题就是，它的函数是饱和函数，也就是它在数值较大或者较小的时候，曲线非常平坦，梯度越来越小，甚至为0。我们需要神经网络在训练中通过反向传播不断更新权重，当梯度为0的时候，就会造成权重不更新，造成梯度弥散问题，因此我们在隐藏层中一般不用sigmoid。如果输出希望是0-1的数值时候（适用于二分类问题），可以将sigmoid使用在输出层。

（2）tanh函数：tanh是在sigmoid基础上的改进，将压缩范围调整为-1-1之间。它和sigmoid的区别就是它是0均值的。但是缺点和sigmoid一样，都是饱和函数。会造成梯度弥散问题。因此只能在输出层处理二分类问题。

（3）Relu函数：目前最常用的激活函数，它的公式很简单，不像上面两个函数都带指数函数因此计算慢。relu输入小于0的时候为0，大于0的时候是本身。由此带来的问题就是，当输入为负的时候，输出值就为0，使得后面的输入都为0。导致神经网络中很多神经元坏死。

（4）LeakyRelu函数：改进了Relu当输入为负的时候，输出为0的问题。当输入为负值的时候，给定一个较小的斜率。这样就避免了神经元在传播的途中坏死的问题。

（5）softmax函数：用于多分类输出。它可以生成不同类别的概率。（即多个类别分别的概率，概率和为1。）
（6）线性函数（不激活）：处理回归问题的输出。
（7）mish函数：最近yoloV4里面大量使用了mish函数，mish与relu得区别就在于，mish比relu得函数更加平滑，并且允许在负值上有轻微得梯度变化。

mish引入得一个激活函数得思想就是平滑的激活函数允许更好的信息深入神经网络，从而得到更好的准确性和泛化。

4. 卷积神经网络和全连接神经网络有什么区别？

我们知道神经元可以接收信息，并对信息进行处理后输出。
如果我们需要对一张图片输入进神经元，在全连接神经网络中，我们要对整张图片逐个像素全部输入，并得到一个特征值。计算慢，而且对所有的信息全盘接收。实际上我们并不需要那么多信息，例如我们要判断照片里人的位置，但实际上照片里有许多地方是背景信息，所以我们并不需要全部的信息，只需要有人的那一部分信息就能提取出人的特征，背景信息提取出来的反而是噪声。
并且全连接每个输入都必须有个参数W，而输入越多，参数量越大，计算量也就越大，并且全连接网络需要固定输入的数量。但是全连接有一个好处就是，可以避免信息量的丢失。
卷积神经网络就是解决这样一个问题。我们知道卷积运算可以提取特征，即通过不同的卷积核就可以提取出图片的特征。（图像卷积运算）我们看一张图片，肯定不会一个像素一个像素去看，我们会一块一块的去看。例如看一张集体照，我们要找自己认识的人，那么就会一个人一个人看有没有认识的。卷积也是这样一个道理，逐行逐列通过卷积核扫描，得到一张特征图，特征图上面的特征就包含着这个图上的信息（背景，人，物）。这张特征图就是该神经元的输出。而卷积核是通过神经网络自己学习调整。
卷积利用的图像局部性的特点。特征图每个像素就相当于图像上每个局部特征的输出，整个特征图就是多个输出。与全连接不同的是，全连接全盘接收只输出一个特征。
卷积神经网络的好处：w和b的共享，每个神经元参数量的减少，也就大大减少了计算量。
全卷积神经网络可以任意尺寸输入。

5. 卷积后特征图的尺寸如何计算？

由于卷积核一般都是大于1的，因此在边界时候往往不能进行卷积。所以即使按步长为1进行卷积，得到的特征图也会比原图小。所以我们可以在卷积前对原图进行padding填充。因此卷积后的特征图的尺寸就与卷积核、步长、padding有关。

new_width=(old_width−F+2×P)/S+1
new_height=(old_height−F+2×P)/S+1
F为卷积核的大小，P为padding，S为步长。

6. 什么是感受野？有什么用？

感受野就是卷积后输出特征图上的某个特征点的位置代表前面特征图（图片）上多大的范围。
（找了个图，来源这里，这里也详细介绍了感受野的概念和实例）可以看到经过五次卷积后，一个像素的感受野就有原图像上10 * 10的范围那么大。

感受野有什么用呢？
一般task要求感受野越大越好，如图像分类中最后卷积层的感受野要大于输入图像，网络深度越深感受野越大性能越好
密集预测task要求输出像素的感受野足够的大，确保做出决策时没有忽略重要信息，一般也是越深越好
目标检测task中设置anchor要严格对应感受野，anchor太大或偏离感受野都会严重影响检测性能

7. 如何扩大感受野？

卷积神经网络的网络层次越深，感受野越大。
池化：池化的实质是进行特征降维，使得网络更加关注某些特征。（换句话说就是把特征图缩小，同时放大了感受野。）
空洞卷积（在低计算量的情况下，扩大了感受野）：本质也是增加了网络层次。

8. 池化的方式以及作用有哪些？

池化的方式：最大池化；平均池化；自适应池化（保持输出的形状）。
池化的作用：特征不变形（使得网络更加关注某些特征：最大池化）；特征降维（把特征图缩小，扩大感受野）；在一定程度上防止过拟合；平均池化还可以作为图像缩放。（平均池化丢失的信息少）

9. 什么是过拟合，如何防止过拟合？

过拟合:表示神经网络模型在训练集上的表现很好，但是泛化能力比较差，在测试集上表现不好。

神经网络对训练集过拟合，也就是这个神经网络只认识训练集中的数据，换个数据它就不认识了。就比如，同一张试卷，我做了十遍上百遍，答案都倒背如流，但是换了一张试卷我就蒙圈了。这也就是说，我们在训练神经网络的时候，数据集的泛化能力越大越好。我们考试不也是题目刷得越多，各种各样的题目都刷，考试得能力就越强。同样得道理，神经网络在学习得时候也是如此。

因此防止过拟合，首先可以从数据入手。

防止过拟合的方法：

数据：增大数据集（这里要更多的提供各种不同样式的数据集，尽量提高数据集的泛化能力）；数据增强（本质也是扩增数据集）。

如果我们已经有了足够多的训练数据，但是我们训练的模型还是会发生过拟合的话，那就有可能是我们的模型过于复杂了，导致模型对一些数据中的一些噪声都进行了和好的拟合。模型只是对部分数据产生过拟合，我们可以在保证模型能够正确的拟合出数据中的规则的同时，又能适当的降低模型的复杂度，减少模型对抽样误差的拟合程度。适当的降低模型的复杂度，不仅能很好降低模型的过拟合程度，同时也能提高模型的训练速度以及运行速度。

网络优化：①正则化：在损失函数中引入正则化项来降低模型的复杂度，从而有效的防止模型发生过拟合现象。② dropout（随机丢掉一些神经元，使网络变笨。）

10. 什么是梯度弥散、梯度暴涨？如何防止？

梯度弥散：由于导数的链式法则，连续多层小于1的梯度相乘会使梯度越来越小，最终导致某层梯度为0。
梯度爆炸：由于导数的链式法则，连续多层大于1的梯度相乘会使梯度越来越大，最终导致梯度太大的问题

我们在训练神经网络的时候，使用的是梯度下降法。所以就希望梯度保持稳定，如果梯度消失了，那么会导致网络前几层的参数不再更新，神经元也就停止运作；如果梯度爆炸了，会使得权重过大，导致网络不稳定，甚至可能使得网络崩溃。

防止梯度暴涨、弥散的措施
梯度暴涨：
① 更换激活函数，例如使用relu这样梯度稳定的函数；
② 对权重使用正则化，压低权重；
③ 梯度截断，当梯度超过一定阈值时候，降低它的数值。
梯度弥散：
① BatchNorm：将输出的权重标准正态分布化；（只能在训练时候用，要记得设置训练状态和测试状态。）BN算法对训练集的BatchSize数量敏感。
② 更换激活函数。

11. 如何发现是否发生了梯度暴涨或者梯度弥散？

可以在训练时将每层的权重、训练的损失和梯度打印出来；
梯度暴涨的时候，损失可能会变成NAN，或者发生显著变换（波动明显），梯度快速增大；
梯度弥散的时候，查看每层网络的权重，如果权重在某一层停止更新，或者损失不降低，但是权重越来越趋近平滑，梯度很接近于0。

12. 什么是残差网络，为什么要引入残差网络？

我们知道，随着网络的层次变深。容易出现的一个问题就是，梯度弥散和梯度爆炸。即使通过一些正则化解决，也还会存在模型退化的问题，即准确率反而更低。
模型会退化。显然，信息在传播的过程中是有损失的，所以越深的网络能够学到的信息就越少，所以就更难训练。因此残差网络就是用来解决模型退化的问题。
残差网络的本质就是将输入的信息作为残差加入到输出的结果中，从而降低信息在神经网络中丢失。（要求输出和输出同尺寸）

13. 1 * 1 和 3 * 3 的卷积核有什么区别，1 * 1的卷积核有什么用？

在卷积神经网络中，我们利用卷积来扩充特征通道数，因此不管是1 * 1 还是 3 * 3 的卷积核，都可以使得特征信息在通道层面上充分混合。
但是 1 * 1 在像素层面上是逐个像素卷积，因此在像素层面上没有充分混合。所以它的计算量要比3 * 3的卷积核小。
因此，我们可以使用1 * 1的卷积核对特征进行降维（降低通道数），在用3 * 3的卷积核进行运算，这样就能使得特征在像素层面和通道层面上都得到充分融合，且运算量比降维前的3 * 3卷积还小。
（ 1 * 1的卷积核一般只用来升维和降维：控制通道数）

14. 卷积神经网络常用的优化子结构网络有哪些？

（1）分离卷积：主要使用在通道上，卷积在扩增通道时候相当于在输入输出通道数上施行全连接，因此它的计算量比较大。所以在施行通道分离，对局部数据进行连接，从而降低计算量。（类似于卷积利用了数据的局部性）
缺陷：通道之间的关联会分离（信息上的交流变少），即通道之间混合不充分，参数量降低了，网络会变笨。

下面是不同分组下的同个卷积操作的计算量：

from torch import nn
import thop
import torch 

conv = nn.Conv2d(4,20,3,1) # 通道上无分组
conv_g1 = nn.Conv2d(4,20,3,1,groups=2) # 通道上分两组
conv_g2 = nn.Conv2d(4,20,3,1,groups=4) # 通道上分四组
x = torch.randn(1,4,112,112) # 模拟输入
t1 = thop.clever_format(thop.profile(conv,(x,)),"%.3f") 
t2= thop.clever_format(thop.profile(conv_g1,(x,)),"%.3f")
t3 = thop.clever_format(thop.profile(conv_g2,(x,)),"%.3f")
print(t1,t2,t3) # 8.954M/740B 4.598M/380B 2.420M/200B

（2）通道混洗：从（1）我们知道，直接使用分离卷积会使网络变笨。本质原因就是通道层面上混合不充分，因此可用1 * 1的卷积进行通道混洗的方式对通道进行充分混合。（如下图所示，本质就是为了让通道之间信息交流）

（3）MobileNetV1：我们希望在计算量降低的前提条件下，卷积神经网络能够在像素层面和通道层面上都充分融合。因此，可以先用3 * 3的卷积，并且通道上一对一分组卷积（depthwise_conv），再用1 * 1的卷积对通道进行充分融合。这样就能够降低计算量，并且特征充分融合。
优点：① 计算量降低；② 网络层次更深（提高抽象能力）。
缺点：可能出现参数量太少，网络变弱。（MobileNetV2）

（4）MobileNetV2：（改进版本的mobileNetV1）

附网络结构以及pytorch代码：

import torch
from torch import nn

# 配置
config = [
    [-1, 32, 1, 2],
    [1, 16, 1, 1],
    [6, 24, 2, 2],
    [6, 32, 3, 2],
    [6, 64, 4, 2],
    [6, 96, 3, 1],
    [6, 160, 3, 2],
    [6, 320, 1, 1]
]

class Block(nn.Module):

    def __init__(self, p_c, i, t, c, n, s):
        super().__init__()
        self.i = i
        self.n = n

        _s = s if i == n - 1 else 1  # 判断是否是最后一次重复，最后一次重复步长为2
        _c = c if i == n - 1 else p_c  # 判断是否是最后一次重复，最后一次重复负责通道变换为下层的输出

        _p_c = p_c * t  # 输入通道通道扩增倍数

        self.layer = nn.Sequential(
            nn.Conv2d(p_c, _p_c, 1, _s, bias=False),
            nn.BatchNorm2d(_p_c),
            nn.ReLU6(),
            nn.Conv2d(_p_c, _p_c, 3, 1, padding=1, groups=_p_c, bias=False),
            nn.BatchNorm2d(_p_c),
            nn.ReLU6(),
            nn.Conv2d(_p_c, _c, 1, 1, bias=False),
            nn.BatchNorm2d(_c)
        )

    def forward(self, x):
        if self.i == self.n - 1:
            return self.layer(x)
        else:
            return self.layer(x) + x

class MobilenetV2(nn.Module):

    def __init__(self, config):
        super().__init__()

        self.input_layer = nn.Sequential(
            nn.Conv2d(3, 32, 3, 2, 1, bias=False),
            nn.BatchNorm2d(32),
            nn.ReLU6()
        )

        self.blocks = []
        p_c = config[0][1]
        for t, c, n, s in config[1:]:
            for i in range(n):
                self.blocks.append(Block(p_c, i, t, c, n, s))
            p_c = c
        self.hidden_layer = nn.Sequential(*self.blocks)

        self.ouput_layer = nn.Sequential(
            nn.Conv2d(320, 1280, 1, 1, bias=False),
            nn.BatchNorm2d(1280),
            nn.ReLU6(),
            nn.AvgPool2d(7, 1),
            nn.Conv2d(1280, 10, 1, 1, bias=False)
        )

    def forward(self, x):
        h = self.input_layer(x)
        h = self.hidden_layer(h)
        h = self.ouput_layer(h)
        h = h.reshape(-1, 10)  # 这里直接做个形状变换
        return h


if __name__ == '__main__':
    net = MobilenetV2(config)
    y = net(torch.randn(1, 3, 224, 224))
    print(y.shape)

（5）ShuffleNet：

（6）ResNet（Bottleneck）：将数据有损压缩，再恢复。（网络在不断训练中，实际上数据丢失的部分会越来越趋向于丢掉一些不重要的信息，保留重要信息。）
又称为自编码器、瓶颈结构，为了减少压缩时候信息的丢失，可以在输入输出上连接一个残差结构。（保证层数更深时，网络不会退化）
优点：降低计算量；层次更深，模型更聪明，精度也提升。

（7）ResNeXt：Rexnet的改进版本。（通道数比较多的情况）

（8）Inception：

主要思路是：如何使用一个密集成分来近似或者代替最优的局部稀疏结构。

Iception网络模型

（9）SqueezeNet：SqueezeNet详细解读

（10）EfficientNet：速度与精度的结合 - EfficientNet 详解

15. 什么是损失函数，损失函数有哪些？

深度学习中神经网络的目的就是为了使预测结果无限接近真实结果。损失就是用来描述预测样本与真实样本之间的距离的。

深度学习中损失函数是整个网络模型的“指挥棒”，通过对预测样本和真实样本标记产生的误差反向传播指导网络参数学习。

常用的损失函数：L1损失（MAE）、L2损失（MSE）、SMOOTH_L1损失。

（1）L1损失：

平均绝对误差（MAE）是另一种常用的回归损失函数，它是目标值与预测值之差绝对值的和，表示了预测值的平均误差幅度，而不需要考虑误差的方向，范围是0到∞。

优点：对任何输入的数值，都有着固定的梯度，不会导致梯度暴涨，具有稳健性。
缺点：在中心点是折点，不能求导，而且会导致梯度振荡。
（2）L2损失：

均方误差（MSE）是回归损失函数中最常用的误差，它是预测值与目标值之间差值的平方和。

优点：函数连续光滑，每个点都可以求导，具有较为稳定的解，不会造成梯度振荡。
缺点：在输入的数值较大，即较远处的时候，梯度过大，容易形成梯度暴涨的问题，不稳健。对异常点敏感。
（3）smooth L1：
smoothL1损失对离群点（异常点）更加鲁棒，相比于L2损失函数，其对离群点（指的是距离中心较远的点）、异常值（outlier）不敏感，可控制梯度的量级使训练时不容易跑飞。综合了L1，L2损失的优点，避免了它们的缺点。

（4）其他损失设计：① focalloss，② Centerloss，③ circle-loss，④ softmax（Asoftmax、arcface、AM-softmax）

损失设计笔记

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
深度学习驱动的车牌识别：技术演进与未来挑战逼子歌深度学习车牌识别神经网络字符识别 YOLO 卷积神经网络
一、引言1.1研究背景在当今社会，智能交通系统的发展日益重要，而车牌识别作为其关键组成部分，发挥着至关重要的作用。车牌识别技术广泛应用于交通管理、停车场管理、安防监控等领域。在交通管理中，它可以用于车辆识别、交通违法监控和车流统计等，提高交通管理的效率和准确性。在停车场管理中，实现车辆的自动识别和收费，提升管理和服务水平。在安防监控领域，可用于追踪嫌疑人及犯罪行为。深度学习的出现为车牌识别带来了重
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程牙牙要健康深度学习 onnx onnxruntime 深度学习 python 人工智能
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论文章目录【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程前言模型转换--pytorch转onnxWindows平台搭建依赖环境onnxruntime调用onnx模型ONNXRuntime推理核
基于深度学习的多模态信息检索 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的多模态信息检索（MultimodalInformationRetrieval,MMIR）是指利用深度学习技术，从包含多种模态（如文本、图像、视频、音频等）的数据集中检索出满足用户查询意图的相关信息。这种方法不仅可以处理单一模态的数据，还可以在多种模态之间建立关联，从而更准确地满足用户需求。1.多模态信息检索的挑战异构数据表示：多模态数据通常具有不同的特征和表示形式（如文本的词嵌入与图
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str

深度学习基础 - 基础笔记复习（自问自答）