changxl.

利用pytorch来深入理解CELoss、BCELoss和NLLLoss之间的关系

利用`pytorch`来深入理解`CELoss`、`BCELoss`和`NLLLoss`之间的关系

损失函数为为计算预测值与真实值之间差异的函数，损失函数越小，预测值与真实值间的差异越小，证明网络效果越好。对于神经网络而言，损失函数决定了神经网络学习的走向，至关重要。

pytorch中的所有损失函数都可以通过reduction = ‘mean’或者reduction = ‘sum’来设置均值还是总值。

`L1 Loss`

L1 Loss即绝对值损失，为预测值和真实值间误差的绝对值。

$\frac{1}{N} \sum_{i=1}^n |x_i - y_i|$ 或者 $\sum_{i=1}^n |x_i - y_i|$

`L2 Loss`

L2Loss 通常也被称作MSE Loss，pytorch中使用nn.MSELoss，即均方差损失，为预测值与真实值间误差的平方。

$\frac{1}{N} \sum_{i=1}^n (x_i - y_i)^2$ 或者 $\sum_{i=1}^n (x_i - y_i)^2$

`Smooth L1 Loss`

Smooth L1 Loss为L1 Loss的平滑处理。L1 Loss易受异常点影响，且绝对值的梯度计算在0点容易丢失梯度。Smooth L1 Loss 在0点附近是强凸，结合了平方损失和绝对值损失的优点。

$\frac{1}{N} \sum_{i=1}^n z_i$

$z_i = \begin{cases} 0.5(x_i - y_i)^2, & if |x_i - y_i| < 1\\ |x_i - y_i| - 0.5, &otherwise \end{cases}$

交叉熵损失

交叉熵表示互信息量，表达的是预测值与真实值之间的分布关系，交叉熵越小，两者间的概率分布越相近。

交叉熵计算公式： $\sum_{k=1}^n (p_k * log(q_k))$ 。其中，$ p_k $是预测值的期望，$ q_k $是真实值的期望，通常都是1。

torch.nn中的交叉熵都可以定义weight，也就是说可以通过样本数量控制样本权重。

`nn.NLLLoss`

NLLLoss： negative log likelihood loss，负对数似然损失。

公式为： $\ell(x, y) = L = \{l_1,\dots,l_N\}^\top, \quad l_n = - x_ny_n\quad$

确实没搞清楚这个公式跟对数有什么关系，看公式就是取每行对应列别的值

复现代码如下：

import torch
# 预测值
predict = torch.Tensor([[0.5796, 0.4403, 0.9087],
                        [-1.5673, -0.3150, 1.6660]])
# 真实值
target = torch.tensor([0, 2])

result = 0
for i, j in enumerate(range(target.shape[0])):
    # 分别取出0.5796和1.6660
    # 也就是log_soft_out[0][0]和log_soft_out[1][2]
    result -= predict[i][target[j]]
print(result / target.shape[0])
# tensor(-1.1228)

loss = torch.nn.NLLLoss()
print(loss(predict, target))
# tensor(-1.1228)

`nn.CrossEntropyLoss`

即CELoss，交叉熵损失。等价为predict经log_softmax后执行nn.NLLLoss。

公式为：$ CELoss(x, y) = - \sum y_i * log(x_i) $

执行过程为：

对预测值做softmax获取每条信息的分布概率。
对概率分布做对数映射，将乘法改成加法减少计算量。
根据分类取出每行映射后的值，求和或求平均。

import torch
# 预测值
# predict的shape是[2,3],表示两个数据对三类任务的预测值
predict = torch.Tensor([[0.5796, 0.4403, 0.9087],
                        [-1.5673, -0.3150, 1.6660]])
# 真实值
# target的长度对应predict的shape[0],最大值为predict的shape[1] - 1
# 也就是第0行取index=0，第1行取index=2
target = torch.tensor([0, 2])

ce_loss = torch.nn.CrossEntropyLoss()
# 这里输入的是原始预测值
print(ce_loss(predict, target))
# tensor(0.6725)

soft_max = torch.nn.Softmax(dim=-1)
soft_out = soft_max(predict)
# tensor([[0.3068, 0.2669, 0.4263],
#        [0.0335, 0.1172, 0.8494]])

log_soft_out = torch.log(soft_max(predict))
# tensor([[-1.1816, -1.3209, -0.8525],
#         [-3.3966, -2.1443, -0.1633]])

nll_loss = torch.nn.NLLLoss()
# 这里输入的是经过log_softmax的值
print(nll_loss(log_soft_out, target))
# tensor(0.6725)

`nn.BCELoss`

二元交叉熵损失，公式为： $B C E L o s s (x, y) = - (y * l o g (x) + (1 - y) * l o g (1 - x))$

由公式可以看出，BCELoss相比CELoss而言，似乎考虑到了互信息间的计算。

如此分析，BCELoss在处理二分类问题也就是0-1问题时，就会有一项变为0。那么公式就好像跟CELoss有了些相似。

BCELoss对于输入数据有两个要求：

要求输入的predict和target必须是同样shape的。
要求输入的predict的数值范围应该为0~1

那么针对问题1要求的predict和target是一致的，那么BCELoss去解决多分类问题如何构造target呢？这时候就需要用到one-hot这种数据格式了。

那，针对问题2要求的数值范围我们应该怎么控制呢？上面提到的Softmax不就是个很好的0~1映射嘛。

解决二分类问题

由上面可知，CELoss是预测值通过Softmax + log + NLLLoss计算得来的。

那么在面对二分类的问题时，预测值经Softmax后的每行数据应该是相加等于1的(默认根据最后一维做Softmax)。

也就是说，soft_out[:][0] = 1 - soft_out[:][1]。

那么，设 $soft\_out[:][0] = x_0, soft\_out[:][1] = x_1$ ，则有 $x_0 = 1 - x_1$

$log(x_1) = log(1 - x_0)$

即，在二分类问题时，预测值的每一行经Softmax + log后，变成了 $log(x_0)$ 和 $log(1-x_0)$ ，y肯定是非0即1的。

那么，特征项就变成了 $x_0, 1-x_0]$ 。标签要么是[1, 0]，要么是[0, 1]。

带入到BCELoss的公式里,每一行的两个元素：

要么是 $log(x_0), -log(1 - (1-x_0))$ ，即 $log(x_0), -log(x_0)]$ 。

要么是 $log(1-x_0), -log(1-x_0])$ 。

咦，这个BECLoss在二分类问题上，经过了Softmax后，每行的两个元素的值是一样的哇！

那我去求平均值，不就是每行取一个值加起来然后除以行数就行了嘛。

predict = torch.tensor([[0.9346, 0.8287],
                        [0.5189, 0.3842],
                        [0.8615, 0.8318],
                        [0.6799, 0.4911]])
soft_max = torch.nn.Softmax(dim=-1)
soft_out = soft_max(predict)
bce_target = torch.Tensor([[0, 1],
                           [1, 0],
                           [0, 1],
                           [1, 0]])
bce_result = - bce_target * torch.log(soft_out) - (1.0 - bce_target) * torch.log(1.0 - soft_out)
# tensor([[0.7475, 0.7475],
#         [0.6281, 0.6281],
#         [0.7081, 0.7081],
#         [0.6032, 0.6032]])

那么再看，CELoss之前说了，等价为predict经log_softmax后执行nn.NLLLoss。也就是说预测值经过Softmax，然后求个log，在根据每行的真实值所在的索引取出来，做平均。

用同样的预测值跑一下

predict = torch.tensor([[0.9346, 0.8287],
                        [0.5189, 0.3842],
                        [0.8615, 0.8318],
                        [0.6799, 0.4911]])
soft_max = torch.nn.Softmax(dim=-1)
soft_out = soft_max(predict)
log_soft_out = - torch.log(soft_out)
# tensor([[0.6416, 0.7475],
#         [0.6281, 0.7628],
#         [0.6784, 0.7081],
#         [0.6032, 0.7920]])

想获取BCELoss一样的target，我们把ce_target设置成[1, 0, 1, 0]。

突然我们发现，那求的CELoss的话，每行取出来的值，跟bce_result每行对应的值是一样的！！

（其实带入公式我们也能发现，面对二分类问题时，predict经过Softmax后，CELoss和BCELoss就是一样的。这里不方便讲述清楚，大家用笔带入矩阵算一下就很明显了。）

结论：面对二分类问题时，CELoss是Softmax + BCELoss。

我们验证一下：

# 预测值
predict = torch.rand([2, 2])
# 真实值
ce_target = torch.tensor([1, 0])
# 1. CELoss
ce_loss = torch.nn.CrossEntropyLoss()
print(ce_loss(predict, ce_target))

# 2.Softmax + BCELoss
soft_max= torch.nn.Softmax(dim=-1)
soft_out = soft_max(predict)

bce_target = torch.Tensor([[0, 1],
                           [1, 0]])
bce_loss = torch.nn.BCELoss()
print(bce_loss(soft_out, bce_target))

# 3.手动实现个BCELoss
bce_result = - bce_target * torch.log(soft_out) - (1.0 - bce_target) * torch.log(1.0 - soft_out)
print(bce_result.mean())

# 4.Softmax + log + NLLLoss
log_soft_out = torch.log(soft_out)
nll_loss = torch.nn.NLLLoss()
print(nll_loss(log_soft_out, ce_target))

wuhu~串联起来了。

注意ce_target一定要跟bce_target设置成语义一样的啊，结合上面nn.CrossEntropyLoss代码里ce_target的注释和bce_target对比理解一下。

解决多分类问题

来看一下BCELoss是怎么解决多分类问题的。要是没法解决多分类问题，BCELoss也不会在目标检测网络里经常被使用。

首先比较一下CELoss和BCELoss在解决多分类问题上有没有差异：

# 预测值
predict = torch.Tensor([[0.5796, 0.4403, 0.9087],
                        [-1.5673, -0.3150, 1.6660]])
# 真实值
ce_target = torch.tensor([2, 0])
# 1. CELoss
ce_loss = torch.nn.CrossEntropyLoss()
print('ce_loss:', ce_loss(predict, ce_target)) # ce_loss: tensor(2.1246)

# 2.Softmax + BCELoss
soft_input = torch.nn.Softmax(dim=-1)

soft_out = soft_input(predict)

bec_target = torch.Tensor([[0, 0, 1],
                           [1, 0, 0]])
bce_loss = torch.nn.BCELoss()
print('bce_loss:', bce_loss(soft_out, bec_target)) # bce_loss: tensor(1.1572)

# 3.Softmax + log + NLLLoss
log_soft_out = torch.log(soft_out)
nll_loss = torch.nn.NLLLoss()
print('nll_loss:', nll_loss(log_soft_out, ce_target)) # nll_loss: tensor(2.1246)

可以看出，解决多分类问题时，CELoss和BCELoss的结果不一样了。

那么解决二分类问题和三分类问题时，有如下对比代码：

import torch
# 二分类预测值
predict_2 = torch.rand([3, 2])
# tensor([[0.6718, 0.8155],
#         [0.6771, 0.1240],
#         [0.7621, 0.3166]])
soft_input = torch.nn.Softmax(dim=-1)
# 二分类Softmax结果
soft_out_2 = soft_input(predict_2)
# tensor([[0.4641, 0.5359],
#         [0.6349, 0.3651],
#         [0.6096, 0.3904]])


# 三分类预测值
predict_3 = torch.rand([2, 3])
# tensor([[0.0098, 0.5813, 0.9645],
#         [0.4855, 0.5245, 0.4162]])
# 三分类Softmax结果
soft_out_3 = soft_input(predict_3)
# tensor([[0.1863, 0.3299, 0.4839],
#         [0.3364, 0.3498, 0.3139]])

可以看出，在解决二分类问题时，soft_out_2的结果，每行只有两个元素，且两个元素和为。也就是说，soft_out_2[:][0] + soft_out_2[:][1] = 1

假设target的第一个元素是0，那么应对在BCELoss的公式 $B C E L o s s (x, y) = - (y * l o g (x) + (1 - y) * l o g (1 - x))$ 中，

$BCELoss(soft\_out\_2[0][0], 0) = - log(1 - soft\_out\_2[0][0]) = - log(soft\_out\_2[0][1])$

$BCELoss(soft\_out\_2[0][1], 1) = - log(soft\_out\_2[0][1])$

二者是一样的，也就是说，面对二分类问题，BCELoss每一行的结果中每个元素都是一样的，所以做平均值的时候，每行的结果也就是每行每个元素的结果。

但是解决三分类问题时，soft_out_3的结果每行有三个元素，三个元素的和为1。

还是假设target的第一个元素是0，BCELoss每行的每个元素不一样了。那结果也就不一样了。

如此BCELoss相比CELoss在解决多分类问题的优势就表现了出来。CELoss只是根据每行的分类结果去取值，而BCELoss考虑了每行全部结果。

`BCEWithLogitsLoss`

上面我们说了BCELoss对于输入数据有两个要求

要求输入的predict和target必须是同样shape的。
要求输入的predict的数值范围应该为0~1。

predict和target的shape问题，我们通过把target构造成onehot形式解决了。

那怎么把predict的数值范围确定为0~1之间呢？

之前提到的Softmax是一种解决方法，那sigmoid同样是一种解决方法啊。

** Softmax的输出结果和为1，每行各元素有相关关系。而sigmoid的输出结果是相互独立的。**

那么BCEWithLogitsLoss呢，是先对数据取了sigmoid，在做BCELoss。也就是说BCEWithLogitsLoss = sigmoid + BCELoss

import torch
# 预测值
predict = torch.Tensor([[0.5796, 0.4403, 0.9087],
                        [-1.5673, -0.3150, 1.6660]])
# 真实值
bce_target = torch.Tensor([[0, 0, 1],
                           [1, 0, 0]])

bce_logits_loss = torch.nn.BCEWithLogitsLoss()
print(bce_logits_loss(predict, bce_target))

sigmoid_out = torch.sigmoid(predict)
bce_loss = torch.nn.BCELoss()
print(bce_loss(sigmoid_out, bce_target))

`Focal Loss`

Focal Loss是何凯明大神针对正负样本差距过大提出来的，目前pytorch还没有集成相应函数，后面补一个笔记吧。可以先看这个blog。

https://blog.csdn.net/cp1314971/article/details/105559545/

你可能感兴趣的:(pytorch,深度学习,神经网络)

基于深度学习的草莓成熟度检测系统：YOLOv5 + UI界面 + 数据集 YOLO实战营深度学习YOLO实战项目深度学习 YOLO ui 人工智能目标跟踪
引言随着农业科技的发展，智能化的农业生产方式正逐步替代传统农业。果实的成熟度检测对于农业生产的管理至关重要，尤其是在果蔬的采摘、分拣和运输过程中。草莓作为一种广泛种植且受消费者喜爱的水果，其成熟度检测一直是农业智能化的重要研究方向。传统的草莓成熟度检测方法大多依赖人工经验，劳动强度大且容易出现误差，因此，基于计算机视觉和深度学习的草莓成熟度自动检测系统成为了一种理想选择。深度学习技术，尤其是卷积神
【人工智能】 AI的进化之路：大模型如何重塑技术格局蒙娜丽宁 Python杂谈人工智能人工智能 python
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界本文深入探讨了人工智能大模型的进化历程及其对技术格局的深远影响。从早期神经网络到现代大模型的突破，文章分析了关键技术进步，如Transformer架构、预训练机制和分布式计算。结合数学公式和代码示例，详细阐述了大模型的训练原理、优化方法及实际应用场景。文
数字人矩阵源码--基于深度学习的数字人面部表情合成我~18339948121 数字人源码数字人矩阵源码 123数字人源码矩阵深度学习线性代数人工智能 flask tornado python
AI正在席卷全球，数字人市场需求增长，用AI数字分身一天就能生产出几十条高质量短视频，你只需要上传一段视频，甚至都不用开口说话，直接复制粘贴文案，就能得到一个属于你的数字分身。深度学习数字人面部表情合成的关键技术3D面部建模与参数化建立高精度3D面部模型是表情合成的基础，常用Blendshape或面部动作编码系统（FACS）作为参数化控制方法。Blendshape通过线性组合基础表情形状生成新表情
数字人视频剪辑与数字人分身源码开发的的核心技术解析微~18339948121 数字人分身源码数字人剪辑源码数字人源码 django pygame virtualenv plotly scikit-learn flask tornado
数字人视频剪辑与分身的核心技术解析数字人视频剪辑和分身技术是近年来人工智能与计算机视觉领域的热点，涉及虚拟形象生成、动作驱动、语音合成等多项技术。以下从技术实现、应用场景和工具选择三个方面展开分析。数字人视频剪辑的关键技术视频剪辑中数字人的核心在于动态形象的生成与编辑。基于深度学习的生成对抗网络（GAN）和3D建模技术可实现高保真虚拟形象构建。典型流程包括：人物建模：通过多视角图像或视频数据重建3
ReBEL模型的本地部署与运行，用于三元组抽取任务（事件抽取、知识抽取）
1.服务器CUDA11.72.依赖condacreate-nrebel_envpython=3.10-ycondaactivaterebel_env#安装PyTorch（建议与CUDA11.7配合）pipinstalltorchtorchvisiontorchaudio--index-urlhttps://download.pytorch.org/whl/cu117#安装Transformers和
pytorch官方文档60分钟入门笔记 xiaodidadada 机器学习
文章目录1.张量（Tensors）定义张量张量操作2.自动求导（autograd）变量Variable3.神经网络4.训练一个分类器载入数据5.数据并行day63参考：官方文档https://blog.csdn.net/u014630987/article/details/786690511.张量（Tensors）tensors和numpy的ndarray类似,但是tensors可以使用GPU加快
基于改进扩散模型与注意力机制的影像到转基因数据预测系统
基于改进扩散模型与注意力机制的影像到转基因数据预测系统1.项目概述本系统利用改进的扩散模型结合注意力机制，从医学影像中预测转基因数据。系统采用PyTorch框架实现，包含数据预处理、模型架构、训练流程和评估指标等完整模块。importtorchimporttorch.nnasnnimporttorch.nn.functionalasFimporttorch.optimasoptimfromtorc
百度颠覆了自己，飞算JavaAI造福了中国程序员！飞算JavaAI开发助手百度
在当今这个科技日新月异的时代，企业纷纷寻求技术突破，以期在激烈的市场竞争中脱颖而出。百度，作为中国互联网行业的领军企业之一，凭借其强大的科技实力和创新能力，在人工智能等多个领域取得了显著成就，并正在逐步颠覆自身的传统形象。百度自成立之初，就将技术创新视为企业的生命线。从最初的搜索引擎技术，到如今的深度学习、自然语言处理、计算机视觉等前沿领域，百度始终走在技术革新的前沿。其自主研发的飞桨深度学习平台
【深度学习:进阶篇】--4.2.词嵌入和NLP 西柚小萌新吖(●ˇ∀ˇ●) #深度学习深度学习自然语言处理人工智能
在RNN中词使用one_hot表示的问题假设有10000个词每个词的向量长度都为10000，整体大小太大没能表示出词与词之间的关系例如Apple与Orange会更近一些，Man与Woman会近一些，取任意两个向量计算内积都为0目录1.词嵌入1.1.特点1.3.word2vec介绍1.3.Word2Vec案例1.3.1.训练语料1.3.2.步骤1.3.3.代码2.测试代码1.词嵌入定义：指把一个维数
【深度学习】卷积神经网络(CNN)原理 chaser&upper 深度学习神经网络卷积计算机视觉
【深度学习】卷积神经网络原理1.卷积神经网络的组成2.卷积层2.1卷积运算过程3.padding-零填充3.1ValidandSame卷积3.2奇数维度的过滤器4.stride-步长5.多通道卷积5.1多卷积核（多个Filter）6.卷积总结7.池化层(Pooling)8.全连接层9.总结1.卷积神经网络的组成定义卷积神经网络由一个或多个卷积层、池化层以及全连接层等组成。与其他深度学习结构相比，卷
深度学习学习经验——卷积神经网络（CNN） Linductor 深度学习学习经验深度学习学习 cnn
卷积神经网络卷积神经网络（CNN）1.卷积神经网络的基本组成2.卷积操作3.激活函数（ReLU）4.池化操作5.全连接层6.卷积神经网络的完整实现项目示例项目目标1.加载数据2.卷积层：图像的特征探测器2.1第一个卷积层3.激活函数：增加非线性4.池化层：信息压缩器5.多层卷积和池化：逐层提取更高层次的特征6.全连接层：分类器7.模型训练和测试完整的项目示例代码总结卷积神经网络（CNN）卷积神经网
Python Day53 别勉. python机器学习 python 开发语言
Task：1.对抗生成网络的思想：关注损失从何而来2.生成器、判别器3.nn.sequential容器：适合于按顺序运算的情况，简化前向传播写法4.leakyReLU介绍：避免relu的神经元失活现象1.对抗生成网络的思想：关注损失从何而来这是理解GANs的关键！传统的神经网络训练中，我们通常会直接定义一个损失函数（如均方误差MSE、交叉熵CE），然后通过反向传播来优化这个损失。这个损失的“来源”
大模型-FlashAttention 算法分析清风lsq 大模型推理算法算法大模型推理 LLM flashattention
一、FlashAttention的概述FlashAttention是一种IO感知精确注意力算法。通过感知显存读取/写入，FlashAttention的运行速度比PyTorch标准Attention快了2-4倍，所需内存也仅是其5%-20%。随着Transformer变得越来越大、越来越深，但它在长序列上仍然处理的很慢、且耗费内存。（自注意力时间和显存复杂度与序列长度成二次方），现有近似注意力方法，
深度学习之分类手写数字的网络 newyork major 卷积神经网络CNN 深度学习人工智能
面临的问题定义神经⽹络后，我们回到⼿写识别上来。我们可以把识别⼿写数字问题分成两个⼦问题：把包含许多数字的图像分成⼀系列单独的图像，每个包含单个数字；也就是把图像，分成6个单独的图像分类单独的数字我们将专注于编程解决第⼆个问题，分类单独的数字。这样是因为，⼀旦你有分类单独数字的有效⽅法，分割问题是不难解决的。⼀种⽅法是尝试不同的分割⽅式，⽤数字分类器对每⼀个切分⽚段打分；如果数字分类器对每⼀个⽚段
推荐文章：探索深度学习的不确定性边界 —— SDE-Net 开源项目解析史多苹Thomas
推荐文章：探索深度学习的不确定性边界——SDE-Net开源项目解析SDE-NetCodeforpaper:SDE-Net:EquippingDeepNeuralnetworkwithUncertaintyEstimates项目地址:https://gitcode.com/gh_mirrors/sd/SDE-Net在当今的人工智能领域，深度神经网络(DNN)已经成为推动技术创新的基石。然而，其预测的
【Java】已解决java.sql.SQLRecoverableException异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
如何用Python实现基础的文生视频AI模型 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南 python 音视频人工智能 ai
如何用Python实现基础的文生视频AI模型关键词：文生视频、AI生成、扩散模型、多模态对齐、视频生成算法、Python实现、时间一致性摘要：本文系统讲解基于扩散模型的文生视频（Text-to-Video,T2V）AI模型的核心原理与Python实现方法。从技术背景到数学模型，从算法设计到项目实战，逐步拆解文本-视频跨模态对齐、时间序列建模、扩散生成等关键技术。通过PyTorch实现一个基础版文生
深度学习流体力学【干货】人工智能交叉前沿技术，人工智能深度学习 python 机器学习
深度学习作为一种新兴的机器学习技术，为流体科学的研究提供了新的思路和方法。通过对大量数据的学习和分析，深度学习模型可以自动提取特征和模式，为流体科学中的复杂问题提供解决方案。然而，深度学习在流体科学中的应用还面临一些挑战，需要进一步研究和探索。未来，深度学习与传统流体力学方法的结合将成为流体科学研究的重要方向，多模态数据的融合、模型的可解释性、实时预测和控制等将是深度学习在流体科学中发展的重点。相
机器学习中为什么要用混合精度训练十子木机器学习机器学习人工智能
目录FP16与显存占用关系机器学习中一般使用混合精度训练：FP16计算+FP32存储关键变量。FP16与显存占用关系显存（VideoRAM，简称VRAM）是显卡（GPU）专用的内存。FP32（单精度浮点）：传统深度学习默认使用32位浮点数每个参数占用`4字节`例如：1亿参数的模型→约400MB显存FP16（半精度浮点）：每个参数占用`2字节`（直接减半）相同模型→约200MB显存双精度浮点（FP6
入门pytorch-联邦学习四代机您发多少 pytorch 人工智能 python
本文联邦学习的代码引用于https://github.com/shaoxiongji/federated-learning本篇文章相当于带大家读一遍联邦学习的代码，同时加深了大家对联邦学习和Pytorch框架的理解。这里想简单介绍一下联邦学习。联邦学习说白了，就是假如有NNN个数据拥有者F1,...,FN{F_1,...,F_N}F1,...,FN，他们希望使用这些数据来训练机器学习模型，但是又各
I2C子系统面试指南：基础原理、经典问答与答题技巧全解析嵌入式Jerry Linux+内核面试职场和发展 linux 服务器运维单片机 java
I2C子系统面试指南：基础原理、经典问答与答题技巧全解析关于本篇博文，B站视屏讲解链接，点击进入深度学习一、引言：为什么要深入掌握I2C子系统？在嵌入式、驱动开发、BSP移植、甚至AIoT行业，I2C几乎是绕不开的“基础功”。不管你是应聘Linux驱动开发、嵌入式软件工程师、SoC底层支持，还是BSP/系统调试，I2C的核心架构和调试经验都是面试高频关注点。掌握I2C子系统，关键不止是能写驱动，更
KANN 是一个独立的轻量级 C 语言库，用于构建和训练中小型人工神经网络，例如多层感知器、卷积神经网络和递归神经网络（包括 LSTM 和 GRU）。它实现了基于图的逆模自动微分，并允许构建具有递归等
一、软件介绍文末提供程序和源码下载KANN是一个独立的轻量级C语言库，用于构建和训练中小型人工神经网络，例如多层感知器、卷积神经网络和递归神经网络（包括LSTM和GRU）。它实现了基于图的逆模自动微分，并允许构建具有递归、共享权重和多个输入/输出/成本的拓扑复杂神经网络。与TensorFlow等主流深度学习框架相比，KANN的可扩展性较低，但它的灵活性接近，代码库要小得多，并且仅依赖于标准C库。与
AttnRNN：参数更少，却断档碾压LSTM/GRU的新RNN wq舞s 人工智能 python 深度学习 deep learning ai 科技 pytorch
研究者与发布者为:CSDNwq舞s，知乎wqwsgithubwqws突破性进展！新型注意力RNN（AttnRNN）在长序列任务中全面超越传统RNN模型在深度学习领域，循环神经网络（RNN）及其变体GRU和LSTM长期以来一直是处理序列数据的首选架构。然而，它们在长序列任务中始终存在信息遗忘和梯度消失等问题。今天，我很高兴地宣布一种全新的RNN架构——AttnRNN，它在多个长序列基准测试中全面超越
C语言教学大变革！DeepSeek如何改变高职院校编程课堂？武汉唯众智创 c语言开发语言程序设计 Deepseek
一、引言在当今数字化转型的浪潮中，程序设计与分析能力已成为高职教育中不可或缺的核心竞争力。作为编程语言的基础，C语言不仅训练学生的计算思维，还培养其算法实现能力。然而，当前高职院校的C语言教学面临诸多挑战，如实践环节薄弱、学生创新能力不足等。DeepSeek等新一代智能编码支持系统的出现，为这一现状带来了转机。该系统融合了深度神经网络与语义解析技术，能够智能生成代码、优化缺陷检测、解构程序逻辑，并
AI人工智能领域深度学习的跨模态检索技术 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南人工智能深度学习 ai
AI人工智能领域深度学习的跨模态检索技术关键词：跨模态检索、深度学习、多模态学习、特征提取、相似度计算、注意力机制、Transformer摘要：本文深入探讨了AI领域中基于深度学习的跨模态检索技术。我们将从基础概念出发，详细分析跨模态检索的核心算法原理、数学模型和实际应用。文章包含完整的Python实现示例，展示如何构建一个跨模态检索系统，并讨论当前的技术挑战和未来发展方向。通过本文，读者将全面理
工业缺陷检测深度学习方法综述 2301_80355452 深度学习人工智能
其被广泛地应用于无人质检、智能巡检、质量控制等各种生产与运维场景中.一.工业缺陷检测的背景与特点工业缺陷检测面临着诸多难点:缺陷样本匮乏、缺陷的可视性低、形状不规则、类型未知等,直接使用异常检测方法难以满足工业缺陷检测的任务需求.二.介绍工业缺陷检测问题的定义,分析研究难点与挑战异常：点异常、上下文异常和集群异常。点异常：又称为离群值(outliers)[9],描述数值上偏离正常样本的独立数据。与
Python程序设计第6章：函数和函数式编程若北辰 Python程序设计 python 开发语言
Python程序设计Python是全球范围内最受欢迎的编程语言之一，学好Python将对个人职业生涯产生很大的助力，Python在机器学习、深度学习、数据挖掘等领域应用极为广泛。在数据科学家/数据分析师、人工智能工程师、网络安全工程师、软件工程师/全栈工程师、自动化测试工程师等岗位，年入50万，很普遍，学好Python，高薪就业不是问题，因此推出Python程序设计系列文章：Python程序设计第
什么是神经网络和机器学习？【云驻共创】一键难忘人工智能机器学习深度学习神经网络网络
什么是神经网络和机器学习？一.背景在当今数字化浪潮中，神经网络和机器学习已成为科技领域的中流砥柱。它们作为人工智能的支柱，推动了自动化、智能化和数据驱动决策的进步。然而，对于初学者和专业人士来说，理解神经网络和机器学习的本质是至关重要的。在本文中，我们将深入探讨这两个概念的内涵、工作原理以及彼此之间的联系。二.神经网络和机器学习简介神经网络和机器学习都是人工智能领域中的重要概念，它们通常用于解决各
AI人工智能与OpenCV：实现智能图像编辑功能 AI智能探索者 AI Agent 智能体开发实战人工智能 opencv 计算机视觉 ai
AI人工智能与OpenCV：实现智能图像编辑功能关键词：人工智能、OpenCV、图像处理、计算机视觉、深度学习、智能编辑、图像增强摘要：本文深入探讨如何结合人工智能(AI)和OpenCV实现智能图像编辑功能。我们将从基础概念出发，详细介绍核心算法原理，展示实际代码实现，并分析典型应用场景。文章将涵盖从传统图像处理技术到深度学习方法的演进，重点讲解如何利用OpenCV和AI模型实现自动化的图像增强、
人工智能-基础篇-2-什么是机器学习？（ML，监督学习，半监督学习，零监督学习，强化学习，深度学习，机器学习步骤等） weisian151 人工智能人工智能机器学习学习
1、什么是机器学习？机器学习（MachineLearning,ML）是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析等数学理论。其核心目标是让计算机通过分析数据，自动学习规律并构建模型，从而对未知数据进行预测或决策，而无需依赖显式的程序指令。基本思想：通过数据驱动的方式，使系统能够从经验（数据）中改进性能，形成对数据模式的抽象化表达。基本概念：模型：模型是对现实世界现
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他