coco_12345

深度学习图像分割之UNET

一.图像分割概述
- 1.什么是图像分割？
- 2.图像分割的应用场景
- 3.图像分割分类
- 4.小结
二.UNET网络模型
- 1.图像分割通用的网络构造方法
- - 下采样+上采样
  - 多尺度特征融合
  - 获得像素级别的分割图，对每个像素点进行类别判别
  - 哑铃瓶颈结构
- 2. FCN
- - FCN的核心思想
  - FCN的网络结构
- 3.UNET
- - UNET概述
  - 网络构造细节
- 4.UNET++
- - 概述
  - 深监督和剪枝
三.图像分割评估
- 1.Dice系数/DiceLoss
- 2.IOULoss
- 3.BCELOSS
- 3.WBELOSS
- 4.Focal loss
- 5.常用Loss组合
四.Pytorch实现UNET算法
- 1.简介
- 2.数据加载
- 3.模型选择
- 4.损失函数
- 5.效果
自己的一点疑惑

一.图像分割概述

1.什么是图像分割？

图像分割（Semantic Segmentation）是计算机视觉中非常重要的任务，是图像理解的基石性技术。
它的目标是为图像中的每个像素点分类，即像素级别的分类任务。
如下图所示，将原始图像分割成三类（摩托车，人，背景），输入左图，输出右图，由此可见完成图像分割的任务需要一种生成模型（下采样+上采样）的神经网络：

2.图像分割的应用场景

图像分割技术在各领域都有广泛的应用，例如在
无人驾驶(具体为街景识别与理解)
医学影像分割（例如CT/MR磁共振脑图像分割）
GIS地理识别的图像处理系统
无人机应用（着陆点判断）
穿戴式设备应用等方面。

下图为图像分割在OCT眼底视网膜图像分层识别中的应用：

3.图像分割分类

目前的分割任务主要有三种： 普通分割，语义分割和实例分割。

普通分割：将分属不同物体的像素区域分开。
语义分割：在普通分割的基础上，分类出每一块区域的语义（即这块区域是什么物体），即将画面中的所有物体都指出他们各自的类别。
实例分割：在语义分割的基础上，给每个物体编号。即不但要进行像素级别的分类，还需在具体的类别基础上区别开不同的实例。

比如说图像有多个人甲、乙、丙，那边他们的语义分割结果都是人，而实例分割结果却是不同的对象
如下图所示，分别为目标检测，语义分割，实例分割：

4.小结

简而言之，我们的目标是给定一幅RGB彩色图像（HW3）或一幅灰度图像（HW1），经过深度学习算法处理输出一个分割图谱，其中包括每个像素的类别标注（HW1），即输入输出都是图像，而且是同样大小的图像（带有各个像素类别标签），具体如下图所示：

它的实现方式：首先明确分类数，然后为每个类别创建一个输出通道channel（像素上的 one-hot 编码）

其中单一通道代表了某一特定类别所存在的区域，称之为mask掩膜

下图所示对图片分为五类：Person（人）、Purse（包）、Plants/Grass（植物/草）、Sidewalk（人行道）、Building/Structures（建筑物），所以输出五个通道（h,w,5），每个通道对像素点进行单类别的分类（1，0）

最后通过求argmax的方式被整合到一张分割图中,如下图所示：

本章介绍了图像分割的基础知识和实现思路，下一章将讲解Unet网络的算法原理和训练过程*

二.UNET网络模型

1.图像分割通用的网络构造方法

上一篇我们介绍了图像分割需要输入输出都是图像，是将逐渐变小的特征图给还原到输入图像的大小的过程，所以网络模型的一种通用做法就是采用编码和解码的网络结构

下采样+上采样

① 多层卷积和池化的过程可以视作是图像编码的过程，也是下采样的过程，解码可以理解为编码的逆运算，对编码的输出特征图进行不断的上采样逐渐得到一个与原始输入大小一致的分割图（输出）

②图像下采样的常用方法：

思考：使用池化的下采样，不会记录临近点的位置关系，对位置信息不敏感，还会产生位置偏移。我们又知道图像分割任务是像素级别的分类任务，所以采用较大步长的卷积下采样比池化更适合

③图像上采样的常用方法：

~~注：这里的像素融合，类似于混洗，将各个通道上的信息平铺开来，得到输出H,W变大，channel变小的特征图~~

多尺度特征融合

concat，add---------跳级(skip)结构

获得像素级别的分割图，对每个像素点进行类别判别

哑铃瓶颈结构

2. FCN

在图像分割领域，基于深度学习的语义分割算法开山之作是FCN（Fully Convolutional Networks for Semantic Segmentation）
FCN遵循编码解码的网络结构模式，使用 AlexNet 作为网络的编码器，采用转置卷积对编码器最后一个卷积层输出的特征图进行上采样直到特征图恢复到输入图像的分辨率，因而可以实现像素级别的图像分割。FCN的一个好处是可输入任意尺寸的图像进行语义分割。

FCN的核心思想

①不含全连接层(fc)的全卷积(fully conv)网络。可适应任意尺寸输入。

②增大数据尺寸的反卷积(deconv)层。能够输出精细的结果。

③结合不同深度层结果的跳级(skip)结构。同时确保鲁棒性和精确性。在FCN中，Skip connection的联合是通过对应像素的求和（add）

FCN的网络结构

3.UNET

UNET概述

UNet是遵循FCN的原理，并进行了相应的改进，使其适应小样本的简单分割问题。
UNet网络结构，最主要的两个特点是：U型网络结构和Skip Connection跳层连接。如下图所示：

UNet是一个对称的网络结构，左侧为下采样，右侧为上采样。按照FCN的思想，左边可以看作编码，右边可以看作解码过程

网络构造细节

1.Skip Connection跳跃连接是在上采样的过程中，融合下采样过程中的feature map，与FCN不同的是，UNET融合方式用的称Concat，通道上的叠加融合。注意左右两边特征大小（H,W）不一样，Unet采用的是将左边大的feature map裁剪后再进行Concat。

2.：上采样方式前面介绍过有像素插值，转置卷积，像素融合，这里用到的是Upsample和ConvTranspose2d，也就是双线性插值和转置卷积（反卷积）。

3.由网络构造我们可以看到，网络输入和输出的形状大小是不一样的，这是针对医学图像的分割领域的Overlap-tile策略

卷积运算对边缘区域的特征提取不如中间区域的深，黄色预测区域需要脸色区域的图像数据做输入，在大图像分割时，需将图像做有重叠的分割就可以做到无缝切割平铺

4.UNET++

概述

U-Net原论文给出的结构是原图经过四次降采样，四次上采样，得到分割结果

对于特征提取阶段，浅层结构可以抓取图像的一些简单的特征，比如边界，颜色，而深层结构因为感受野大了，而且经过的卷积操作多了，能抓取到图像的一些说不清道不明的抽象特征，总之，浅有浅的侧重，深有深的优势。

既然浅层特征和深层特征都很重要，U-Net为什么只在4层以后才返回去，也就是只去抓深层特征？由此提出了UNET++

这是知乎上得图，可以很形象得解释网络的改进思路：

上面这张图是四种深度的网络，L1最浅只有1次下采样，L4最深，有四次下采样

这张图是把1～4层的U-Net全给连一起了，让网络自己去学习不同深度的特征，而且它共享了一个特征提取器，也就是不需要训练一堆U-Net，而是只训练一个encoder，它的不同层次的特征由不同的decoder路径来还原

这个网络结构是不能被训练的，原因在于，不会由任何梯度会经过这个红色区域，因为它和算loss function的地方是在反向传播时是断开的，如下入所示：

基于以上思路，结合UNET的长连接和短连接的特性，由此设计出了UNET++网络结构，如下图所示：

UNET++这样的网络设计优势是可以抓取不同层次的特征，将它们通过特征叠加的方式整合，不同层次的特征，或者说不同大小的感受野，对于大小不一的目标对象的敏感度是不同的，比如，感受野大的特征，可以很容易的识别出大物体的，但是在实际分割中，大物体边缘信息和小物体本身是很容易被深层网络一次次的降采样和一次次升采样给弄丢的，这个时候就可能需要感受野小的特征来帮助。

深监督和剪枝

回看上面的UNET++网络结构来看，如果只用一个loss----X（0 ，4）的话，这个结构在反向传播的时候中间部分会收不到过来的梯度，解决方案就是深监督，也就是deep supervision：
具体的实现操作就是在网络的四个输出后面加一个1x1的卷积核，相当于去监督每个level，或者每个分支的U-Net的输出。

我们已经知道在UNET++中每个子网络的输出都其实已经是图像的分割结果了，如果小的子网络的输出结果已经足够好了，我们可以随意的剪掉那些多余的部分了。

在测试的阶段，由于输入的图像只会前向传播，扔掉这部分对前面的输出完全没有影响的，而在训练阶段，因为既有前向，又有反向传播，被剪掉的部分是会帮助其他部分做权重更新的。

所以思路就是在训练时通过深监督训练好模型，而在测试时选择合适的效果好的子网络，剩下的那些部分就可以剪掉了。

总结：UNet++的第一个优势就是精度的提升，这个应该它整合了不同层次的特征所带来的，第二个是灵活的网络结构配合深监督，让参数量巨大的深度网络在可接受的精度范围内大幅度的缩减参数量。

三.图像分割评估

1.Dice系数/DiceLoss

dice coefficient 源于二分类，本质上是衡量两个样本的重叠部分。该指标范围从0到1，其中“1”表示完整的重叠。其计算公式为：

其中表示集合A、B 之间的共同元素，表示 A 中的元素的个数，B也用相似的表示方法。
为了计算预测的分割图的 dice coefficient，将近似为预测图和label之间的点乘，并将结果函数中的元素相加。

因为Dice =1 时表示完整的重叠，所以DiceLoss可以定义为： DiceLoss =1-Dice
DiceLoss比较适合样本极度不均的情况（样本大部分是0，极少部分是1。反之亦然），一般情况下，使用DiceLoss会对反向传播造成不对影响，会使训练极度不稳定。

2.IOULoss

IOULoss可以定义为： IOULoss =1-J(A,B)

3.BCELOSS

BCELoss对正负样本的关注度是一样的，所以对较适合样本极度均匀的情况。

3.WBELOSS

带权重的交叉熵

4.Focal loss

二分类问题的标准loss是0-1交叉熵损失,前面讲：过当负样本数量太大，占总的loss的大部分，而且多是容易分类的，因此使得模型的优化方向并不是我们所希望的那样。

focal loss的两个性质算是核心，其实就是用一个合适的函数去度量难分类和易分类样本对总的损失的贡献。

5.常用Loss组合

BCELoss+DiceLoss
Diceloss+Focalloss

四.Pytorch实现UNET算法

1.简介

小项目做的是医学图像分割。训练数据只有30张，分辨率为512x512，这些图片是果蝇的电镜图。
下图展示的分别是原图像和标签图像

2.数据加载

数据分为训练集和测试集，各30张，训练集有标签，测试集没有标签
处理很简单，只是将图片读取，并处理成灰度图（二分类）。同时归一化。

3.模型选择

对网络进行微调，完全按照论文的结构，模型输出的尺寸会稍微小于图片输入的尺寸，如果使用论文的网络结构需要在结果输出后，做一个 resize 操作。为了省去这一步，微调网络的输出尺寸正好等于图片的输入尺寸都是512*512。

4.损失函数

因为是单通道图片，标签图片是0或者1，本质上是二分类问题，所以损失函数使用的是BCEWithLogitsLoss （SIgmoid+BCEloss）

5.效果

自己的一点疑惑

UNET论文中的输出 output 是338* 338*2

这里输出通道是2，可以理解为是二分类问题，输出的是2个类别的掩膜。那么原图像的标签label是不是也是应该有2个呢？
如果是多类别（10分类），那么输出是338338 10，那么标签怎么给定呢？
老师给的那种代码展示的标签为什么没有分类别？（直接是3通道应该很难训练的）

Tesla的FSD 架构设计 WSSWWWSSW 智能驾驶汽车人工智能 FSD
特斯拉的FSD（完全自动驾驶）架构设计以端到端神经网络为核心，结合专用硬件加速、海量数据训练和持续OTA迭代，形成了一套高度集成的系统。以下从硬件、软件、算法、数据处理和安全机制五个维度展开分析：一、硬件架构：从HW3.0到AI5的算力跃迁HW3.0基础设计采用三星14nm工艺的定制SoC，包含12个Cortex-A72CPU核心、2个NPU（合计73.7TOPS算力）和Mali-G71GPU，支
想要了解大模型，看懂这一篇就够了！大模型工作流程及核心参数介绍！ Gq.xxu qwen3 vllm transforms 大语言模型部署深度学习人工智能
若想深入探究大模型核心参数的效果与作用，就务必先弄清大模型的工作流程，明确核心参数在流程各阶段的效能与功能，知晓其具体含义。一，大模型的工作流程大模型运行时的工作原理可以概括为输入处理→特征提取→模型推理→结果生成四个核心阶段，整个过程融合了深度学习架构、自然语言处理技术以及分布式计算能力。从用户输入到大模型输出，整个工作的处理流程如下：输入文本→分词→嵌入+位置编码→Transformer多层处
LSTM 论文（Hochreiter & Schmidhuber, 1997）精读（三）
文章：SeppHochreiter,JürgenSchmidhuber;LongShort-TermMemory.NeuralComput1997;9(8):1735–1780.doi:https://doi.org/10.1162/neco.1997.9.8.1735第2节PreviousWork（已有研究），这是论文对以往方法的一个评述，总结了已有递归神经网络在面对时间序列学习、尤其是长时依赖
深度学习-Tensor
Tensor张量：与numpy中的ndarray不同之处：tensor可以在GPU或其他专用硬件上运行，以加速计算。一、Tensor初始化1.直接从数据中创建data=[[1,2],[3,4]]x_data=torch.tensor(data)2.从numpy数组创建np_array=np.array(data)x_np=torch.from_numpy(np_array)3.从另一个Tensor
从0开始学习计算机视觉--Day08--卷积神经网络
之前我们提到，神经网络是通过全连接层对输入做降维处理，将输入的向量通过矩阵和激活函数进行降维，在神经元上输出激活值。而卷积神经网络中，用卷积层代替了全连接层。不同的是，这里的输入不再需要降维，而是可以保留输入的空间结构，例如输入的是32×32×3的图片，在全连接层中是3072×1的向量，而卷积层里则保持不变。这里的改变的地方是对于同样的WX的函数形式，这里是把5×5×3的权重矩阵（也叫卷积核）向量
基于存算一体架构的实时深度学习推理优化瑕疵热点资讯架构深度学习人工智能
博客主页：瑕疵的CSDN主页Gitee主页：瑕疵的gitee主页⏩文章专栏：《热点资讯》基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化引言存算一体架构的核心优势1.能效比突破2.实时性保障架构设计与实现技术1.存储单元创新2.硬件加速器设计3.电路级优化深度学习推理优化策略1.模型压缩技术2.硬件-软件协同优化3.运行时调度典型应
视频讲解：多层感知机MLP与卷积神经网络CNN在服装图像识别中的应用
原文链接：https://tecdat.cn/?p=42891原文出处：拓端数据部落公众号分析师：ZiqiYe视频讲解：多层感知机MLP与卷积神经网络CNN在服装图像识别中的应用作为数据科学领域的从业者，我们常面临这样的挑战：如何让机器真正“看懂”图像中的信息？在为客户完成服装零售行业的图像识别时，这一问题尤为突出。追溯图像识别技术的发展，早期依赖人工设计特征，如边缘检测、纹理分析等，效率低下且适
【深度学习新浪潮】什么是上下文长度？小米玄戒Andrew 深度学习新浪潮深度学习人工智能 LLM 语言模型大模型模型优化上下文长度
大型语言模型（LLM）的上下文长度是指模型在处理当前输入时能够有效利用的历史文本长度，通常以token（如单词、子词或标点）为单位衡量。例如，GPT-4支持128Ktoken的上下文，而Llama4Scout甚至达到了10Mtoken的惊人规模。这一指标直接影响模型在长文档理解、多轮对话等复杂任务中的表现。一、上下文长度的合理范围上下文长度的选择需结合具体应用场景：日常对话：通常需要8K–32Kt
Manus AI与多语言手写识别 tonngw 人工智能
技术文章大纲：ManusAI与多语言手写识别引言手写识别技术的发展背景与市场需求ManusAI的定位与核心技术优势多语言场景下的挑战与机遇ManusAI的核心技术架构基于深度学习的端到端手写识别模型多模态数据融合（笔迹压力、书写轨迹等）自适应语言模型与字符集扩展机制多语言手写识别的关键技术非拉丁语系（中文、阿拉伯语等）的笔迹特征提取小样本语言数据的迁移学习策略上下文感知与语法纠错在低资源语言中的应
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
【AI大模型】神经网络反向传播：核心原理与完整实现我爱一条柴ya 学习AI记录人工智能神经网络深度学习 ai AI编程
一、反向传播的本质与意义反向传播（Backpropagation）是神经网络训练的核心算法，通过链式法则高效计算损失函数对网络参数的梯度，实现神经网络的优化学习。它的出现解决了神经网络训练中的关键瓶颈，使深度学习成为可能。为什么需要反向传播？参数规模爆炸：现代神经网络有数百万至数十亿参数手动计算不可行：复杂网络梯度计算量指数级增长高效优化需求：梯度下降算法需要精确的梯度计算二、前向传播与反向传播对
基于YOLOv8深度学习架构的智能农业巡检小车系统—面向农作物与杂草实时精准识别的创新实践
1.科技赋能智慧农业随着全球人口的持续增长和农业生产面临的挑战，精准农业已成为现代农业发展的必然趋势。其中，农作物与杂草的精准识别是实现自动化、智能化管理的关键一环。传统的人工除草效率低下，化学除草则可能带来环境问题。因此，开发高效、精准、环保的智能农业系统迫在眉睫。本文将深入探讨一款基于深度学习和智能硬件集成的农田作业智能小车系统。我们将重点聚焦于其硬件系统设计、软件系统架构、核心算法创新(特别
YOLOv11模型轻量化挑战的技术黑客飓风 YOLO 目标跟踪人工智能
YOLOv11模型轻量化挑战的技术文章大纲背景与意义YOLOv11在目标检测领域的地位与优势轻量化需求的实际应用场景（移动端、嵌入式设备等）轻量化面临的挑战：精度与速度的权衡YOLOv11模型结构分析整体架构设计特点（如主干网络、特征融合模块等）参数量与计算量分布的关键瓶颈现有轻量化改进的局限性轻量化技术路线网络结构优化深度可分离卷积替代传统卷积注意力机制的高效嵌入设计冗余模块的剪枝与删除量化与压
Python打卡：Day40
#先继续之前的代码importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.dataimportDataLoader,Dataset#DataLoader是PyTorch中用于加载数据的工具fromtorchvisionimportdatasets,transforms#torchvision是一个用于计算机视觉的库，
Ubuntu下安装多版本CUDA及灵活切换全攻略芯作者 D2：ubuntu linux ubuntu
——释放深度学习潜能，告别版本依赖的烦恼！**为什么需要多版本CUDA？在深度学习、科学计算等领域，不同框架（TensorFlow、PyTorch等）对CUDA版本的要求各异。同时升级框架或维护旧项目时，版本冲突频发。多版本CUDA共存+一键切换是高效开发的刚需！本文将手把手教你实现这一能力，并分享独创的“动态软链接+环境隔离”技巧，让版本管理行云流水！环境准备硬件要求NVIDIA显卡（支持CUD
Python实现基于POA-CNN-LSTM-Attention鹈鹕优化算法（POA）优化卷积长短期记忆神经网络融合注意力机制进行多变量回归预测的详细项目实例 nantangyuxi Python 算法神经网络 python 人工智能深度学习目标检测机器学习
目录Python实她基她POA-CNN-LSTM-Attentikon鹈鹕优化算法（POA）优化卷积长短期记忆神经网络融合注意力机制进行她变量回归预测她详细项目实例...1项目背景介绍...1项目目标她意义...1提升她变量回归预测精度...2优化模型训练效率...2python复制ikmpoxtos#操作系统接口，用她环境管理和文件操作ikmpoxtqaxnikngs#警告管理模块，控制运行时警
一文读懂 Sigmoid 与 Hard Sigmoid 激活函数：从原理到量化部署算法自动驾驶
在神经网络训练与部署中，激活函数扮演着关键角色，不仅影响模型训练过程，也直接决定了模型部署到实际设备后的性能表现。本文将介绍两种常用激活函数：Sigmoid和HardSigmoid，全面对比它们的原理、优缺点、应用场景，并提供实际代码示例，帮助你更好地理解与使用它们，尤其是在量化和嵌入式设备部署场景中。一、Sigmoid与HardSigmoid简介1.1Sigmoid激活函数介绍Sigmoid激活
Python打卡DAY36
DAY36：复习日恩师@浙大疏锦行在PyTorch中，nn.Model是所有神经网络模块的基类，为构建和训练神经网络提供了丰富的方法，如下：1.模型构建与参数管理__init__方法功能：用于初始化神经网络模块的参数和子模块。在自定义网络时，通常会重写此方法来定义网络的结构。细节解释：在__init__方法中，可以定义各种层，如卷积层、全连接层等。这些层会被自动注册为子模块，方便后续管理。impo
深入详解 AI 与深度学习：从零开始掌握 BERT 模型架构拉不拉斯AICoding 技术探索人工智能深度学习 bert
深入详解AI与深度学习：从零开始掌握BERT模型架构引言在自然语言处理（NLP）领域，BERT（BidirectionalEncoderRepresentationsfromTransformers）是近年来最具影响力的模型之一。它通过双向上下文理解彻底改变了NLP任务的处理方式。本文将从基础概念到核心原理、应用场景和实践技巧，深入浅出地讲解BERT，帮助初学者快速掌握这一技术。一、BERT的核心
BigQuery对象引用（ObjectRef）全面指南：一站式整合结构化与非结构化多模态数据分析
引言企业需要同时管理有组织表格中的结构化数据，以及日益增长的非结构化数据（如图片、音频和文档）。传统上，联合分析这些多样化数据类型非常复杂，通常需要使用不同的工具。非结构化媒体通常需要导出到专门的服务进行处理（如图片分析需计算机视觉服务，音频需语音转文本引擎），这会造成数据孤岛，阻碍全局分析视角的建立。以虚构的电商支持系统为例：结构化的工单信息存储在BigQuery表中，而相关的支持通话录音或损坏
生成式人工智能实战 | 条件生成对抗网络（conditional Generative Adversarial Network, cGAN）盼小辉丶生成对抗网络神经网络深度学习生成式人工智能 pytorch
生成式人工智能实战|条件生成对抗网络0.前言1.条件生成对抗网络1.1GAN基础回顾1.2cGAN核心思想2.cGAN网络架构2.1数学原理2.2网络架构3.实现cGAN3.1环境准备与数据加载3.2模型构建3.3模型训练0.前言生成对抗网络(GenerativeAdversarialNetwork,GAN)是近年来深度学习领域最具突破性的技术之一，能够生成逼真的图像、音频甚至文本。然而，传统的G
动手学深度学习13.7. 单发多框检测（SSD）-笔记&练习（PyTorch） scdifsn 深度学习笔记 pytorch ssd 单发多框检测（SSD）目标检测 mAP评价
以下内容为结合李沐老师的课程和教材补充的学习笔记，以及对课后练习的一些思考，自留回顾，也供同学之人交流参考。本节课程地址：45SSD实现【动手学深度学习v2】_哔哩哔哩_bilibili本节教材地址：13.7.单发多框检测（SSD）—动手学深度学习2.0.0documentation本节开源代码：…>d2l-zh>pytorch>chapter_optimization>ssd.ipynb单发多框
动手学深度学习3.3线性回归的简洁实现-笔记&练习（PyTorch） scdifsn 深度学习线性回归笔记 pytorch
以下内容为结合李沐老师的课程和教材补充的学习笔记，以及对课后练习的一些思考，自留回顾，也供同学之人交流参考。本节课程地址：线性回归的简洁实现_哔哩哔哩_bilibili本节教材地址：3.3.线性回归的简洁实现—动手学深度学习2.0.0documentation(d2l.ai)本节开源代码：...>d2l-zh>pytorch>chapter_linear-networks>linear-regre
【PyTorch】PyTorch中torch.nn模块的卷积层
PyTorch深度学习总结第七章PyTorch中torch.nn模块的卷积层文章目录PyTorch深度学习总结前言一、torch.nn模块1.模块的基本组成部分1.1层（Layers）1.2损失函数（LossFunctions）1.3激活函数（ActivationFunctions）2.自定义神经网络模型3.模块的优势二、torch.nn模块的卷积层1.卷积的定义2.常见的卷积层3.卷积层的重要参
【PyTorch】PyTorch中torch.nn模块的循环层
PyTorch深度学习总结第九章PyTorch中torch.nn模块的循环层文章目录PyTorch深度学习总结前言一、循环层1.简单循环层（RNN）2.长短期记忆网络（LSTM）3.门控循环单元（GRU）4.双向循环层二、循环层参数1.输入维度相关参数2.隐藏层相关参数3.其他参数三、函数总结前言上文介绍了PyTorch中介绍了池化和torch.nn模块中的池化层函数，本文将进一步介绍torch.
【PyTorch】PyTorch中torch.nn模块的池化层咸鱼鲸 PyTorch pytorch 人工智能 python
PyTorch深度学习总结第八章PyTorch中torch.nn模块的池化层文章目录PyTorch深度学习总结前言一、池化1.定义2.目的3.常见类型4.实际效果二、池化层1.常用的池化层2.池化层的参数2.1最大池化层（MaxPooling）和平均池化层（AveragePooling）2.2自适应最大池化层（AdaptiveMaxPooling）和自适应平均池化层（AdaptiveAverage
鸟类识别与分类相关数据集 Bryan Ding 分类数据挖掘人工智能
随着深度学习技术的快速发展，其在图像识别、语音识别等领域取得了显著的成果。鸟类识别作为生态学研究的重要内容，对于物种多样性保护、生态环境监测等领域具有深远的影响。将深度学习技术应用于鸟类识别，有望提高识别的准确性和效率，为鸟类学研究提供有力支持。本文综述了近年来深度学习在鸟类识别中的应用进展，包括基于图像和声音的鸟类识别系统，分析了其技术框架、实现方法以及在实际应用中的效果。通过对相关文献的梳理，
未来已来：美颜SDK如何通过深度学习实现个性化美颜形象？美狐美颜SDK开放平台美颜sdk 直播美颜sdk 视频美颜sdk 深度学习人工智能直播美颜sdk 美颜sdk 美颜api 视频美颜sdk 直播美颜工具
你有没有这样的时刻：打开相机滤镜，调了半天，依旧找不到最适合自己的美颜效果？或是刷短视频时，惊艳于博主的“自然”颜值，却又发现自己的滤镜总显得太“假”？这背后，其实藏着一个越来越热门的技术关键词——个性化美颜，而它的核心驱动力，正是深度学习。从“千人一脸”到“千人千面”，美颜SDK走进了一个真正智能的时代。一、美颜SDK，从滤镜到AI的技术跃迁美颜SDK是一类集成在App中，用于图像实时处理和优化
2024最新动物识别数据集（12-02已更新) 数据猎手小k 机器学习自然语言处理人工智能
动物识别数据集是用于训练和评估动物识别模型的集合，这些数据集通常包含多种动物的图像或视频，以及对应的标签信息。它们在生物多样性监测、生态研究、农业和城市安全管理等领域发挥着重要作用。随着深度学习技术的发展，动物识别数据集的处理方式、算法逻辑和模型搭建与训练流程也在不断进步，以提高识别的准确性和效率。一、背景意义动物识别技术的发展对于生物多样性保护、生态学研究、农业和野生动物保护等多个领域具有重要意
Transformer模型架构深度讲解
Transformer是一种在自然语言处理（NLP）和深度学习中非常重要的模型架构。它首次由Vaswani等人于2017年提出，主要应用于序列到序列的任务（如机器翻译、文本生成、摘要生成等）。Transformer模型与传统的RNN（循环神经网络）和LSTM（长短时记忆网络）不同，它不依赖于时间步的顺序处理，而是完全基于“注意力机制”进行计算，这使得它在训练速度、并行化能力和长期依赖问题的处理上具
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交