乄洛尘

变分系列 Deep Variational Instance Segmentation 论文阅读笔记

一、Abstract
二、引言
三、相关工作
四、深度变分实例分割
- 4.1 Mumford-Shah 模型
- - 从无监督到有监督的设置
- 4.2 深度变分实例分割
- 4.3 损失函数
- - 二元损失
  - 转置不变损失
  - 归一化
五、实施细节
- 实例分割中的 FCN
- 训练
- 置换不变损失
- 离散化到实例分割
- 分类和验证
六、实验
- 6.1 数据集：
- 6.2 与 SOTA 的比较
- - PASCAL VOC 和 SBD 数据集上的结果
  - COCO 数据集上的结果
- 6.3 消融实验
- - 推理成本
  - 后处理中候选的数量
七、讨论与结论
变分实例分割的补充材料
- 1、DVIS 能够预测多少类的标签？
- 2、用于计算相对损失的窗口尺寸
- 3、归一化和量化
- 4、IoU 头的影响
- 5、在未知类别上的预测实例图
- 6、PASCAL VOC 上的定性结果
- 7、COCO 上的定性结果

写在前面

这是本周的第一篇博文，2023每周一篇博文，继续加油哇~
顺着上一篇博文（弱监督实例分割 Box-supervised Instance Segmentation with Level Set Evolution 论文笔记）的参考文献找到这篇同样采用了能量函数进行实例分割的方法来读，加深理解。

论文地址：Deep Variational Instance Segmentation
代码地址：https://github.com/jia2lin3yuan1/2020-instanceSeg
收录于：NeurIPS 2020
欢迎关注，主页更多干货，持续输出中~

一、Abstract

实例分割的定义，之前的方法通常采用基于搜索的策略：先用一个规则的网格和每个网格块上生成的 proposal 划分图像，之后分类这些 proposal 并细化边界。本文采用一个全卷积网络来训练提出的变分实例分割，其作为一个最小优化函数来解决分段常数下的分割问题。具体来说，拓展了经典的 Mumford-Shah 变分分割算法来解决实例分割 GT 中的 permutation-invariant （置换/排列不变性？）问题。实验效果很好。

二、引言

介绍一下语义实例分割的概念，指出挑战性：1、同属一类的不同实例可能有着类似形状；2、实例的数量在预测时未知；3、实例的标签是 permutation-invariant 的，即随机置换训练 GT 中的实例标签而不会改变学习结果，如下图：

对于这类置换不变的实例标签，不能采用传统的目标函数，如 cross-entropy 损失来训练。常见的解决方式：将检测和分割结合融入到一个两阶段方法中，一个网络产生 proposal，另一个分类和细化每个 proposal，缺点是效率低。有一些改进的方法但是效率仍低。另外一些是无搜索的方法，并不直接产生目标 proposals。大多数方法学习预测每个实例标签中的像素代理，然后通过逐步的后处理来分割每个实例。
提及实例分割与 Mumford-Shah 模型。当时的难度在于从输入的图像中估计非线性函数，但这却可以应用到深度网络中，因为这一函数自然可微分。
这种变分方法和深度学习的结合能够解决深度学习问题，而这些是很难用传统的目标函数，如 cross-entropy 解决的。另一方面，用深度网络参数化变分方法能够建模复杂的图像函数。本文提出深度变分实例分割 deep variational instance segmentation (DVIS)，本质是一个直接预测分段常数性质的实例标签的 FCN 网络，每一个常数子区域对应一个实例；提出一种变分目标函数来缓解实例分割中 GT 的置换不变性质。

三、相关工作

实例分割的定义。目前的方法大致分为基于搜索的（有 anchor）和无搜索（无 anchor）的方法。搜索的缺点：慢，无搜方法缺点：不能直接生成实例预测，因此需要后处理。

四、深度变分实例分割

4.1 Mumford-Shah 模型

Mumford-Shah 模型通过计算给定图像中最优的分段光滑曲线，将实例分割任务视为一个连续能量函数最小化问题。图像定义为 $I$ ，边界域 $\Omega\in\mathcal{R}^{2}$ 为被分割部分，定义一个估计的 $\hat I$ 和 $C\in\Omega$ ，此集合的边用边界划分为不同的目标。Mumford-Shah 函数定义为：
$F(\hat{I},C)=\int_\Omega(\hat{I}(x,y)-I(x,y))^2dxdy+\mu\int_{\Omega\setminus C}|\nabla\hat{I}|^2dx dy+\nu|C|$ 其中 $\mu$ 、 $\nu$ 为非负参数， $\Omega\setminus C$ 为非边界像素， $∣ C ∣$ 为 $C$ 中像素数量。最小化上式本质上旨在优化一个分段的光滑函数（理想情况下在每个段内都是常数），而在边上或者边界上不光滑。第一项使得 $\hat I$ 更接近 $I$ ，第二项使得每个分割部分更加光滑，最后一项促使目标轮廓更短从而避免过大分割。
Mumford-Shah 函数被视为稳定的变分模型，能够近似的归一化目标边界的长度，同时能够建模同一图像内的多个目标。然而因其第一项通常强制 $\hat I$ 接近 $I$ ，因此传统上仅适用于超像素分割及主动轮廓检测。

从无监督到有监督的设置

无监督和有监督对于分段常函数的优化中，每个段都对应一个目标实例，此时分段的总数未知。每个段内所有的常量以及一个短边界长度同样是实例分割的理想先验。MS 模型中的第二项是一个公共的逐元素项，促进每个分段内都保持一个常数。之前的方法表明第二和第三项可以结合作为一个鲁棒损失。
拓展这一变分方法解决实例分割问题的主要难点在于，如何利用潜在的匹配项 $\int(\hat{I}(x,y)-I(x,y))^2dxdy$ 。一个简单的 MSE 或者 CE 损失由于 GT 标签转置不变的特点，而不能满足实例分割的要求。然而背景标签在整个数据集中都保持相同，因此需要一种新的变分函数。

4.2 深度变分实例分割

通常实例分割中的标签有两个确切的点：像素标签为 0 时，像素为背景；像素标签大于 0 时，标签为置换不变，即：可以将标签转移到不同的目标上而不影响实际意义。因此当定义一个实例分割变分函数时，需要考虑这点：
$\begin{aligned} F(f, C)= & \underbrace{\int_{\Omega} \mathcal{L}_{b}\left(f(x, y), \mathbb{I}_{[G T(x, y)=0]}\right) d x d y}_{\text {Binary Loss }}+\underbrace{\mu \int_{\Omega}\|\nabla f\|^{2} d x d y+\nu|C|}_{\text {Regularization }}+\underbrace{\int_{\Omega}|f-\operatorname{Round}(f)| d x d y}_{\text {Quantization }} \\ & +\underbrace{\int_{\Omega} \int_{\Omega} \mathcal{L}_{p i}\left(\left|f\left(x_{1}, y_{1}\right)-f\left(x_{2}, y_{2}\right)\right|, \mathbb{I}_{\left[G T\left(x_{1}, y_{1}\right) \neq G T\left(x_{2}, y_{2}\right)\right]}\right) d x_{1} d y_{1} d x_{2} d y_{2}}_{\text {Permutation Invariant Loss }} \end{aligned}$ 其中 $f$ 为网络预测的标签图， $\omega$ 为网络的参数， $Round(\cdot)$ 为取整操作， $\mathcal{L}_{b}$ 为标签损失。 $\mathcal{L}_{pi}$ 为置换不变损失，用于比较两个像素标签的差异： $|f\left(x_{1}, y_{1}\right)-f\left(x_{2}, y_{2}\right)|$ 和 $\mathbb{I}_{\left[G T\left(x_{1}, y_{1}\right) \neq G T\left(x_{2}, y_{2}\right)\right]}$ ，这表明了这些像素的 GT 标签是否不同。光滑程度与最小边长度和 Mumford-Shah 中一致。此外，整合一个量化机制，能够驱动输出的标签值更接近整形。
在置换不变损失 $\mathcal{L}_{pi}$ 中，原则上整合所有在图像内部的非边界上的所有像素点，而不是传统条件区域方法 conditional random field (CRF) 中的小的邻居点。原因在于实例分割是一个固有的非局部问题：由于遮挡，同一实例可以在 2D 中分成几个部分，这些部分可能彼此相距很远。因此，仅利用局部一致性可能不太够。实验结果也表明如果仅强调局部一致性，那么就会在预测的实例标签 $f$ 上产生小的，光滑的改变，而这会导致相同实例下另一实例标签发生大的变化。
实际上在所有像素上离散化 $\mathcal{L}_{b}$ ，在采样的像素对上离散化 $\mathcal{L}_{pi}$ ，像素对上采用的是分层或随机采样。分层采样：在一个像素的 4 邻域内采样所有的中间邻居，并减少更远像素对的采样密度。随机采样：在整个图像上随机选择像素对来计算 $\mathcal{L}_{pi}$ 。实验发现在小的分辨率下，分层采样有效，反之随机采样更有效。
在 CRFs 中，标签来源于分离的集合，然而在变分方法中，标签是连续的。对于CNN来说，很难模拟整个的 CRF 推导过程，而本文的 FCN 可以同时处理大量不确定目标的图像，因为它将标签作为一个连续的真实值。

4.3 损失函数

变分方法中输出的 $f$ 值是连续的，因此损失函数要更接近于回归的损失函数。本文主要利用 Huber 损失函数的变体：当 $v<\theta$ 时， $L_h(v,\theta)=\frac{v^2}{2\theta}$ ，反之 $v-\frac{\theta}{2}$ ，这里设置 $\theta=0.1$ 。

二元损失

第一项 $\mathcal{L}_{b}$ 旨在从 ‘‘stuff’’ 类别，如路、水、空气中分离出标签实例，而这些通常是背景。 $\mathcal{L}_{b}$ 使得分割是背景的像素为非正值，而前景目标为正值。设置 $GT (x, y) = 0$ 在背景像素上而 $GT (x, y) > 0$ 在前景像素上。于是二元损失计算如下：
$\mathcal{L}_b(f(x,y),GT(x,y))=\begin{cases}L_h(ReLU(f(x,y)))&\quad\text{if}~GT(x,y)=0\\ L_h(ReLU(m_1-f(x,y)))&\quad\text{if}~GT(x,y)>0\end{cases}$ 其中 $ReLU(x)=\max(x,0)$ 为 ReLU 激活函数， $m_1$ 为损失函数的参数，用于从背景中分离出前景。在前景像素中，当 $f(x,y)\geq m_1$ 时，损失为 0，这会缓解有着不同 $f (x, y)$ 值的前景目标。在背景像素中，一旦 $f(x,y)\leq0$ 时，损失为 0。实验中设置 $m_1=2$ 。
本文将这一项设置为 Huber 回归损失，而不是 CE 二分类损失。原因在于：当标签值 $\geq m_1$ 时，回归损失能够获得精确的 $0$ ，当标签值 $\leq0$ 时为背景。而 CE 损失则会将预测值推向正负无穷。

转置不变损失

考虑到 GT 标签是转置不变的， $\mathcal{L}_{pi}$ 强制 GT 实例标签和预测标签的相似性。 $p_1$ 和 $p_2$ 为一个邻域中的两个像素，GT 分别为 $GT_{p_1}$ 、 $GT_{p_2}$ ，相应的损失为：
$\begin{array}{l} f_{d}=\left|\operatorname{ReLU}\left(f\left(x_{1}, y_{1}\right)\right)-\operatorname{ReLU}\left(f\left(x_{2}, y_{2}\right)\right)\right| \\ \left.\mathcal{L}_{p i}\left(f_{d}, G T\left(x_{1}, y_{1}\right), G T\left(x_{2}, y_{2}\right)\right)\right)=\left\{\begin{array}{ll} L_{h}\left(f_{d}\right), & \text { if } G T\left(x_{1}, y_{1}\right)=G T\left(x_{2}, y_{2}\right) \\ L_{h}\left(m_{2}-f_{d}\right), & \text { if } G T\left(x_{1}, y_{1}\right) \neq G T\left(x_{2}, y_{2}\right) \end{array}\right. \\ \end{array}$ 其中 $m_2$ 为调整预测标签和不同实例的裕量值，实验中设置 $m_2=1$ 。当预测标签在两个像素上的差值大于 $1$ 时，表明这两个像素属于不同的实例。另一方面，如果两个像素属于同一实例，当且仅当它们的预测标签相同时，损失为 0。

归一化

没有 Mumford-Shah 归一化时，后处理更加困难，于是将 Mumford-Shah 离散化为一个损失函数：
$L_{MS}(f(x,y))=\min(\mu\|\nabla f(x,y)\|^2,\nu)$ 这等同于原始的 Mumford-Shah 公式，但并不需要优化项，于是使用一个简单的准凸损失函数作为柯西损失：
$L^\prime_{MS}(f(x,y))=\log\left((f(x,y)-f(x,y+1))^2+(f(x,y)−f(x+1,y))^2+1\right)$
最后，采用量化方法缩小输出的标签与最近整数的距离，这一项的梯度从第一个 $f$ 中反向传播。由于取整操作 $round(\cdot)$ 为分段常量，因此梯度为 0。量化操作能够在不同的标签值中建立充分的裕量，这使得后处理更加简单。

五、实施细节

实例分割中的 FCN

ResNet-50 和 ResNet-101 输出步长为 8，之后使用一个类似 FPN 的上采样 2 倍分支来产生高分辨率的输出。FCN 最后一层输出真实值标签来作为一个输出通道，用于计算变分损失和反向传播。增加一层 ReLU 来去除负标签输出，注意并未采用 FPN 中的多个输出头。

训练

输入图像尺寸：PASCAL VOC $513\times513$ ；COCO 最小边长 700。

置换不变损失

输入单个 $H\times W$ 的图像，FCN 下采样因子 $d$ ，输出尺寸 $\frac{H}{d}\times\frac{W}{d}\times1$ ，于是像素数量 $\frac{HW}{d^2}\times\frac{HW}{d^2}$ 。在模型中，二元损失使得仅实例内的像素对得以考虑，因此减少了需要计算的像素量。之后分层采样这些像素对来计算置换不变损失。
给定一个像素 $(x, y)$ ，窗口尺寸为 $w$ ，采样距离中心区域为 $c$ ( $) 内的所有像素，然后选择蒸馏范围 r 内的剩余像素。 w 、 c 、 r 分别设置为 129，8，8。$

离散化到实例分割

在获得真实实例标签值之后，应用平移分割算法在不同的带宽 0.9，0.4 上，离散化到两个不同的标签图。当 $m_2$ 固定为 1，带宽 0.9 能够使得模型分割出不同的目标。当模型不能充分地分割目标时，带宽 0.4 能够帮助分割目标。这两种带宽在实验中已经证实。

分类和验证

利用一个分类网络来验证分割：首先利用 ROIAlign 从 FCN 中每个预测的实例 bounding box 中提取 CNN 特征，与预测的实例二分类 mask 拼接。之后利用一个 7 层的小卷积网络来分类每个预测的实例到预定义的语义标签中。此外，利用一个 IoU 头尝试预测 Huber 回归损失中，预测实例与最佳匹配到的 GT 实例 IOU，最后通过阈值过滤掉虚假正样本。

六、实验

6.1 数据集：

PASCAL VOC 2012
PASCAL SBD
COCO

6.2 与 SOTA 的比较

PASCAL VOC 和 SBD 数据集上的结果

COCO 数据集上的结果

6.3 消融实验

推理成本

后处理中候选的数量

上表 6。

七、讨论与结论

本文提出深度变分实例分割，将实例分割放缩为变分问题，提出一种包含置换不变损失的变分目标函数，能够端到端的训练 FCN 网络，直接预测图像中真实的实例标签值。在推理阶段，分离预测的连续标签，然后利用小的 CNN 网络将他们划分到语义类别上。实验效果很好。
DVIS 不同于大多数基于搜索的方法在于：以单个的全局视角来处理整个图像。大多数基于搜索的方法查找每个位置区域来定位小的物体，而 DVIS 直接一次查找整个图像并提取目标信息，因此可能忽略了小的目标。但是这种方法能够应用在分割精度不高的快速分割场景中。

变分实例分割的补充材料

1、DVIS 能够预测多少类的标签？

2、用于计算相对损失的窗口尺寸

3、归一化和量化

4、IoU 头的影响

5、在未知类别上的预测实例图

6、PASCAL VOC 上的定性结果

7、COCO 上的定性结果

写在后面

这一类数学性质的文章如果文章本身语言表达不行，读起来还是够呛，但工作量也是足够了，希望通过阅读代码得到进一步的收获~

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
深度学习驱动的车牌识别：技术演进与未来挑战逼子歌深度学习车牌识别神经网络字符识别 YOLO 卷积神经网络
一、引言1.1研究背景在当今社会，智能交通系统的发展日益重要，而车牌识别作为其关键组成部分，发挥着至关重要的作用。车牌识别技术广泛应用于交通管理、停车场管理、安防监控等领域。在交通管理中，它可以用于车辆识别、交通违法监控和车流统计等，提高交通管理的效率和准确性。在停车场管理中，实现车辆的自动识别和收费，提升管理和服务水平。在安防监控领域，可用于追踪嫌疑人及犯罪行为。深度学习的出现为车牌识别带来了重
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

变分系列 Deep Variational Instance Segmentation 论文阅读笔记