HammerHe

图像分割-语义分割

1.FCN
- 1.1 CNN与FCN的比较
- 1.2 三种上采样方法
- - 1.2.1 双线性插值上采样
  - 1.2.2 反卷积上采样
  - 1.2.3 反池化上采样
- 1.3 FCN-跳层结构（Skip-layer）
- 1.4 FCN架构
- 1.5 FCN训练参数
2.DeepLab V1
- 2.1 孔（Hole）算法--空洞卷积
- 2.2CRF 条件随机场（可以对比一下graph cut）
- - 2.2.1什么是条件随机场
  - 2.2.2全连接条件随机场(FC-CRF)
  - 2.2.3 FC-CRF在Deeplab的体现
3.DeepLab v2
- - 3.1 ASPP(atrous spatial pyramid pooling)-- Atrous空间金字塔池化
  - 3.2 架构变化
4. DeepLab V3 && DeepLab V3+
- 4.1 DeepLab V3 改进点
- 4.1 DeepLab V3+ 改进点
4.补充知识：
- 4.1什么是正则化
Leetcode
- 695. 岛屿的最大面积
- 617. 合并二叉树

1.FCN

1.1 CNN与FCN的比较

简单的说，FCN与CNN的区别在于FCN把CNN最后的全连接层换成卷积层，其输出的是一张已经标记好的图，而不是一个概率值。如下两图所示：
（1）在CNN中, 猫的图片输入到AlexNet, 得到一个长为1000的输出向量, 表示输入图像属于每一类的概率, 其中在“tabby cat”这一类统计概率最高, 用来做分类任务。
（2）FCN是对图像进行像素级的分类（也就是每个像素点都进行分类），从而解决了语义级别的图像分割问题。与上面介绍的经典CNN在卷积层使用全连接层得到固定长度的特征向量进行分类不同，FCN可以接受任意尺寸的输入图像，采用反卷积层对最后一个卷基层的特征图（feature map）进行上采样，使它恢复到输入图像相同的尺寸，从而可以对每一个像素都产生一个预测，同时保留了原始输入图像中的空间信息，最后奇偶在上采样的特征图进行像素的分类。如下图所示：
总结：
在传统的CNN结构中，前5层是卷积层，第6层和第7层分别是一个长度为4096的一维向量，第8层是长度为1000的一维向量，分别对应1000个类别的概率。FCN将这3层表示为卷积层，卷积核的大小(通道数，宽，高)分别为（4096,7,7）、（4096,1,1）、（1000,1,1）。所有的层都是卷积层，故称为全卷积网络。

1.2 三种上采样方法

经过全卷积化的网络后，我们会发现在整个过程中，原图象被进行了32倍的降采样。
但是FCN网络一般是用来对图像进行语义分割的，于是就需要对图像上的各个像素进行分类，这就需要一个上采样将降采样32倍的图像上采样到原图的大小。上采样对于低分辨率的特征图，常常采用上采样的方式将它还原高分辨率，这里陈述上采样的三种方法。

1.2.1 双线性插值上采样

简单来说，插值指利用已知的点来“猜”未知的点，一个分析帖。特点是不需要进行学习，运行速度快，操作简单。
单线性插值（一个方向上）就是知道两个点的值，并将两点连成一条直线，来确定中间的点的值，假设,现在有两点（x1,y1）、（x2,y2）连成一条直线 [x1,x2]中的点就可以用线上的点表示。双线性插值（两个方向上）是一个三维的坐标系，因此，需要找到4个点来确定中心点坐标，如下图所示的例子：

已知的红色数据点和待插值的绿色数据点。咱们已知函数f在Q1,Q2,Q3,Q4四个点值，咱们想获得未知函数f在点P= (x,y) 的值。
第一步：X方向的线性插值，在Q12,Q22中插入蓝色点R2，Q11，Q21中插入蓝色点R1。

第二步：Y方向的线性插值 ,经过第一步计算出的R1与R2在y方向上插值计算出P点。

在x与y方向上，z值成单调性特性的应用中，此种方法能够作外插运算，便可以求解Q11~Q22所构成的正方形之外的点的值，计算正方形之外的点就是上采样的过程！！！

1.2.2 反卷积上采样

首先要记住把反卷积理解成逆卷积(Deconvolution)比较容易引起误会，把反卷积理解为转置卷积(Transposed Convolution)是一个更为合适的叫法.
(1)外围全补零（Full padding）反卷积

(2)插零分数步长反卷积
其实上面这种补0的方法事有问题的，你想一下，只在四周补0会导致最边上的信息不太好，那我们把这个信息平均下，在每个像素与像素之间补0,这就是插零分数步长反卷积

1.2.3 反池化上采样

反池化可以用下图来理解，
（1）在池化时需要记录下池化的位置，形成“池化索引”
（2）反池化时把池化的位置直接还原，其他位置填0。

注意：
反卷积与反池化之间最大的区别在于反卷积过程是有参数要进行学习的。
理论上反卷积可以实现反池化(UnPooling) ，只要卷积核的参数设置的合理。

1.3 FCN-跳层结构（Skip-layer）

首先为什么要做跳层呢？

我们看到5个卷积层之前已经有了32倍的降采样，而后面的6、7卷积层也是32倍的降采样，然后降采样之后直接通过双线性插值生成32倍，这个直接拿来做优化是有问题的，即直接使用32倍反卷积得到的分割结果粗糙。
这样的话就需要引入前面几个卷积层来做辅助，用以保证空间位置上的精确度，边缘区域分割的精确性。

如何实现跳层结构？
使用第4层和第3层输出的反卷积操作（分别需要16倍和8倍的上采样），再把这3个反卷积的结果图像融合，提升了结果的精确度：
• 跳层：Pool4和Pool3后会增加一个1x1卷积层做预测
• 较浅网络的结果精细，较深网络的结果鲁棒

注意如下图所示：
（1）在最后预测过程中的反卷积层是不用学习的，如1，2，3
（2）但是在融合两层信息的过程中的反卷积是要学习的，如4，5

1.4 FCN架构

具体操作：
1、迁移学习AlexNet卷积层参数
以经典的AlexNet分类网络为初始化进行迁移学习。
最后两级是全连接层（红色），参数弃去不用。

2.第2步建立（FCN-32s网络）
•把全连接层替换为两个同深度的卷积层（4096,1,1）到->16x16x4096
•追加一个预测卷积层（21,1,1）->16x16x21
•追加一个步长为32的双线性插值反卷积层->500x500x21
这个过程就是从特征小图预测分割小图，之后直接升采样为大图。

3.第3步建立（FCN-16s网络）
•对最终层Conv7结果2倍上采样->34x34x21
•提取Pool4输出，追加预测卷积层（21,1,1）->34x34x21
•相加融合->34x34x21
•追加一个步长为16的双线性插值反卷积层->500x500x21

这个过程就是把升采样分为两次完成（橙色×2）, 在第二次升采样前，把第4个pooling层（绿色）的预测结果（蓝色）融合进来。使用跳级结构提升精确性。

4.第4步建立（FCN-8s网络）
•对上次融合结果2倍上采样->70x70x21
•提取Pool3输出，追加预测卷积层（21,1,1）->70x70x21
•相加融合->70x70x21
•追加一个步长为8的双线性插值反卷积层->500x500x21

这个过程就是把升采样分为三次完成（橙色×3）, 进一步融合了第3个pooling层的预测结果。

1.5 FCN训练参数

2.DeepLab V1

当前使用FCN解决图像分割问题是：
(1)原始FCN网络的输出低分辨问题,即重复的最大池化和下采样造成分辨率下降。
(2)分类器获得以对象为中心的决策需要空间不变性，从而限制DCNN的空间定位精度
针对这两个问题，DeepLab提出以下两点改进：

(1) 使用带孔卷积解决下采样问题。
(2) 使用Dense CRF解决空间不变形问题。

2.1 孔（Hole）算法–空洞卷积

空洞卷积最初的提出是为了解决图像分割的问题而提出的,常见的图像分割算法通常使用池化层和卷积层来增加感受野(Receptive Filed),同时也缩小了特征图尺寸(resolution),然后再利用上采样还原图像尺寸,特征图缩小再放大的过程造成了精度上的损失,因此需要一种操作可以在增加感受野的同时保持特征图的尺寸不变,从而代替下采样和上采样操作,在这种需求下,空洞卷积就诞生了

其实更简单的说：
由于普通下采样（max pooling）方法导致分辨率下降、局部信息丢失。但是我们有不得不用max pooling（因为每个像素有较大receptive field，且减小图像尺寸）。于是想使用另一种方法，不进行max pooling，但也能使每个像素有较大receptive field，这就是空洞卷积。

与正常的卷积不同的是,空洞卷积引入了一个称为 “扩张率(dilation rate)”的超参数(hyper-parameter)，该参数定义了卷积核处理数据时各值的间距。扩张率中文也叫空洞数(Hole Size)。

以3x3卷积核为例子：

a是普通的卷积过程(dilation rate = 1),卷积后的感受野为3
b是dilation rate = 2的空洞卷积,卷积后的感受野为5
c是dilation rate = 3的空洞卷积,卷积后的感受野为8
实际上就是在原图上，插入rate-1个0。

那么为什么空洞卷积可以增大感受野,但是可以不改变图像输出特征图的尺寸(分辨率,resolution)?
为了更好地理解这一点,我们从一维去分析容易理解点
从a和b可以看到，普通池化会丢失输出的特征信息，即降低特征图尺寸和分辨率，但是用密集池化虽然可以完善这一点，但是感受野很小，特征信息不够。
从b和c就可以看出,有无空洞卷积,并不影响输出特征图的尺寸,也就是说输出特征图的尺和空洞数无关,因此可以利用空洞卷积增大感受野,而输出特征图的尺寸可以保持不变。

总结就是以下三点优势：
（1）参数数量不变
（2）计算量不变
（3）高分辨输出

简单的特征总结：

如果扩张率太大了会发生什么？
显然，扩张率过大也不合适。给小图设置大的扩张率的副作用：对于 14×14 的输入图像，使用扩张率为 15 的3×3 卷积，其结果和常规的 1×1 卷积类似。
如下图：左侧为扩张率为14的3x3卷积，右侧为1x1卷积

空洞卷积有什么效果，和正常的降采样再上采样比较？

反卷积和空洞卷积的区别？
反卷积注意用于增大图像尺寸，核心是在原来图像上插入空白数据
空洞卷积是为了增大感受野，是对卷积核进行空洞，就是在卷积核插入空白数据

2.2CRF 条件随机场（可以对比一下graph cut）

2.2.1什么是条件随机场

一例说明条件随机场是什么

假设你有贾斯丁·比伯一天生活的照片，你想要给每一张照片贴上一个标签，比如吃饭，舞蹈，睡觉，唱歌，驾驶等，该如何做？

一种方法是忽视照片的时间顺序特性，照片之间是相互独立的，训练数据有大量的照片和对应的标签，构建分类模型。比如训练数据包含近一个月的标签照片，你的分类模型可能会认为早上6点拍摄的黑色的照片是与睡眠相关的，有明亮色彩的照片往往与舞蹈相关，有汽车的照片与驾驶相关等等。

这种忽视时间顺序特性的方法会损失很多信息，比如，如果你看到一张嘴的特写照片，标签是唱歌还是吃饭？如果你考虑时间的顺序特性，假设前一张照片是吃饭或烹饪，那么这张照片的标签很可能是吃饭；若前一张照片是唱歌或舞蹈，那么这张照片的标签很可能是也唱歌。

因此，为了提高标签的准确性，我们应该考虑邻近照片的标签，这种方法就是条件随机场。

条件随机场的定义:
如上图所示，实际上条件随机场的应用场景是给定输入的随机变量X，预测随机变量Y。那么如何实现这个预测呢就要考虑两点（1）邻近（2）MRF-马尔科夫随机场
(1)什么是邻近
如下为一个概率无向图模型：

变量y1的邻近点是y2,y3,y4,y5，变量y4的邻近点是y1,y6，变量y6的邻近点是y4。
所以其实邻近点的含义就是用无向边相连，存在相关的两个随机变量。

（2）什么是马尔科夫随机场？
马尔科夫随机场的本质是概率无向图，之所以叫马尔科夫随机场的原因是随机变量间满足成对马尔科夫性、局部马尔科夫性和全局马尔科夫性，马尔科夫性是关于条件独立的一种方法。
从本质上来说马尔科夫随机场（MRF）对应一个无向图。此无向图上的每一个节点对应一个随机变量，节点之间的边表示节点对应的随机变量之间有概率依赖关系，即马尔科夫随机场是随机场的特例，假设某一个位置的赋值只与和它相邻的位置相关。

有以上两点知识以后：

我们可以认为条件随机场其实是马尔科夫随机场的特例，假设马尔可夫随机场只有X和Y两个随机变量，一般情况下，X是给定的，Y是输出。
形式化定义：设X和Y是随机变量，P(Y∣X)是给定X时Y的条件概率分布，若Y构成一个马尔科夫随机场，则 P(Y∣X)是条件随机场。
而在深度学习中：
对于每个像素i具有类别标签xi还有对应的观测值yi，这样每个像素点作为节点，像素与像素间的关系作为边，即构成了一个条件随机场。

2.2.2全连接条件随机场(FC-CRF)

那么什么是全连接随机场呢？
全连接条件随机场也叫做 Dense CRF，简单的说即图像中每个像素都与其他所有像素相关，为每个像素对都建立关系，但是问题在于，连接数量是像素数量的平方级别，这就导致了即使是很小的一幅图像，计算复杂度都会非常大，从而实用性不高。
以下这个帖子对该类进行了形象介绍：Dense CRF

2.2.3 FC-CRF在Deeplab的体现

作用：通过迭代精化分割结果（恢复精确边界）

CNN是一个逐步提取特征的部分，原始位置信息会随着网络深度的增加而减少或消失。CRF在传统图像处理上的应用是做一个平滑。CRF简单说，是在决定一个位置的标签（像素点的值）时，会考虑周围标签（像素点的值）。但是通过CNN得到的概率图在一定程度上已经足够平滑，所以短程的CRF没有太大的意义。于是考虑使用Fully connected CRF，这样就会综合考虑全局信息，恢复详细的局部结构，如精确图形的轮廓。CRF几乎可以用于所有的分割任务中图像精度的提高。
效果如下图所示，边界越来越精确：
第一行：飞机类别的分值（softmax之前）
第二行：飞机类别的概率值（softmax之后）
具体操作：
CRF是后处理，是不参与训练的，
（1）在测试时对特征提取后得到的得分图进行双线性插值，恢复到原图尺寸，（2）进行CRF处理，因为缩小8倍的，所以直接放大到原图是可以接受的。如果是32倍，则需要上采样（反卷积）。
如下图所示：

3.DeepLab v2

实际上针对图像语义分割我们可以归结到以下三个挑战

Q1：传统分类DCNNs中连续的池化和下采样将导致空间分辨率明显下降，不利于图像分割

Q2：对象多尺度检测问题

Q3：以物体为中心的分类器，需要保证空间转换不变性，导致细节信息丢失

DeepLab v2 是在Deeplab v1 的基础上针对多尺度问题进行改进。具体如下：

(1)用空洞卷积（Atrous Convolution ）代替原来上采样的方法，比之前得到更高像素的score map，在不增加参数数量或计算量的情况下，有效地扩大感受野，以获得更多的上下文信息；和V1是一样的就是引入了空洞卷积。

(2) 全连接的CRF，利用低层的细节信息对分类的局部特征(边缘)进行优化。和V1是一样的

(3) ASPP(atrous spatial pyramid pooling) ：基于空间空洞金字塔池化的多尺度分割方法，即多尺度特征提取，在多个尺度上捕获对象和图像特征和语境；

如上所述真正改进的其实是第三点ASPP！！！！！

3.1 ASPP(atrous spatial pyramid pooling)-- Atrous空间金字塔池化

原理：我们知道“多尺度”技术对性能提升很大，如果有多个感受野，就相当于一种“多尺度”。

具体结构如图所示：

实际上就是通过不同的rate构建不同感受野的卷积核，用来获取不同尺度上的特征
如上图所示就是在Conv6层引入4个并行空洞卷积，分别Rate为6, 12, 18, 24
这样就会获取到4个不同的感受野：13x13, 25x25, 37x37, 49x49，然后得到四个尺度不同的特征信息

具体步骤是：
（1）特征经过pooling5以后到Conv6后，引入4个并行3x3空洞卷积进行多尺度特征融合
（2）后两层都用11卷积，最后进行融合（融合方式就是概率相加），如下图所示：

3.2 架构变化

主要关注上采样过程，原来的用传统深度网络即DCNN（FCN）的话，会把特征卷得很小很小（32倍），如图一圈中所示，所以要变成大特征即使用双线性插值的过程中，特征会损失很多！！所以我们对此进行进行优化，最后特征卷的不那么小，双线性插值后损失特征没那么多。

4. DeepLab V3 && DeepLab V3+

4.1 DeepLab V3 改进点

提出的串行和并行（atrous spatial pyramid pooling，ASPP）网络模块中包含了不同rates的atrous convolution处理与batch normalization layers，对于网络训练非常重要.
（1）无空洞卷积：
（2）串行空洞卷积：
（3）并行空洞卷积（相比V2加了BN层）
一个1×1卷积和3个3×3的空洞卷积(采样率为(6,12,18))，每个卷积核都有256个且都有BN层
包含图像级特征(即全局平均池化)

4.1 DeepLab V3+ 改进点

相比DeepLabv3，v3+引入了Decoder模块，其将底层特征与高层特征进一步融合，提升分割边界准确度。从某种意义上看，DeepLabv3+在DilatedFCN基础上引入了Ecoder-Decoder的思路，进一步保护物体的边缘细节信息。

可以看一下这个帖子总结一下语义分割的一些内容

4.补充知识：

4.1什么是正则化

首先：正则化要是理解成规则化就更好理解了，为了避免过度拟合，所以才要加入了正则化
作用：就是向你的模型加入某些规则，加入先验，缩小解空间，减小求出错误解的可能性
一些介绍贴：
（1）正则化为什么能防止过拟合（重点地方标红了） - alexanderkun - 博客园
[机器学习]正规化_for justice-CSDN博客_正规化
机器学习中正则化项L1和L2的直观理解_小平子的专栏-CSDN博客_l1和l2正则化

Leetcode

695. 岛屿的最大面积

继承一个图像渲染的方法，就是用队列实现广度搜索

class Solution:
    def maxAreaOfIsland(self, grid: List[List[int]]) -> int:
        lenx=len(grid)
        leny=len(grid[0])
        #先遍历下来，找到一个1就开始渲染成0，直到渲染不到为止，然后比较面积大小
        direct=[(0,1),(0,-1),(1,0),(-1,0)]
        queue=[]

        maxarea=0
        for rx in range(lenx):
            for ry in range(leny):
                if grid[rx][ry] == 1:
                    grid[rx][ry]=0
                    queue.append((rx,ry))
                    #渲染并且淹没陆地
                    area=0
                    while len(queue)>0:
                        # print(queue)
                        point=queue.pop()
                        
                        area+=1
                        for i in range(4):
                            nx=point[0]+direct[i][0]
                            ny=point[1]+direct[i][1]
                            if 0<= nx < lenx and 0<= ny < leny and grid[nx][ny]==1:
                                grid[nx][ny]=0
                                queue.append((nx,ny))
                        
                    print(area)
                    if area>maxarea:
                        maxarea=area

        return maxarea

617. 合并二叉树

很简单就是用递归实现检索二叉树，这里应该是是深度遍历

class Solution:
    def mergeTrees(self, root1: TreeNode, root2: TreeNode) -> TreeNode:
        if not root1:
            return root2
        if not root2:
            return root1
        
        mergeRoot=TreeNode(root1.val+root2.val)
        mergeRoot.left=self.mergeTrees(root1.left,root2.left)
        mergeRoot.right=self.mergeTrees(root1.right,root2.right)
        return mergeRoot

目标检测YOLO实战应用案例100讲-基于深度学习的无人机目标检测算法轻量化研究（中）林聪木目标检测 YOLO 深度学习
目录基于改进YOLOv5的无人机图像实时目标检测4.1引言4.2基于改进YOLOv5的目标检测模型结构4.3消融实验及结果分析4.4算法迁移验证实验基于Jetson-Xavier的模型优化部署5.1引言5.2基于人在回路的目标检测模型裁剪5.3嵌入式实时目标检测交互软件基于深度学习的无人机目标检测算法轻量化研究知识拓展基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的无人机目标检测1.数
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
深度学习--概率 fantasy_arch 深度学习人工智能
1基本概率论1.1假设我们掷骰子，想知道1而不是看到另一个数字的概率，如果骰子是公司，那么所有6个结果(1..6),都有相同的可能发生，因此，我们可以说1发生的概率为1/6.然而现实生活中，对于我们从工厂收到的真实骰子，我们需要检查它是否有瑕疵，唯一的办法就是多投掷骰子，对于每个骰子观察到的[1.2...6]的概率随着投掷次数的增加，越来越接近1/6.导入必要的包%matplotlibinline
Open3D 点云DBSCAN聚类算法 MelaCandy 算法聚类 numpy 计算机视觉图像处理 3d
目录一、DBSCAN基本原理二、代码实现2.1关键函数2.2完整代码三、实现效果3.1原始点云3.2聚类后点云Open3D点云算法汇总及实战案例汇总的目录地址：Open3D点云算法与点云深度学习案例汇总（长期更新）-CSDN博客一、DBSCAN基本原理DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）是一种基于密度的聚类算法，
目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
2024MathorCup数学建模之——MathorCup奖杯”获得者经验思路分享美赛数学建模数学建模
一、经验分享1.工具选择：顺手即可。Matlab和Python都是比较主流的选择，二者的应用场合各有不同。Python在数据分析、深度学习方面的优势愈发明显，而Matlab更适合进行物理仿真和数值计算。不过随着Python社区不断发展，其功能也愈发全面与强大，因此我们比较推荐学有余力的情况下可以更早接触Python。2.模型算法：多多益善。不一定要精通所有的算法，但是手上至少要准备一些常用的算法（
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
深度学习框架PyTorch——从入门到精通（6.2）自动微分机制 Fansv587 深度学习 pytorch 人工智能经验分享 python 机器学习
本节自动微分机制是上一节自动微分的扩展内容自动微分是如何记录运算历史的保存张量非可微函数的梯度在本地设置禁用梯度计算设置requires_grad梯度模式（GradModes）默认模式（梯度模式）无梯度模式推理模式评估模式（`nn.Module.eval()`）自动求导中的原地操作原地操作的正确性检查多线程自动求导CPU上的并发不确定性计算图保留自动求导节点的线程安全性C++钩子函数不存在线程安全
神经网络中层与层之间的关联 iisugar 神经网络深度学习计算机视觉
目录1.层与层之间的核心关联：数据流动与参数传递1.1数据流动（ForwardPropagation）1.2参数传递（BackwardPropagation）2.常见层与层之间的关联模式2.1典型全连接网络（如手写数字分类）2.2卷积神经网络（CNN，如图像分类）2.3循环神经网络（RNN/LSTM，如文本生成）2.4Transformer（如机器翻译）3.层间关联的核心原则3.1数据传递的“管道
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析 2401_87458718 3d
VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过GaussianSplatting技术对它们的性能进行全面比较和分析。VGGSfM:基于视觉几何的深度结构运动恢
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
【论文阅读】实时全能分割模型万里守约论文阅读论文阅读图像分割图像处理计算机视觉
文章目录导言1、论文简介2、论文主要方法3、论文针对的问题4、论文创新点总结导言在最近的计算机视觉领域，针对实时多任务分割的需求日益增长，特别是在交互式分割、全景分割和视频实例分割等多种应用场景中。为了解决这些挑战，本文介绍了一种新方法——RMP-SAM（Real-TimeMulti-PurposeSegmentAnything），旨在实现实时的多功能分割。RMP-SAM结合了动态卷积与高效的模型
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
【图像去噪】论文精读：CVPR 2025 | DnLUT: Ultra-Efficient Color Image Denoising via Channel-Aware Lookup Tables 十小大图像去噪深度学习计算机视觉人工智能图像处理论文阅读论文笔记
请先看【专栏介绍文章】：【图像去噪（ImageDenoising）】关于【图像去噪】专栏的相关说明，包含适配人群、专栏简介、专栏亮点、阅读方法、定价理由、品质承诺、关于更新、去噪概述、文章目录、资料汇总、问题汇总（更新中）文章目录前言Abstract1.Introduction2.Relatedworks2.1.ColorImagedenoising2.2.ReplacingCNNwithLUT3
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
Opencv之计算机视觉一闭月之泪舞计算机视觉计算机视觉 opencv python
一、环境准备使用opencv库来实现简单的计算机视觉。需要安装两个库：opencv-python和opencv-contrib-python，版本可以自行选择，注意不同版本的opencv中的某些函数名和用法可能不同pipinstallopencv-python==3.4.18.65-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallopencv-
计算机视觉总结 Trank-Lw 计算机视觉深度学习人工智能
以下是针对上述问题的详细解答，并结合代码示例进行说明：1.改进YOLOv5人脸检测模块，复杂光照场景准确率从98.2%提升至99.5%优化具体过程：光照补偿：在数据预处理阶段，采用自适应光照补偿算法，对图像进行实时增强，以减少光照变化对人脸检测的影响。数据增强：在训练数据中增加复杂光照场景下的样本，如强光、弱光、背光等，通过数据增强提高模型对不同光照条件的适应性。模型调整：对YOLOv5模型的网络
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
景联文科技：以高质量数据标注推动人工智能领域创新与发展景联文科技科技人工智能数据标注
在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。数据标注过程涉及对原始数据进行加工，通过标注特定对象的特征来生成能够被机器学习模型识别和使用的编码格式，从而使数据更具有意义和可解读性。数据标注的主要类型包括：图像标注：指在图片中标识出目标物体的位置、形状或类别等信息，如自动驾驶技术中的行人、车辆及交通标志的识别。文本
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen

图像分割-语义分割