GHZhao_GIS_RS

PointRend理解

一、PointRend理解

PointRend的提出是为了解决Mask RCNN分割精度不高的问题，个人建议想要学习这个网络的同学可以从语义分割模型上着手，毕竟Mask RCNN相比于语义分割模型还是比较复杂的，但是PointRend的思想是一样的。PoinRend语义分割

那么PointRend网络到底是如何解决分割结果精细度不高的问题呢？让我们来回顾一下语义分割领域最经典的FCN模型。

FCN语义分割思想:对原始图像经过不断的卷积和池化，得到高密度特征，然后直接上采样到与图像大小一致的结果，这样必然会导致分割结果很粗糙，尤其是边界部分误差很大。

之后大部分的语义分割模型都是基于这个框架来做的，只是在最后上采样部分做了修改，如Unet的decoder和deeplabV3+的decoder上采样。

PointRend核心思想:语义分割经过多次池化降采样后，直接预测分类结果，而不是上采样到跟原图像同样尺寸。在粗糙的分割结果中选择分割精度不高的点，然后在这些点上结合粗糙和精细的特征训练MLP模型，对这些点进行重新预测，用重新预测的结果替换原来预测的粗糙结果。

1.1 语义分割模型训练

首先训练一个标准的语义分割网络训练(这里以deeplabv3为例)，将上采样部分替换为3X3的卷积，最终层的通道数为分类数，把这个作为粗分割结果。如下图

1.2、选点

这一步的目的是选出N个点，然后对这N个点重新预测。选点策略在训练和推理的时候是不一样的。
训练时选点策略分三步

Over generation:随机生成k*N个点
Import sampling:选出最不确定的βN（β∈[0,1]）个点。
Coverage:剩下的(1-β)N个点按照均匀分布的方式选择。

推理时选点的策略

每次先上采样2倍，然后直接选出不确定的N个点

1.3、特征提取

在精细特征图（deeplabV3中的res2输出结果）和粗糙特预测结果上提取步骤2中选出的N个点所在位置的特征，然后合并。

1.4、训练MLP，替换。

用上面提取特征作为样本训练一个MLP模型(实际实现是1x1卷积)。即可得到这些点重新预测的结果，在推理时，通过迭代上采样的方式逐步的替换这些精度不高的点，知道尺寸跟原图大小一致。
要点总结：训练和推理阶段的两处不同
1、选点策略不同
2、点替换策略不同

二、PointRend代码解释(为了节省空间，我删除了源码中大段的注释)

PointRend整体逻辑梳理

class PointRend(nn.Module):
    def __init__(self, backbone, head):
        super().__init__()
        self.backbone = backbone
        self.head = head

    def forward(self, x):
        result = self.backbone(x)
        result.update(self.head(x, result["res2"], result["coarse"]))
        return result

PointRend()类初始化就两部分，backbone和head。其中backbone就是deeplabv3，head是PointHead，即选择点重新训练的过程。重点在PointHead:

class PointHead(nn.Module):
    def __init__(self, in_c=533, num_classes=21, k=3, beta=0.75):
        super().__init__()
        self.mlp = nn.Conv1d(in_c, num_classes, 1)
        self.k = k
        self.beta = beta

    def forward(self, x, res2, out):
        if not self.training:
            return self.inference(x, res2, out)

        points = sampling_points(out, x.shape[-1] // 16, self.k, self.beta)

        coarse = point_sample(out, points, align_corners=False)
        fine = point_sample(res2, points, align_corners=False)

        feature_representation = torch.cat([coarse, fine], dim=1)

        rend = self.mlp(feature_representation)

        return {"rend": rend, "points": points}

    @torch.no_grad()
    def inference(self, x, res2, out):
        num_points = 8096

        while out.shape[-1] != x.shape[-1]:
            out = F.interpolate(out, scale_factor=2, mode="bilinear", align_corners=True)

            points_idx, points = sampling_points(out, num_points, training=self.training)

            coarse = point_sample(out, points, align_corners=False)
            fine = point_sample(res2, points, align_corners=False)

            feature_representation = torch.cat([coarse, fine], dim=1)

            rend = self.mlp(feature_representation)

            B, C, H, W = out.shape
            points_idx = points_idx.unsqueeze(1).expand(-1, C, -1)
            out = (out.reshape(B, C, -1)
                      .scatter_(2, points_idx, rend)
                      .view(B, C, H, W))

        return {"fine": out}

PointHead()类初始化有四个参数，in_c, num_classes, k=3, beta=0.75,超参数k和β，其中in_c是MLP的输入通道数，默认为533，这个数是咋来的呢，其实就是deeplabv3特征提取部分layer2输出特征层的通道数(512)+类别数(21)。
我们先来看训练阶段的前向传播过程

		#选点
        points = sampling_points(out, x.shape[-1] // 16, self.k, self.beta)
		
		#提取对应点上的特征
        coarse = point_sample(out, points, align_corners=False)
        fine = point_sample(res2, points, align_corners=False)
        feature_representation = torch.cat([coarse, fine], dim=1)
		#MLP
        rend = self.mlp(feature_representation)

        return {"rend": rend, "points": points}

分别对应1.2节的选点，1.3节的特征提取，1.4节的MLP训练。具体细节我们放在下面章节讲。
再看一下推理阶段的前向传播过程（通过training=False判断）

def inference(self, x, res2, out):
        num_points = 8096

        while out.shape[-1] != x.shape[-1]:
        	#上采样
            out = F.interpolate(out, scale_factor=2, mode="bilinear", align_corners=True)
			#选点
            points_idx, points = sampling_points(out, num_points, training=self.training)
			#特征提取
            coarse = point_sample(out, points, align_corners=False)
            fine = point_sample(res2, points, align_corners=False)

            feature_representation = torch.cat([coarse, fine], dim=1)
			#mlp预测
            rend = self.mlp(feature_representation)

            B, C, H, W = out.shape
            points_idx = points_idx.unsqueeze(1).expand(-1, C, -1)
            #替换采样点的分割结果
            out = (out.reshape(B, C, -1)
                      .scatter_(2, points_idx, rend)
                      .view(B, C, H, W))

        return {"fine": out}

deeplabV3输出的粗糙的分割结果每次上采样2倍，然后执行一次选点、特征提取、mlp预测的过程(跟训练时的流程一致，只是选点策略有区别)，替换所选出的点上的分割结果，重复执行这个操作，直到分割结果的尺寸与原图尺寸大小一致。

这里有个问题，为啥PointRend的训练和推理的前向过程不一样呢？

简单来说就是推理时用的迭代细分策略(每次上升2倍)，在反向传播时不太方便，所以用了非迭代的随机采点策略(只选点一次)。

2.1、选点策略

这一部分是选点的具体实现细节。

def sampling_points(mask, N, k=3, beta=0.75, training=True):
    assert mask.dim() == 4, "Dim must be N(Batch)CHW"
    device = mask.device
    B, _, H, W = mask.shape
    mask, _ = mask.sort(1, descending=True)

    if not training:
        H_step, W_step = 1 / H, 1 / W
        N = min(H * W, N)
        uncertainty_map = -1 * (mask[:, 0] - mask[:, 1])
        _, idx = uncertainty_map.view(B, -1).topk(N, dim=1)

        points = torch.zeros(B, N, 2, dtype=torch.float, device=device)
        points[:, :, 0] = W_step / 2.0 + (idx  % W).to(torch.float) * W_step
        points[:, :, 1] = H_step / 2.0 + (idx // W).to(torch.float) * H_step
        return idx, points
        
    over_generation = torch.rand(B, k * N, 2, device=device)
    over_generation_map = point_sample(mask, over_generation, align_corners=False)

    uncertainty_map = -1 * (over_generation_map[:, 0] - over_generation_map[:, 1])
    _, idx = uncertainty_map.topk(int(beta * N), -1)

    shift = (k * N) * torch.arange(B, dtype=torch.long, device=device)

    idx += shift[:, None]

    importance = over_generation.view(-1, 2)[idx.view(-1), :].view(B, int(beta * N), 2)
    coverage = torch.rand(B, N - int(beta * N), 2, device=device)
    return torch.cat([importance, coverage], 1).to(device)

可以看到推理和训练的选点策略是分开的，通过模型的training参数来判断当前是推理还是训练阶段。结合第1.2节介绍的选点策略，我们先来看训练阶段如何实现选点。

选点之前先对mask(deeplabV3 输出的粗糙分割结果)做了排序，这步的作用是为了确定所选点的不确定性大小，在选点的第二步会用到。

#在每个像素点上，对预测的每类得分按降序排序。
mask, _ = mask.sort(1, descending=True)

训练阶段选点第一步是Over generation,对应下面这两句代码：

    over_generation = torch.rand(B, k * N, 2, device=device)
    over_generation_map = point_sample(mask, over_generation, align_corners=False)

第一句很简单，就是随机生成 k*N 个二维坐标点，batch_size为B，所以随机生成的点的尺寸为[B，k*N，2]。
第二句调用了point_sample()函数，该函数实现如下:

def point_sample(input, point_coords, **kwargs):
    add_dim = False
    if point_coords.dim() == 3:
        add_dim = True
        point_coords = point_coords.unsqueeze(2)
    output = F.grid_sample(input, 2.0 * point_coords - 1.0, **kwargs)
    if add_dim:
        output = output.squeeze(3)
    return output

Point_sample()函数的核心是调用了torch的grid_sample()插值函数，主要是通过插值的方法获得指定点的值。

output = F.grid_sample(input, 2.0 * point_coords - 1.0, **kwargs)

先来看输入的参数，第一个参数input对应的是mask，也就是deeplabV3输出的粗糙的分割结果，第二个参数是要插值的点，输入的是2.0*point_coords-1.0，其中point_coords是之前随机生成的k*N （一张图片）个二维坐标点。那为啥要做一下这个线性变换呢？其实这是跟torch的grid_sample()原理有关。
grid_sample()输入的插值点的坐标是相对坐标，相对于mask的位置，其中左上角坐标是(-1,-1),右下角坐标是(1,1)。所以传入的坐标范围要在[-1,1]之间。具体原理可以另外一篇文章:PyTorch中grid_sample的使用方法。
从这里我们可以看到代码实现中所选的点坐标都是相对位置，这样才能将在不同尺寸的特征图上提取的特征合并。

然后是第二步：Import sampling，对应的代码如下

    uncertainty_map = -1 * (over_generation_map[:, 0] - over_generation_map[:, 1])
    _, idx = uncertainty_map.topk(int(beta * N), -1)

    shift = (k * N) * torch.arange(B, dtype=torch.long, device=device)

    idx += shift[:, None]

    importance = over_generation.view(-1, 2)[idx.view(-1), :].view(B, int(beta * N), 2)

这是很关键的一步操作，来逐句看一下是怎么实现的

    uncertainty_map = -1 * (over_generation_map[:, 0] - over_generation_map[:, 1])
    _, idx = uncertainty_map.topk(int(beta * N), -1)

第一类得分减去第二类得分(mask 已经在每个像素上按得分结果降序排列了)，取反，然后取前β*N个点，就这？这样就取到了前β*N个最不确定的点？为啥要这么做呢？
我们来分析一下，我们知道1个像素点只对应1个类别，如果该像素对应的两个类别分数都很高或者说得分最高的两类分数很接近，说明它可能是边界点，也说明这个点的分割结果不确定性很高。
举个例子，假设分割任务有5类，像素A、B、C的分割得分如下表

像素点	1	2	3	4	5	uncertain_map
A	0.15	0.05	0.05	0.05	0.7	-0.55
B	0.15	0.15	0.15	0.2	0.35	-0.15
C	0.05	0.05	0.11	0.39	0.4	-0.01

我们知道这三个像素都会被认定为是第5类，但是分类正确的可能性应该是A>B>C。我们按照代码中的不确定性计算方法得到uncertain_map_A=-0.55，uncertain_map_B=-0.15，uncertain_map_B=-0.01，明显uncertain_map_C要远大于uncertain_map_A和uncertain_map_B，因此在选点的时候，C会被选出来作为不确定性高的点。

第三步:Coverage,对应代码如下

    coverage = torch.rand(B, N - int(beta * N), 2, device=device)

很简单，剩下的(1-β)*N个点随机生成即可。最后将importance点和coverage点合并返回即可。

return torch.cat([importance, coverage], 1).to(device)

现在让我们再看看论文给的推理阶段选点的示意图。a)即是规则格网选点，b)就是随机选点，c)和d)就是按照上面介绍的策略来选点，Over generation生成的点数不一样，也就是k值不一样，大家可以思考一下k值不一样会有什么不同。

然后我们再来看一下推理时如何选点。

    if not training:
        H_step, W_step = 1 / H, 1 / W
        N = min(H * W, N)
        uncertainty_map = -1 * (mask[:, 0] - mask[:, 1])
        _, idx = uncertainty_map.view(B, -1).topk(N, dim=1)

        points = torch.zeros(B, N, 2, dtype=torch.float, device=device)
        points[:, :, 0] = W_step / 2.0 + (idx  % W).to(torch.float) * W_step
        points[:, :, 1] = H_step / 2.0 + (idx // W).to(torch.float) * H_step
        return idx, points

与训练不同的是，推理时是直接选出N个不确定的点，点的不确定性的规则训练时一样。
注意:所选的点的坐标都是相对坐标

2.2、特征提取

2.1节获得了所需要的N个点，接下来就是获取这些点对应的精细层特征和粗糙层特征，用的方法也是torch的grid_sample()。代码如下

        coarse = point_sample(out, points, align_corners=False)
        fine = point_sample(res2, points, align_corners=False)

        feature_representation = torch.cat([coarse, fine], dim=1)

2.3、预测分类

得到所选的N个点的特征值之后，执行MLP操作，其实就是1X1的卷积。rend保存的就是这N个点新的分类结果。

rend = self.mlp(feature_representation)

其他

1、训练时如何计算loss
看train.py文件

        result = net(x)

        pred = F.interpolate(result["coarse"], x.shape[-2:], mode="bilinear", align_corners=True)
        seg_loss = F.cross_entropy(pred, gt, ignore_index=255)

        gt_points = point_sample(
            gt.float().unsqueeze(1),
            result["points"],
            mode="nearest",
            align_corners=False
        ).squeeze_(1).long()
        points_loss = F.cross_entropy(result["rend"], gt_points, ignore_index=255)

        loss = seg_loss + points_loss

net就是PoinRend网络，result为前向输出结果，里面包含了“coarse”，“points”，“rend”。

"coarse"即粗糙的分割结果，直接将其上采样到跟原图大小的结果(deeplabV3标准的最后一步操作)，计算一次loss，即seg_loss；
“points”为选择的N个点，提取出这些点对应的真实值，即gt_points；	
“rend”是MLP预测的N个点的结果，与gt_points计算一次loss，即points_loss。

2、推理的操作
在infer.py文件中，关键的就一句话

pred = net(x)["fine"].argmax(1)

推理前记得加上

net.eval()

这句是将网络中的training参数设置为False。

3、PointRend如何在Mask RCNN上使用
理解了一、二节介绍的PointRend网络在语义分割上使用的原理和实现细节后再来看PointRend如何在Mask Rcnn上使用应该会简单很多了。
其实还是backbone和pointHead，只不过backbone不一样了。（这里假定大家已经了解了Mask RCNN的原理）。
来看一下PointRend原文里给的结构图

这时候逻辑应该比较清楚了，同样是训练backbone，在精细特征(fine-grained)和粗糙预测(coarse prediction)上提取对应点的特征，然后拼接这两种特征，训练MLP网络。

使用PointRend训练自己的数据集

《遥感影像语义分割:PointRend训练自己的数据集》
《遥感影像实例分割:PointRend训练自己的数据集》

探秘FreeMovie：一个开源的电影推荐系统孟振优Harvester
探秘FreeMovie：一个开源的电影推荐系统去发现同类优质开源项目:https://gitcode.com/项目简介是一个基于深度学习的开源电影推荐系统，由pojiezhiyuanjun开发并维护。该项目的目标是为用户提供个性化的电影推荐服务，通过机器学习算法理解用户的观影偏好，并据此进行智能推荐。技术分析FreeMovie的核心架构包括以下关键组件：数据处理-项目采用Hadoop进行大数据预处
Topaz Video AI——视频修复爱研究的小牛 AIGC—视频 AIGC
一、TopazVideoAI介绍及使用TopazVideoAI是一款基于人工智能的视频增强和修复软件，主要用于提升视频质量、去噪、插帧和分辨率提升。它利用深度学习技术对视频进行智能化处理，使得视频看起来更加清晰和流畅。TopazVideoAI特别适合那些需要修复旧视频、提升低分辨率视频质量的用户。二、TopazVideoAI的主要功能视频去噪：通过AI模型去除视频中的噪点，使画面更加干净。分辨率提
【深度学习|变化检测孪生网络】基于共享权重的双流 U-Net 变化检测网络架构，附代码（一）努力学习的大大深度学习基础深度学习网络架构人工智能 python
【深度学习|变化检测孪生网络】基于共享权重的双流U-Net变化检测网络架构，附代码（一）【深度学习|变化检测孪生网络】基于共享权重的双流U-Net变化检测网络架构，附代码（一）文章目录【深度学习|变化检测孪生网络】基于共享权重的双流U-Net变化检测网络架构，附代码（一）基于共享权重的双流U-Net变化检测网络架构1.双流网络（SiameseNetwork）概述2.双流网络的应用——变化检测3.U
【深度学习|迁移学习】Wasserstein距离度量和跨域原型一致性损失（CPC Loss）如何计算？以及Wasserstein距离和CPC Loss结合的对抗训练示例，附代码（二）努力学习的大大深度学习基础深度学习迁移学习人工智能 python
【深度学习|迁移学习】Wasserstein距离度量和跨域原型一致性损失（CPCLoss）如何计算？以及Wasserstein距离和CPCLoss结合的对抗训练示例，附代码（二）【深度学习|迁移学习】Wasserstein距离度量和跨域原型一致性损失（CPCLoss）如何计算？以及Wasserstein距离和CPCLoss结合的对抗训练示例，附代码（二）文章目录【深度学习|迁移学习】Wassers
2025数学建模美赛B题完整建模思路——管理可持续旅游业鹿鹿数模数学建模
2025MCM问题B：管理可持续旅游业以下是我们对该题目的赛题分析，由于完整内容过长，因此在此处放出部分内容，欢迎从文末小卡片处加群获取。赛题分析以下内容包括三个主要部分：(1)题目的中文翻译(2)对题目的整体分析与思路综述(3)对题目要求的逐项详细分析与求解思路。本文的撰写将综合运用多元的数学模型、算法以及机器学习/深度学习的方法，并在必要时给出题外假设与可行的创新性思路，以期为参赛者提供较为系
使用YOLOv8训练一个无人机（UAV）检测模型，深度学习目标检测中_并开发一个完整的系统 yolov8来训练无人机数据集并检测无人机 QQ_767172261 无人及视角 YOLO 无人机深度学习
使用YOLOv8训练一个无人机（UAV）检测模型，深度学习目标检测中_并开发一个完整的系统yolov8来训练无人机数据集并检测无人机无人机数据集，yolo格式种类为uav，一共近5w张图片，如何用yolov8代码训练无人机检测数据集文章目录以下文章及内容仅供参考。1.环境部署2.数据预处理数据集准备划分数据集3.模型定义4.训练模型5.评估模型6.结果分析与可视化7.集成与部署PyQt6GUI(`
AlphaFold2的思路总结（十五） xiaofengzihhh 蛋白质结构预测深度学习人工智能神经网络
2021SC@SDUSC这学期的代码分析工作接近尾声了，我想简单总结一下AlphaFold2的总体思路具体来看，AlphaFold2主要利用多序列比对（MSA），把蛋白质的结构和生物信息整合到了深度学习算法中。它主要包括两个部分：神经网络EvoFormer和结构模块（Structuremodule）。一、EvoFormer 在EvoFormer中，主要是将图网络（Graphnetworks）
python机器学习方安乐 python python 机器学习人工智能
Python机器学习是当前最为热门的机器学习领域之一，其简洁、易用、高效的特点，让越来越多的开发者开始探索其应用。本文将从以下几个方面介绍Python机器学习的基础知识和实践案例，帮助读者更好地理解和应用机器学习技术。前提Python机器学习的应用领域A.图像识别和计算机视觉B.自然语言处理和文本分析C.数据挖掘和推荐系统深度学习A.神经网络的基本原理B.常用的深度学习框架和算法C.深度学习在图像
基于深度学习的舆论分析与检测系统应用与研究计算机软件程序设计机器学习深度学习人工智能舆论检测
【1】系统介绍研究背景随着互联网技术的迅猛发展和社会媒体平台的普及，信息传播的速度和范围达到了前所未有的水平。这一变化不仅极大地丰富了人们的社交生活，也为社会科学研究提供了新的视角和工具。舆论分析作为社会科学研究的一个重要分支，其目的是通过收集和分析网络上的公众意见和情感倾向，来了解人们对特定事件或话题的看法和态度。近年来，基于深度学习的自然语言处理技术取得了显著进步，这为提高舆论分析的准确性和效
深度学习利用数据加载、预处理和增强数据提高模型的性能 weixin_30777913 人工智能深度学习
深度学习数据预处理是一个关键步骤，旨在提高模型的性能和准确性。通过数据加载、预处理和增强，可以显著提高深度学习模型的性能和准确性。在实际应用中，需要根据具体的数据和任务来选择合适的预处理和增强技术。以下将详细论述并举例说明如何加载、预处理和增强数据。一、数据加载在深度学习中，数据加载是第一步。这通常涉及到从各种数据源（如CSV文件、数据库、图像文件夹等）中读取数据。以DeepLearning4J（
【深度学习】搭建PyTorch神经网络进行气温预测睡不着还睡不醒深度学习深度学习 pytorch 神经网络
第一步数据加载与观察①导包importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltimporttorchimporttorch.optimasoptimimportwarningswarnings.filterwarnings("ignore")%matplotlibinline②加载数据features=pd.read_csv("te
深度学习-97-大语言模型LLM之基于langchain的实体记忆和知识图谱记忆皮皮冰燃深度学习深度学习语言模型 langchain
文章目录1内存记忆Memory1.1记忆系统支持的操作1.2记忆的存储1.3记忆的查询2记忆的应用2.1设置环境变量2.2ConversationEntityMemory实体记忆2.3ConversationKGMemory知识图谱记忆2.3.1创建ConversationKGMemory2.3.2创建ConversationChain2.4ConversationBufferWindowMemo
PyTorch 实战教程：从模型搭建到训练的每一步 AI_小站 pytorch 人工智能 python transformer 深度学习大模型 LLM
用深度学习搞事情，模型搭建和训练是绕不开的两步。而PyTorch，作为一个“又灵活又好用”的深度学习框架，简直就是写代码的快乐源泉。今天我们就从0到1，实战PyTorch的模型搭建和训练流程。说白了，看完你就能自己搭个神经网络，喂点数据进去，再让它干点活。安装PyTorch要用PyTorch，得先装上它。PyTorch的安装稍微有点讲究，主要是要根据你的硬件选择CPU版本还是GPU版本。基本安装命
计算机视觉：卷积核每天五分钟玩转人工智能计算机视觉计算机视觉深度学习人工智能机器学习卷积神经网络
本文重点卷积神经网络（ConvolutionalNeuralNetwork，CNN）是一种深度学习模型，广泛应用于图像识别、自然语言处理、语音识别等领域。在卷积神经网络中，卷积核是网络的核心组件之一。通过不断堆叠卷积层和池化层，可以逐渐提取出更高级别的特征，从而实现更复杂的任务。卷积神经网络中的卷积核可以通过反向传播算法进行训练和优化，使其能够自适应地学习输入数据中的特征。因此，卷积神经网络在图像
浅谈人群扩展（lookalike）模型 eso1983 算法
Lookalike主要用于广告或者推荐系统中，找到与种子用户相似的人群。常用的算法应该包括协同过滤、基于标签的相似度计算，还有一些机器学习模型，比如逻辑回归、随机森林，以及深度学习的模型，比如DNN或者Embedding方法。这里简单介绍一下Lookalike人群扩展（相似人群扩展）中常用算法模型的解析，涵盖原理、数学公式、实现步骤、优缺点及适用场景。1.基于标签的相似度匹配原理通过用户标签（兴趣
【深度学习】常见模型-生成对抗网络（Generative Adversarial Network, GAN） IT古董人工智能深度学习机器学习深度学习生成对抗网络人工智能
生成对抗网络（GenerativeAdversarialNetwork,GAN）是一种深度学习模型框架，由IanGoodfellow等人在2014年提出。GAN由生成器（Generator）和判别器（Discriminator）两个对抗网络组成，通过彼此博弈的方式训练，从而生成与真实数据分布极为相似的高质量数据。GAN在图像生成、文本生成、数据增强等领域中有广泛应用。核心思想GAN的核心是两个神经
InceptionV1实现猴痘病识别案例小叮当爱咖啡计算机视觉人工智能神经网络深度学习
本文为为365天深度学习训练营内部文章原作者：K同学啊InceptionModule是InceptionV1的核心组成单元，提出了卷积层的并行结构，实现了在同一层就可以提取不同的特征为了改善计算量大的问题，使用了1*1的卷积核实现降维操作，以此来减小网络的参数量与计算量1*1卷积核的作用：降低输入特征图的通道数，减小网络的参数量与计算量最后InceptionModule基本由1*1卷积，3*3卷积
Python 深度学习实战：生成对抗网络 AI天才研究院深度学习实战 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍生成对抗网络（GenerativeAdversarialNetwork，GAN）是近年来较火热的深度学习模型之一，其在图像合成、视频生成、文本数据生成等领域均取得了不俗的效果。与传统的机器学习模型不同，GAN可以生成真实有效的数据，无需人工标注数据。它由两部分组成：生成器（Generator）和判别器（Discriminator）。生成器通过学习，根据噪声或随机变量（latentvar
【深度学习】常见模型-卷积神经网络（Convolutional Neural Networks, CNN） IT古董人工智能深度学习机器学习深度学习 cnn 人工智能
卷积神经网络（CNN）概念简介卷积神经网络（ConvolutionalNeuralNetworks,CNN）是一种专门用于处理数据具有网格状拓扑结构（如图像、语音）的深度学习模型。它通过卷积操作从输入数据中提取局部特征，并逐层构建更复杂的特征表示，广泛应用于图像分类、目标检测、语音识别等领域。关键组成部分卷积层（ConvolutionalLayer）使用卷积核（滤波器）在输入上滑动，提取局部特征。
NVIDIA L40s、A10、A40、A100、A6000横评，哪个GPU 更适合 AI 推理任务？ DO_Community 技术科普商业建议人工智能 gpu算力 DigitalOcean ai AIGC
近年来，随着人工智能技术的发展，特别是深度学习模型的广泛应用，GPU（图形处理单元）作为加速计算的重要硬件，在AI领域扮演着越来越重要的角色。AI推理是指已经训练好的模型对新数据进行预测的过程。与训练阶段相比，推理通常对GPU的要求有所不同，更注重于能效比、延迟以及并发处理能力。本文将从这些角度出发，对比分析NVIDIA的L40s、A10、A40、A100、A6000五款GPU在AI推理任务中的表
国内的AI大模型有可能超过ChatGPT吗？ AIWritePaper官方账号 Prompt ChatGPT AIWritePaper chatgpt 人工智能深度学习 AI写作 AIGC
这是一个非常有前瞻性和现实意义的问题。要回答国内AI是否有可能超过ChatGPT，我们需要从多个方面来分析，包括技术基础、数据资源、应用场景、政策支持以及人才储备等。以下是对这一问题的详细探讨：1.技术基础（1）现状国内AI技术：国内的AI技术发展迅速，尤其在深度学习、自然语言处理（NLP）和计算机视觉等领域已经取得了显著进展。例如，百度的文心一言、阿里的通义千问等大语言模型（LLM）已经在技术上
Jetson Orin Nano Super之pytorch + torchvision安装 lida2003 Linux 人工智能 jetson orin
JetsonOrinNanoSuper之pytorch+torchvision安装1源由2.安装pytorch2.1NVIDIA手动版本下载2.2开源自己编译版本3.安装torchvision4.参考资料1源由YoloincompatiblewithJetpack6.2(JetsonOrinNanoSuper)YoloincompatiblewithJetpack6.2(JetsonOrinNan
WGAN - 瓦萨斯坦生成对抗网络池央生成对抗网络人工智能神经网络
1.背景与问题生成对抗网络（GenerativeAdversarialNetworks,GANs）是由IanGoodfellow等人于2014年提出的一种深度学习模型。它包括两个主要部分：生成器（Generator）和判别器（Discriminator），两者通过对抗训练的方式，彼此不断改进，生成器的目标是生成尽可能“真实”的数据，而判别器的目标是区分生成的数据和真实数据。虽然传统GAN在多个领域
InternLM: LMDeploy 量化部署进阶实践 dilvx 机器学习
LMDeploy部署模型模型部署是将训练好的深度学习模型在特定环境中运行。欢迎使用LMDeploy，支持市面上主流的格式和算法。大模型缓存推理本章的前半部分主要讲量化，包括KV-Cache量化、权重量化、激活值量化。量化主要是为了节省存储空间，用int4,int8来重新表示fp16，将模型的显存占用控制在200G可接受的范围下。值得注意的是，在transformer架构下，计算的瓶颈主要在显存带宽
Pytorch实现论文：对GAN的交替优化 LJ1147517021 GAN系列生成对抗网络计算机视觉人工智能 pytorch 机器学习深度学习
简介这次带来的是ClosingtheGapBetweenTheoryandPracticeDuringAlternatingOptimizationforGANs，Gans交替优化中缩小理论与实践的差距这篇论文的一个核心代码在ACGAN模型上的效果测试，核心是修改了损失函数部分的计算。作者的实验是在StyleGAN上进行的。论文简介论文题目：ClosingtheGapBetweenTheoryan
pytorch-分类-检测-分割的dataset和dataloader创建呆呆珝基础 pytorch 分类人工智能
1.前言在PyTorch中，Dataset和DataLoader是两个重要的工具，用于构建输入数据的管道。（1）Dataset是一个抽象类，表示数据集，需要实现__len__和__getitem__方法。（2）DataLoader是一个可迭代的数据加载器，它封装了数据集的加载、批处理、打乱和并行加载等功能。2.分类任务创建Dataset和DataLoader（1）对于分类任务，Dataset需要返
NVIDIA-TensorRT-Python推理呆呆珝推理框架 python 人工智能开发语言
1,前言NVIDIATensorRT进行模型推理的Python实现。TensorRT是一个高性能的深度学习推理优化器和运行时，它能够为深度学习模型提供低延迟和高吞吐量的推理能力。(由于官方文档的使用还是比较简单，也可能自己很菜，参考了别人的文档和自己摸索，写出来这个可以使用的API)2.Python-API推理step1：导入基本库(环境自行配置)#导入TensorRT库importtensorr
NCNN推理呆呆珝推理框架 c++人工智能
1.前言ncnn是一个高性能的神经网络前向计算框架，专门针对移动设备和嵌入式设备设计。它由腾讯优图实验室开发，旨在提供高效的神经网络推理能力，特别是在资源受限的环境中，如智能手机和嵌入式系统。ncnn被广泛应用于移动端和嵌入式设备上的各种深度学习应用，包括但不限于：图像分类/目标检测/语义分割/人脸识别/图像生成与处理2.NCNN的CMakeLists.txt编写ncnn的头文件，链接文件，静态链
基于深度学习的鸟类识别系统详解（UI界面 + YOLOv10 + 数据集） 2025年数学建模美赛深度学习 ui YOLO 人工智能 python 计算机视觉
引言鸟类识别是计算机视觉领域中一个独具挑战性的任务，尤其是在复杂的自然环境中，识别不同种类的鸟类需要非常强大的模型和丰富的数据集。随着深度学习技术的发展，基于YOLO（YouOnlyLookOnce）系列模型的目标检测系统展现了卓越的性能，特别是在速度和精度上的平衡方面。本博客将详细讲解如何利用YOLOv10模型来构建一个基于深度学习的鸟类识别系统。该系统会结合自定义鸟类数据集，设计一个简洁直观的
目标检测实践过程中，遇到“No module named ‘torch._six’”报错的一个快速解决方案（无需重装PyTorch） Cold_Rain02 深度学习 Python 目标检测人工智能计算机视觉
很多人在按照网络、书籍教程中的流程尝试自己实现一个基于Faster-RCNN的目标检测模型时，如果调用了PyTorch官方github上的文件时，coco_eval.py文件中会触发报错。1.报错原因PyTorch在2.0之后的版本中移除了_six，导致在coco_eval.py中调用torch._six失败2.解决方案（1）直接根据代码内容修改代码我们仔细观察coco_eval.py的代码，发现
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts