Cassiel_cx

BN、SyncBN、IN、LN、GN学习记录

1 BatchNorm

BN的原理

BN是计算机视觉最常用的标准化方法，它沿着N、H、W维度对输入特征图求均值和方差，随后再利用均值和方差来归一化特征图。计算过程如下图所示，1）沿着通道维度计算其他维度的均值；2）沿着通道维度计算其他维度的方差；3）归一化特征图；4）加入可学习参数γ和β(在每次反向传播后更新)，对归一化的特征图进行包含缩放和平移的仿射操作，

pytorch中的BN有三种：torch.nn.BatchNorm1d、torch.nn.BatchNorm2d、torch.nn.BatchNorm3d。这里拿torch.nn.BatchNorm2d来举例，它的参数如下，

Args:
    num_features: 输入特征通道数
    eps: 为保证数值稳定性(分母不能趋近或取0), 给分母加上的值, 默认值是1e-5
    momentum: 计算running_mean和running_var时使用的动量(指数平均因子), 默认值是0.1
    affine: 布尔值, 是否给BN层添加仿射变换的可学习参数γ和β, 默认为True
    track_running_stats: 布尔值, 是否记录训练中的running mean和variance, 若为False, 则该BN层在训练和验证阶段都只在当前输入中统计mean和variance, 如果此时的batch_size比较小, 那么其统计特性就会和全局统计特性有着较大偏差，可能导致糟糕的效果. 默认值为True

更新running_mean和running_var的公式

$\text{[math]}$

其中， $\text{[math]}$ 为模型更新前的running_mean或running_var， $\text{[math]}$ 为此次输入的mean或者var。在验证时(model.eval())，running_mean和running_var被视为均值和方差来标准化输入张量。

BN的优点

BN使得网络中每层输入数据的分布相对稳定(可以使用较大的学习率)，不仅极大提升了训练速度，收敛过程大大加快；

BN使得模型对网络中的参数不那么敏感，减弱对初始化的强依赖性，简化调参过程，使得网络学习更加稳定；

BN允许网络使用饱和性激活函数(例如sigmoid等)，归一化后的数据，能让梯度维持在比较大的值和变化率，缓解梯度消失或者爆炸；

有轻微的正则化作用(相当于给隐藏层加入噪声，类似Dropout，能缓解过拟合。

BN的缺点

对batchsize的大小比较敏感。如果batchsize太小，则计算的均值、方差不足以代表整个数据分布。小的bathsize引入的随机性更大，难以达到收敛；

不适合于RNN、风格迁移等任务。拿风格迁移举例，由于Mini-Batch内可能存在多张无关的图片，去计算这些图片的均值和方差会弱化单张图片本身特有的一些细节信息。

代码实例

（1）随机初始化输入张量和实例化BN

import torch
import torch.nn as nn


# 固定随机种子, 使随机生成的input每次都一样
torch.manual_seed(42)
# 随机生成形状为[1,2,2,2]输入
input = torch.randn((1,2,2,2)).cuda()
print('input:', input)

# 实例化BN
bn = nn.BatchNorm2d(num_features=2, eps=0.00001, momentum=0.1, affine=True, track_running_stats=True).cuda()
bn.running_mean = (torch.ones([2])*2).cuda()
bn.running_var = (torch.ones([2])*1).cuda()
bn.train()
# 查看模型更新前的参数
print('trainning:', bn.training)
print('running_mean:', bn.running_mean)
print('running_var:', bn.running_var)
print('weight:', bn.weight)  # γ, 初始值为1
print('bias:', bn.bias)  # β, 初始值为0

# 打印结果
'''
input: tensor([[[[ 0.3367,  0.1288],
          [ 0.2345,  0.2303]],

         [[-1.1229, -0.1863],
          [ 2.2082, -0.6380]]]], device='cuda:0')
trainning: True
running_mean: tensor([2., 2.], device='cuda:0')
running_var: tensor([1., 1.], device='cuda:0')
weight: Parameter containing:
tensor([1., 1.], device='cuda:0', requires_grad=True)
bias: Parameter containing:
tensor([0., 0.], device='cuda:0', requires_grad=True)
'''

（2）经过BN层，获取输出结果

# 输出
output = bn(input)
print('output:', output)

# 查看模型更新后的参数
print('trainning:', bn.training)
print('running_mean:', bn.running_mean)
print('running_var:', bn.running_var)
print('weight:', bn.weight)
print('bias:', bn.bias)

# 打印结果, 由于没有反向传播, 所以γ和β值不变
'''
output: tensor([[[[ 1.4150, -1.4102],
          [ 0.0257, -0.0305]],

         [[-0.9276, -0.1964],
          [ 1.6731, -0.5491]]]], device='cuda:0',
       grad_fn=)
trainning: True
running_mean: tensor([1.8233, 1.8065], device='cuda:0')
running_var: tensor([0.9007, 1.1187], device='cuda:0')
weight: Parameter containing:
tensor([1., 1.], device='cuda:0', requires_grad=True)
bias: Parameter containing:
tensor([0., 0.], device='cuda:0', requires_grad=True)
'''

（3）根据BN的原理，自己写一段归一化代码

# 计算输入数据的均值和方差. 注意, torch.var()函数中unbiased默认为True，表示方差的无偏估计，这里需将它设为False
cur_mean = torch.mean(input, dim=[0,2,3])
cur_var = torch.var(input, dim=[0,2,3], unbiased=False)
print('cur_mean:', cur_mean)
print('cur_var:', cur_var)

# 计算running_mean和running_var
new_mean = (torch.ones([2])*2) * (1-bn.momentum) + cur_mean * bn.momentum
new_var = (torch.ones([2])*1) * (1-bn.momentum) + cur_var * bn.momentum
print('new_mean:', new_mean)
print('new_var:', new_var)

# 打印结果, 可以看到, 计算出的new_mean和new_var与步骤2的running_mean和running_var一致
'''
cur_mean: tensor([0.2326, 0.0653])
cur_var: tensor([0.0072, 2.1872])
new_mean: tensor([1.8233, 1.8065])
new_var: tensor([0.9007, 1.1187])
'''

# 计算输出结果, 训练时用当前数据的mean和方差做标准化, 验证时用running_mean和running_var做标准化
output2 = (input - cur_mean) / torch.sqrt(cur_var + bn.eps)
print('output2:', output2)

# 打印结果, 可以看到, 计算出的output2与步骤2的output一致
'''
output2: tensor([[[[ 1.4150, -1.4102],
          [ 0.0257, -0.0305]],

         [[-0.9276, -0.1964],
          [ 1.6731, -0.5491]]]])
'''

2 SyncBatchNorm

BN的效果与batchsize的大小有很大关系。而像目标检测、语义分割这些任务，占用显存较高，每张卡分到的图片数就会变少，而在DP模式下，每张卡只能拿到自己那部分的计算结果。为了在验证或者测试模型时使用相同的running_mean和running_var，DP模式便只拿主卡上计算的均值和方差去更新running_mean和running_var，BN的效果自然就会变差。一个解决思路就是用SyncBN代替BN，使用全局的BN统计量来标准化输入，相比于单卡的BN统计量，全局的BN统计量会更准确。

SyncBatchNorm的原理

本小节的两张图片来自：https://cloud.tencent.com/developer/article/2126838

（1）计算各张卡的均值和方差

（2）同步各卡之间的均值和方差

利用torch.distributed.all_gather函数收集各GPU上的均值和方差，得到全局的均值和方差，更新running_mean和running_var；

（3）标准化输入，该过程与BN类似。

SyncBN源码

import torch
from torch.autograd.function import Function


class SyncBatchNorm(Function):

    @staticmethod
    def forward(self, input, weight, bias, running_mean, running_var, eps, momentum, process_group, world_size):
        input = input.contiguous()

        size = input.numel() // input.size(1)
        if size == 1:
            raise ValueError('Expected more than 1 value per channel when training, got input size {}'.format(size))
        count = torch.Tensor([size]).to(input.device)

        # calculate mean/invstd for input.
        mean, invstd = torch.batch_norm_stats(input, eps)

        count_all = torch.empty(world_size, 1, dtype=count.dtype, device=count.device)
        mean_all = torch.empty(world_size, mean.size(0), dtype=mean.dtype, device=mean.device)
        invstd_all = torch.empty(world_size, invstd.size(0), dtype=invstd.dtype, device=invstd.device)

        count_l = list(count_all.unbind(0))
        mean_l = list(mean_all.unbind(0))
        invstd_l = list(invstd_all.unbind(0))

        # using all_gather instead of all reduce so we can calculate count/mean/var in one go
        count_all_reduce = torch.distributed.all_gather(count_l, count, process_group, async_op=True)
        mean_all_reduce = torch.distributed.all_gather(mean_l, mean, process_group, async_op=True)
        invstd_all_reduce = torch.distributed.all_gather(invstd_l, invstd, process_group, async_op=True)

        # wait on the async communication to finish
        count_all_reduce.wait()
        mean_all_reduce.wait()
        invstd_all_reduce.wait()

        # calculate global mean & invstd
        mean, invstd = torch.batch_norm_gather_stats_with_counts(
            input,
            mean_all,
            invstd_all,
            running_mean,
            running_var,
            momentum,
            eps,
            count_all.view(-1).long().tolist()
        )

        self.save_for_backward(input, weight, mean, invstd, count_all)
        self.process_group = process_group

        # apply element-wise normalization
        out = torch.batch_norm_elemt(input, weight, bias, mean, invstd, eps)
        return out

    @staticmethod
    def backward(self, grad_output):
        grad_output = grad_output.contiguous()
        saved_input, weight, mean, invstd, count_tensor = self.saved_tensors
        grad_input = grad_weight = grad_bias = None
        process_group = self.process_group

        # calculate local stats as well as grad_weight / grad_bias
        sum_dy, sum_dy_xmu, grad_weight, grad_bias = torch.batch_norm_backward_reduce(
            grad_output,
            saved_input,
            mean,
            invstd,
            weight,
            self.needs_input_grad[0],
            self.needs_input_grad[1],
            self.needs_input_grad[2]
        )

        if self.needs_input_grad[0]:
            # synchronizing stats used to calculate input gradient.
            # TODO: move div_ into batch_norm_backward_elemt kernel
            sum_dy_all_reduce = torch.distributed.all_reduce(
                sum_dy, torch.distributed.ReduceOp.SUM, process_group, async_op=True)
            sum_dy_xmu_all_reduce = torch.distributed.all_reduce(
                sum_dy_xmu, torch.distributed.ReduceOp.SUM, process_group, async_op=True)

            # wait on the async communication to finish
            sum_dy_all_reduce.wait()
            sum_dy_xmu_all_reduce.wait()

            divisor = count_tensor.sum()
            mean_dy = sum_dy / divisor
            mean_dy_xmu = sum_dy_xmu / divisor
            # backward pass for gradient calculation
            grad_input = torch.batch_norm_backward_elemt(
                grad_output,
                saved_input,
                mean,
                invstd,
                weight,
                mean_dy,
                mean_dy_xmu
            )

        # synchronizing of grad_weight / grad_bias is not needed as distributed
        # training would handle all reduce.
        if weight is None or not self.needs_input_grad[1]:
            grad_weight = None

        if weight is None or not self.needs_input_grad[2]:
            grad_bias = None

        return grad_input, grad_weight, grad_bias, None, None, None, None, None, None

SyncBN的使用

注意，SyncBN需要在DDP环境初始化后初始化，但是要在DDP模型之前完成初始化。

import torch
from torch import distributed

distributed.init_process_group(backend='nccl')
model = torch.nn.SyncBatchNorm.convert_sync_batchnorm(model)
model = torch.nn.parallel.DistributedDataParallel(model)

@classmethod
def convert_sync_batchnorm(cls, module, process_group=None):
    module_output = module
    if isinstance(module, torch.nn.modules.batchnorm._BatchNorm):
            module_output = torch.nn.SyncBatchNorm(
                module.num_features,
                module.eps,
                module.momentum,
                module.affine,
                module.track_running_stats,
                process_group,
            )
        if module.affine:
            with torch.no_grad():
                module_output.weight = module.weight
                module_output.bias = module.bias
        module_output.running_mean = module.running_mean
        module_output.running_var = module.running_var
        module_output.num_batches_tracked = module.num_batches_tracked
        if hasattr(module, "qconfig"):
            module_output.qconfig = module.qconfig
    for name, child in module.named_children():
            module_output.add_module(
                name, cls.convert_sync_batchnorm(child, process_group)
            )
    del module
    return module_output

3 InstanceNorm

IN的原理

BN注重对batchsize数据归一化，但是在图像风格化任务中，生成的风格结果主要依赖于某个图像实例，所以对整个batchsize数据进行归一化不合适，因此提出了IN，只对HW维度进行归一化，IN保留了N、C的维度。计算过程如下图所示，1）沿着H、W维度，对输入张量求均值和方差；2）利用求得的均值和方差来标准化输入张量；3）加入可学习参数γ和β，对标准化后的数据做仿射变换，

IN的使用

torch.nn.InstanceNorm2d(num_features, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)

class InstanceNorm2d(_InstanceNorm):
    def _get_no_batch_dim(self):
        return 3

    def _check_input_dim(self, input):
        if input.dim() not in (3, 4):
            raise ValueError('expected 3D or 4D input (got {}D input)'
                             .format(input.dim()))


class _InstanceNorm(_NormBase):
    def __init__(
        self,
        num_features: int,
        eps: float = 1e-5,
        momentum: float = 0.1,
        affine: bool = False,
        track_running_stats: bool = False,
        device=None,
        dtype=None
    ) -> None:
        factory_kwargs = {'device': device, 'dtype': dtype}
        super(_InstanceNorm, self).__init__(
            num_features, eps, momentum, affine, track_running_stats, **factory_kwargs)

    def _check_input_dim(self, input):
        raise NotImplementedError

    def _get_no_batch_dim(self):
        raise NotImplementedError

    def _handle_no_batch_input(self, input):
        return self._apply_instance_norm(input.unsqueeze(0)).squeeze(0)

    def _apply_instance_norm(self, input):
        return F.instance_norm(
            input, self.running_mean, self.running_var, self.weight, self.bias,
            self.training or not self.track_running_stats, self.momentum, self.eps)

    def _load_from_state_dict(self, state_dict, prefix, local_metadata, strict,
                              missing_keys, unexpected_keys, error_msgs):
        version = local_metadata.get('version', None)
        # at version 1: removed running_mean and running_var when
        # track_running_stats=False (default)
        if version is None and not self.track_running_stats:
            running_stats_keys = []
            for name in ('running_mean', 'running_var'):
                key = prefix + name
                if key in state_dict:
                    running_stats_keys.append(key)
            if len(running_stats_keys) > 0:
                error_msgs.append(
                    'Unexpected running stats buffer(s) {names} for {klass} '
                    'with track_running_stats=False. If state_dict is a '
                    'checkpoint saved before 0.4.0, this may be expected '
                    'because {klass} does not track running stats by default '
                    'since 0.4.0. Please remove these keys from state_dict. If '
                    'the running stats are actually needed, instead set '
                    'track_running_stats=True in {klass} to enable them. See '
                    'the documentation of {klass} for details.'
                    .format(names=" and ".join('"{}"'.format(k) for k in running_stats_keys),
                            klass=self.__class__.__name__))
                for key in running_stats_keys:
                    state_dict.pop(key)

        super(_InstanceNorm, self)._load_from_state_dict(
            state_dict, prefix, local_metadata, strict,
            missing_keys, unexpected_keys, error_msgs)

    def forward(self, input: Tensor) -> Tensor:
        self._check_input_dim(input)

        if input.dim() == self._get_no_batch_dim():
            return self._handle_no_batch_input(input)

        return self._apply_instance_norm(input)

IN的优点

IN适合于生成式对抗网络的相关任务，如风格迁移。图片生成的结果主要依赖于某个图像实例，对整个batchsize进行BN操作不适合风格迁移任务，在该任务中使用IN不仅可以加速模型收敛，并且可以保持每个图像实例之间的独立性，不受通道和batchsize的影响。

IN的缺点

如果要利用到特征图通道之间的相关性，不建议使用IN做归一化处理。

4 LayerNorm

LN的原理

在NLP任务中，比如文本任务，不同样本的长度往往不一样，使用BN来标准化则不太合理。因此提出了LN，对CHW维度进行归一化。计算过程如下图所示，1）沿着C、H、W维度求输入张量的均值和方差；2）利用所求得的均值和方差标准化输入；3）加入可学习参数γ和β，对标准化后的数据做仿射变换，

LN的使用

torch.nn.LayerNorm(normalized_shape, eps=1e-05, elementwise_affine=True)

class LayerNorm(Module):
    __constants__ = ['normalized_shape', 'eps', 'elementwise_affine']
    normalized_shape: Tuple[int, ...]
    eps: float
    elementwise_affine: bool

    def __init__(self, normalized_shape: _shape_t, eps: float = 1e-5, elementwise_affine: bool = True,
                 device=None, dtype=None) -> None:
        factory_kwargs = {'device': device, 'dtype': dtype}
        super(LayerNorm, self).__init__()
        if isinstance(normalized_shape, numbers.Integral):
            # mypy error: incompatible types in assignment
            normalized_shape = (normalized_shape,)  # type: ignore[assignment]
        self.normalized_shape = tuple(normalized_shape)  # type: ignore[arg-type]
        self.eps = eps
        self.elementwise_affine = elementwise_affine
        if self.elementwise_affine:
            self.weight = Parameter(torch.empty(self.normalized_shape, **factory_kwargs))
            self.bias = Parameter(torch.empty(self.normalized_shape, **factory_kwargs))
        else:
            self.register_parameter('weight', None)
            self.register_parameter('bias', None)

        self.reset_parameters()

    def reset_parameters(self) -> None:
        if self.elementwise_affine:
            init.ones_(self.weight)
            init.zeros_(self.bias)

    def forward(self, input: Tensor) -> Tensor:
        return F.layer_norm(
            input, self.normalized_shape, self.weight, self.bias, self.eps)

    def extra_repr(self) -> str:
        return '{normalized_shape}, eps={eps}, ' \
            'elementwise_affine={elementwise_affine}'.format(**self.__dict__)

LN的优点

LN不需要批量训练。在单条数据内部就能完成归一化操作，因此可以用于batchsize=1和RNN的训练中，效果比BN更优。不同的输入样本有不同的均值和方差，可以更快、更好地达到最优效果。LN不需要保存batchsize的均值和方差，节省了额外的存储空间。

LN的缺点

LN与batchsize无关，在小batchsize上效果可能会比BN好，但是在大batchsize的效果还是BN更好。

5 GroupNorm

GN的原理

GN是为了解决BN对较小的batchsize效果差的问题，它将通道分成num_groupss组，每组包含channel/num_groups个通道，则特征图变为(N, G, C//G, H, W)，然后计算每组(C//G, H, W)维度的均值和方差，这样就与batchsize无关。GN的极端情况就是LN和IN，分别对应G等于1和G等于C。GN的计算过程如下图所示，1）沿着C//G、H、W维度计算输入张量的均值和方差；2）利用所求得的均值和方差标准化输入；3）加入可学习参数γ和β，对标准化后的数据做仿射变换，

GN的使用

torch.nn.GroupNorm(num_groups, num_channels, eps=1e-05, affine=True, device=None, dtype=None)

class GroupNorm(Module):
    __constants__ = ['num_groups', 'num_channels', 'eps', 'affine']
    num_groups: int
    num_channels: int
    eps: float
    affine: bool

    def __init__(self, num_groups: int, num_channels: int, eps: float = 1e-5, affine: bool = True,
                 device=None, dtype=None) -> None:
        factory_kwargs = {'device': device, 'dtype': dtype}
        super(GroupNorm, self).__init__()
        if num_channels % num_groups != 0:
            raise ValueError('num_channels must be divisible by num_groups')

        self.num_groups = num_groups
        self.num_channels = num_channels
        self.eps = eps
        self.affine = affine
        if self.affine:
            self.weight = Parameter(torch.empty(num_channels, **factory_kwargs))
            self.bias = Parameter(torch.empty(num_channels, **factory_kwargs))
        else:
            self.register_parameter('weight', None)
            self.register_parameter('bias', None)

        self.reset_parameters()

    def reset_parameters(self) -> None:
        if self.affine:
            init.ones_(self.weight)
            init.zeros_(self.bias)

    def forward(self, input: Tensor) -> Tensor:
        return F.group_norm(
            input, self.num_groups, self.weight, self.bias, self.eps)

    def extra_repr(self) -> str:
        return '{num_groups}, {num_channels}, eps={eps}, ' \
            'affine={affine}'.format(**self.__dict__)

GN的优点

GN不依赖于batchsize，可以很好适用于RNN，这是GN的巨大优势。论文指出G为32或每个group的通道数为16时，效果最优；在batchsize小于16时，GN优于BN。

GN的缺点

在大batchsize时，效果不如BN。

6 总结

BN对小batchsize的效果不好；

IN作用在图像像素上，适用于风格化迁移；

LN主要对RNN作用明显；

GN将channel分组，然后再做归一化, 在batchsize<16的时候, 效果优于BN。

参考文章

【博客园】https://www.cnblogs.com/lxp-never/p/11566064.html

【知乎】https://zhuanlan.zhihu.com/p/395855181

【腾讯云】https://cloud.tencent.com/developer/article/2126838

Vision mamba(mamba_ssm)安装踩坑指南 ggitjcg 深度学习 python
在这篇博客中，我将分享我在linux环境安装和使用VisionMamba（mamba_ssm）过程中遇到的一些问题和解决方法。前置检查：PyTorch和Python版本在安装mamba_ssm前，请确保你的PyTorch和Python环境版本正确。以下代码可用来检查环境信息：importtorchprint("PyTorchVersion:{}".format(torch.__version__)
关于forward函数 oioz 深度学习
定义forward函数是模型的核心前向传播逻辑，定义了输入数据如何在模型中传递和计算。它将输入数据通过模型的各层（如卷积层、全连接层等），计算出模型的输出。作用负责模型的主要计算逻辑。在训练和验证过程中都会被调用。特点必须实现：在PyTorch中，forward函数是模型的核心部分，必须显式定义。灵活性高：可以根据模型需要，自由定义forward函数的内容，包括各种计算操作。示例（PyTorch）
使用PyTorch搭建Transformer神经网络:入门篇 DASA13 pytorch transformer 神经网络
1.简介Transformer是一种强大的神经网络架构,在自然语言处理等多个领域取得了巨大成功。本教程将指导您使用PyTorch框架从头开始构建一个Transformer模型。我们将逐步解释每个组件,并提供详细的代码实现。2.环境设置首先,确保您的系统中已安装Python(推荐3.7+版本)。然后,安装PyTorch和其他必要的库:pipinstalltorchnumpymatplotlib3.P
PyTorch数据归一化处理：transforms 2401_87555420 pytorch 人工智能 python
##1.数据归一化处理：transforms.Normalize###1.1理解torchvision*torchvision.transforms：常用的图像预处理方法*torchvision.datasets：常用的数据集Dataset实现*torchvision.models：常用的CV（预训练）模型实现torchvision.transforms:常用的数据预处理方法，提升泛化能力，包括：
初始OpenCV 指尖下的技术 OpenCV opencv 人工智能计算机视觉
OpenCV是一个功能强大、应用广泛的计算机视觉库，它为开发人员提供了丰富的工具和算法，可以帮助他们快速构建各种视觉应用。随着计算机视觉技术的不断发展，OpenCV也将会继续发挥重要的作用。OpenCV提供了大量的计算机视觉算法和图像处理工具，广泛应用于图像和视频的处理、分析以及机器学习领域。所以学习人计算机视觉或者图像处理方面的知识，OpenCV是一个要重点学习的工具库。首先介绍一下OpenCV
Pytorch中的torch.utils.data.Dataset 类小白的高手之路深度学习（DL）Pytorch实战深度学习 python pytorch
1、使用方法fromtorch.utils.dataimportDataset2、torch.utils.data.Dataset类的定义classDataset(Generic[_T_co]):r"""Anabstractclassrepresentinga:class:`Dataset`.Alldatasetsthatrepresentamapfromkeystodatasamplesshou
【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
从零搭建Pytorch模型教程（七）单机多卡和多机多卡训练 AI大模型探索者 pytorch 人工智能 python transformer 深度学习 ai 机器学习
前言本文主要介绍单机多卡训练和多机多卡训练的实现方法和一些注意事项。其中单机多卡训练介绍两种实现方式，一种是DP方式，一种是DDP方式。多机多卡训练主要介绍两种实现方式，一种是通过horovod库，一种是DDP方式。单机单卡训练前面我们已经介绍了一个完整的训练流程，但这里由于要介绍单机多卡和多机多卡训练的代码，为了能更好地理解它们之间的区别，这里先放一个单机单卡也就是一般情况下的代码流程。impo
PyTorch基础知识讲解（一）完整训练流程示例苏雨流丰机器学习 pytorch 人工智能 python 机器学习深度学习
文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型。本教程向你介绍一个用PyTorch实现的完整的ML工作流程，并提供链接来了解这些概念中的每一个。我们将使用FashionMNIST数据集来训练一个神经网络，预测输入图像是否属于以下
用 pytorch 从零开始创建大语言模型（零）：汇总墨绿色的摆渡人用 pytorch 从零开始创建大语言模型 pytorch 语言模型人工智能
用pytorch从零开始创建大语言模型（零）：汇总本系列官方代码库：https://github.com/rasbt/LLMs-from-scratch/tree/main官方书籍：BuildaLargeLanguageModel(FromScratch)本系列文章：用pytorch从零开始创建大语言模型（一）：理解大型语言模型用pytorch从零开始创建大语言模型（二）：待更新用pytorch从
TensorFlow和Pytorch在功能上的区别以及优势 Honeysea_70 #算法 tensorflow pytorch 人工智能
功能上的区别1.计算图TensorFlow：使用静态计算图（StaticGraph）。在运行模型之前，需要先构建完整的计算图，然后通过会话（Session）运行图。优点是性能优化更高效，适合大规模分布式训练和生产环境部署。缺点是调试相对复杂，因为计算图的构建和运行是分离的。PyTorch：使用动态计算图（DynamicGraph）。计算图是动态构建和执行的，每次迭代都会重新构建图。优点是调试方便，
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？努力毕业的小土博^_^ AI算法题库人工智能算法计算机视觉深度学习神经网络
【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？前言数据级别的多尺度模型架构上的多尺度表示FPN代码示例（PyTorch）说明其他多尺度处理方法总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校
【大模型书籍PDF】从零开始大模型开发与微调：基于PyTorch与ChatGLM （推荐）_从零开始大模型开发与微调 pdf 喝不喝奶茶丫 pytorch 人工智能语言模型大模型转行大模型 AI大模型微调
今天又来给大家推荐一本大模型方面的书籍。本书使用PyTorch2.0作为学习大模型的基本框架，以ChatGLM为例详细讲解大模型的基本理论、算法、程序实现、应用实战以及微调技术，为读者揭示大模型开发技术。本书配套示例源代码、PPT课件。（书籍分享）
树莓派4B arm平台aarch64 pip安装pytorch 纬领网络 pytorch arm 深度学习
比如你要安装torch1.7.1的版本，你执行下面这行命令pip3installtorch==1.7.1torchvision==0.8.2torchaudio==0.7.2-fhttps://torch.kmtea.eu/whl/stable-cn.html
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
python arm64_PyTorch-aarch64 人类0663号 python arm64
PyTorch源码编译步骤：1、源码编译环境：操作系统：debian9.12交换空间：1GPython版本：3.5硬件：CPU：RK3399(aarch64)内存：4G2、下载依赖包：下载pytorch及其依赖包时，默认从github上下载，如果网络不好、容易断开时，可在gitee上找到对应包克隆链接，然后修改对应配置文件，进行下载。需要细致耐心。3、编译主要参数：设置最大作业数：exportMA
Pytorch使用手册-DCGAN 指南（专题十四） AI专题精讲 Pytorch入门到精通 pytorch 人工智能 python
1.Introduction本教程将通过一个示例介绍DCGANs（深度卷积生成对抗网络）。我们将训练一个生成对抗网络（GAN），在给它展示大量真实名人照片后，它能够生成新的“名人”图片。这里的大部分代码来源于PyTorch官方示例中的DCGAN实现，而本文档将对该实现进行详细解释，并阐明这种模型的运行机制及其背后的原因。无需担心，你不需要事先了解GAN的知识，但初次接触的读者可能需要花一些时间来理
计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
车牌识别技术揭秘：如何用 C# 实现自动车牌识别系统威哥说编程 c#开发语言
车牌识别（LicensePlateRecognition，LPR）是一项计算机视觉技术，用于自动识别车辆的车牌号码。在实际应用中，车牌识别技术被广泛用于停车场管理、交通监控和安防系统等领域。实现车牌识别系统的关键步骤包括图像预处理、车牌检测、字符分割、字符识别等。C#中可以通过结合OpenCV、EmguCV、TesseractOCR等工具来实现车牌识别系统。一、所需工具和库EmguCV：这是一个封
【猫狗分类】Pytorch VGG16 实现猫狗分类1-数据清洗+制作标签文件努力的小巴掌 pytorch分类项目 pytorch 分类人工智能
Pytorch猫狗分类用Pytorch框架，实现分类问题，好像是学习了一些基础知识后的一个小项目阶段，通过这个分类问题，可以知道整个pytorch的工作流程是什么，会了一个分类，那就可以解决其他的分类问题，当然了，其实最重要的还是，了解她的核心是怎么工作的。那首先，我们的第一个项目，就做猫狗的分类。声明：整个数据和代码来自于b站，链接：使用pytorch框架手把手教你利用VGG16网络编写猫狗分类
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
探索Sfm-python: 一款强大的计算机视觉库缪昱锨Hunter
探索Sfm-python:一款强大的计算机视觉库去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，Sfm-python是一个值得关注的开源项目，它以简洁高效的Python接口提供结构化从运动（StructurefromMotion,SfM）算法。如果你对3D重建、图像匹配或地理定位有兴趣，那么这个项目将是你不可或缺的工具。让我们一起深入了解一下它的技术细节、应用场景
常见经典目标检测算法 109702008 人工智能 #深度学习目标检测人工智能
ChatGPT目标检测（ObjectDetection）是计算机视觉领域的一个重要分支，其目的是识别数字图像中的不同对象，并给出它们的位置和类别。近年来，许多经典的目标检测算法被提出并广泛应用。以下是一些常见的经典目标检测算法：1.R-CNN（RegionswithCNNfeatures）:R-CNN通过使用区域提议方法（如选择性搜索）首先生成潜在的边界框，然后使用卷积神经网络(CNN)提取特征，
Open-Sora - 为所有人实现高效的视频制作大众化小众AI AI开源音视频人工智能 AI编程
GitHub：https://github.com/hpcaitech/Open-Sora更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI这是一款开源的SOTA（State-of-the-Art）视频生成模型，仅用20万美元（224张GPU）就能训练出商业级11B参数的视频生成大模型。它采用Python语言和PyTorch深度学习框架开发，具有生成速度快、资源消
【ai】mocap：conda 安装python3.8+ cuda+ pytorch+torchaudio、torchvision 等风来不如迎风去 AI入门与实战人工智能 ubuntu conda
MotionCapubuntu18.04不知道为啥会依赖于ffmpeg、xorg渲染？安装pytorch就是会带上cudacudnn啥的pytorch【ai】tx2nx：安装torch、torchvisionforyolov5这里就发现pytorch和torchvision有依赖关系的，还涉及到rapidjson所以python的环境隔离很重要。核心库-cudatoolkit=11.3-pytor
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache