远方与你

pytorch —— transforms图像增强（一）

1、数据增强（data augmentation）

数据增强又称为数据增广，数据扩增，它是对训练集进行变换，使训练集更丰富，从而让模型更具泛化能力。

在中学阶段就已经接触过数据增强的概念，看一个例子，高中的五年高考三年模拟，假设学生是一个模型，五年高考真题是一个训练集，当年高考题是一个验证集，用来验证学习模型的学习能力和效果。对于这个例子怎么做数据增强呢？就是对历年的高考题的知识点进行分析和提炼，设计出三年的模拟试题用来给学生进行学习。当做了很多模拟试题的时候，学生的学习能力自然得到了提高，从而在高考的时候分数得到提高，这就是数据增强的一个概念。

如果模拟题的某一些试题恰恰出现在当年高考题当中，这就可以直接提高学生的成绩，即使没有完完整整的题出现在高考中，只要有类似的题型出现在高考题当中，这样也可以提高学生的成绩，这就是数据增强。

看一下图片中的数据增强是怎么样的。下图是一张原始图片，对这张图片进行一系列的操作变换得到64张增强样本。64张图片中的第一张图片是对原始图片进行旋转，第二张图片是对原始图片进行颜色变换，第三张图片是进行镜像操作。对图片进行一系列操作可以得到大量增强样本提供给模型进行训练，让模型见过更多的样本，从而提升模型的泛化能力，使得模型在验证集上的表现更好。下面开始学习具体的数据增强方法。

2、transforms——裁剪（crop）

2.1 transforms.CenterCrop

功能：从图像中心裁剪图片；
size：所需裁剪图片尺寸；

看一个例子，如下左图为一张 $224 * 224$ 的图片，对图片进行 $196 * 196$ 的centercrop，图片从中心点开始计算，左右宽196，上下高196的一个裁剪区域，就得到到右边的图片。下面从代码中学习centercrop。

transforms方法的演示还是采用人民币二分类训练的主代码，这里我们只关心数据模块以及训练模块中取出数据那一部分，看一下代码的结构。

import os
import numpy as np
import torch
import random
from torch.utils.data import DataLoader
import torchvision.transforms as transforms
from tools.my_dataset import RMBDataset
from PIL import Image
from matplotlib import pyplot as plt


def set_seed(seed=1):
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)


set_seed(1)  # 设置随机种子

# 参数设置
MAX_EPOCH = 10
BATCH_SIZE = 1
LR = 0.01
log_interval = 10
val_interval = 1
rmb_label = {"1": 0, "100": 1}


def transform_invert(img_, transform_train):
    """
    将data 进行反transfrom操作
    :param img_: tensor
    :param transform_train: torchvision.transforms
    :return: PIL image
    """
    if 'Normalize' in str(transform_train):
        norm_transform = list(filter(lambda x: isinstance(x, transforms.Normalize), transform_train.transforms))
        mean = torch.tensor(norm_transform[0].mean, dtype=img_.dtype, device=img_.device)
        std = torch.tensor(norm_transform[0].std, dtype=img_.dtype, device=img_.device)
        img_.mul_(std[:, None, None]).add_(mean[:, None, None])

    img_ = img_.transpose(0, 2).transpose(0, 1)  # C*H*W --> H*W*C
    img_ = np.array(img_) * 255

    if img_.shape[2] == 3:
        img_ = Image.fromarray(img_.astype('uint8')).convert('RGB')
    elif img_.shape[2] == 1:
        img_ = Image.fromarray(img_.astype('uint8').squeeze())
    else:
        raise Exception("Invalid img shape, expected 1 or 3 in axis 2, but got {}!".format(img_.shape[2]) )

    return img_


# ============================ step 1/5 数据 ============================
split_dir = os.path.join("E:/pytorch/rmb_split")
train_dir = os.path.join(split_dir, "train")
valid_dir = os.path.join(split_dir, "valid")

norm_mean = [0.485, 0.456, 0.406]
norm_std = [0.229, 0.224, 0.225]


train_transform = transforms.Compose([
    transforms.Resize((224, 224)),

    # 1 CenterCrop
    # transforms.CenterCrop(512),     # 512

    # 2 RandomCrop
    # transforms.RandomCrop(224, padding=16),
    # transforms.RandomCrop(224, padding=(16, 64)),
    # transforms.RandomCrop(224, padding=16, fill=(255, 0, 0)),
    # transforms.RandomCrop(512, pad_if_needed=True),   # pad_if_needed=True
    # transforms.RandomCrop(224, padding=64, padding_mode='edge'),
    # transforms.RandomCrop(224, padding=64, padding_mode='reflect'),
    # transforms.RandomCrop(1024, padding=1024, padding_mode='symmetric'),

    # 3 RandomResizedCrop
    # transforms.RandomResizedCrop(size=224, scale=(0.5, 0.5)),

    # 4 FiveCrop
    # transforms.FiveCrop(112),
    # transforms.Lambda(lambda crops: torch.stack([(transforms.ToTensor()(crop)) for crop in crops])),

    # 5 TenCrop
    # transforms.TenCrop(112, vertical_flip=False),
    # transforms.Lambda(lambda crops: torch.stack([(transforms.ToTensor()(crop)) for crop in crops])),

    # 1 Horizontal Flip
    # transforms.RandomHorizontalFlip(p=1),

    # 2 Vertical Flip
    # transforms.RandomVerticalFlip(p=0.5),

    # 3 RandomRotation
    # transforms.RandomRotation(90),
    # transforms.RandomRotation((90), expand=True),
    # transforms.RandomRotation(30, center=(0, 0)),
    # transforms.RandomRotation(30, center=(0, 0), expand=True),   # expand only for center rotation

    transforms.ToTensor(),
    transforms.Normalize(norm_mean, norm_std),
])

valid_transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
    transforms.Normalize(norm_mean, norm_std)
])

# 构建MyDataset实例
train_data = RMBDataset(data_dir=train_dir, transform=train_transform)
valid_data = RMBDataset(data_dir=valid_dir, transform=valid_transform)

# 构建DataLoder
train_loader = DataLoader(dataset=train_data, batch_size=BATCH_SIZE, shuffle=True)
valid_loader = DataLoader(dataset=valid_data, batch_size=BATCH_SIZE)


# ============================ step 5/5 训练 ============================
for epoch in range(MAX_EPOCH):
    for i, data in enumerate(train_loader):

        inputs, labels = data   # B C H W

        img_tensor = inputs[0, ...]     # C H W
        img = transform_invert(img_tensor, train_transform)
        plt.imshow(img)
        plt.show()
        plt.pause(0.5)
        plt.close()

        # bs, ncrops, c, h, w = inputs.shape
        # for n in range(ncrops):
        #     img_tensor = inputs[0, n, ...]  # C H W
        #     img = transform_invert(img_tensor, train_transform)
        #     plt.imshow(img)
        #     plt.show()
        #     plt.pause(1)

上面代码第五部分“训练”中有一个函数transform_invert()，这个函数是用来对transform进行逆操作，使得我们可以观察到模型输入的数据是长什么样的。因为数据经过transfrom，转换为张量的形式，可能是一些浮点的数据，没有办法将这些数据进行可视化，因此需要一个transform_invert()函数，对transform进行逆操作，将张量的数据变换成img，这样就可以进行可视化。

现在看一下transform_invert()函数中有什么操作。按ctrl键，鼠标左键点击该函数名就可以跳转到函数实现位置。

def transform_invert(img_, transform_train):
    """
    将data 进行反transfrom操作
    :param img_: tensor
    :param transform_train: torchvision.transforms
    :return: PIL image
    """

可以看到，这个函数接受一个img_和transform_train，返回PIL image，也就是可以直接plot将其格式化。

if 'Normalize' in str(transform_train):
    norm_transform = list(filter(lambda x: isinstance(x, transforms.Normalize), transform_train.transforms))
    mean = torch.tensor(norm_transform[0].mean, dtype=img_.dtype, device=img_.device)
    std = torch.tensor(norm_transform[0].std, dtype=img_.dtype, device=img_.device)
    img_.mul_(std[:, None, None]).add_(mean[:, None, None])

在这个函数中，对normalize进行反操作，normalize是减去均值除于方差，因此反操作就是乘于方差再加上均值。

img_ = img_.transpose(0, 2).transpose(0, 1)  # C*H*W --> H*W*C
img_ = np.array(img_) * 255

之后需要对通道进行变换，采用transpose，将通道的 $C * H * W$ 格式转换为 $H * W * C$ ，也就是将channel放到最后面，然后将0-1尺度上的数据转换到0-255。

if img_.shape[2] == 3:
    img_ = Image.fromarray(img_.astype('uint8')).convert('RGB')
elif img_.shape[2] == 1:
    img_ = Image.fromarray(img_.astype('uint8').squeeze())
else:
    raise Exception("Invalid img shape, expected 1 or 3 in axis 2, but got {}!".format(img_.shape[2]) )

return img_

最后是将np_array的形式转换成PIL image，这里的代码会针对channel是3通道还是1通道，分别转换成“RGB”彩色图像和灰度图像，最后返回图像就可以对图像进行plot，对图像进行可视化。

下面看代码中的transform.CenterCrop()函数，经过裁剪之后图像会变成什么样。首先在第五部分训练中设置断点，观察input是什么样的数据形式，如下图所示：

在transforms中，为了统一图片的尺寸，一开始会执行transforms.Resize((224,224))，把图片统一地缩放到 $224 * 224$ 的尺寸大小，然后执行transforms.CenterCrop(196)操作，裁剪出来一个196大小的图片。

对程序进行debug，代码停在之前打断点的位置，如下图所示。观察一下代码中data的形式。

将断点取消，点击step over功能键，到达代码img_tensor = inputs[0, …] 位置，点击console就会打开一个命令窗，如下图所示，这个命令窗的环境与当前代码调试的环境是完全一致的，可以在这个命令窗对变量进行更改或者查看。

现在查看inputs的形状，如下图，inputs的形状是一个[1,3,196,196]的形式。第一个维度是size，因为在代码开始设置了BATCH_SIZE=1，所以inputs中的第一个维度为1，代表BITCH_SIZE；第二个维度是channel，也就是通道，由于是rgb图像，通道的长度为3；第三维和第四位分别是图像的高和宽。

由于可视化图片是一个三通道的三维张量，所以需要对inputs进行操作，进行索引，索引出第一块区域，也就是接下来的一句代码“img_tensor = inputs[0, …]”，这段代码的意思是取四维张量中的第一个三维张量，这样就把四维张量变为三维张量了，其顺序为 $C * H * W$ 。将得到的三维张量img输入到函数transform_invert()函数中进行逆变换，就返回可以可视化的img，然后将img进行plt操作，得到裁剪图片如下所示：

这个图片就是 $196 * 196$ 尺寸大小的图片，由于代码中transforms.CenterCrop设定的size是196，小于transforms.Resize((224,224))的尺寸。假如设定的size为大于(224,224)的，那么代码是否能够正确执行？下面观察一下，把代码中的196改为512，代码如下所示：

修改代码之后，执行debug操作，代码并没有报错，输出图片为(512,512)大小的图片，对超出224的区域会自动填充为零的像素，也就是全黑的区域，如下所示：

2.2 transforms.RandomCrop

功能：从图片中随机裁剪出尺寸为size的图片（位置随机裁剪）；
size：所需裁剪图片尺寸；
padding：设置填充大小（有三种模式）；
- 当为a时，上下左右均填充a个像素；
- 当为(a,b)时，上下填充b个像素，左右填充a个像素；
- 当为(a,b,c,d)时，左，上，右，下分别填充a，b，c，d；
pad_if_need：若图像小于设定size，则填充；
padding_mode：填充模式，有4种模式；
- 1、constant：像素值由fill设定；
- 2、edge：像素值由图像边缘像素决定；
- 3、reflect：镜像填充，最后一个像素不镜像，eg：[1,2,3,4]->[3,2,1,2,3,4,3,2,]（由于最后一个像素不镜像，所以跳过1和4，分别从2和3开始进行镜像填充）；
- 4、symmetric：镜像填充，最后一个像素镜像， eg：[1,2,3,4]->[2,1,1,2,3,4,4,3]（最后一个像素镜像，所以不会跳过1和4，分别从1和4开始进行镜像填充）；
fill：constant时，设置填充的像素值；

transforms.RandomCrop(size,
                      padding=None,
                      pad_if_needed=False,
                      fill=0,
                      padding_mode='constant')

下面通过代码观察RandomCrop是怎样对图像进行裁剪的。和前面一样，对图像进行统一的尺寸变换，缩放为（224,224）。

第一步，对上下左右均进行16像素的padding，图片如下所示，裁剪出来的图片左边和上边都有一块黑色的填充区域。为什么右边和下边没有呢？这是因为经过填充之后的图片的尺寸应该是224+16+16，比224大32个像素。在这个大的图片上进行（224,224）的随机选取，由于图像选取左上角的这一部分，所以右边和下边是没有黑色的填充区域的。

padding的第二种模型，分别对左右、上下设置不同的填充，其图片如下，可以看到左右的填充区域相比于上下是更小的。

可以看到填充的区域都是黑色，默认填充的像素是0，如果想设置的填充区域是红色，或者是其它的彩色图，就可以对fill这个参数进行设置，代码中对fill设置一个长度为3的tuple，3个元素分别对应的是rgb通道，设定第一个红色通道为255，其它两个通道为0，可以看一下其padding出来的颜色是红色的，如下所示。当然也可以设定其它自定义的颜色，这就是fill参数的使用。

接下来看一下pad_if_needed参数，当size大于图片尺寸的时候，pad_if_needed参数必须打开，否则会报错。可以看到在超出图片的范围全部填充上像素值为0的像素点，也就是黑色的。

观察参数padding_mode的几种模式，padding_mode默认采用constant模式，在采用constant的时候，采用fill参数去设置填充的像素点的像素值。接下里看padding_mode的第二种模式，padding_mode=‘edge’，这种模式是采用图片的边界值对图片进行填充，设置padding的值大一点，padding=64，以便于更好地观察填充的效果，其图片如下所示：

从上面这个图片可以看到，填充的区域是左边和上边，左边的每一个像素值，都是用图片的最边缘的像素点进行填充，上边也是。可以看一下下一张图片的效果，打开软件的debug功能区，使用run to sursor功能将代码运行到断点位置，代码如下图所示：

点击功能键三次，得到三张不同的暑促图片，得到的输出图片如下所示：

从图片中可以看到，填充区域都是采用边缘像素点的值进行填充的，这是padding_mode='edge’模型的作用。

接着看一下镜像模式，镜像模式像一个印钞机，其输出图片如下所示：

从图片可以看出，padding_mode='reflect’就是对图片进行镜像操作，填充区域是对原始图片的边缘区域进行镜像。padding_mode='symmetric’和padding_mode='reflect’功能相差不多，只是相差一个像素值点。

把代码修改一下，RandomCrop()函数的参数size=1024，padding=1024，观察更大区域上的镜像。

以上就是RandomCrop()函数的使用简介。

2.3 transforms.RandomResizedCrop

功能：随机大小、长宽比裁剪图片；
size：所需裁剪图片尺寸；
scale：随机裁剪面积比例，默认（0.08，1）
ratio：随机长宽比，默认（3/4，4/3）
interpolation：插值方法（裁剪出来的图片尺寸可能小于size，所以需要进行插值处理，插值方法有三种）
- PIL.Image.NEAREST
- PIL.Image.BILINEAR
- PIL.Image.BICUBIC

RandomResizedCrop(size,
                  scale=(0.08,1.0),
                  ratio=(3/4,4/3),
                  interpolation)

通过代码理解RandomResizedCrop()函数的操作，首先设置代码为

transforms.RandomResizedCrop(size=224, scale=(0.08, 0.1))

输出结果如上图所示，所得图片比原始图片小得多，这个比例是在(0.08,1)之间随机选取得到的，选取得到一个比例之后，再根据ratio长宽比设定图像的长和宽，裁剪得到一个图片。裁剪得到图片之后，再resize到设定的size大小尺寸。

修改代码如下所示，意思是采取一半的面积，然后再进行长宽比的缩放，得到图片如下所示。

 transforms.RandomResizedCrop(size=224, scale=(0.5, 0.5)),

这个图片保持了原始图片的50%的面积，可以根据需求设置scale参数值。

2.4 FiveCrop

功能：在图像的上下左右以及中心裁剪出尺寸为size的5张图片；

transforms.FiveCrop(size)

2.5 TenCrop

功能：在图像的上下左右以及中心裁剪出尺寸为size的5张图片，在这五张图片上进行水平或者垂直镜像获得10张图片；
size：所需裁剪图片尺寸大小；
vertical_flip：是否垂直翻转；

transforms.TenCrop(size,
                   vertical_flip=False)

下面通过代码学习这两个函数。看一下代码

transforms.FiveCrop(112),

由于FiveCrop()裁剪出来的是五张图片，返回的是一个tuple（元组），当尝试运行代码时，会报错，报错信息如下所示：

报错为：pic should be PIL Image or ndarray. Got 。意思是pic这个参数应该是一个PIL Image或者是ndarray的，但是却得到了一个tuple。所以直接使用是不行的，需要对FiveCrop返回的tuple进行一定的操作，将tuple变换为张量的形式或者是PIL Image的形式。这里使用到Lambda方法，Lambda是匿名函数，可以对FiveCrop()的输出进行一系列的变换，使其输出可以变换为代码可以执行的数据格式。看一下lambda匿名函数的功能：

transforms.Lambda(lambda crops: torch.stack([(transforms.ToTensor()(crop)) for crop in crops])),

代码中冒号之前的是函数的输入，冒号之后的整个语句是函数的返回值。由于输入是一个tuple格式的数据，需要将tuple中每一张图片，将其拼接为张量的形式，所以代码中采用了torch.stack()的形式，在讲常量的操作的时候，stack是对张量在某一维度上进行拼接，这里采用默认维度，也就是第0个维度。stack()函数中传入的是一个list，代码中采用了python的列表解析式，列表生成器。它的功能是对参数crops进行for循环，每一次提取出一个元素crop，每一次对这个元素crops进行一些操作得到列表的元素。

crops是FiveCrop()函数输出的一个tuple，然后对tuple的每一个元素进行for循环，每一次取出一个crop，也就是一张图片，对每一张图片进行一个ToTensor()的操作，将其转换为张量的形式，将其变为list的一个元素。通过不断的循环，把五张图片都转为张量的形式，然后得到一个长度为5的list，把这个list放到stack()当中，stack()就把这个长度为5的list拼接成一个张量。这样，通过lambda()，就把tuple转为张量的形式，这样就可以输入到模型中。

点击运行之后还是会报错，报错如下：

由于图片的维度和代码不匹配，不能用原始方法可视化。因为得到的input不再是一个四维的张量，是一个五维的张量。这个五维张量的各个维度分别为batchs，ncrops，c，h，w，通过下面这个新的代码对每个crop进行可视化。

bs, ncrops, c, h, w = inputs.shape
for n in range(ncrops):
    img_tensor = inputs[0, n, ...]  # C H W
    img = transform_invert(img_tensor, train_transform)
    plt.imshow(img)
    plt.show()
    plt.pause(1)

设置断点，调试代码，打开命令输入窗，单击运行，得到一张图片的五维表示，代码要在五维张量中获取每一张图片，每一张图片应该是一个3维的张量，对ncrops进行循环，分别将五张图片进行可视化。看一下img_tensor的形状，通过命令输入窗，可以看到img_shape的形状为(3,112,112)，可以直接进行可视化。

其输出五张照片如下所示：

下面看一下TenCrop()函数的使用方法，它是在FiveCrop()函数的基础上进行翻转得到的十张图片。设置vertical_flip=True，也就是进行垂直的翻转

transforms.TenCrop(112, vertical_flip=True),
    transforms.Lambda(lambda crops: torch.stack([(transforms.ToTensor()(crop)) for crop in crops])),

3、transforms——翻转和旋转（flip and rotation）

3.1 transforms——Flip

3.1.1 RandomHorizontalFlip（水平）

3.1.2 RandomVerticalFlip（垂直）

功能：依概率水平（左右）或垂直（上下）翻转图片
P：翻转概率（即有多大的概率将图片进行翻转）

RandomHorizontalFlip(p=0.5)
RandomVerticalFlip(p=0.5)

3.2 transforms——Rotation

3.3 RandomRotation

功能：随机旋转图片；
degrees：旋转角度；
- 当为a时，在（-a，a）之间选择旋转角度；
- 当为（a，b）时，在（a，b）之间选择旋转角度；
resample：重采样方法；
expand：是否扩大图片，以保持原图信息；
center：旋转点设置，默认中心旋转；

RandomRotation（degrees，
                resample=False,
                expand=False,
                center=None）

当使用expand扩大图片时，因为每张图片旋转的角度不同，最后得到的图片的大小是不一样的，最后拼接的时候可能出现报错的问题，所以在使用expand的时候，需要注意对图片进行缩放，将所有照片缩放到统一的尺寸。

[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
【安装环境】配置MMTracking环境 xuanyu22 安装环境机器学习神经网络深度学习 python
版本v0.14.0安装torchnumpy的版本不能太高，否则后面安装时会发生冲突。先安装numpy，因为pytorch的安装会自动配置高版本numpy。condainstallnumpy=1.21.5mmtracking支持的torch版本有限，需要找到合适的condainstallpytorch==1.11.0torchvision==0.12.0cudatoolkit=10.2-cpytor
Python(PyTorch)和MATLAB及Rust和C++结构相似度指数测量导图亚图跨际 Python 交叉知识算法量化检查图像压缩质量低分辨率多光谱峰值信噪比端到端优化图像压缩手术机器人三维实景实时可微分渲染重建三维可视化
要点量化检查图像压缩质量低分辨率多光谱和高分辨率图像实现超分辨率分析图像质量图像索引/多尺度结构相似度指数和光谱角映射器及视觉信息保真度多种指标峰值信噪比和结构相似度指数测量结构相似性图像分类PNG和JPEG图像相似性近似算法图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU变速图像压缩手术机器人深度估计算法重建三维可视化推理图像超分辨率算法模型三维实景实时可微分渲染算法MATLAB结构
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
Pyorch中 nn.Conv1d 与 nn.Linear 的区别迪三 #NN_Layer 神经网络
即一维卷积层和全联接层的区别nn.Conv1d和nn.Linear都是PyTorch中的层，它们用于不同的目的，主要区别在于它们处理输入数据的方式和执行的操作类型。nn.Conv1d通过应用滑动过滤器来捕捉序列数据中的局部模式，适用于处理具有时间或序列结构的数据。nn.Linear通过将每个输入与每个输出相连接，捕捉全局关系，适用于将输入数据作为整体处理的任务。1.维度与输入nn.Conv1d（一
图片中的上采样，下采样和通道融合(up-sample, down-sample, channel confusion) 迪三 #图像处理_PyTorch 计算机视觉深度学习人工智能
前言以conv2d为例（即图片），Pytorch中输入的数据格式为tensor，格式为:[N,C,W,H,W]第一维N.代表图片个数，类似一个batch里面有N张图片第二维C.代表通道数，在模型中输入如果为彩色，常用RGB三色图，那么就是3维，即C=3。如果是黑白的，即灰度图，那么只有一个通道，即C=1第三维H.代表图片的高度，H的数量是图片像素的列数第四维W.代表图片的宽度，W的数量是图片像素的
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程牙牙要健康深度学习 onnx onnxruntime 深度学习 python 人工智能
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论文章目录【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程前言模型转换--pytorch转onnxWindows平台搭建依赖环境onnxruntime调用onnx模型ONNXRuntime推理核
天下苦英伟达久矣！PyTorch官方免CUDA加速推理，Triton时代要来？诗者才子酒中仙物联网 /互联网 /人工智能 /其他 pytorch 人工智能 python
在做大语言模型（LLM）的训练、微调和推理时，使用英伟达的GPU和CUDA是常见的做法。在更大的机器学习编程与计算范畴，同样严重依赖CUDA，使用它加速的机器学习模型可以实现更大的性能提升。虽然CUDA在加速计算领域占据主导地位，并成为英伟达重要的护城河之一。但其他一些工作的出现正在向CUDA发起挑战，比如OpenAI推出的Triton，它在可用性、内存开销、AI编译器堆栈构建等方面具有一定的优势
pytorch安装(windows) m0_62244898 windows 人工智能
（1）下载pycharmPyCharm:thePythonIDEforProfessionalDevelopersbyJetBrains(2)下载anacondaAnaconda|TheWorld'sMostPopularDataSciencePlatform(3)创建一个新环境：torchcondacreate-ntorch-y(4)进入新环境condaactivatetorch(5)加入清华源
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
【ShuQiHere】小白也能懂的 TensorFlow 和 PyTorch GPU 配置教程 ShuQiHere tensorflow pytorch 人工智能
【ShuQiHere】在深度学习中，GPU的使用对于加速模型训练至关重要。然而，对于许多刚刚入门的小白来说，如何在TensorFlow和PyTorch中指定使用GPU进行训练可能会感到困惑。在本文中，我将详细介绍如何在这两个主流的深度学习框架中指定使用GPU进行训练，并确保每一个步骤都简单易懂，跟着我的步骤来，你也能轻松上手！1.安装所需库首先，确保你已经安装了TensorFlow或PyTorch
解决ModuleNotFoundError: No module named ‘torch的方法梅菊林各种问题解决方案开发语言
ModuleNotFoundError:Nomodulenamed‘torch’错误是Python在尝试导入名为torch的模块时找不到该模块而抛出的异常。torch是PyTorch深度学习框架的核心库，如果你的Python环境中没有安装这个库，尝试导入时就会遇到这个错误。文章目录报错问题报错原因解决方法报错问题当你尝试在Python脚本或交互式环境中执行以下命令时：importtorch如果Py
Python中item()和items()的用处 ~|Bernard| 深度学习疑点总结 python pytorch 深度学习
item()区别一:在pytorch训练时，一般用到.item()。比如loss.item()。我们可以做个简单测试代码看看它的区别:importtorchx=torch.randn(2,2)print(x)print(x[1,1])print(x[1,1].item())运行结果:tensor([[-2.0743,0.1675],[0.7016,-0.6779]])tensor(-0.6779)
GPU版pytorch安装普通攻击往后拉 python tips 神经网络基础模型关键点
由于经常重装系统，导致电脑的环境需要经常重新配置，其中尤其是cudatorch比较难以安装，因此记录一下安装GPU版本torch的过程。1）安装CUDAtoolkit这个可以看做是N卡所有cuda计算的基础，一般都会随驱动的更新自动安装，但是不全，仍然需要安装toolkit，并不需要先看已有版本是哪个，反正下载完后会自动覆盖原有的cuda。下载网站两个：国内网站：只能下载最新的toolkit，但是
轻松升级：Ollama + OpenWebUI 安装与配置【AIStarter】 ai_xiaogui AI作画 AI软件人工智能 AI写作 AIStarter
Ollama是一个开源项目，用于构建和训练大规模语言模型，而OpenWebUI则提供了一个方便的前端界面来管理和监控这些模型。本文将指导你如何更新这两个工具，并顺利完成配置。准备工作确保你的系统已安装Git和Python环境。安装必要的依赖库，如TensorFlow或PyTorch等。更新步骤克隆项目：使用Git命令行工具克隆最新的Ollama和OpenWebUI仓库到本地。更新代码：确保你正在使
conda环境管理 Johnson0722 python python conda 环境管理
Anaconda使用软件包管理系统Conda进行包管理，为用户对不同版本、不同功能的工具包的环境进行配置和管理提供便利。来看一看使用conda来进行环境管理的基本命令创建环境创建一个名为test的python环境，指定python版本是3.7.3，并在test环境中安装pytorchcondacreate--nametestpython=3.7.3pytorch查看系统中的所有环境用户安装的不同环
R-Drop pytorch实现 warpin 深度学习深度学习 pytorch
Pytorch实现了R-Drop，可以用于训练分类模型。#-*-coding:utf-8-*-"""Description:AnimplementationofR-Drop(https://arxiv.org/pdf/2106.14448.pdf).Authors:lihpCreateDate:2021/8/24"""fromtorchimportnnfromtorch.nnimportfunct
Transformer模型：WordEmbedding实现 Galaxy.404 Transformer transformer 深度学习人工智能 embedding
前言最近在学Transformer，学了理论的部分之后就开始学代码的实现，这里是跟着b站的up主的视频记的笔记，视频链接：19、Transformer模型Encoder原理精讲及其PyTorch逐行实现_哔哩哔哩_bilibili正文首先导入所需要的包：importtorchimportnumpyasnpimporttorch.nnasnnimporttorch.nn.functionalasF关
如何使用Pytorch-Metric-Learning？鱼儿也有烦恼 PyTorch pytorch
文章目录如何使用Pytorch-Metric-Learning？1.Pytorch-Metric-Learning库9个模块的功能1.1Sampler模块1.2Miner模块1.3Loss模块1.4Reducer模块1.5Distance模块1.6Regularizer模块1.7Trainer模块1.8Tester模块1.9Utils模块2.如何使用PyTorchMetricLearning库中的
每天五分钟玩转深度学习框架PyTorch：获取神经网络模型的参数幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 神经网络人工智能模型参数 python
本文重点当我们定义好神经网络之后，这个网络是由多个网络层构成的，每层都有参数，我们如何才能获取到这些参数呢？我们将再下面介绍几个方法来获取神经网络的模型参数，此文我们是为了学习第6步（优化器）。获取所有参数Parametersfromtorchimportnnnet=nn.Sequential(nn.Linear(4,2),nn.Linear(2,2))print(list(net.paramet
一维数组 list 呢，怎么转换成 (批次句子长度特征值 )三维向量 python pytorch lstm 编程人工智能 zhangfeng1133 python pytorch 人工智能数据挖掘
一、介绍对于一维数组，如果你想将其转换成适合深度学习模型（如LSTM）输入的格式，你需要考虑将其扩展为三维张量。这通常涉及到批次大小（batchsize）、序列长度（sequencelength）和特征数量（numberoffeatures）的维度。以下是如何将一维数组转换为这种格式的步骤：###1.确定维度-**批次大小（BatchSize）**：这是你一次处理的样本数量。-**序列长度（Seq
每天五分钟玩转深度学习框架PyTorch：将nn的神经网络层连接起来幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 神经网络人工智能机器学习 python
本文重点前面我们学习pytorch中已经封装好的神经网络层，有全连接层，激活层，卷积层等等，我们可以直接使用。如代码所示我们直接使用了两个nn.Linear（），这两个linear之间并没有组合在一起，所以forward的之后，分别调用了，在实际使用中我们常常将几个神经层组合在一起，这样不仅操作方便，而且代码清晰。这里介绍一下Sequential()和ModuleList()，它们可以将多个神经网
项目实训十四 qq_51946537 项目实训 python
将pytorch模型封装成接口由于前面对于模型的构建、训练、评估都以完成，接下来要做的就是将按照项目要求，将模型封装成接口，供后端直接调用。我需要做的是后端直接调用系统命令pythonprase.py-img图片便可以直接得到解析结果。由于前面的测试模型的正确率都是批量处理过的图片，而现在前端只会传过来要解析的图片或者图片路径，而且图片也是未经处理过的，显然直接输入不会得到好的结果，并且性能也会比
pytorch矩阵乘法 weixin_45694975 pytorch 深度学习神经网络
一、torch.bmminput1shape:(batch_size,seq1_len,emb_dim)input2shape:(batch_size,emb_dim,seq2_len)outputshape:(batch_size,seq1_len,seq2_len)注意：torch.bmm只适合三维tensor做矩阵运算特别地，torch.bmm支持tenso广播运算input1shape:(
pytorch矩阵乘法总结 chenxi yan PyTorch 学习 pytorch 矩阵深度学习
1.element-wise（*）按元素相乘，支持广播，等价于torch.mul()a=torch.tensor([[1,2],[3,4]])b=torch.tensor([[2,3],[4,5]])c=a*b#等价于torch.mul(a,b)#tensor([[2,6],#[12,20]])a*torch.tensor([1,2])#广播,等价于torch.mul(a,torch.tensor
推荐开源项目：PyTorch-Metric-Learning 潘惟妍
推荐开源项目：PyTorch-Metric-Learningpytorch-metric-learningTheeasiestwaytousedeepmetriclearninginyourapplication.Modular,flexible,andextensible.WritteninPyTorch.项目地址:https://gitcode.com/gh_mirrors/py/pytorc
pytroch2.4 提示到不到fbgemm.dll bziyue python pytorch
#python/pytorch/问题记录```>>>importtorchTraceback(mostrecentcalllast):File"",line1,inFile"C:\Users\95416\AppData\Local\Programs\Python\Python312\Lib\site-packages\torch\__init__.py",line148,inraiseerrOSE
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。