寅恪光潜

MXNet的Faster R-CNN(基于区域提议网络的实时目标检测)《5》

在上一篇文章的介绍中，我们知道语义分割可以对图像中的每个像素进行类别预测。这节主要讲关于全卷积网络(Fully Convolutional Network,FCN)，实现从图像像素到像素类别的变换。
那这里的卷积神经网络跟以往的有什么不一样的地方吗?
这里的网络是通过转置卷积(Transposed Convolution)层将中间层特征图的高和宽变换回输入图像的尺寸，从而令预测结果与输入图像在空间维(高和宽)上一一对应，给定空间维上的位置，通道维的输出就是该位置对应像素的类别预测。

转置卷积

转置卷积(Transposed Convolution)也是卷积运算，需要强调的是，有些地方写成反卷积，其实不是很妥当，这个转置卷积看起来像是我们以前接触的卷积运算的反运算，其实是不可逆的，由于它的名称来自于矩阵的转置操作，所以正确叫法叫做转置卷积。我们先通过一张图来对比下这个卷积运算与转置卷积运算的区别在哪儿：

第一行是我们很熟悉的卷积运算，4x4的输入，通过3x3的步幅为1的卷积核，我们得到了一个2x2的输出，这个大家都熟悉，滑动窗口做加权运算即可。
观察第二行，我们的输入尺寸是2x2，也就是说输入的特征图尺寸变小了，运算同样是通过3x3的步幅为1的卷积核的卷积运算，最终我们却得到了一个更大尺寸的输出(4x4)，原因是输入特征图的周围也就是像素的上下左右填充了0，将输入尺寸变成了6x6的尺寸了，然后同样做卷积运算。
动态图如下：

通过代码我们来验证下：

import d2lzh as d2l
from mxnet import nd,init
from mxnet.gluon import nn


X=nd.arange(1,17).reshape(1,1,4,4)
K=nd.arange(1,10).reshape(1,1,3,3)
conv=nn.Conv2D(channels=1,kernel_size=3)
conv.initialize(init.Constant(K))
print(conv(X))
'''
[[[[348. 393.]
   [528. 573.]]]]

'''

这个是正向卷积的情况，4x4的输入，经过3x3卷积之后，得到了2x2的输出。

我们从矩阵乘法的角度来了解这个卷积运算：

X=nd.arange(1,17).reshape(1,1,4,4)
K=nd.arange(1,10).reshape(1,1,3,3)
W,k=nd.zeros((4,16)),nd.zeros(11)
k[:3],k[4:7],k[8:]=K[0,0,0,:],K[0,0,1,:],K[0,0,2,:]
#print(k)#[1. 2. 3. 0. 4. 5. 6. 0. 7. 8. 9.]
W[0,0:11],W[1,1:12],W[2,4:15],W[3,5:16]=k,k,k,k
#print(W)
'''
[[1. 2. 3. 0. 4. 5. 6. 0. 7. 8. 9. 0. 0. 0. 0. 0.]
 [0. 1. 2. 3. 0. 4. 5. 6. 0. 7. 8. 9. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 2. 3. 0. 4. 5. 6. 0. 7. 8. 9. 0.]
 [0. 0. 0. 0. 0. 1. 2. 3. 0. 4. 5. 6. 0. 7. 8. 9.]]
'''
print(W.shape,X.reshape(16).shape)#(4, 16) (16,)
print(nd.dot(W,X.reshape(16)))#[348. 393. 528. 573.]
print(nd.dot(W,X.reshape(16)).reshape(1,1,2,2))
'''
[[[[348. 393.]
   [528. 573.]]]]

'''

这里的权重矩阵W的形状是4x16,然后对于输入是16(4x4尺寸)的向量，卷积前向计算之后的输出长度是4(2x2尺寸)。
我们知道在反向传播中，做乘法的时候，需要乘以转置后的权重矩阵。
那不难发现，当我们的输入向量长度是4(2x2尺寸)，转置权重矩阵 $W^{T}$ 的形状是16x4，那么转置卷积层输出的长度将是16(4x4尺寸)

X1=nd.arange(1,5)
W1=nd.arange(1,65).reshape(16,4)
print(W1.shape,X1.shape)#(16, 4) (4,)
print(nd.dot(W1,X1))#[ 30.  70. 110. 150. 190. 230. 270. 310. 350. 390. 430. 470. 510. 550. 590. 630.]

填充公式与输出尺寸公式

那么这个输入特征图的填充，具体应该怎么填充，跟哪些因素有关？
这里我们来看一个步幅是2的3x3的卷积核，看下它是怎么卷积的，动态图如下：

重点观察这个2x2的特征图(蓝色方块)，在周边有了填充之外，在蓝色块之间也有填充，也就是说不仅是特征图周边做填充，而且在里面也做了填充。

填充公式

输入特征图像素之间填充0：取决于步幅stride-1(s-1)，比如这里是2-1=1，像素之间有1个0的填充
输入特征图外的四周填充0：取决于卷积核大小kernel_size-填充padding-1，比如这里是3-0-1=2，整体特征图的上下左右就是填充2行2列的0

也就是说，对于输入特征图像，四周的填充取决于卷积核大小跟填充的大小，特征像素之间的填充取决于步幅的大小。
最后将卷积核参数上下、左右翻转之后做卷积运算即可

输出的高和宽尺寸公式

H=(输入的高h-1) x 步幅stride[0] - 2x填充padding[0] + 卷积核大小kernel[0]
H=(输入的宽w-1) x 步幅stride[0] - 2x填充padding[0] + 卷积核大小kernel[0]

比如这里的输入是2x2，步幅是1，填充是0，卷积核是3x3
计算结果就是 (2-1)x1-2x0+3=4，输出的高宽就是4x4的尺寸
再比如输入依然是2x2，当步幅是2，填充是0，卷积核大小3x3的卷积运算之后的输出(2-1)x2-2x0+3=5，跟上面动态图中一样，确实是将输入2x2的大小转置卷积之后变成了5x5的输出尺寸。

转置卷积的作用

我们知道在做卷积提取特征运算之后，输出的特征图尺寸将变小，而在语义分割当中我们需要将图像恢复到原来的尺寸以便进行进一步的计算，那就只能让输入特征扩大了，这样的目的就会让输出尺寸变大，这种操作叫做上采样(upsample)，这里的转置卷积就属于这种。再次强调这个转置卷积不是我们以前接触到的卷积运算的逆运算，转置卷积也属于卷积运算，只不过对输入做了填充操作。

在全卷积网络中，当输入特征图的高宽较小时，转置卷积层可以用来将高宽放大到输入图像的尺寸。我们来看个具体例子：

conv=nn.Conv2D(10,kernel_size=4,strides=2,padding=1)
conv.initialize()

X=nd.random.uniform(shape=(1,3,64,64))
Y=conv(X)
print(Y.shape)#(1, 10, 32, 32)

这里我们通过卷积运算，将通道数扩大到10，输出的尺寸缩小了一半，现在我们通过这个转置卷积层来让输出扩大到原尺寸的输入大小。

conv_trans=nn.Conv2DTranspose(3,kernel_size=4,strides=2,padding=1)
conv_trans.initialize()
print(conv_trans(Y).shape)#(1, 3, 64, 64)

我们也可以通过上面的输出尺寸公式验证下：(32-1)x2-2x1+4=64

全卷积网络模型(FCN)

全卷积网络模型的基本设计：使用卷积神经网络抽取图像特征，然后通过1x1的卷积层将通道数变换为类别个数，最后通过转置卷积层将特征图的高和宽变换为输入图像的尺寸。
模型的输出跟输入图像在高和宽上相同，并在空间位置上一一对应，最终输出的通道包含了该空间位置像素的类别预测。
如下图：

我们来构建模型，基于ImageNet数据集预训练的ResNet-18模型来抽取图像特征，其中features和output分别是特征层和输出层，这里的输出层不需要，另外features层的最后两层也去掉(最大池化层和样本变平层)
给定高宽分别是320和480，我们先来看下这个残差网络计算的结果：

from mxnet.gluon import nn, model_zoo
pretrained_net = model_zoo.vision.resnet18_v2(pretrained=True)
net = nn.HybridSequential()
for layer in pretrained_net.features[:-2]:
    net.add(layer)

X = nd.random.uniform(shape=(1, 3, 320, 480))
print(net(X).shape)#(1, 512, 10, 15)

这里计算之后的结果，我们看到通道数增加到512，然后高宽减小到了原尺寸的1/32，为了让这个特征图的高宽放到到32倍，跟原来尺寸一样，我们先来看下，卷积运算的输出形状的公式：

OH=1+(H+2P-FH)/S
OW=1+(W+2P-FW)/S

这个在卷积神经网络（CNN）相关的基础知识中有说明，有兴趣的可以去看看。

OH=1+(320+2P-FH)/S=10
OW=1+(480+2P-FW)/S=15

从这个公式，我们发现，当填充P=S/2，卷积核的高和宽是2S的时候，转置卷积核将输入的高和宽分别放大S倍。
于是构造一个步幅为32，填充为16，卷积核高宽为64的转置卷积层即可。

1+(320+2x16-64)/32=10
1+(480+2x16-64)/S=15

然后通过1x1的卷积层将输出通道数变换为Pascal VOC2012数据集的类别个数21

num_classes = 21
net.add(nn.Conv2D(num_classes, kernel_size=1),
        nn.Conv2DTranspose(num_classes, kernel_size=64, strides=32, padding=16))

双线性插值

从上面我们知道，特征图比较小，我们需要将它放大（因为有卷积运算，输出变小嘛），这个大家都知道这个操作是上采样，方法比较多，这里介绍一种使用bilinear_kernel函数构造的卷积核的转置卷积层来实现。

import d2lzh as d2l
from mxnet import nd, init,image
from mxnet.gluon import nn, model_zoo
import numpy as np

def bilinear_kernel(in_channels, out_channels, kernel_size):
    '''双线性插值'''
    factor = (kernel_size + 1) // 2
    if kernel_size % 2 == 1:
        center = factor - 1
    else:
        center = factor - 0.5
	# 返回两个数组的列表
    og = np.ogrid[:kernel_size, :kernel_size]
    filt = (1 - abs(og[0] - center) / factor) * (1 - abs(og[1] - center) / factor)
    weight = np.zeros((in_channels, out_channels, kernel_size, kernel_size), dtype='float32')
    weight[range(in_channels), range(out_channels), :, :] = filt
    return nd.array(weight)

conv_trans=nn.Conv2DTranspose(3,kernel_size=4,strides=2,padding=1)
conv_trans.initialize(init.Constant(bilinear_kernel(3,3,4)))
img=image.imread('hi.jpg')
X=img.astype('float32').transpose((2,0,1)).expand_dims(axis=0)/255#NCHW并标准化
print(X.shape)#(1, 3, 540, 485)
Y=conv_trans(X)
print(Y.shape)#(1, 3, 1080, 970)

看了看到图像的宽高放大了2倍，我们使用转置卷积输出尺寸的公式，验证下：

H=(输入的高h-1)x步幅stride[0]-2x填充padding[0]+卷积核大小kernel[0]=(540-1)x2-2x1+4=1080
H=(输入的宽w-1)x步幅stride[0]-2x填充padding[0]+卷积核大小kernel[0]=(485-1)x2-2x1+4=970

我们打印图像看下：

d2l.set_figsize()
d2l.plt.imshow(img.asnumpy())
d2l.plt.show()
d2l.plt.imshow(Y[0].transpose((1,2,0)).asnumpy())
d2l.plt.show()

从上面的图片对比我们发现，除了坐标的刻度不一样之外，双线性插值放大的图像跟原图看上去没什么区别。

训练模型

我们将最后两层分别初始化之后，读取数据集进行模型训练，其中的倒数第二层是1x1的卷积层，我们使用Xavier随机初始化，倒数第一层是转置卷积层，我们用到上面的双线性插值来初始化。

net[-2].initialize(init=init.Xavier())
net[-1].initialize(init.Constant(bilinear_kernel(num_classes,num_classes,64)))

初始化模型之后，我们来训练VOC2012数据集：

import d2lzh as d2l
from mxnet import nd, init, image, gluon
from mxnet.gluon import nn, model_zoo, data as gdata, loss as gloss
import numpy as np
import sys


def bilinear_kernel(in_channels, out_channels, kernel_size):
    '''双线性插值'''
    factor = (kernel_size + 1) // 2
    if kernel_size % 2 == 1:
        center = factor - 1
    else:
        center = factor - 0.5
    # 返回两个数组的列表
    og = np.ogrid[:kernel_size, :kernel_size]
    filt = (1 - abs(og[0] - center) / factor) * (1 - abs(og[1] - center) / factor)
    weight = np.zeros((in_channels, out_channels, kernel_size,kernel_size), dtype='float32')
    weight[range(in_channels), range(out_channels), :, :] = filt
    return nd.array(weight)


'--------全卷积神经网络模型FCN----------------------------'
pretrained_net = model_zoo.vision.resnet18_v2(pretrained=True,prefix='res_')
net = nn.HybridSequential(prefix='res_')
for layer in pretrained_net.features[:-2]:
    with net.name_scope():
        net.add(layer)
num_classes = 21
net.add(nn.Conv2D(num_classes, kernel_size=1),
        nn.Conv2DTranspose(num_classes, kernel_size=64, strides=32, padding=16,prefix='res_'))

# 1x1的卷积层，采用Xavier随机初始化
net[-2].initialize(init=init.Xavier())
# 转置卷积层，初始化为双线性插值的上采样
net[-1].initialize(init.Constant(bilinear_kernel(num_classes, num_classes, 64)))
'-----------------------------------------------------'

# 配置比较低，这里的批处理大小搞小点，设置为8
crop_size, batch_size, colormap2label = (320, 480), 8, nd.zeros(256**3)
for i, cm in enumerate(d2l.VOC_COLORMAP):
    colormap2label[(cm[0]*256+cm[1])*256+cm[2]] = i
voc_dir = "../data/VOCdevkit/VOC2012"
num_workers = 0 if sys.platform.startswith('win32') else 4
train_iter = gdata.DataLoader(d2l.VOCSegDataset(True, crop_size, voc_dir, colormap2label),
                              batch_size, shuffle=True, last_batch='discard', num_workers=num_workers)
test_iter = gdata.DataLoader(d2l.VOCSegDataset(False, crop_size, voc_dir, colormap2label),
                             batch_size, shuffle=True, last_batch='discard', num_workers=num_workers)
'''
read 1114 examples
read 1078 examples
'''
ctx = d2l.try_all_gpus()
loss = gloss.SoftmaxCrossEntropyLoss(axis=1)
net.collect_params().reset_ctx(ctx)
trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': 0.1, 'wd': 1e-3})
d2l.train(train_iter, test_iter, net, loss, trainer, ctx, num_epochs=5)
net.collect_params().save('myfcn.params')#训练之后保存
'''
training on [gpu(0)]
[13:00:07] c:\jenkins\workspace\mxnet-tag\mxnet\src\operator\nn\cudnn\./cudnn_algoreg-inl.h:97: Running performance tests to find the best convolution algorithm, this can take a while... (set the environment variable MXNET_CUDNN_AUTOTUNE_DEFAULT to 0 to disable)
[13:00:09] c:\jenkins\workspace\mxnet-tag\mxnet\src\operator\nn\cudnn\./cudnn_algoreg-inl.h:97: Running performance tests to find the best convolution algorithm, this can take a while... (set the environment variable MXNET_CUDNN_AUTOTUNE_DEFAULT to 0 to disable)
epoch 1, loss 1.6055, train acc 0.706, test acc 0.740, time 113.0 sec
epoch 2, loss 1.2191, train acc 0.730, test acc 0.760, time 109.9 sec
epoch 3, loss 1.2267, train acc 0.735, test acc 0.739, time 109.7 sec
epoch 4, loss 0.9452, train acc 0.752, test acc 0.769, time 108.7 sec
epoch 5, loss 0.9784, train acc 0.754, test acc 0.776, time 109.3 sec
'''

其中SoftmaxCrossEntropyLoss需指定axis=1(通道维)选项，因为我们使用转置卷积层的通道维来预测像素的类别。另外保存参数文件的时候要注意指定前缀。由于这里是改造过的resnet18_v2网络，取代的是1x1卷积层与转置卷积层。所以在加载参数文件的时候，也需要同样的网络结构与指定前缀：

pretrained_net = model_zoo.vision.resnet18_v2(prefix='res_')
mynet = nn.HybridSequential(prefix='res_')
for layer in pretrained_net.features[:-2]:
    with mynet.name_scope():
        mynet.add(layer)
num_classes = 21
mynet.add(nn.Conv2D(num_classes, kernel_size=1),
        nn.Conv2DTranspose(num_classes, kernel_size=64, strides=32, padding=16))
mynet.collect_params().load('myfcn.params')#加载训练之后的参数文件
#一些常见的用法
#print(mynet)
#print(mynet[0].params)
#print(mynet[1].weight.data())
#print(mynet[1].weight.grad())
#print(mynet.collect_params())
#print(mynet.collect_params('.*weight'))

预测像素类别

在预测时，我们需要将输入图像在各个通道做标准化，并转成卷积神经网络所需要的四维输入格式NCHW。另外由于测试数据集中的图像大小和形状各异，模型使用了步幅为32的转置卷积层，当输入图像的高宽没有被32整除的时候，那么输出的尺寸就跟原尺寸存在偏差。
这里为了简单起见，只读取几张比较大的测试图像，并从图像的左上角开始截取宽为480和高为320的区域。只有该区域用于测试。图中第二行就是该区域的测试，第一行是截取的原图，第三行是标注的类别。

import d2lzh as d2l
from mxnet import nd, image
from mxnet.gluon import nn, model_zoo, data as gdata
import sys

pretrained_net = model_zoo.vision.resnet18_v2(prefix='res_')
mynet = nn.HybridSequential(prefix='res_')
for layer in pretrained_net.features[:-2]:
    with mynet.name_scope():
        mynet.add(layer)
num_classes = 21
mynet.add(nn.Conv2D(num_classes, kernel_size=1),
        nn.Conv2DTranspose(num_classes, kernel_size=64, strides=32, padding=16))
mynet.collect_params().load('myfcn.params')#加载训练之后的参数文件
# 配置比较低，这里的批处理大小搞小点，设置为8
crop_size, batch_size, colormap2label = (320, 480), 8, nd.zeros(256**3)
for i, cm in enumerate(d2l.VOC_COLORMAP):
    colormap2label[(cm[0]*256+cm[1])*256+cm[2]] = i
voc_dir = "../data/VOCdevkit/VOC2012"
num_workers = 0 if sys.platform.startswith('win32') else 4
train_iter = gdata.DataLoader(d2l.VOCSegDataset(True, crop_size, voc_dir, colormap2label),
                              batch_size, shuffle=True, last_batch='discard', num_workers=num_workers)
test_iter = gdata.DataLoader(d2l.VOCSegDataset(False, crop_size, voc_dir, colormap2label),
                             batch_size, shuffle=True, last_batch='discard', num_workers=num_workers)

ctx = d2l.try_all_gpus()
mynet.collect_params().reset_ctx(ctx)


def predict(img):
    X = test_iter._dataset.normalize_image(img)
    X = X.transpose((2, 0, 1)).expand_dims(axis=0)  # 增加一维，转成NCHW形状
    pred = nd.argmax(mynet(X.as_in_context(ctx[0])), axis=1)
    return pred.reshape((pred.shape[1], pred.shape[2]))

def label2image(pred):
    colormap = nd.array(d2l.VOC_COLORMAP, ctx=ctx[0], dtype='uint8')
    X = pred.astype('int32')
    return colormap[X, :]

test_images, test_labels = d2l.read_voc_images(is_train=False)
n, imgs = 4, []
for i in range(n):
    crop_rect = (0, 0, 480, 320)
    X = image.fixed_crop(test_images[i], *crop_rect)
    pred = label2image(predict(X))
    imgs += [X, pred, image.fixed_crop(test_labels[i], *crop_rect)]

d2l.show_images(imgs[::3]+imgs[1::3]+imgs[2::3], 3, n)
d2l.plt.show()

训练几次的效果还可以，因为我的batch_size毕竟很小，第三张船的图片识别不是很好之外都还不错。

小结：可以看到全卷积网络首先使用卷积神经网络抽取图像特征，然后通过1x1的卷积层将通道数变换为类别个数，最后通过转置卷积层将特征图的高和宽变换为输入图像的尺寸，从而输出每个像素的类别。
这里在最后也重新熟悉下如何保存训练好的参数文件以及加载参数文件的过程，我们在计算机视觉之迁移学习中的微调(fine tuning)中已有介绍过，有点区别，有兴趣的可以去了解下微调这个方法。对于参数文件可以理解成人的血肉，网络模型属于骨架，往骨架里面填满血肉，这样就成为了血肉之躯哈哈。

KANN 是一个独立的轻量级 C 语言库，用于构建和训练中小型人工神经网络，例如多层感知器、卷积神经网络和递归神经网络（包括 LSTM 和 GRU）。它实现了基于图的逆模自动微分，并允许构建具有递归等
一、软件介绍文末提供程序和源码下载KANN是一个独立的轻量级C语言库，用于构建和训练中小型人工神经网络，例如多层感知器、卷积神经网络和递归神经网络（包括LSTM和GRU）。它实现了基于图的逆模自动微分，并允许构建具有递归、共享权重和多个输入/输出/成本的拓扑复杂神经网络。与TensorFlow等主流深度学习框架相比，KANN的可扩展性较低，但它的灵活性接近，代码库要小得多，并且仅依赖于标准C库。与
【PyTorch】2024保姆级安装教程-Python-（CPU+GPU详细完整版）金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 python pytorch 人工智能
【PyTorch】2024保姆级安装教程（CPU+GPU详细完整版）PyTorch是当前最受欢迎的深度学习框架之一。本文将详细讲解在Python环境中安装PyTorch，包括CPU和GPU版本的全方位指南。一、前置环境首先确保已安装Python环境，推荐使用Python3.8或以上版本。验证Python安装：python--versionpip--version推荐使用虚拟环境（如conda或ve
基于OpenCV图像分割与PyTorch的增强图像分类方案从零开始学习人工智能 opencv pytorch 分类
在图像分类任务中，背景噪声和复杂场景常常会对分类准确率产生负面影响。为了应对这一挑战，本文介绍了一种结合OpenCV图像分割与PyTorch深度学习框架的增强图像分类方案。通过先对图像进行分割提取感兴趣区域（RegionofInterest，ROI），再进行分类，可以有效减少背景干扰，突出关键特征，从而提高分类准确率。该方案在多种复杂场景下表现出色，尤其适用于图像背景复杂或包含多个对象的情况。一、
DAY 43 复习日 yizhimie37 python训练营打卡笔记深度学习
@浙大疏锦行https://blog.csdn.net/weixin_45655710第一步：寻找并准备图像数据集在Kaggle等平台上，你可以找到大量用于图像分类任务的数据集，例如英特尔图像分类数据集(IntelImageClassification)或手写数字识别数据集(DigitRecognizer)。对于初学者，一个更便捷的选择是使用像TensorFlow或PyTorch这样深度学习框架内
CIANNA由天体物理学家提供/为天体物理学家提供的卷积交互式人工神经网络 struggle2025 神经网络
一、软件介绍文末提供程序和源码下载CIANNA是一个通用的深度学习框架，主要用于天文数据分析。根据天体物理问题解决的相关性添加功能和优化。CIANNA可用于为各种任务构建和训练大型神经网络模型，并提供高级Python接口（类似于keras、pytorch等）。CIANNA的特点之一是它定制实施了受YOLO启发的对象探测器，用于2D或3D射电天文数据产品中的星系探测。该框架通过低级CUDA编程完全实
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
pytorch 要点之雅可比向量积 AI大模型教程 pytorch 人工智能 python facebook 深度学习机器学习 webpack
自动微分是PyTorch深度学习框架的核心。既然是核心，就需要敲黑板、划重点学习。同时，带来另外一个重要的数学概念：雅可比向量积。PyTorch中的自动微分与雅可比向量积自动微分（AutomaticDifferentiation，AD）是深度学习框架中的关键技术之一，它使得模型训练变得更加简单和高效。且已知：PyTorch是一个广泛使用的深度学习框架，它内置了强大的自动微分功能。在本文中，我们将深
聚焦OpenVINO与OpenCV颜色通道转换的实践指南
颜色通道顺序问题：OpenVINO模型RGB输入与OpenCVBGR格式的转换在计算机视觉任务中，框架间的颜色通道差异常导致模型推理错误。以下方法解决OpenVINO模型需要RGB输入而OpenCV默认输出BGR的问题。理解核心差异OpenCV的imread()函数遵循BGR通道顺序，源于历史摄像头硬件的数据格式。而OpenVINO等深度学习框架多采用RGB顺序，与TensorFlow/PyTor
第37节：PyTorch数据加载与预处理点我头像干啥 pytorch 人工智能 python
1.引言在深度学习项目中，数据加载与预处理是构建高效模型的关键环节。PyTorch作为当前最流行的深度学习框架之一，提供了一套完整且灵活的数据处理工具链。本文将全面介绍PyTorch中的数据加载与预处理机制，涵盖从基础概念到高级技巧的各个方面。2.PyTorch数据加载核心组件2.1Dataset类torch.utils.data.Dataset是PyTorch中所有数据集处理的抽象基类，代表数据
TensorFlow深度学习模型训练：掌握神经网络的构建与优化瞎了眼的枸杞深度学习 tensorflow 神经网络
引言深度学习是人工智能领域的重要分支，它通过模拟人脑的神经网络结构来解决复杂的数据表示和学习问题。TensorFlow作为目前最受欢迎的深度学习框架之一，为开发者提供了强大的工具和丰富的资源。本文将带你了解如何使用TensorFlow进行深度学习模型的训练和优化。TensorFlow的核心概念什么是TensorFlow？定义：TensorFlow是一个用于数值计算的开源库，特别适合于大规模的机器学
探索PyTorch：张量的创建和数值计算小言从不摸鱼深度学习 pytorch 人工智能 python
目录1.张量的创建1.1张量的基本概念1.2张量的基本创建1.3创建线性和随机张量1.4创建全01张量1.5张量的类型转换1.6小节2.张量的数值计算2.1张量基本运算2.2阿达玛积2.3点积运算2.4指定设备运算2.5小节前言PyTorch是一个Python深度学习框架，学习PyTorch在当今深度学习领域至关重要。PyTorch以其动态计算图、易于使用的API和强大的社区支持，成为科研人员、数
基于CNN卷积神经网络识别汉字合集-视频介绍下自取 no_work 深度学习 cnn 人工智能神经网络
内容包括：含ShuffleNet等多个模型的手写中文汉字识别摄像头版109含ShuffleNet等多个模型的手写中文汉字识别摄像头版_哔哩哔哩_bilibili本代码用的python语言，pytorch深度学习框架运行，环境的安装可以参考博客：深度学习环境安装教程-anaconda-python-pytorch_动手学习深度学习的环境安装-CSDN博客代码总共分成三个部分，01py文件是划分数据集
Keras深度学习框架第十四讲：使用TensorFlow进行多GPU分布式训练 MUKAMO AI Python应用 Keras框架深度学习 keras tensorflow
使用TensorFlow进行多GPU分布式训练1、绪论1.1使用TensorFlow进行多GPU分布式训练概念TensorFlow是一个流行的开源机器学习框架，它支持多GPU分布式训练，允许开发者利用多个GPU并行处理数据和模型参数，从而加速训练过程。多GPU分布式训练在深度学习领域尤其重要，因为它可以极大地提高模型的训练速度和效率。在使用TensorFlow进行多GPU分布式训练时，通常需要遵循
【Python与生活】如何实现一个条形码检测算法？小米玄戒Andrew Python与生活 python 生活算法深度学习人工智能 pytorch
条形码识别是计算机视觉中的常见任务，广泛应用于零售、物流和库存管理等领域。下面我将介绍如何使用Python和深度学习框架实现一个高效的条形码识别解决方案。框架选择与介绍在实现条形码识别系统时，我们可以选择以下框架和库：1.OpenCVOpenCV是计算机视觉领域的基础库，提供了丰富的图像处理功能，如滤波、边缘检测、阈值处理等，是预处理阶段的核心工具。2.PyTorch/TensorFlow作为主流
pytorch深度学习入门（12）之-神经网络导出onnx模型部署与应用码农呆呆深度学习深度学习 pytorch 神经网络
概述：ONNX（OpenNeuralNetworkExchange）是一种开放神经网络交换格式，它使得不同深度学习框架（如TensorFlow、PyTorch、MXNet等）之间的互操作成为可能。ONNX提供了一种标准化的方式，可以将训练好的模型导出并转换为ONNX格式，然后可以在其他支持ONNX的框架或工具中进行部署和推理。ONNX的主要优势在于它促进了深度学习模型在不同平台之间的互操作性和可移
深度学习框架与联邦学习：探究未来的AI发展趋势=======================摘要：本文将深入探讨深度学习框架与联邦学习的融合，分析其在现代AI领域的应用和发展趋势。我们将介绍深度学习框
深度学习框架与联邦学习：探究未来的AI发展趋势摘要：本文将深入探讨深度学习框架与联邦学习的融合，分析其在现代AI领域的应用和发展趋势。我们将介绍深度学习框架的基本原理、联邦学习的概念及其优势，并结合实际案例探讨二者的结合如何推动AI技术的创新与发展。一、深度学习框架：AI的基石深度学习框架是构建和训练深度学习模型的重要工具。它为开发者提供了便捷的工具和库，使得构建复杂的神经网络模型变得更加简单高效
《动手学深度学习》-2.1. 数据操作 SSWDUT 动手学深度学习深度学习人工智能
2.1.数据操作为了能够完成各种数据操作，我们需要某种方法来存储和操作数据。通常，我们需要做两件重要的事：（1）获取数据；（2）将数据读入计算机后对其进行处理。如果没有某种方法来存储数据，那么获取数据是没有意义的。首先，我们介绍n维数组，也称为张量（tensor）。使用过Python中NumPy计算包的读者会对本部分很熟悉。无论使用哪个深度学习框架，它的张量类（在MXNet中为ndarray，在P
pytorch——自动微分
求导是几乎所有深度学习优化算法的关键步骤。深度学习框架通过自动计算导数，即自动微分来加快求导。标量变量的反向传播对函数y=2xTxy=2x^Txy=2xTx关于列向量xxx求导importtorchx=torch.arange(4.0)print(f'x:{x}')x.requires_grad_(True)print(f'x.grad:{x.grad}')y=2*torch.dot(x,x)y.
Burn 开源程序是下一代深度学习框架，在灵活性、效率和可移植性方面毫不妥协 struggle2025 深度学习人工智能 python rust
一、软件介绍文末提供程序和源码下载Burn开源程序是下一代深度学习框架，在灵活性、效率和可移植性方面毫不妥协二、Performance性能因为我们相信深度学习框架的目标是将计算转化为有用的智能，所以我们将性能作为Burn的核心支柱。我们努力通过利用下述多种优化技术来实现最高效率。自动内核融合UsingBurnmeanshavingyourmodelsoptimizedonanybackend.Wh
程序员转行大模型：五大热门岗位揭秘，抓住IT行业最后的风口！就在大模型！大模型入门学习人工智能大模型产品经理程序员 AI产品经理转行大模型 AI大模型
一、大模型热门岗位1.模型研发工程师模型研发工程师的核心任务是设计和开发新的深度学习模型架构。这包括但不限于研究最新的模型论文，理解并复现复杂的模型结构，以及在此基础上进行创新改进。此外，工程师还需要关注模型训练过程中的性能优化，确保模型在有限的计算资源下达到最佳效果。岗位要求：计算机科学或相关专业背景，本科以上学历；精通Python编程，熟练掌握TensorFlow、PyTorch等深度学习框架
PyTorch深度学习框架60天进阶学习计划 - 第58天端到端对话系统（二）：流式优化与生产部署凡人的AI工具箱深度学习 pytorch 学习人工智能自动化 python
PyTorch深度学习框架60天进阶学习计划-第58天端到端对话系统（二）：流式优化与生产部署欢迎回来，我的AI工程师朋友们！经过第一部分的学习，我们已经搭建了一个基础的端到端对话系统。但是，就像一辆刚下生产线的汽车还需要精心调校才能上路一样，我们的对话系统也需要进一步优化才能在真实场景中发挥最大价值！今天我们要做的事情更加激动人心——我们要让系统变得更快、更稳定、更智能！想象一下，当用户和你的A
PyTorch深度学习框架60天进阶学习计划 - 第58天端到端对话系统（三）凡人的AI工具箱深度学习 pytorch 学习 llama 人工智能 python
PyTorch深度学习框架60天进阶学习计划-第58天端到端对话系统（三）6.生产级流式对话系统集成现在到了最激动人心的部分——将所有流式组件整合成一个完整的生产级系统！这就像指挥一个交响乐团，每个乐器都要在正确的时间演奏正确的音符，最终奏出美妙的和谐乐章。#production_dialog_system.py-生产级流式对话系统importasyncioimporttimeimportthre
程序员转战大模型：热门岗位全解析，如何明智选择你的下一站？非常详细收藏我这一篇就好了！
一、大模型热门岗位1.模型研发工程师模型研发工程师的核心任务是设计和开发新的深度学习模型架构。这包括但不限于研究最新的模型论文，理解并复现复杂的模型结构，以及在此基础上进行创新改进。此外，工程师还需要关注模型训练过程中的性能优化，确保模型在有限的计算资源下达到最佳效果。岗位要求：计算机科学或相关专业背景，本科以上学历；精通Python编程，熟练掌握TensorFlow、PyTorch等深度学习框架
AI基础知识（07）：基于 PyTorch 的手写体识别案例手册陈天伟教授人工智能（AI）pytorch 人工智能 python
目录实验介绍实验对象实验时间实验流程实验介绍随着人工智能技术的飞速发展，图像识别技术在众多领域得到了广泛应用。手写体识别作为图像识别的一个重要分支，其在教育、金融、医疗等领域具有广泛的应用前景。本实验旨在利用深度学习框架PyTorch，结合MNIST手写体数据集，构建一个高效、准确的手写体识别系统，本实验是在云主机中安装PyCharm,并且基于PyTorch框架的手写体识别的案例。本实验采用的MN
深度学习编译器
1)深度学习编译器复杂个JB与通用自动编译工具不同，深度学习编译器结构更加复杂，包括图层优化、张量（Tensor）优化、代码生成、硬件部署、自动调优（AutoTuning）等几个部分。以TVM为例，图1.1为TVM的结构示意图。最上层表示不同的深度学习框架，TVM将不同深度学习框架实现的算法转化为高层IR表示，高层IR以算子为原子单元，将不同类型的算法抽象成图节点对图进行融合优化。之后，TVM将高
pytorch-frame开源程序适用于 PyTorch 的表格深度学习库，一个模块化深度学习框架，用于在异构表格数据上构建神经网络模型。 struggle2025 深度学习 pytorch 神经网络 python
一、软件介绍文末提供程序和源码下载pytorch-frame开源程序适用于PyTorch的表格深度学习库，一个模块化深度学习框架，用于在异构表格数据上构建神经网络模型。PyTorchFrame是PyTorch的深度学习扩展，专为具有不同列类型（包括数字、分类、时间、文本和图像）的异构表格数据而设计。它为实现现有和未来的方法提供了一个模块化框架。该库包含来自最先进模型、用户友好的小批量加载器、基准测
【Python 进阶3】常见的 call 和 forward 区别多恩Stone 编程学习 python 开发语言
在Python和深度学习框架（如PyTorch）中，__call__和forward是两个不同的概念，它们的用途和实现方式有明显区别：1.__call__方法（Python内置特殊方法）在Python中，__call__是一个特殊方法（也称为"魔法方法"）。当一个类的实例被当作函数调用时，会自动触发该类的__call__方法。这个特性使得类的实例可以像函数一样被调用，从而让对象具有"可调用"的行为
深度学习框架pytorch入门与实践风吹晚风悠 pytorch 人工智能机器学习
深度学习框架pytorch是由Facebook开发的一种开源机器学习库，它可以用于构建和训练神经网络模型。本文将介绍pytorch的入门知识和实践技巧。安装pytorch首先，你需要在你的机器上安装pytorch。可以通过以下命令安装：pipinstalltorchtorchvision张量和自动微分在pytorch中，tensor是一个多维数组，类似于numpy中的ndarray。tensor支
Deep Lake 简介
DeepLake简介DeepLake是由Activeloop开发的一款开源深度学习数据湖（DeepLearningDataLake），专为人工智能时代设计，旨在解决深度学习项目中数据管理的复杂性与低效问题。核心特点特性说明多模态数据支持支持图像、视频、音频、文本、点云等多种数据类型，适用于各类AI场景。张量存储数据以张量格式存储，兼容主流深度学习框架（如PyTorch、TensorFlow）。数据
可解释性医疗影像算法解析智能计算研究中心其他
内容概要在医疗影像分析领域，可解释性算法的核心价值在于建立临床诊断的透明化决策路径。本文通过系统性解构深度学习框架下的技术链条，揭示从数据标注、特征工程到模型评估的全流程透明度构建方法。研究聚焦卷积神经网络（CNN）与注意力机制的双向协同作用，量化分析其在肺结节检测、肿瘤分割等场景中的特征可视化效果。为平衡算法性能与可解释性需求，文中提出基于多维度评估指标的优化框架（见表1），涵盖准确率、召回率、
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h