撸码的xiao摩羯

第02章前馈神经网络

序言

1. 内容介绍

本章介绍第一个深度学习算法-前馈神经网络，主要介绍前馈神经网络 (FNN) 模型的算法模型、数学推理、模型实现以及主流框架的实现。并能够把它应用于现实世界的数据集实现分类效果。

2. 理论目标

前馈神经网络的理论基础
前馈神经网络的基础模型架构
前馈神经网络的数学推理

3. 实践目标

掌握PyTorch，Tensorflow框架下FNN的实现
掌握使用FNN处理分类问题
掌握FNN算法的优劣

4. 实践数据集

MNIST 数据集分类
Fasion-MNIST 数据集分类

5. 内容目录

1.前馈神经网络简介
2.前馈神经网络模型详解
3.前馈神经网络传播详解
4.前馈神经网络代码实现
5.PyTorch 实践

第1节前馈神经网络简介

前馈神经网络是一种最简单的神经网络，各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层的输出，并输出给下一层．各层间没有反馈。是目前应用最广泛、发展最迅速的人工神经网络之一。研究从 20 世纪 60 年代开始，目前理论研究和实际应用达到了很高的水平。

人工智能领域中，最早发明的简单人工神经网络类型。在它内部，参数从输入层向输出层单向传播。

它本身是经典感知机 (Preceptron) 算法的进化版本。感知机是非线性回归，前馈神经网络一层层堆叠多个感知器层。多层感知机 (MLP)，是多层的全连接的前馈网络。

前馈神经网络结构简单，应用广泛，能够以任意精度逼近任意连续函数及平方可积函数．而且可以精确实现任意有限训练样本集。从系统的观点看，前馈网络是一种静态非线性映射．通过简单非线性处理单元的复合映射，可获得复杂的非线性处理能力。

第2节前馈神经网络模型详解

前馈神经网络包括三类节点：

输入节点（Input Layers）：外界信息输入，不进行任何计算，仅向下一层节点传递信息
隐藏节点（Hidden Layers）：接收上一层节点的输入，进行计算，并将信息传到下一层节点
输出节点（Output Layers）：接收上一层节点的输入，进行计算，并将结果输出

通常FNN有 N + 1 层（N − 1 个隐藏层）的神经网络。浅层网络架构仅使用一个隐藏层。深度学习需要使用多个隐藏层，通常包含同样数量的隐藏神经元。数量大约是输入和输出变量数量的平均值。

FNN 由一个输入层、一个（浅层网络）或多个（深层网络，因此叫作深度学习）隐藏层，和一个输出层构成。每个层（除输出层以外）与下一层连接。这种连接是 FNN 架构的关键，具有两个主要特征：加权平均和激活函数。

2.1 加权平均

FNN 很重要的一个概念就是加权平均过程，即将前一层给神经元的激励值和对应的权重矩阵相乘而得出后一个神经元的输入值，换而言之，前一层神经元的加权和就是作为后一层神经元的输入。

正式地，加权平均的过程可以使用如下方程式表达：

a^{(t)(v)}_f=\Sigma^{F_v-1+\epsilon}_{f'=0}\Theta^{(v)f}_{f'}h^{(t)(v)}_{f'}af(t)(v)=Σf′=0Fv−1+ϵΘf′(v)fhf′(t)(v)

其中 v∈[0,N−1]、f∈[0,F_{v+1} - 1Fv+1−1]、t∈[0,T_mb - 1Tmb−1]。\epsilonϵ代表包括或排除一个偏置项，因为实践中我们经常使用批量归一化，所以\epsilonϵ可以设为 0。

2.2 激活函数

每一层的隐藏神经元可以定义为：

h^{(t)(v+1)}_f= g(a^{(t)(v)}_f)hf(t)(v+1)=g(af(t)(v))

其中 v∈[0,N−1]、f∈[0,F_{v+1} - 1Fv+1−1]、t∈[0,T_mb - 1Tmb−1]。在这里 g 为激活函数，FNN 另外一个十分重要的元素，因为激活函数的非线性属性，所以它允许预测任意的输出数据。在实践中，g 通常采取以下描述的非线性函数作为激活函数。

Sigmoid 函数
Tanh 函数
ReLu 函数
Leaky ReLu 函数
ELu 函数

2.3 FNN层级

输入层

输入层是 FNN 的第一层神经元，它需要将输入数据传入 FNN 中。在全连接神经网络中，输入层的神经元数量但与特征向量的长度相等，比如说 MNIST 数据集的图像为 28×28，那么特征向量的长度就为 764。

全连接层

全连接操作即运算层级之间的加权平均值和激活函数，即前一层的神经元输出值加权和为后一层的输入值，并将该输入值投入激活函数中以产生该层级的输出值。

输出层

FNN 的输出层可以表示为：

h^{(t)(N)}_f = o(a^{(t)(N-1)}_f)hf(t)(N)=o(af(t)(N−1))
其中 o 为输出函数。

第3节前馈神经网络传播详解

此章涉及到的神经网络基础概念：

- 反向传播
- 梯度下降
- 损失函数
- 正规化
- 学习率

作为初代人工神经网络模型，前馈神经网络（FNN）不考虑输入数据可能具备的任何特定结构。尽管如此，它仍是非常强大的机器学习工具，尤其是与先进的正规化技术一起使用时。这些技术帮助解决人们处理「深度」网络时遇到的训练问题：神经网络有大量隐藏层，隐藏层非常难以训练（梯度消失和过拟合问题）。

3.1 前向传播

为了描述神经网络，需从最简单的神经网络讲起。这个神经网络仅由一个“神经元”构成，神经网络的每个单元如下：

这个“神经元”是一个以 x_1,x_2,x_3x1,x2,x3 及截距 +1 为输入值的运算单元，其输出对应的公式为：

h_{w,b}(x) = f(W^Tx) = f(\sum^3_{i=1}W_ix_i+b)hw,b(x)=f(WTx)=f(∑i=13Wixi+b)

函数 f = \Re \to \Ref=ℜ→ℜ 被称为激活函数。

其中，该单元也可以被称作是Logistic回归模型。当将多个单元组合起来并具有分层结构时，就形成了神经网络模型。下图展示了一个具有一个隐含层的前馈神经网络。

前馈神经网络就是将许多个单一“神经元”联结在一起，这样，一个“神经元”的输出就可以是另一个“神经元”的输入。同时可以看到，以上神经网络的例子中有3个输入单元（偏置单元不计在内），3个隐藏单元及一个输出单元。

n_lnl 来表示网络的层数，本例中 n_lnl = 3 ，我们将第 1 层记为 L_1L1 ，于是 L_1L1 是输入层，输出层是 L_{n1}Ln1。本例神经网络参数为

(W,b)=(W^{(1)},b^{(1)},W^{(2)},b^{(2)})(W,b)=(W(1),b(1),W(2),b(2)) ，

其中 W_{ij}^{(l)}Wij(l) 是第 11 层第 jj 单元与第 l+1l+1 层第 ii 单元之间的联接参数（连接线上的权重），b_i^{(l)}bi(l) 是第 l+1l+1 层第 ii 单元的偏置项。因此在本例中，W^{(1)} \in \Re^{3 \times 3}W(1)∈ℜ3×3 , W^{(2)} \in \Re^{1 \times 3}W(2)∈ℜ1×3 。注意，没有其他单元连向偏置单元，因为它们总是输出+1+1。同时，我们用 s_1s1 表示第 l 层的节点数（偏置单元不计在内)。

我们用 a_i^{(l)}ai(l) 表示第 l 层第 i 单元的"激活值"（输出值）。当 l = 1l=1 时，a_i^{(1)} = x_iai(1)=xi ，也就是第 ii 个输入值（输入值的第 ii 个特征）。对于给定参数集合 W,bW,b ，我们的神经网络就可以按照函数 h_{W,b}(x)hW,b(x) 来计算输出结果。本例神经网络的计算步骤如下：

a^{(2)}_1 = f(W_{11}^{(1)}x_1 + W_{12}^{(1)}x_2 + W_{13}^{(1)}x_3 + b^{(1)}_1)a1(2)=f(W11(1)x1+W12(1)x2+W13(1)x3+b1(1))

a^{(2)}_2 = f(W_{21}^{(1)}x_1 + W_{22}^{(1)}x_2 + W_{23}^{(1)}x_3 + b^{(1)}_2)a2(2)=f(W21(1)x1+W22(1)x2+W23(1)x3+b2(1))

a^{(2)}_3 = f(W_{31}^{(1)}x_1 + W_{32}^{(1)}x_2 + W_{33}^{(1)}x_3 + b^{(1)}_3)a3(2)=f(W31(1)x1+W32(1)x2+W33(1)x3+b3(1))

h_{W,b}(x) = a_1^{(3)} = f(W_{11}^{(2)}a_1^{(2)} + W_{12}^{(2)}a_2^{(2)} + W_{13}^{(2)}a_3^{(2)} + b^{(2)}_1)hW,b(x)=a1(3)=f(W11(2)a1(2)+W12(2)a2(2)+W13(2)a3(2)+b1(2))

我们用 z_i^{(l)}zi(l) 表示第 ll 层第 ii 单元输入加权和（包括偏置单元），比如，z_i^{(2)} = \sum^n_{j=1}W^{(1)}_{ij}x_j+b^{(1)}_izi(2)=∑j=1nWij(1)xj+bi(1)，则a^{(l)}_i = f(z^{(l)}_i)ai(l)=f(zi(l))。

这样我们就可以得到一种更简洁的表示法。这里我们将激活函数 f(x)f(x) 扩展为用向量（分量的形式）来表示，即 f([z_1,z_2,z_3])=[f(z_1),f(z_2),f(z_3)])f([z1,z2,z3])=[f(z1),f(z2),f(z3)])，那么，上面的等式可以更简洁地表示为：

z^{(2)} = W^{(1)}x + b^{(1)}z(2)=W(1)x+b(1)

a^{(2)} = f(z^{(2)})a(2)=f(z(2))

z^{(3)} = W^{(2)}a^{(2)} + b^{(2)}z(3)=W(2)a(2)+b(2)

h_{W,b}(x) = a^{(3)} = f(z^{(3)})hW,b(x)=a(3)=f(z(3))

我们将上面的计算步骤叫作前向传播。回想一下，之前用 a^{(1)} = xa(1)=x 表示输入层的激活值，那么给定第 ll 层的激活值 a^{(l)}a(l) 后，第 l+1l+1 层的激活值 a^{(l+1)}a(l+1) 就可以按照下面步骤计算得到：

z^{(l+1)} = W^{(l)}a^{(l)} + b^{(l)}z(l+1)=W(l)a(l)+b(l)

a^{(l+1)} = f(z^{(l+1)})a(l+1)=f(z(l+1))

将参数矩阵化，使用矩阵 \to→ 向量运算方式，就可以利用线性代数的优势对神经网络进行快速求解。这是一个前馈神经网络的例子，因为这种联接图没有闭环或回路。

3.2 损失函数

损失函数评估了 FNN 在估计数据并执行预测时的误差，通常是我们判断模型在一定权重下执行任务好坏的依据。损失函数一般是计算真实值和预测值之间的距离而判断误差。对于回归问题来说，简单地使用均方误差（MSE）就可以评估预测值与真实值之间的距离：

J(\Theta) = \frac{1}{2T_{mb}}\sum^{T_{mb}-1}_{t=0}\sum^{F_N-1}_{f=0}(y_f^{(t)} - h_f^{(t)(N)})^2J(Θ)=2Tmb1∑t=0Tmb−1∑f=0FN−1(yf(t)−hf(t)(N))2

对于分类任务来说，损失函数一般可以使用交叉熵函数。针对预测分布最小化交叉熵函数就等价于 KL 散度，所以它评估了预测分布和真实分布之间的距离：

J(\Theta) = - \frac{1}{T_{mb}}\sum^{T_{mb}-1}_{t=0}\sum^{F_N-1}_{f=0}\delta^f_{y^{(t)}}\ln h^{(t)(N)}_fJ(Θ)=−Tmb1∑t=0Tmb−1∑f=0FN−1δy(t)flnhf(t)(N)

3.3 反向传播

反向传播是减少损失函数错误的标准技术，只要准确地预测需要哪一个就行。就像名字所示，在 FNN 网络中反向传播输出层的错误，以便于更新权重。在实际中，我们需要计算大量的梯度，这是一项冗长的计算任务。然而，如果表现准确，这也是 FN 中最有用、最重要的任务。

3.4 梯度优化

共有三种从数据中进行采样的方法：

Full-bath
随机梯度下降
小批量梯度下降

一旦在反向传播过程中计算了梯度，那么接下来就需要考虑如何使用这些梯度更新权重了。可能最自然和直观的方法就是直接使用梯度下降更新权重，梯度下降的更新表达式为：

\Theta^{(v)f}_{f'} = \Theta^{(v)f}_{f'} - \eta\triangle^{\Theta(i)f}_{f'}Θf′(v)f=Θf′(v)f−η△f′Θ(i)f

其中 \etaη 为超参数学习率，确定 \etaη 最好的方法是在下降点执行直线搜索而求得，不过这样的计算成本非常高，所以一般可以根据经验或交叉验证等方法确定该超参数。同时学习率还可以使用指数衰减更进一步加快收敛速度。在使用小批量梯度下降时，根据损失函数而更新的权重很容易陷入局部极小值，因此有一些方法可以避免这种风险。可选用的优化函数为:

Momentum
Nesterov accelerated gradient
Adagrad
RMSprop
Adam

3.5 权重初始化

在没有任何正则化的情况下，训练神经网络令人望而却步，因为要对权重初始化条件进行微调。这也是为什么神经网络经历过寒冬的一个原因。因为 dropout 与批规范化技术，该问题有所改进，但同样不能用对称的方式初始化权重（例如都是 0），也不能把它们初始化的太大。一个好的 heuristic 是:

\begin{bmatrix}\Theta^{(v)f'}_f\end{bmatrix}_{init} = \sqrt{\frac{6}{F_i+F_{i+1}}} \times N(0,1)[Θf(v)f′]init=Fi+Fi+16×N(0,1)

第4节前馈神经网络代码复现

4.1 Pytorch

输入层与输出层采用 torch.nn.Linear 线性关系
隐藏层采用 torch.nn.ReLU 激活函数
build_fnn 函数预设置参照MNIST数据集
- 图片格式为 1\times28\times281×28×28 ，即输入层采用784个特征
- 图片标签为10个数字，即输出层生成10个标签

# %load ffn.py import torch import torch.nn as nn class FeedForwardNetwork(nn.Module): def __init__(self,input_size,hidden_size,num_classes): super(FeedForwardNetwork, self).__init__() self.fc1 = nn.Linear(input_size,hidden_size) self.relu = nn.ReLU(inplace=True) self.fc2 = nn.Linear(hidden_size,num_classes) def forward(self,x): out = self.fc1(x) out = self.relu(out) out = self.fc2(out) return out def build_fnn(phase, input_size=784, hidden_size=500,num_classes=10): if phase != "test" and phase != "train": print("ERROR: Phase: " + phase + " not recognized") return return FeedForwardNetwork(input_size, hidden_size, num_classes)

from torchsummary import summary net = build_fnn('train') net.cuda() summary(net,(1,784))

----------------------------------------------------------------
        Layer (type)               Output Shape         Param #
================================================================
            Linear-1               [-1, 1, 500]         392,500
              ReLU-2               [-1, 1, 500]               0
            Linear-3                [-1, 1, 10]           5,010
================================================================
Total params: 397,510
Trainable params: 397,510
Non-trainable params: 0
----------------------------------------------------------------
Input size (MB): 0.00
Forward/backward pass size (MB): 0.01
Params size (MB): 1.52
Estimated Total Size (MB): 1.53
----------------------------------------------------------------

4.2 Tensorflow

输入层与输出层采用 tensorflow.nn.xw_plus_b 线性函数
隐藏层采用 tensorflow.nn.relu 激活函数

import tensorflow as tf def fcLayer(x, input_size, output_size, reluFlag, name): with tf.variable_scope(name) as scope: w = tf.get_variable("w", shape = [input_size, output_size], dtype = "float") b = tf.get_variable("b", [output_size], dtype = "float") out = tf.nn.xw_plus_b(x, w, b, name = scope.name) if reluFlag: return tf.nn.relu(out) else: return out class FFN_TF(object): def __init__(self, x, input_size, hidden_size, num_classes): self.X = x self.input_size = input_size self.hidden_size = hidden_size self.num_classes = num_classes self.buildFFN() def buildFFN(self): fc1 = fcLayer(self.X, self.input_size, self.hidden_size, True, "fc1") fc2 = fcLayer(fc1, self.hidden_size, self.num_classes, False, "fc2")

第5节 PyTorch 实践

5.1 模型训练代码

加载同级目录下 train.py 程序代码

# %load train.py import os os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE" import time import argparse import sys import torch import torch.nn as nn import torch.optim as optim import torch.backends.cudnn as cudnn from torchvision import transforms from torch.autograd import Variable import matplotlib as mpl import matplotlib.pyplot as plt mpl.rc('axes', labelsize = 14) mpl.rc('xtick', labelsize = 12) mpl.rc('ytick', labelsize = 12) sys.path.append(os.path.dirname(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))) from ffn import build_fnn from datasets.MNIST.mnist import MNIST_ROOT,MNIST from datasets.FASHION_MNIST.fashion_mnist import FASHION_MNIST_ROOT,FASHION_MNIST def str2bool(v): return v.lower() in ("yes", "true", "t", "1") parser = argparse.ArgumentParser( description='FeedForward Neural Network Training With Pytorch') train_set = parser.add_mutually_exclusive_group() parser.add_argument('--dataset', default='MNIST', choices=['MNIST', 'FASHION_MNIST'], type=str, help='MNIST or FASHION_MNIST') parser.add_argument('--dataset_root', default=MNIST_ROOT, help='Dataset root directory path') parser.add_argument('--hidden_size', default=500, type=int, help='Hidden layer size') parser.add_argument('--batch_size', default=32, type=int, help='Batch size for training') parser.add_argument('--num_workers', default=0, type=int, help='Number of workers used in dataloading') parser.add_argument('--epoch_size', default=30, type=int, help='Number of Epoches for training') parser.add_argument('--cuda', default=True, type=str2bool, help='Use CUDA to train model') parser.add_argument('--lr', '--learning-rate', default=1e-3, type=float, help='initial learning rate') parser.add_argument('--save_folder', default='weights/', help='Directory for saving checkpoint models') args = parser.parse_args() if not os.path.exists(args.save_folder): os.mkdir(args.save_folder) def train(): if args.dataset == 'MNIST': if args.dataset_root == MNIST_ROOT: if not os.path.exists(MNIST_ROOT): parser.error('Must specify dataset_root if specifying dataset') args.dataset_root = MNIST_ROOT dataset = MNIST(root=args.dataset_root,folder='train', transform=transforms.ToTensor()) elif args.dataset == 'FASHION_MNIST': if args.dataset_root == MNIST_ROOT: print("Using default FASHION_MNIST dataset_root") args.dataset_root = FASHION_MNIST_ROOT dataset = FASHION_MNIST(root=args.dataset_root,folder='train', transform=transforms.ToTensor()) net = build_fnn(phase='train',hidden_size=args.hidden_size) if args.cuda and torch.cuda.is_available(): net = torch.nn.DataParallel(net) cudnn.benchmark = True net.cuda() optimizer = optim.Adam(net.parameters(), lr=args.lr) criterion = nn.CrossEntropyLoss() epoch_size = args.epoch_size print('Loading the dataset...') data_loader = torch.utils.data.DataLoader(dataset, args.batch_size, num_workers=args.num_workers, shuffle=True, pin_memory=True) print('Training FFN on:', dataset.name) print('Using the specified args:') print(args) loss_list = [] acc_list = [] for epoch in range(epoch_size): net.train() train_loss = 0.0 correct = 0 total = len(dataset) t0 = time.perf_counter() for step, data in enumerate(data_loader, start=0): images, labels = data if args.cuda: images = Variable(images.view(-1,28*28).cuda()) labels = Variable(labels.cuda()) else: images = Variable(images.view(-1,28*28)) labels = Variable(labels) # forward outputs = net(images) # backprop optimizer.zero_grad() loss = criterion(outputs, labels) loss.backward() optimizer.step() # print statistics train_loss += loss.item() _, predicted = outputs.max(1) correct += predicted.eq(labels).sum().item() # print train process rate = (step + 1) / len(data_loader) a = "*" * int(rate * 50) b = "." * int((1 - rate) * 50) print("\rEpoch {}: {:^3.0f}%[{}->{}]{:.3f}".format(epoch+1, int(rate * 100), a, b, loss), end="") print(' Running time: %.3f' % (time.perf_counter() - t0)) acc = 100.*correct/ total loss = train_loss / step print('train loss: %.6f, acc: %.3f%% (%d/%d)' % (loss, acc, correct, total)) loss_list.append(loss) acc_list.append(acc/100) torch.save(net.state_dict(),args.save_folder + '' + args.dataset + '.pth') plt.plot(range(epoch_size), loss_list, range(epoch_size), acc_list) plt.xlabel('Epoches') plt.ylabel('Sparse CrossEntropy Loss | Accuracy') plt.savefig(os.path.join( os.path.dirname( os.path.abspath(__file__)), "photos", args.dataset + "_train_details.png")) if __name__ == '__main__': train()

程序输入参数说明

dataset：

训练采用的数据集，目前提供MNIST ,FASHION_MNIST供选择。点击查看数据集加载Demo

dataset_root:

数据集读取地址, default已设置为数据集相对路径，部署在云端可能需要修改

hidden_size:

FFN网络隐藏层个数, default为500层

batch_size:

单次训练所抓取的数据样本数量，default为32，MNIST数据集推荐参考为128

num_workers:

加载数据所使用线程个数，default为0，n\in (2,4,8,12\dots)n∈(2,4,8,12…)

epoch_size:

训练次数, default为30

cuda:

是否调用GPU训练

超参数学习率，FNN采用Adam优化函数，default为 0.0010.001

save_folder:

模型权重保存地址

程序输出文件说明

训练细节

print 于 python console, 包括单个epoch训练时间、训练集损失值、准确率

模型权重

模型保存路径为 ./weight/%.pth

损失函数与正确率

图片保存路径为 ./photos/%_train_details.png

5.2 模型测试代码

加载同级目录下 test.py 程序代码

# %load test.py import sys import os os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE" import argparse import torch import torch.nn as nn import torch.backends.cudnn as cudnn import torchvision.transforms as transforms from torch.autograd import Variable import itertools import numpy as np import matplotlib as mpl import matplotlib.pyplot as plt mpl.rc('axes', labelsize = 14) mpl.rc('xtick', labelsize = 12) mpl.rc('ytick', labelsize = 12) sys.path.append(os.path.dirname(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))) from ffn import build_fnn from datasets.MNIST.mnist import MNIST_ROOT,MNIST from datasets.FASHION_MNIST.fashion_mnist import FASHION_MNIST_ROOT,FASHION_MNIST parser = argparse.ArgumentParser( description='FeedForward Neural Network Testing With Pytorch') parser.add_argument('--dataset', default='MNIST', choices=['MNIST', 'FASHION_MNIST'], type=str, help='MNIST or FASHION_MNIST') parser.add_argument('--dataset_root', default=MNIST_ROOT, help='Location of MNIST root directory') parser.add_argument('--hidden_size', default=500, type=int, help='Hidden layer size') parser.add_argument('--batch_size', default=32, type=int, help='Batch size for training') parser.add_argument('--num_workers', default=0, type=int, help='Number of workers used in dataloading') parser.add_argument('--trained_model', default='weights/{}.pth', type=str, help='Trained state_dict file path to open') parser.add_argument('--cuda', default=True, type=bool, help='Use cuda to train model') parser.add_argument('-f', default=None, type=str, help="Dummy arg so we can load in Jupyter Notebooks") args = parser.parse_args() args.trained_model = args.trained_model.format(args.dataset) def confusion_matrix(preds, labels, conf_matrix): for p, t in zip(preds, labels): conf_matrix[p, t] += 1 return conf_matrix def save_confusion_matrix(cm, classes, normalize=False, title='Confusion matrix', cmap=plt.cm.Blues): plt.imshow(cm, interpolation='nearest', cmap=cmap) plt.title(title) plt.colorbar() tick_marks = np.arange(len(classes)) plt.xticks(tick_marks, classes, rotation=90) plt.yticks(tick_marks, classes) plt.axis("equal") ax = plt.gca() left, right = plt.xlim() ax.spines['left'].set_position(('data', left)) ax.spines['right'].set_position(('data', right)) for edge_i in ['top', 'bottom', 'right', 'left']: ax.spines[edge_i].set_edgecolor("white") thresh = cm.max() / 2. for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])): num = '{:.2f}'.format(cm[i, j]) if normalize else int(cm[i, j]) plt.text(j, i, num, verticalalignment='center', horizontalalignment="center", color="white" if num > thresh else "black") plt.ylabel('True label') plt.xlabel('Predicted label') plt.savefig(os.path.join( os.path.dirname( os.path.abspath(__file__)), "photos", args.dataset + "_confusion_matrix.png")) def test(): # load data if args.dataset == 'MNIST': if args.dataset_root == MNIST_ROOT: if not os.path.exists(MNIST_ROOT): parser.error('Must specify dataset_root if specifying dataset') args.dataset_root = MNIST_ROOT dataset = MNIST(root=args.dataset_root,folder='test', transform=transforms.ToTensor()) elif args.dataset == 'FASHION_MNIST': if args.dataset_root == MNIST_ROOT: print("Using default FASHION_MNIST dataset_root") args.dataset_root = FASHION_MNIST_ROOT dataset = FASHION_MNIST(root=args.dataset_root,folder='test', transform=transforms.ToTensor()) data_loader = torch.utils.data.DataLoader(dataset, args.batch_size, num_workers=args.num_workers, shuffle=True, pin_memory=True) # load net net = build_fnn(phase='test',hidden_size=args.hidden_size) if args.cuda and torch.cuda.is_available(): net = torch.nn.DataParallel(net) cudnn.benchmark = True net.cuda() net.load_state_dict(torch.load(args.trained_model)) print('Finish loading model: ', args.trained_model) net.eval() print('Training FFN on:', dataset.name) print('Using the specified args:') print(args) # evaluation criterion = nn.CrossEntropyLoss() test_loss = 0 correct = 0 total = 0 conf_matrix = torch.zeros(10, 10) class_correct = list(0 for i in range(10)) class_total = list(0 for i in range(10)) with torch.no_grad(): for step, data in enumerate(data_loader): images, labels = data if args.cuda: images = Variable(images.view(-1,28*28).cuda()) labels = Variable(labels.cuda()) else: images = Variable(images.view(-1,28*28)) labels = Variable(labels) # forward outputs = net(images) loss = criterion(outputs, labels) test_loss += loss.item() _, predicted = outputs.max(1) conf_matrix = confusion_matrix(predicted, labels=labels, conf_matrix=conf_matrix) total += labels.size(0) correct += predicted.eq(labels).sum().item() c = (predicted.eq(labels)).squeeze() for i in range(c.size(0)): label = labels[i] class_correct[label] += c[i].item() class_total[label] += 1 acc = 100.* correct / total loss = test_loss / step print('test loss: %.6f, acc: %.3f%% (%d/%d)' % (loss, acc, correct, total)) for i in range(10): print('accuracy of %s : %.3f%% (%d/%d)' % ( str(dataset.classes[i]), 100 * class_correct[i] / class_total[i], class_correct[i], class_total[i])) save_confusion_matrix(conf_matrix.numpy(), classes=dataset.classes, normalize=False, title = 'Normalized confusion matrix') if __name__ == '__main__': test()

程序输入参数说明

dataset：

训练采用的数据集，目前提供 MNIST, FASHION_MNIST 供选择。点击查看数据集加载Demo

dataset_root:

数据集读取地址, default已设置为数据集相对路径，部署在云端可能需要修改

hidden_size:

FFN网络隐藏层个数, default为500层

batch_size:

单次训练所抓取的数据样本数量，default为32，MNIST数据集推荐参考为128

num_workers:

加载数据所使用线程个数，default为0，n\in (2,4,8,12\dots)n∈(2,4,8,12…)

trained_model:

模型权重保存路径，default为 train.py 生成的ptb文件路径

cuda:

是否调用GPU训练

程序输出文件说明

测试集损失值与准确率

print 于 python console 第一行

各类别准确率

print 于 python console 后续列表

混淆矩阵

图片保存路径为 ./photos/%_confusion_matrix.png

5.3 MNIST数据集

MNIST 来自美国国家标准与技术研究所, National Institute of Standards and Technology (NIST). 训练集 (training set) 由来自 250 个不同人手写的数字构成, 其中 50% 是高中学生, 50% 来自人口普查局 (the Census Bureau) 的工作人员，测试集(test set) 也是同样比例的手写数字数据
MNIST 是机器学习领域中非常经典的一个数据集，由60000个训练样本和10000个测试样本组成，每个样本都是一张 28\times2828×28 像素的灰度手写数字图片
MNIST 已经是一个被”嚼烂”了的数据集, 作为机器学习在视觉领域的hello world，很多教程都会对它”下手”, 几乎成为一个 “典范”

%run train.py --batch_size=128 --epoch_size=20

Loading the dataset...
Training FFN on: MNIST
Using the specified args:
Namespace(batch_size=128, cuda=True, dataset='MNIST', dataset_root='C:\\Users\\sbzy\\Documents\\GitHub\\dl_algorithm\\datasets\\MNIST', epoch_size=20, hidden_size=500, lr=0.001, num_workers=0, save_folder='weights/')
Epoch 1:  4 %[**->...............................................]0.645

C:\ProgramData\Anaconda3\lib\site-packages\torchvision\transforms\functional.py:114: UserWarning: The given NumPy array is not writeable, and PyTorch does not support non-writeable tensors. This means you can write to the underlying (supposedly non-writeable) NumPy array using the tensor. You may want to copy the array to protect its data or make it writeable before converting it to a tensor. This type of warning will be suppressed for the rest of this program. (Triggered internally at  ..\torch\csrc\utils\tensor_numpy.cpp:180.)
  img = torch.from_numpy(pic.transpose((2, 0, 1))).contiguous()

Epoch 1: 100%[**************************************************->]0.172  Running time: 1.920
train loss: 0.316545, acc: 91.398% (54839/60000)
Epoch 2: 100%[**************************************************->]0.172  Running time: 1.788
train loss: 0.130430, acc: 96.182% (57709/60000)
Epoch 3: 100%[**************************************************->]0.029  Running time: 1.792
train loss: 0.085377, acc: 97.525% (58515/60000)
Epoch 4: 100%[**************************************************->]0.088  Running time: 1.850
train loss: 0.061032, acc: 98.232% (58939/60000)
Epoch 5: 100%[**************************************************->]0.030  Running time: 1.795
train loss: 0.045669, acc: 98.642% (59185/60000)
Epoch 6: 100%[**************************************************->]0.030  Running time: 1.781
train loss: 0.034931, acc: 98.985% (59391/60000)
Epoch 7: 100%[**************************************************->]0.027  Running time: 1.801
train loss: 0.025758, acc: 99.290% (59574/60000)
Epoch 8: 100%[**************************************************->]0.015  Running time: 1.833
train loss: 0.021855, acc: 99.400% (59640/60000)
Epoch 9: 100%[**************************************************->]0.021  Running time: 1.808
train loss: 0.016011, acc: 99.578% (59747/60000)
Epoch 10: 100%[**************************************************->]0.004  Running time: 1.855
train loss: 0.012006, acc: 99.705% (59823/60000)
Epoch 11: 100%[**************************************************->]0.008  Running time: 1.797
train loss: 0.009323, acc: 99.798% (59879/60000)
Epoch 12: 100%[**************************************************->]0.027  Running time: 1.792
train loss: 0.008455, acc: 99.772% (59863/60000)
Epoch 13: 100%[**************************************************->]0.004  Running time: 1.801
train loss: 0.005930, acc: 99.888% (59933/60000)
Epoch 14: 100%[**************************************************->]0.001  Running time: 1.847
train loss: 0.007958, acc: 99.775% (59865/60000)
Epoch 15: 100%[**************************************************->]0.014  Running time: 1.815
train loss: 0.005799, acc: 99.858% (59915/60000)
Epoch 16: 100%[**************************************************->]0.002  Running time: 1.836
train loss: 0.004902, acc: 99.892% (59935/60000)
Epoch 17: 100%[**************************************************->]0.002  Running time: 1.827
train loss: 0.004979, acc: 99.875% (59925/60000)
Epoch 18: 100%[**************************************************->]0.001  Running time: 1.813
train loss: 0.004698, acc: 99.868% (59921/60000)
Epoch 19: 100%[**************************************************->]0.000  Running time: 1.812
train loss: 0.001051, acc: 99.995% (59997/60000)
Epoch 20: 100%[**************************************************->]0.000  Running time: 1.846
train loss: 0.000483, acc: 100.000% (60000/60000)

%run test.py --batch_size=128

Finish loading model:  weights/MNIST.pth
Training FFN on: MNIST
Using the specified args:
Namespace(batch_size=128, cuda=True, dataset='MNIST', dataset_root='C:\\Users\\sbzy\\Documents\\GitHub\\dl_algorithm\\datasets\\MNIST', f=None, hidden_size=500, num_workers=0, trained_model='weights/MNIST.pth')
test loss: 0.071845, acc: 98.290% (9829/10000)
accuracy of 0 : 99.082% (971/980)
accuracy of 1 : 99.295% (1127/1135)
accuracy of 2 : 98.256% (1014/1032)
accuracy of 3 : 98.812% (998/1010)
accuracy of 4 : 98.982% (972/982)
accuracy of 5 : 97.870% (873/892)
accuracy of 6 : 98.539% (944/958)
accuracy of 7 : 97.471% (1002/1028)
accuracy of 8 : 97.536% (950/974)
accuracy of 9 : 96.928% (978/1009)

5.4 FASHION-MNIST数据集

Fashion-MNIST 的大小、格式和训练集/测试集划分与原始的 MNIST 完全一致。60000/10000 的训练测试数据划分，28\times2828×28 的灰度图片。
Fashion-MNIST 的目的是要成为 MNIST 数据集的一个直接替代品。MNIST 太简单了，只需要一个像素就可以区分开，很多算法在测试集上的性能已经达到 99.6%。MNIST 数字识别的任务不代表现代机器学习。Fashion-MNIST 迁移到真正的机器视觉图像分类问题。

%run train.py --dataset=FASHION_MNIST --batch_size=128 --epoch_size=30

Using default FASHION_MNIST dataset_root
Loading the dataset...
Training FFN on: FASHION_MNIST
Using the specified args:
Namespace(batch_size=128, cuda=True, dataset='FASHION_MNIST', dataset_root='C:\\Users\\sbzy\\Documents\\GitHub\\dl_algorithm\\datasets\\FASHION_MNIST', epoch_size=30, hidden_size=500, lr=0.001, num_workers=0, save_folder='weights/')
Epoch 1: 100%[**************************************************->]0.460  Running time: 1.878
train loss: 0.531764, acc: 81.763% (49058/60000)
Epoch 2: 100%[**************************************************->]0.402  Running time: 1.815
train loss: 0.385030, acc: 86.283% (51770/60000)
Epoch 3: 100%[**************************************************->]0.324  Running time: 1.800
train loss: 0.340654, acc: 87.810% (52686/60000)
Epoch 4: 100%[**************************************************->]0.256  Running time: 1.817
train loss: 0.318387, acc: 88.392% (53035/60000)
Epoch 5: 100%[**************************************************->]0.303  Running time: 1.814
train loss: 0.296618, acc: 89.220% (53532/60000)
Epoch 6: 100%[**************************************************->]0.401  Running time: 1.870
train loss: 0.281099, acc: 89.665% (53799/60000)
Epoch 7: 100%[**************************************************->]0.265  Running time: 1.899
train loss: 0.267958, acc: 90.108% (54065/60000)
Epoch 8: 100%[**************************************************->]0.286  Running time: 1.811
train loss: 0.254263, acc: 90.638% (54383/60000)
Epoch 9: 100%[**************************************************->]0.238  Running time: 1.833
train loss: 0.243190, acc: 91.043% (54626/60000)
Epoch 10: 100%[**************************************************->]0.223  Running time: 1.852
train loss: 0.234547, acc: 91.215% (54729/60000)
Epoch 11: 100%[**************************************************->]0.229  Running time: 1.891
train loss: 0.225576, acc: 91.625% (54975/60000)
Epoch 12: 100%[**************************************************->]0.153  Running time: 1.836
train loss: 0.216060, acc: 91.892% (55135/60000)
Epoch 13: 100%[**************************************************->]0.251  Running time: 1.842
train loss: 0.209209, acc: 92.213% (55328/60000)
Epoch 14: 100%[**************************************************->]0.161  Running time: 1.828
train loss: 0.202756, acc: 92.543% (55526/60000)
Epoch 15: 100%[**************************************************->]0.159  Running time: 1.888
train loss: 0.193430, acc: 92.903% (55742/60000)
Epoch 16: 100%[**************************************************->]0.314  Running time: 1.808
train loss: 0.186699, acc: 93.060% (55836/60000)
Epoch 17: 100%[**************************************************->]0.230  Running time: 1.822
train loss: 0.179851, acc: 93.273% (55964/60000)
Epoch 18: 100%[**************************************************->]0.178  Running time: 1.882
train loss: 0.172105, acc: 93.582% (56149/60000)
Epoch 19: 100%[**************************************************->]0.083  Running time: 1.871
train loss: 0.167652, acc: 93.803% (56282/60000)
Epoch 20: 100%[**************************************************->]0.126  Running time: 1.847
train loss: 0.161755, acc: 94.037% (56422/60000)
Epoch 21: 100%[**************************************************->]0.199  Running time: 1.849
train loss: 0.159146, acc: 94.033% (56420/60000)
Epoch 22: 100%[**************************************************->]0.112  Running time: 1.830
train loss: 0.151899, acc: 94.535% (56721/60000)
Epoch 23: 100%[**************************************************->]0.190  Running time: 1.900
train loss: 0.147988, acc: 94.450% (56670/60000)
Epoch 24: 100%[**************************************************->]0.161  Running time: 1.884
train loss: 0.147933, acc: 94.493% (56696/60000)
Epoch 25: 100%[**************************************************->]0.108  Running time: 1.845
train loss: 0.137695, acc: 94.892% (56935/60000)
Epoch 26: 100%[**************************************************->]0.150  Running time: 1.842
train loss: 0.133490, acc: 95.072% (57043/60000)
Epoch 27: 100%[**************************************************->]0.140  Running time: 1.871
train loss: 0.129848, acc: 95.162% (57097/60000)
Epoch 28: 100%[**************************************************->]0.093  Running time: 1.853
train loss: 0.125107, acc: 95.365% (57219/60000)
Epoch 29: 100%[**************************************************->]0.101  Running time: 1.843
train loss: 0.121888, acc: 95.508% (57305/60000)
Epoch 30: 100%[**************************************************->]0.139  Running time: 1.855
train loss: 0.118569, acc: 95.640% (57384/60000)

%run test.py --dataset=FASHION_MNIST --batch_size=128

Using default FASHION_MNIST dataset_root
Finish loading model:  weights/FASHION_MNIST.pth
Training FFN on: FASHION_MNIST
Using the specified args:
Namespace(batch_size=128, cuda=True, dataset='FASHION_MNIST', dataset_root='C:\\Users\\sbzy\\Documents\\GitHub\\dl_algorithm\\datasets\\FASHION_MNIST', f=None, hidden_size=500, num_workers=0, trained_model='weights/FASHION_MNIST.pth')
test loss: 0.358458, acc: 89.370% (8937/10000)
accuracy of T-shirt/top : 88.100% (881/1000)
accuracy of Trouser : 97.900% (979/1000)
accuracy of Pullover : 81.200% (812/1000)
accuracy of Dress : 91.700% (917/1000)
accuracy of Coat : 77.800% (778/1000)
accuracy of Sandal : 97.500% (975/1000)
accuracy of Shirt : 70.700% (707/1000)
accuracy of Sneaker : 97.500% (975/1000)
accuracy of Bag : 96.800% (968/1000)
accuracy of Ankle boot : 94.500% (945/1000)

5.5 结果评估

Shirt、T-shirt、Dress、Coat同为上衣，从混淆矩阵中可知，FFN模型难以辨别相似度高的类群。

作为初代深层学习网络，FFN，或称为MLP，在80年代的时候曾是相当流行的机器学习方法，拥有广泛的应用场景，譬如语音识别、图像识别、机器翻译，但受限于电子技术与硬件束缚，难以处理复杂多样的分类任务。

前馈神经网络模型优点

最基础的深度学习网络，克服了感知器不能对线性不可分数据进行识别的弱点
高度的并行处理、非线性全局作用
非常强的自适应、自学习功能，简单的模型结构就能达到89%准确率

前馈神经网络模型缺点

依赖全连接层导致无法处理大尺寸的图片输入
容易过拟合，随着数据集复杂化，细粒度分类任务欠佳
网络的隐藏层数、学习率选取非常难，遇到更为简单的SVM的强劲竞争

开始实验

你可能感兴趣的:(Python高级,神经网络,人工智能,深度学习)

和李沐老师学深度学习--2.数据操作部分代码实现（学习笔记）
大家对代码有不懂地方都可以上网去查找，最好是有一定的数据分析基础比较容易理解，李沐老师课程视频链接我放在这里了大家有不懂都可以观看课程进行学习04数据操作+数据预处理【动手学深度学习v2】_哔哩哔哩_bilibili深度学习课程电子书：大家可以使用翻译插件观看书的内容Preface—DiveintoDeepLearning1.0.3documentation深度学习github项目：https:/
使用LangChain构建智能应用：从入门到实战 afTFODguAKBF langchain python
引言在当今的人工智能时代，构建智能应用程序已经成为越来越多开发者的目标。LangChain是一个强大的工具，可以帮助我们快速开发基于大型语言模型（LLM）的应用。本篇文章将带你了解如何从零开始使用LangChain，构建一个简单的LLM应用程序，并逐步探索更复杂的功能。主要内容构建简单的LLM应用使用LangChain，我们可以快速构建一个简单的LLM应用程序。接下来，我将带你一步步实现。什么是L
端侧开发详解初赛收官盛宴 | 2025高通边缘智能创新应用大赛第九场公开课来袭！阿加犀智能人工智能智能硬件
各位开发者、技术爱好者，2025高通边缘智能创新应用大赛即将迎来初赛阶段的最后一堂重磅公开课！诚邀大家于7月3日（星期四）晚8点，准时收看由瑞莎的嵌入式开发工程师张子烽（Morgan）带来的专题分享，共同探索端侧智能应用开发的创新技术路径。聚焦前沿平台掌握端侧智能开发流程本次课程将聚焦基于瑞莎DragonQ6A开发板的端侧人工智能应用开发。该开发板搭载高通跃龙™QCS6490平台（由阿加犀提供开发
目标跟踪领域经典论文解析 ♢.＊目标跟踪人工智能计算机视觉
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！目标跟踪是计算机视觉领域的一个
神经网络架构搜索 IJCAST主编进化计算神经网络架构人工智能
InternationalJournalofComplexityinAppliedScienceandTechnology，投稿网址:https://www.inderscience.com/jhome.php?jcode=ijcast,发表论文不收取任何费用，论文平均审稿25天内即可录用。1.神经网络架构搜索方法分类当前，神经网络架构搜索的方法主要可以归纳为以下三类：a.基于强化学习的NAS方法
SpringBoot生态全景图：从SpringCloud到云原生技术栈演进 fanxbl957 Web spring boot spring cloud 云原生
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot生态全景图：从S
【图像处理入门】12. 综合项目与进阶：超分辨率、医学分割与工业检测小米玄戒Andrew 图像处理：从入门到专家图像处理人工智能深度学习算法 python 计算机视觉 CV
摘要本周将聚焦三个高价值的综合项目，打通传统算法与深度学习的技术壁垒。通过图像超分辨率重建对比传统方法与深度学习方案，掌握医学图像分割的U-Net实现，设计工业缺陷检测的完整流水线。每个项目均包含原理解析、代码实现与性能优化，帮助读者从“技术应用”迈向“系统设计”。一、项目1：图像超分辨率重建（从模糊到清晰的跨越）1.技术背景与核心指标超分辨率（SR）是通过算法将低分辨率（LR）图像恢复为高分辨率
Densenet模型花卉图像分类深度学习乐园分类数据挖掘人工智能
项目源码获取方式见文章末尾！600多个深度学习项目资料，快来加入社群一起学习吧。《------往期经典推荐------》项目名称1.【基于CNN-RNN的影像报告生成】2.【卫星图像道路检测DeepLabV3Plus模型】3.【GAN模型实现二次元头像生成】4.【CNN模型实现mnist手写数字识别】5.【fasterRCNN模型实现飞机类目标检测】6.【CNN-LSTM住宅用电量预测】7.【VG
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案 mmlihaio 数据库云原生 python
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案1.引言在当今的人工智能和大数据时代，高效的向量检索已成为许多应用场景的关键需求。Tair作为阿里云开发的云原生内存数据库服务，不仅提供了丰富的数据模型和企业级能力，还引入了基于非易失性内存(NVM)存储介质的持久内存优化实例。本文将深入探讨如何利用Tair向量数据库功能，实现高性能的向量存储和检索。2.Tair向量数据库概述Ta
阿里云魔搭社区AIGC专区：中国AI创作的革命性平台 Liudef06小白阿里云 AIGC 人工智能
在生成式人工智能重塑全球数字创作版图的浪潮中，中国首个一站式AIGC开发平台——阿里云魔搭社区AIGC专区于2024年9月杭州云栖大会正式亮相。这一突破性进展不仅填补了国内全流程AI创作工具的空白，更以157款多模态开源模型和全免费GPU算力的开放姿态，为超过690万开发者提供了从模型调用到应用落地的完整生态支持。一、魔搭社区：中国AI模型生态的奠基者魔搭社区（ModelScope）作为阿里云在2
探秘阿里云Tair KVCache：大模型推理的加速引擎云资源服务商阿里云云计算人工智能
一、引言近年来，人工智能领域发展迅猛，大语言模型（LLM）不断取得突破，其应用场景也日益广泛。从智能客服到内容生成，从智能写作到智能翻译，大语言模型正在深刻地改变着我们的生活和工作方式。随着模型规模的不断扩大和推理需求的日益增长，大模型推理过程中的显存瓶颈问题逐渐凸显，成为制约其发展和应用的关键因素。在大模型推理中，KVCache技术作为一种优化手段，通过缓存历史Token的Key/Value向量
AI正在偷偷取代这10种职业，你的工作安全吗？
近年来，人工智能（AI）的飞速发展正在悄然改变我们的工作方式。从自动化客服到AI生成内容，许多传统职业正面临被取代的风险。虽然AI带来了更高的效率和便利，但也让不少人开始担忧：我的工作会被AI抢走吗？今天，我们就来盘点10种最容易被AI取代的职业，并探讨如何在这个AI时代保持竞争力。1.客服代表取代指数：★★★★★AI驱动的聊天机器人（如ChatGPT、GoogleBard）已经能够处理大部分基础
直播预告！探讨生成模型中的极简概念擦除青稞社区. 青稞Talk 人工智能图像处理
主页：http://qingkeai.online/原文：https://mp.weixin.qq.com/s/yc4whKbnVY8ho1w7rgFVGg6月16日20:00，青稞Talk第55期，新加坡国立大学博士生张扬，将直播分享《生成模型中的极简概念擦除》。分享嘉宾张扬，慕尼黑工业大学计算机专业硕士，新加坡国立大学人工智能专业博士。曾于牛津大学进行学术访问，并在微软亚洲研究院及美国运通新加
【DeepSeek实战】3、Ollama实战指南：LobeChat+多网关架构打造高可用大模型集群无心水 Ollama实战指南 LobeChat实战 DeepSeek实战 DeepSeek全栈应用开发 AI入门大模型 CSDN技术干货
一、企业级大模型集群架构全景解析在人工智能落地应用的过程中，大模型服务的高可用性、成本控制和灵活扩展能力成为企业关注的核心痛点。本方案通过LobeChat前端、AI网关层和Ollama模型集群的三层架构设计，实现了无需复杂运维即可部署的生产级大模型服务体系。该架构不仅支持负载均衡、故障转移和模型热切换等企业级特性。还通过量化技术将硬件成本降低60%以上，为中小企业提供了与商业云服务相当的性能体验。
生成式人工智能实战 | 深度卷积生成对抗网络（Deep Convolutional Generative Adversarial Network, DCGAN）盼小辉丶生成式人工智能实战150讲人工智能生成对抗网络神经网络
生成式人工智能实战|深度卷积生成对抗网络0.前言1.模型与数据集分析1.1模型分析1.2数据集介绍2.构建DCGAN生成人脸图像2.1数据处理2.2模型构建2.3模型训练0.前言深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetworks,DCGAN)是基于生成对抗网络(ConvolutionalGenerativeAdversarialNet
深度学习实战：基于嵌入模型的AI应用开发 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能深度学习 ai
深度学习实战：基于嵌入模型的AI应用开发关键词：嵌入模型（EmbeddingModel）、深度学习、向量空间、语义表示、AI应用开发、相似性搜索、迁移学习摘要：本文将带你从0到1掌握基于嵌入模型的AI应用开发全流程。我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“
2024年AI 智能助手（大模型）产品市场分析｜商派徐礼昭｜商派软件市场负责人人工智能
一、引言人工智能的浪潮不断向前推进，智能助手作为其中的重要应用，已经逐渐渗透到我们生活的各个方面。它们以其便捷性和个性化的特点，改变了我们与世界的互动方式。本报告将对AI智能助手进行全面的行业分析，包括行业概况、主要玩家、用户数据、发展要素以及未来趋势等方面，并通过具体案例分享，帮助读者深入了解这一领域的现状和未来发展潜力。二、行业概览（一）智能助手的定义和发展阶段智能助手是利用人工智能技术为用户
高通 QCS8550 大模型性能深度解析：从算力基准到场景实测的全维度 Benchmark 伊利丹~怒风 Qualcomm 人工智能 AI编程 python arm 自然语言处理
前言在人工智能技术狂飙突进的时代，大模型正以前所未有的速度重塑各行业生态，从智能客服到多模态交互，从边缘推理到端侧部署，其应用场景不断拓展。而这一切革新的背后，离不开底层硬件的强力支撑。高通QCS8550作为面向下一代智能设备的旗舰级计算平台，凭借高达48TOPS的AI算力与先进的第七代高通AI引擎，在大模型性能表现上极具竞争力。其异构多核架构不仅能高效处理复杂的神经网络计算，还通过软硬件协同优化
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
卷积神经网络（Convolutional Neural Network, CNN）不想秃头的程序神经网络语音识别人工智能深度学习网络卷积神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专门用于处理图像、视频等网格数据的深度学习模型。它通过卷积层自动提取数据的特征，并利用空间共享权重和池化层减少参数量和计算复杂度，成为计算机视觉领域的核心技术。以下是CNN的详细介绍：一、核心思想CNN的核心目标是从图像中自动学习层次化特征，并通过空间共享权重和平移不变性减少参数量和计算成本。其关键组件包括：卷积层（
ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
P25：LSTM实现糖尿病探索与预测 ?Agony lstm 人工智能 rnn
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、相关技术1.LSTM基本概念LSTM（长短期记忆网络）是RNN（循环神经网络）的一种变体，它通过引入特殊的结构来解决传统RNN中的梯度消失和梯度爆炸问题，特别适合处理序列数据。结构组成：遗忘门：决定丢弃哪些信息，通过sigmoid函数输出0-1之间的值，表示保留或遗忘的程度。输入门：决定更新哪些信息，同样通过sigmoid函数控制更新
Python训练营打卡——DAY16（2025.5.5） cosine2025 Python训练营打卡 python 开发语言机器学习
目录一、NumPy数组基础笔记1.理解数组的维度(Dimensions)2.NumPy数组与深度学习Tensor的关系3.一维数组(1DArray)4.二维数组(2DArray)5.数组的创建5.1数组的简单创建5.2数组的随机化创建5.3数组的遍历5.4数组的运算6.数组的索引6.1一维数组索引6.2二维数组索引6.3三维数组索引二、SHAP值的深入理解三、总结1.NumPy数组基础总结2.SH
[Python]-基础篇1- 从零开始的Python入门指南踏雪无痕老爷子 Python python 开发语言
无论你是尚未接触编程的新手，还是想从其他语言转向Python的开发者，这篇文章都是你的入门课。一、Python是什么？Python是一种解释型、高级、通用型编程语言，以简洁明了、简单易用着称。它可以应用于网站开发、自动化脚本、数据分析、人工智能、系统操作等多种场景。二、如何安装Python步骤：访问Python官方网站选择目前最新的Python3.x版本下载Windows用户请务必勾选“AddPy
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
人脸识别算法赋能园区无人超市安防升级智驱力人工智能算法人工智能边缘计算人脸识别智慧园区智慧工地智慧煤矿
人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面
潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
BI+AI实战：我们如何用3秒完成车企供应链推演 qq_43696218 人工智能
一、BI+AI引领财务分析新纪元在财务数据分析领域，奥威BI+AI正以革命性的姿态颠覆传统。当金蝶、用友等工具仍深陷报表泥潭时，奥威BI+AI通过深度融合商业智能（BI）与人工智能（AI），实现了从滞后报表到实时洞察的飞跃。这不仅极大地提升了财务分析的效率，更为企业的战略决策提供了前所未有的精准支持。二、BI+AI的核心技术优势‌实时动态分析‌o奥威BI+AI摒弃了静态数据集，依托原始科目余额表实
DeepSeek-V3 通俗详解：从诞生到优势，以及与 GPT-4o 的对比码事漫谈 AI ai
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站1.DeepSeek的前世今生1.1什么是DeepSeek？DeepSeek是一家专注于人工智能技术研发的公司，致力于打造高性能、低成本的AI模型。它的目标是让AI技术更加普惠，让更多人能够用上强大的AI工具。1.2DeepSeek-V3的诞生DeepSeek-V3是DeepSeek公司推出的最新一代A
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

第02章 前馈神经网络

序言