kodoshinichi

【PyTorch】深度神经网络及训练

深度神经网络及训练

本篇博文是上一篇博文【PyTorch】深度学习基础：神经网络的后续，上一篇主要是讨论了传统神经网络范畴上的内容。

本篇博文主要介绍深度神经网络、梯度下降算法、优化器及正则化等训练优化技巧。

深度神经网络

1. 从传统神经网络到深度神经网络

①标志：2006年，Geoffrey Hinton提出了一种名叫“深度信念网络”的神经网络，可以使用“贪婪逐层预训练”的策略有效地进行神经网络的训练。

这些方法在其他神经网络上也得到了了很好的应用，把这些新兴神经网络统称为深度学习，因为这些神经网络的模型可以含有多个隐含层。

深度学习主要包括深度神经网络、卷积神经网络、循环神经网络、LSTM及强化学习。

②背景：

神经网络很难训练，参数调试需要很多技巧
诸如SVM等其他机器学习方法取得了长足进步

以上导致了神经网络研究热潮的衰退，从而促进了深度神经网络的兴起。

③深度学习解决了神经网络的训练问题：

硬件设备进步，提高了数值和矩阵运算的速度
标注的数据集的规模增大，避免因为参数过多训练不充分的问题
新型神经网络的提出
优化算法的进步

2. 神经网络为什么难以训练？

神经网络在层数较多的时候训练很容易出现问题，除了计算资源不足以及训练数据规模较小的问题以外，还有两大重点——

梯度消失和梯度爆炸。

（1）梯度消失

根据反向传播原理，接近输出层的隐含层的权值更新相对正常；在反方向上，权值更新越来越不明显，以此类推，接近输入层的隐含层的权值更新几乎消失——即使经过了很多次训练，仍然接近初始化的权值。

那么靠近输入层的隐含层相当于只是对输入层做了一个同一映射，在神经网络中不起任何作用。

以下做一个简要的推导来论证这一问题，假设神经网络中每一层只有一个神经元，且每一层的输出y_i = σ(z_i) = σ(w_ix_i+b_i)，σ表示使用的激活函数。
p.s. 且要注意y_i = x_i+1，上一层的输出是下一层输入的值。

那么根据链式法则来推导最终输出关于第一层网络偏置项b的偏导：

其中σ激活函数我们选择的是sigmoid函数

sigmoid导数曲线如下所示

如图所示，导数的最大值为0.25；
一般来说，对神经网络权值的初始化值通常都小于1，而|σ’(x)|<1，根据上面链式求导的连乘效果，越多的小于1的小数相乘结果只会越来越小。

神经网络的层数越多，连乘式子就会越多，求导结果就会越小，所以梯度消失的情况就会出现。

（2）梯度爆炸
梯度爆炸出现的原因与梯度消失大致相同，只不过它是因为选择的激活函数|σ’(x)|>1，随着神经网络的层数增多，连乘式的结果也会越来越大，从而在反向传播中出现梯度爆炸的情况。

总而言之，梯度消失与梯度爆炸都是因为网络层数太深，权值更新不稳定造成的，本质上是因为梯度反向传播中的连乘效应。

（3）改进策略
讨论神经网络的优化思路，有以下两个角度：

对损失函数的优化问题——梯度下降
提高模型的泛化能力——模型正则化方法。

梯度下降

深度学习训练算法都是以梯度下降算法及其改进算法为核心的。

梯度。函数的一个向量，指向函数值上升最快的方法。

1. 随机梯度下降

（1）批量梯度下降

每次梯度下降使用整个训练集进行损失计算和梯度求解。

每次更新都朝着正确的方法进行，保证收敛于极值点
收敛速度快，迭代次数少
每次都需要遍历整个数据集，计算量大，消耗内存多，不利于分布式训练

（2）随机梯度下降

随机选择一个样本来更新模型参数

每次学习所需计算量小，速度快
每次更新不一定朝着梯度下降最快的方向进行，收敛速度慢，需要更多的迭代次数才可能收敛

2. Mini-Batch梯度下降

小批量梯度下降（Mini-Batch），是介于批量梯度下降和随机梯度下降算法之间的一种选择，被深度学习广泛采用。

小批量梯度下降算法使用一个以上但又不是全部的训练样本，每次更新从训练集中随机选择m(m
p.s. 一般而言，每次更新选择{50,256}个样本进行学习，但是也要根据具体问题而选择，实践中可以进行多次试验，选择一个更新速度与更新次数都较为适合的样本数。

（1）小批量梯度下降算法需要样本随机抽取

因为计算梯度时需要样本满足相互独立的条件，现实中数据自然排列，前后样本具有一定的关联性。
因此需要把样本顺序随机打乱，以便满足样本独立性的要求。

（2）mini-batch是对批量梯度下降和随机梯度下降的综合

①mini-batch在更新速度和更新次数之间取得了一个平衡。

②相对于随机梯度下降，mini-batch降低了收敛扰动性，降低了参数更新的方差，使得更新更加稳定。

③相对于批量梯度下降，提高了每次学习的速度，不用担心内存瓶颈问题。

（3）mini-batch方法的实现

批量梯度下降和随机梯度下降算法都可以看做是Mini-Batch梯度下降的特例

当mini-batch中的size取为1，则是随机梯度下降
当mini-batch中的size取为整个数据集的大小，则是批量梯度下降

mini-batch方法是作为数据加载函数torch.utils.data.DataLoader中的一个系数batch_size出现的。

注意：DataLoader函数只涉及数据集的划分，不涉及梯度下降算法。

class torch.utils.data.DataLoader(dataset,batch_size = 1,shuffle = False,
sampler = None,batch_sampler = None,num_workers = 0,collate_fn = <function default_collate>,pin_memory = False,drop_last = False)

#建立一个具体实例
train_loader = torch.utils.data.DataLoader(dataset = train_dataset,batch_size = batch_size,shuffle = True)

在上述函数中，实现数据加载功能，根据Mini-Batch方法和采样机制，对数据集进行划分，并在数据集上提供单进程或多进程迭代器。

datasetDataset的类型，指出要加载的数据集
batch_size指出每个batch需要加载多少样本，默认值为1
shuffle指出是否在每个epoch都需要对数据进行打乱
sampler从数据集中采样样本的策略
batch_sampler与sampler相似，只不过一次会返回一批指标
num_workers加载数据时所使用的子进程数目。默认值为0，表示在主进程中加载数据
collate_fn定义合并样本列表以形成一个mini_batch
pin_memory若设置为true，则数据加载器会将张量复制到CUDA固定内存中，然后返回它们。
drop_last若设置为true，最后一个不完整的batch将会被丢弃。

优化器

在上一部分，我们讲述了梯度下降的概念和方法，针对梯度下降我们可以继续进行优化。
在PyTorch中，有一个优化器（Optimizer）的概念，具体的包为torch.optim

从加速梯度下降的角度进行优化：Momentum

从改进学习率的角度进行优化：RMSProp,AdaGrad和Adam。

1. SGD
在深度学习和PyTorch实践中，SGD就是所谓的mini-bacth梯度下降算法。

“随机梯度下降方法及其变种是深度学习中应用最多的优化方法”

2. Momentum

下面这篇博文图文并茂，言简意赅地介绍了动量法的含义以及其公式推导，读者可以参考。
《深度学习优化函数详解（4）-- momentum 动量法》
p.s. 下文中有关图片或推导过程部分来自这篇博文。

考虑SGD（mini-batch的随机梯度下降）的实际过程，其实就像是一辆匀速行驶的小车，每到一个关键节点，找到当前最优的行驶方向后继续匀速向下行驶。

但是很多人喜欢把梯度下降的过程比喻成一个小球从山顶往山谷滚动，因为小球具有了速度和加速度，所以在滚动的过程中，小球的速度会越来越快，加速冲向山谷。

用数学来模拟这段物理过程，如下：

即——算法在更新模型参数时，对于那些当前的梯度方向与上一次梯度方向相同的参数进行加强（也就是这些方向上更快）；对于那些当前的梯度方向与上一次梯度方向不同的参数进行削减（也就是在这些方向进行减缓）。

正因为此，动量（Momentum）方法可以获得更快的收敛速度与减少扰动。

在PyTorch中，通过调用torch.optim.SGD来实现动量方法，这里要注意SGD和动量方法的调用是同一个函数，依靠参数momentum进行区分。

class torch.optim.SGD(params,lr = <objectobject>,momentum = 0,
dampening = 0,weight_decay = 0,nesterov = False)

params：用于优化的迭代次数
lr：学习率，默认为1e^-3
momentum：动量因子，用于动量梯度下降算法，默认为0
dampening：抑制因子，用于动量算法，默认为0
weight_decay：权值衰减系数，L₂系数，默认为0
nesterov：nesterov动量方法使能

3. AdaGrad

学习率是SGD中一个关键的但是又难以设置的参数，对于神经网络模型有较大影响。
因此——如何自适应地设置模型参数的学习率是深度学习的研究方向之一。

p.s.可参考博文《深度学习优化函数详解（6）-- adagrad》

AdaGrad算法，根据每个参数的所有梯度历史平方值总和的平方根，成反比地缩放参数，以此独立地调整所有模型参数的学习率。

AdaGrad算法只在某些深度学习模型上表现不错，从训练开始时积累的梯度平方会导致有效学习率过早和过量减小。

从而：损失最大偏导的参数相应地有一个快速下降的学习率，损失较小偏导的参数在学习率上的下降幅度相对较小。

在PyTorch中通过调用torch.optim.Adgrad函数使用AdaGrad方法

class torch.optim.Adagrad(params,lr = 0.01,lr_decay = 0,
weight_decay = 0)

params：用于优化的迭代参数
lr：学习率，默认为1e^-3
lr_decay：学习率衰减因子，默认为0
weight_decay：权值衰减系数，L₂参数，默认为0

4. RMSProp

AdaGrad在凸函数中可以快速收敛，但实际神经网络的损失函数难以满足这个条件。

Hilton将AdaGrad中的梯度平方计算方式修改成指数衰减平均，从而产生了RMSProp方法。

该方法因为使用了指数衰减平均，丢弃了遥远过去的历史，可以避免学习率下降过快的问题。目前其实深度学习从业者常采用的优化方式之一。

在PyTorch中，通过调用torch.optim.RMSProp函数来实现RMSProp方法

class torch.optim.RMSProp(params,lr = 0.1,alpha = 0.99,eps = 1e-08,
weight_decay = 0,momentum = 0,centered = False)

params：用于优化的迭代参数
lr：学习率，默认为1e^-3
momentum：动量因子，默认为0
alpha：平滑常量，默认为0.99
eps：添加到分母的因子，用于改善分子稳定性
centered：如果为真，则计算中心化的RMSProp，梯度根据它的方差进行归一化
weight_decay：权值衰减系数，L₂系数，默认为0

5. Adam

参考解答https://www.zhihu.com/question/323747423/answer/790457991

Adam可以视作是动量方法和RMSProp方法的结合版：
在Adam中，动量并入在梯度一阶矩的估计中；
而且Adam中还包括偏置修正，修正从原点初始化的一阶矩和二阶矩的估计。

经过修正后的偏置进行矫正后，每一次迭代学习率都会有一个确定的范围，从而使得参数比较平稳。

在PyTorch中，Adam方法调用torch.optim.Adam

class torch.optim.Adam(params,lr = 0.001,betas = (0.9,0.999),
eps = 1e-08,weight_decay = 0)

上述各参数含义与之前相同，不再赘述，其中betas是用于计算梯度平均和平方的参数，注意其默认值。

6. 选择正确的优化算法

（1）具有学习率自适应的SGD算法

以上列举、讲述的优化算法（SGD,具有动量的SGD，RMSProp,AdaDelta,Adam）是很流行并且使用很高的算法。

这些具有学习率自适应的算法在实践中的使用效果很好：

算法健壮

如果数据特征很稀疏，那么使用学习率自适应的算法无需在迭代过程中对学习速率进行人工调整

具有更快的收敛速度且可以更好地应对一个更深或者更复杂的网络

（2）训练小trick

为了保证学习过程是无偏的，每次迭代中都要随机打乱训练集中的样本
在验证集上如果连续的多次迭代过程中损失函数不再显著地降低，应该提前结束训练
对梯度增加随机噪声可以增加模型的健壮性，这样会有更高的可能性跳过局部极值点并去寻找一个更好的极值点，适用于深层次的网络

（3）梯度下降与优化器的梳理

7. 优化器的使用实例

p.s. 代码是照着参考书籍自己敲了一遍，微微改动了一点印刷错误和版本区别。
笔者也是初学PyTorch，期望通过敲代码的方式熟悉这个模块。

'''
不同优化器的使用示例
'''
import torch
import torch.utils.data as Data
import torch.nn.functional as F
from torch.autograd import Variable
import matplotlib.pyplot as plt
import numpy as np

torch.manual_seed(1) 
LR = 0.01
BATCH_SIZE = 20
EPOCH = 10

#生成数据
x = torch.unsqueeze(torch.linspace(-1,1,1500),dim = 1)
y = x.pow(3) + 0.1 * torch.normal(torch.zeros(x.size()))

#数据绘图
plt.scatter(x.numpy(),y.numpy())
plt.show()

#把数据转换为torch类型
torch_dataset = Data.TensorDataset(x, y)
loader = Data.DataLoader(dataset = torch_dataset,batch_size = BATCH_SIZE,shuffle = True,num_workers = 2)

#定义模型
class Net(torch.nn.Module):
    def __init__(self):
        super(Net,self).__init__()
        self.hidden = torch.nn.Linear(1,20)#隐含层
        self.predict = torch.nn.Linear(20,1)#输出层
        
    def forward(self,x):
        #pdb.set_trace()
        x = F.relu(self.hidden(x))#定义隐含层的激活函数
        x = self.predict(x)#线性输出
        return x
    
#不同的网络模型
net_SGD = Net()
net_Momentum = Net()
net_RMSProp = Net()
net_AdaGrad = Net()
net_Adam = Net()
nets = [net_SGD,net_Momentum,net_RMSProp,net_AdaGrad,net_Adam]

#不同的优化器
opt_SGD = torch.optim.SGD(net_SGD.parameters(),lr = LR)
opt_Momentum = torch.optim.SGD(net_Momentum.parameters(),lr = LR,momentum = 0.8)
opt_AdaGrad = torch.optim.Adagrad(net_AdaGrad.parameters(),lr = LR)
opt_RMSProp = torch.optim.RMSprop(net_RMSProp.parameters(),lr = LR,alpha = 0.9)
opt_Adam = torch.optim.Adam(net_Adam.parameters(),lr = LR,betas = (0.9,0.99))
optimizers = [opt_SGD ,opt_Momentum,opt_AdaGrad,opt_RMSProp,opt_Adam]

loss_func = torch.nn.MSELoss()
losses_his = [[],[],[],[],[]]#用于记录loss用

#模型训练
for epoch in range(EPOCH):
    print('Epoch: ',epoch)
    for step,(batch_x,batch_y) in enumerate(loader):
        b_x = Variable(batch_x)
        b_y = Variable(batch_y)
        
        for net,opt,l_his in zip(nets,optimizers,losses_his):
            output = net(b_x)#得到前向计算的结果
            loss = loss_func(output,b_y)#计算损失值
            opt.zero_grad()#梯度清零
            loss.backward()#后向算法，计算梯度值
            opt.step()#运用梯度
            l_his.append(loss.data.item())#记录loss值
            

labels = ['SGD','Momentum','AdaGrad','RMSProp','Adam']
for i,l_his in enumerate(losses_his):
    plt.plot(l_his,label = labels[i])
plt.legend(loc = 'best')
plt.xlabel('Steps')
plt.ylabel('Loss')
plt.ylim((0,0.2))
plt.show()

数据集可视化：

不同优化器收敛可视化比较：

正则化

深度神经网络在训练中主要有两个方面的思路的优化：
其一就是从梯度下降算法的角度，关于这一点我们前面介绍了很多优化器
其二就是提高模型的泛化能力，可以通过正则化措施来实现。

其中，泛化能力就是模型既能在训练集上表现良好，又能在测试集上表现良好

1. 欠拟合与过拟合

欠拟合：模型训练不足，在训练集上的loss值已经较大。
过拟合：模型将数据的扰动也学习进去了，在训练集上表现很优越但是在验证集上表现较差。

正则化就是在欠拟合和过拟合问题中保持平衡的方法之一。

正则化：在目标函数中引入额外的信息来惩罚过大的权重参数，建立一个新的优化函数J(θ)+λR(W)

J(θ)：用于训练神经网络模型在训练数据上表现是否良好的目标函数
λR(W)：正则化项
λ：正则化系数，λ∈[0,∞]

p.s. 在深度学习中，参数包括每一层的权重和偏置项，但是通常只对权重项进行正则化惩罚，而不对偏置项进行处理。

2. 参数规范惩罚

（1）L₂参数正则化
L₂又称权值衰减，只针对权值w，不针对偏置项b。

正则化定义：
$R(w) = (1/2)v·w·v^2 = (1/2)Σw_j^2$

正则化作用：
可以使得权值w变小，这也是“权值衰减”的名字由来。

过拟合的时候，在某些小区间内，函数值的变化很剧烈，这就说明在小区间内函数有较大的导数值。
通过减小权值系数的方式，可以减小小区间内函数导数值的大小，从而使得函数曲线趋于平滑。
在某种程度上可以减少过拟合的情况。

（2）L₁参数正则化
正则化定义：
$R(w) = v·w·v^1 = Σw_j^1$
正则化作用：
产生更加稀疏的解，稀疏性可用于特征选择机制。

（3）PyTorch实现
只对L₂参数正则化进行了实现，没有实现L₁正则化。
在torch.optim中可调用的优化器函数中，weight_decay参数就是L₂正则化。

3. Batch Normalization(批标准化)

关于BN层的原理，通过以下博文进行了大致了解，有些细节依然存疑，但这不是本篇博文的重点，留待下次笔者再详细探究。
《深度学习（二十九）Batch Normalization 学习笔记》

一言以蔽之，BN层是在层与层之间新加入的一层网络结构，利用隐含层输出结果的均值和方差来标准化每一层特征的分布，以解决在模型训练期间数据分布会发生变化的问题。

（1）神经网络训练过程中的问题：

需要我们人为选择参数，比如学习率、参数初始化、权重衰减系数、Drop out比例等
数据分布影响模型的泛化能力

在神经网络训练开始前，都要对输入数据做一个归一化处理；
原因在于神经网络学习过程本质就是为了学习数据分布，一旦训练数据与测试数据的分布不同，那么网络的泛化能力也大大降低。

数据分布影响模型训练速度

①一旦每批训练数据的分布各不相同(batch 梯度下降)，那么网络就要在每次迭代都去学习适应不同的分布，这样将会大大降低网络的训练速度

②只要网络的前面几层发生微小的改变，那么后面几层就会被累积放大下去。
一旦网络某一层的输入数据的分布发生改变，那么这一层网络就需要去适应学习这个新的数据分布，所以如果训练过程中，训练数据的分布一直在发生变化，那么将会影响网络的训练速度。

（2）BN层引入的优势

使得模型训练收敛的速度更快
提高模型泛化能力
使得模型隐层的输出特征分布更加稳定，利于模型的学习

（3）BN算法概述

①神经元的归一化与重构

先求均值和标准差，每一个原始输出进行归一化操作。

再利用γ和β系数对归一化后的值进行重构。
【原因】
如果是仅仅使用上面的归一化公式，对网络某一层A的输出数据做归一化，然后送入网络下一层B，这样是会影响到本层网络A所学习到的特征的。

相当于把一个任意可能的分布强行拉成标准正态分布。
于是我们想到再进行变换重构：

②BN层+激活函数层的前向传播

BN层通常放在激活函数层之前。

（4）PyTorch实现
在PyTorch中，有相应的类对BN层进行封装。

class torch.nn.BatchNorm1d(num_features,eps = 1e-05,momentum = 0.1,affine = True)
class torch.nn.BatchNorm2d(num_features,eps = 1e-05,momentum = 0.1,affine = True)
class torch.nn.BatchNorm3d(num_features,eps = 1e-05,momentum = 0.1,affine = True)

以上类别分别针对小批量的2d,3d输入进行批标准化。

num_features:来自期望输入的特征数
eps:为保证数值稳定性，给分母加上的数值
momentum:动态均值和动态方差所使用的动量
affine:布尔值，为真时说明给该层添加可学习的仿射变换参数

4. Dropout

（1）思想
Dropout是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃，这样可以让模型更加健壮——不会太依赖于局部的特征（局部的特征可能会被丢弃）。

因为是随机丢弃，所以每一个小批量都在训练不同的网格。

Dropout使得一个全连接的网络结构变成稀疏连接的网络结构。

（2）步骤
在实践中，通常把神经元的输出设置为0来“关闭”神经元。

建立一个维度与本层神经元相同的矩阵D
根据概率p将D中的元素设置为0

设置为0的神经元表示神经元失效，不再参与后续计算

将本层激活函数的输出与D相乘作为新的输出值
新的输出再除以p，保证训练和测试满足同一分布

（3）PyTorch实现

class torch.nn.Dropout(p = 0.5,inplace = False)
class torch.nn.Dropout2d(p = 0.5,inplace = False)

p：将元素置为0的概率
inplace：若设置为True，则直接对input进行处理。

你可能感兴趣的:(深度学习,#,PyTorch,神经网络,人工智能,深度学习,pytorch,梯度下降)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
神经网络-损失函数红米煮粥神经网络人工智能深度学习
文章目录一、回归问题的损失函数1.均方误差（MeanSquaredError,MSE）2.平均绝对误差（MeanAbsoluteError,MAE）二、分类问题的损失函数1.0-1损失函数（Zero-OneLossFunction）2.交叉熵损失（Cross-EntropyLoss）3.合页损失（HingeLoss）三、总结在神经网络中，损失函数（LossFunction）扮演着至关重要的角色，它
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
BP神经网络的传递函数大胜归来19 MATLAB
BP网络一般都是用三层的，四层及以上的都比较少用；传输函数的选择，这个怎么说，假设你想预测的结果是几个固定值，如1,0等，满足某个条件输出1，不满足则0的话，首先想到的是hardlim函数，阈值型的，当然也可以考虑其他的；然后，假如网络是用来表达某种线性关系时，用purelin---线性传输函数；若是非线性关系的话，用别的非线性传递函数，多层网络时，每层不一定要用相同的传递函数，可以是三种配合，可
神经网络传递函数sigmoid,神经网络传递函数作用快乐的小荣荣神经网络机器学习深度学习人工智能
神经网络传递函数选取不同会有特别大差别嘛？只是最后一层，但前面层是非线性，那么可能存在区别不大的情况。线性函数f(a*input)=af(input),一般来说，input为向量，最简化情况下，可以假设input的各个维度，a1=a2=a3。。。意味着你线性层只是简单的对输入做了scale~而神经网络能起作用的原因，在于通过足够复杂的非线性函数，来模拟任何的分布。所以，神经网络必须要用非线性函数。
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
【安装环境】配置MMTracking环境 xuanyu22 安装环境机器学习神经网络深度学习 python
版本v0.14.0安装torchnumpy的版本不能太高，否则后面安装时会发生冲突。先安装numpy，因为pytorch的安装会自动配置高版本numpy。condainstallnumpy=1.21.5mmtracking支持的torch版本有限，需要找到合适的condainstallpytorch==1.11.0torchvision==0.12.0cudatoolkit=10.2-cpytor
Python和R均方根误差平均绝对误差算法模型亚图跨际 Python 交叉知识 R 回归模型误差指标归一化均方根误差生态状态指标神经网络成本误差气体排放气候模型多项式拟合
要点回归模型误差评估指标归一化均方根误差生态状态指标神经网络成本误差计算气体排放气候算法模型Python误差指标均方根误差和平均绝对误差均方根偏差或均方根误差是两个密切相关且经常使用的度量值之一，用于衡量真实值或预测值与观测值或估计值之间的差异。估计器θ^\hat{\theta}θ^相对于估计参数θ\thetaθ的RMSD定义为均方误差的平方根：RMSD⁡(θ^)=MSE⁡(θ^)=E((θ^−θ
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。