守望者tt

深度模型中的优化

1、学习与纯优化有什么不同

2、神经网络优化中的挑战

3、基本算法

4、自适应学习率算法

5 、优化策略与元算法

学习与纯优化差别

1、机器学习算法的目标是降低泛化误差，即 J∗(θ)=E(x,y)→pdataL(f(x;η),y) ，但事实上pdata我们不知道，我们只知道训练集，因此机器学习问题转化为最优化训练集上的期望损失，即利用训练集上的分布来代替 p^ (x,y)来替代真实的 p(x,y) ,即最小化经验风险 J(θ)=E(x,y)→p^dataL(f(x;η),y)=1m∑mi=1L(f(xi;η),yi)

2、现代优化方法是基于梯度下降的，有些经验损失函数，比如0-1损失，没有有效的导数，因此，我们通常会优化代理损失函数(surrogate loss function)，比如交叉熵损失函数。

3、机器学习算法中的优化算法在计算参数的每一次更新时通常仅使用代价函数中一部分项来估计代价函数的期望值，在整个数据集的每个样本上的损失来评估模型，代价非常大，实践中，可以从数据集中随机采样少量的样本，然后计算这些样本的平均值。

(1)n个样本均值的标准差为 σ/n−−√ ,基于100个样本和10000个样本，后者需要的计算量是前者的100倍，但是却只降低了10倍的标准差。因此，小批量算法会收敛的更快。

(2)一个原因是训练集中大量样本都对梯度做出相似的贡献

小批量的大小由以下因素决定：

(1)、更大的批量会更精确梯度计算，但是回报是现行的

(2)、极小批量难以充分利用多核架构，更小批量处理不会减少计算时间

(3)、所有样本参与训练，对内存要求过高，硬件不支持

(4)、通常采用2的幂数来作为批量大小可以获得更少的运行时间，一般选32-256

(5)、小批量算法在学习过程中加入了噪声，因此，会有一定的正则化效果。

小批量要求随机抽取，因此常常需要打乱样本顺序

神经网络优化中的挑战

传统机器学习会小心设计目标函数和约束，以确保优化问题是凸的，但训练神经网络时，一定会遇到非凸情况。

1、局部极小点

2、高原、鞍点和平坦区域：由于神经网络参数维度非常高，局部极小点出现的机会非常小，鞍点则更常见，鞍点附近的梯度非常小，但实验中梯度下降似乎可以逃离鞍点。除了鞍点和极小点，也可能存在高原、平坦区域，此时梯度和Hessian矩阵都是零，这是所有优化问题的主要问题。

3、梯度爆炸：训练非常深的神经网络或循环神经网络时，会出现像悬崖一样的斜率较大的区域，这是由于几个较大的权重相乘 导致的，遇到斜率较大的悬崖结构是，梯度更新会很大程度改变参数值，我们可以采用启发式的梯度截断 来避免，传统梯度下降至说明无限小区域内的最佳方向，但没有说明最佳步长，当梯度下降提议更新很大一步时，梯度截断会干涉以减小步长，循环神经网络中非常常见。

4、长期依赖 ：当计算图变得极深时，由于变深的结构使得模型丧失了学习到先前信息的能力，让优化变得及其困难，因为循环神经网络要在很长时间序列的各个时刻重复应用相同操作来构建非常深的计算图，并且模型参数共享，问题会更严重。例如，假设某个计算图中包含一条反复与矩阵W相乘的路径，经过t步后，相当于乘以 Wt ,假设W可分解为 W=Vdiag(λ)V−1 ,则 Wt=Vdiag(λt)V−1 ,当t比较大时， λi 大于1，会发生梯度爆炸(exploding gradient) ， λi 小于1，则会出现梯度消失(vanishing gradient) 。梯度消失会使得我们难以知道朝那个方向移动能改进代价函数，而梯度爆炸会使得学习不稳定。 xTWt 随着t的增加，最终会丢失点x中的有效信息（稳定状态只与W有关）

前馈神经网络中即使非常深的网络，也能很大程度上有效避免梯度消失于梯度爆炸的问题。

基本算法

随机梯度下降 (SGD)：基本训练方法，超参数：学习率

动量 (momentum)：动量算法主要有两个作用：

1、解决随机梯度下降算法梯度的高方差问题，使摆动不至于太剧烈：增加动量项，可以近似认为增加了梯度的采样的样本数(最近时间的梯度会有比较大的权重)，根据 σ/n−−√ 可知,方差减小

2、加大了步长，提高了收敛速度：每一次梯度都包含正确的梯度方向和方差引起的摆动，增加动量，相当于将之前多个梯度叠加，增加了共同方向(期望梯度方向)，因此，相等与增大了步长。

具体操作如下:

on iteration t:

compute dW,db on the current mini-batch

vdw=βvdw+(1−β)dWt

vdb=βvdb+(1−β)dbt

Wt+1=Wt−αvdW

bt+1=bt−αvdb

python 实现

1、初始化V
def initialize_velocity(parameters):
“””
Initializes the velocity as a python dictionary with:
- keys: “dW1”, “db1”, …, “dWL”, “dbL”
- values: numpy arrays of zeros of the same shape as the corresponding gradients/parameters.
Arguments:
parameters – python dictionary containing your parameters.
parameters[‘W’ + str(l)] = Wl
parameters[‘b’ + str(l)] = bl

Returns:
v -- python dictionary containing the current velocity.
                v['dW' + str(l)] = velocity of dWl
                v['db' + str(l)] = velocity of dbl
"""

L = len(parameters) // 2 # number of layers in the neural networks
v = {}

# Initialize velocity
for l in range(L):
    ### START CODE HERE ### (approx. 2 lines)
    v["dW" + str(l+1)] = np.zeros_like(parameters["W" + str(l+1)])
    v["db" + str(l+1)] = np.zeros_like(parameters["b" + str(l+1)])
    ### END CODE HERE ###

return v

2、更新权值

def update_parameters_with_momentum(parameters, grads, v, beta, learning_rate):
"""
Update parameters using Momentum

Arguments:
parameters -- python dictionary containing your parameters:
                parameters['W' + str(l)] = Wl
                parameters['b' + str(l)] = bl
grads -- python dictionary containing your gradients for each parameters:
                grads['dW' + str(l)] = dWl
                grads['db' + str(l)] = dbl
v -- python dictionary containing the current velocity:
                v['dW' + str(l)] = ...
                v['db' + str(l)] = ...
beta -- the momentum hyperparameter, scalar
learning_rate -- the learning rate, scalar

Returns:
parameters -- python dictionary containing your updated parameters 
v -- python dictionary containing your updated velocities
"""

L = len(parameters) // 2 # number of layers in the neural networks

# Momentum update for each parameter
for l in range(L):

    ### START CODE HERE ### (approx. 4 lines)
    # compute velocities
    v["dW" + str(l+1)] = beta *v["dW" + str(l+1)] +(1-beta)*grads["dW" + str(l+1)]
    v["db" + str(l+1)] = beta *v["db" + str(l+1)] +(1-beta)*grads["db" + str(l+1)]
    # update parameters
    parameters["W" + str(l+1)] = parameters["W" + str(l+1)] - learning_rate * v["dW" + str(l+1)]
    parameters["b" + str(l+1)] = parameters["b" + str(l+1)] - learning_rate * v["db" + str(l+1)]
    ### END CODE HERE ###

return parameters, v

超参数： α和β ， β 一般取0.9，0.99

自适应学习率算法

学习率是神经网络中难以设置的超参数之一，对模型的性能有显著的影响，因此需要自适应的学习率算法，更好的学习率参数一方面可以加速收敛，一方面可以减小训练误差，本文主要介绍：AdaGrad 、RMSProp、Adam

AdaGrad : Wt+1=Wt−ηt+1√1t+1∑ti=0(gi)2√dWt=Wt−η∑ti=0(gi)2√dWt （求和和开根号都是元素级别的）

AdaGrad 自适应的为每个参数提供自适应的权重，如果某个梯度历史积累具有较大的梯度（调整已经比较大），那么给一个小的学习率（除以一个更大的值），相反，如果某个梯度历史积累相对较小（调整不是很大），则给比较大的学习率，净效果是在较为平缓的方向取得比较大的进步,有助于逃离高原平台。但是从训练开始积累平方和可能会导致有效学习率过早过过量的减小。

RMSProp

RMSProp 修改了AdaGrad梯度累加的方式，采用指数加权移动平均（丢弃时间过久的历史），多了一个超参数 β ,用以控制移动平均的长度范围。

on iteration t:

compute dW,db on the current mini-batch

Sdw=βSdw+(1−β)(dWt)2

Sdb=βSdb+(1−β)(dbt)2

Wt+1=Wt−αdWtSdw+ϵ√

bt+1=Wt−αdbtSdb+ϵ√

Adam

Adam可以认为是将动量算法和RMSProp结合起来使用,将动量替换RMSProp中的梯度，同时Adam对动量和指数加权均分都做了偏差修正，因此更加鲁棒，超参数 β1 (momentum) β2 (RMSProp)。

on iteration t:

compute dW,db on the current mini-batch

vdw=β1vdw+(1−β1)dWt

vdb=β1vdb+(1−β1)dbt

vcorrectdw=vdw/(1−βt1)

vcorrectdb=vdb/(1−βt1)

Sdw=β2Sdw+(1−β2)(dWt)2

Sdb=β2Sdb+(1−β2)(dbt)2

Scorrectdw=Sdw/(1−βt2)

Scorrectdb=Sdb/(1−βt2)

Wt+1=Wt−αvcorrectdwScdworrect+ϵ√

bt+1=Wt−αvcorrectdbScorrectdb+ϵ√

python 实现

def initialize_adam(parameters) :
"""
Initializes v and s as two python dictionaries with:
            - keys: "dW1", "db1", ..., "dWL", "dbL" 
            - values: numpy arrays of zeros of the same shape as the corresponding gradients/parameters.

Arguments:
parameters -- python dictionary containing your parameters.
                parameters["W" + str(l)] = Wl
                parameters["b" + str(l)] = bl

Returns: 
v -- python dictionary that will contain the exponentially weighted average of the gradient.
                v["dW" + str(l)] = ...
                v["db" + str(l)] = ...
s -- python dictionary that will contain the exponentially weighted average of the squared gradient.
                s["dW" + str(l)] = ...
                s["db" + str(l)] = ...

"""

L = len(parameters) // 2 # number of layers in the neural networks
v = {}
s = {}

# Initialize v, s. Input: "parameters". Outputs: "v, s".
for l in range(L):
### START CODE HERE ### (approx. 4 lines)
    v["dW" + str(l+1)] = np.zeros_like(parameters['W' + str(l+1)])
    v["db" + str(l+1)] = np.zeros_like(parameters['b' + str(l+1)])
    s["dW" + str(l+1)] = np.zeros_like(parameters['W' + str(l+1)])
    s["db" + str(l+1)] = np.zeros_like(parameters['b' + str(l+1)])
### END CODE HERE ###

return v, s

def update_parameters_with_adam(parameters, grads, v, s, t, learning_rate = 0.01,
beta1 = 0.9, beta2 = 0.999, epsilon = 1e-8):
“””
Update parameters using Adam

Arguments:
parameters -- python dictionary containing your parameters:
                parameters['W' + str(l)] = Wl
                parameters['b' + str(l)] = bl
grads -- python dictionary containing your gradients for each parameters:
                grads['dW' + str(l)] = dWl
                grads['db' + str(l)] = dbl
v -- Adam variable, moving average of the first gradient, python dictionary
s -- Adam variable, moving average of the squared gradient, python dictionary
learning_rate -- the learning rate, scalar.
beta1 -- Exponential decay hyperparameter for the first moment estimates 
beta2 -- Exponential decay hyperparameter for the second moment estimates 
epsilon -- hyperparameter preventing division by zero in Adam updates

Returns:
parameters -- python dictionary containing your updated parameters 
v -- Adam variable, moving average of the first gradient, python dictionary
s -- Adam variable, moving average of the squared gradient, python dictionary
"""

L = len(parameters) // 2                 # number of layers in the neural networks
v_corrected = {}                         # Initializing first moment estimate, python dictionary
s_corrected = {}                         # Initializing second moment estimate, python dictionary

# Perform Adam update on all parameters
for l in range(L):
    # Moving average of the gradients. Inputs: "v, grads, beta1". Output: "v".
    ### START CODE HERE ### (approx. 2 lines)
    v["dW" + str(l+1)] = beta1 * v["dW" + str(l+1)] + (1-beta1) * grads['dW' + str(l+1)]
    v["db" + str(l+1)] = beta1 * v["db" + str(l+1)] + (1-beta1) * grads['db' + str(l+1)]
    ### END CODE HERE ###

    # Compute bias-corrected first moment estimate. Inputs: "v, beta1, t". Output: "v_corrected".
    ### START CODE HERE ### (approx. 2 lines)
    v_corrected["dW" + str(l+1)] = v["dW" + str(l+1)] / (1- np.power(beta1,t))
    v_corrected["db" + str(l+1)] = v["db" + str(l+1)] / (1- np.power(beta1,t))
    ### END CODE HERE ###

    # Moving average of the squared gradients. Inputs: "s, grads, beta2". Output: "s".
    ### START CODE HERE ### (approx. 2 lines)
    s["dW" + str(l+1)] = beta2 * s["dW" + str(l+1)] + (1- beta2) * np.square(grads['dW' + str(l+1)])
    s["db" + str(l+1)] = beta2 * s["db" + str(l+1)] + (1- beta2) * np.square(grads['db' + str(l+1)])
    ### END CODE HERE ###

    # Compute bias-corrected second raw moment estimate. Inputs: "s, beta2, t". Output: "s_corrected".
    ### START CODE HERE ### (approx. 2 lines)
    s_corrected["dW" + str(l+1)] = s["dW" + str(l+1)] / (1-np.power(beta2,t))
    s_corrected["db" + str(l+1)] = s["db" + str(l+1)] / (1-np.power(beta2,t))
    ### END CODE HERE ###

    # Update parameters. Inputs: "parameters, learning_rate, v_corrected, s_corrected, epsilon". Output: "parameters".
    ### START CODE HERE ### (approx. 2 lines)
    parameters["W" + str(l+1)] = parameters["W" + str(l+1)] - learning_rate * v_corrected["dW" + str(l+1)] /np.sqrt(s_corrected["dW" + str(l+1)] +epsilon)
    parameters["b" + str(l+1)] = parameters["b" + str(l+1)] - learning_rate * v_corrected["db" + str(l+1)] /np.sqrt(s_corrected["db" + str(l+1)] +epsilon)
    ### END CODE HERE ###

return parameters, v, s

优化策略与元算法

Batch norm(批标准化)

Batch norm（批标准化）可以有效解决covariate shift 的问题，并有轻微的正则化的效果，可以让大型神经网络训练速度加快很多倍，同时收敛后的分类准确率也可以得到大幅提高。

进行logistic regression 时，如果我们对输入信息进行标准化，将不同的特征比例到同一尺度下，会使得训练变得更加快速，在深层网络训练中，对输入层和每一个隐藏层都进行标准化处理。

μ=1m∑mi=1zli

σ2=1m∑mi=1(zli−μ)2

z~lnorm，i=zli−μσ2+ϵ√

但是标准化一个单元的均值和标准差会降低包含该单元的神经网络的表达能力，为了保持网络的表现力，通常需要将标准化后的 z~lnorm，i 做如下操作，通过激活函数。 z~li=γz~lnorm，i+β ,其中 γ和β 是需要学习的参数。 γ和β 使得新的隐藏单元可能有任何的均值和标准差，只所以这样操作，是因为原来的神经网络中，某一隐藏层的均值和方差是由前层所有参数共同决定，而采用batch_norm 则只由 γ和β 决定，使得每一隐藏层的训练相对稳定，受前层影响更小，学习更加独立。

关于batch_norm还有几个细节需要说明：

1、每层训练时都要做标准化处理，因此不需要在每层假设偏置项b,因此，每一层需要学习的参数包括W, β , γ

2、batch_norm 通常要采用mini_batch 方法进行训练，因此，利用每一个batch进行训练时，计算的均值和方差，都是该mini_batch 的均值和方差，因此与全部数据的均值和偏差有差别，正式这些差别，使得，batch_norm 有轻微的规则化的作用。

3、测试时，需要对每一个样本进行逐一处理单个数据的均值和方差没有意义，需要单独计算均值和方差，理论上可以在整个数据上进行统计均值和方差，实际操作中，在训练时使用指数加权平均算法得到(只需要记住上一次加权，内存要求非常小)，这个值就是该隐藏层z均值、方差的估计。

总结来说：batch_norm 主要有一下三方面作用：

1、进行标准化处理，使训练变得更加容易，加速收敛

2、一定程度上解决了covariate shift 的问题，将每一隐藏层先进行标准化，在乘上 γ 加上 β ，使得每一层的均值和方差只受 β 和 γ 影响，因此，batch_norm限制了浅层参数的更新对该隐藏层分布的影响,即使输入分布有一些改变，改变也不会很大，使得网络每层之间学习更加独立，从而加速整个网络的学习。

3、batch_norm 采用mini_batch 数据计算均值和方差，引入了一些噪音，有轻微的正则化的作用，由于正则化效果不是很强，因此，可以和dropout一起使用。

因此，可以说batch_norm可以帮助训练更深的网络，使学习算法收敛的更快。

坐标下降

某些情况下，将一个优化问题分解成几个部分，可以更快的解决原问题。例如我们可以对某一单一变量 xi 最小化f，然后相对于另一个变量 xj 最小化f等等，反复循环所有变量，保证达到最小值，这种方法称为坐标下降（例如Kmeans算法）。更一般地，采用块坐标下降，将变量分解为多个子集，分别在某一个子集上进行最小化。

监督预训练

有时如果模型太复杂难以优化或是任务非常困难，直接训练模型来解决特定任务的挑战可能太大，因此，尝试在一个简单的问题上进行训练，然后转移到最后的问题，可能更有效些。贪心算法 将问题分解成许多部分，然后独立地在每个部分求解最优值，结合各个最佳的部分，并不能保证得到一个最佳的完整解，然后贪心算法相比求解最优联合解算法高效的多，并且贪心算法的解在不是最优的情况下，往往也是可以接受的。贪心算法可以紧接一个精调(fine-tine)阶段，联合优化算法搜索全问题的最优解，使用贪心解初始化联合优化算法，可以极大地加速算法，并提高寻找到的解的质量。应用：迁移学习

延拓法

许多优化挑战来自代价函数的全局结构，不能仅通过局部更新方向上更好的估计来解决。延拓法是一族通过挑选初始点使优化更容易的方法，以确保局部优化花费大部分时间在表现良好的空间。其思想是构造一系列具有相同参数的目标函数，为了最小化代价函数 J(θ) ,我们构建新的代价函数{ J0,J1...Jn },这些代价函数的难度逐步提高，其中 J0 最容易优化， Jn 最难，这系列代价函数设计为浅一个解释下一个的良好的初始点，因此，我们先解决一个简单的问题，然后改进解以解决逐步变难得问题，直到我们求解真正问题的解。

传统延拓法基于平滑目标函数，传统延拓法主要用来解决局部极小值问题，具体地，这些代价函数族，会通过平滑（模糊）原来的代价函数，从而使某些非凸函数在模糊后会近似凸的（这种模糊保留了全局最小的足够信息）。但是有三种方式可能失败：1、可能需要非常多的逐步代价函数，整个过程的成本可能非常高。2、有些问题，不管如何模糊，都无法变成凸的，3、模糊函数的最小值可能会追踪到一个局部最小值，而非原始代价函数的全局最小值。

延拓法可以消除平坦区域。

课程学习基于规划学习过程的想法，首先从简单概念，然后逐步学习依赖于这些简单化概念的复杂概念，课程学习被证实与人类学习一致，基于课程学习的策略比基于样本均匀采用的策略更有效，能提高其他学习策略的效率。

课程学习的另一贡献在训练循环神经网络捕获长期依赖。

优化问题是机器学习最核心的问题，本文是在自习了吴恩达深度学习课程和lan Goodfellow<深度学习>有关优化章节后的总结，如果有问题，欢迎提出意见和建议，谢谢！

一文搞懂 Cursor 内部工作原理~ zz_jesse
介绍了Cursor，一个结合了AI技术的代码编辑器，它通过深度学习和语义索引的方式，提升了开发者的工作效率。Cursor通过与VSCode相似的界面和功能，以及自己的AI特性，实现了代码的智能化编辑和错误检查。译文从这开始～～你可能已经看到新闻：OpenAI正以高达30亿美元的价格收购Windsurf！与此同时，Cursor的母公司Anysphere也正在以90亿美元估值融资9亿美元！这对于代码生
目标检测YOLO实战应用案例100讲-基于深度学习的自动驾驶目标检测算法研究（续）林聪木目标检测 YOLO 深度学习
目录基于双蓝图卷积的轻量化自动驾驶目标检测算法5.1引言5.2DarkNet53网络冗余性分析5.3双蓝图卷积网络5.4实验结果及分析基于深度学习的自动驾驶目标检测算法研究与应用传统的目标检测算法目标检测基线算法性能对比与选择相关理论和算法基础2.1引言2.2人工神经网络2.3FCOS目标检测算法2.4复杂交通场景下的目标检测难点与FCOS改进方案基于FCOS的目标检测算法改进3.1引言3.2Re
AI人工智能遇上TensorFlow：技术融合新趋势 AI大模型应用之禅人工智能 tensorflow python ai
AI人工智能遇上TensorFlow：技术融合新趋势关键词：人工智能、TensorFlow、深度学习、神经网络、机器学习、技术融合、AI开发摘要：本文深入探讨了人工智能技术与TensorFlow框架的融合发展趋势。我们将从基础概念出发，详细分析TensorFlow在AI领域的核心优势，包括其架构设计、算法实现和实际应用。文章包含丰富的技术细节，如神经网络原理、TensorFlow核心算法实现、数学
深度学习核心知识简介和模型调参研术工坊深度学习知识和技巧深度学习人工智能 python
深度学习模型调优就像调制一道复杂的菜肴，需要掌握多种"调料"的用法。本文将为您详解这些关键"调料"，帮助您烹饪出高性能的模型。###核心参数及其影响####1️⃣Loss（损失函数）**基本介绍**：衡量模型预测与真实值差距的指标，是模型优化的指南针。**生活类比**：想象你在教小孩认识动物：-**完美情况**：小孩看到猫说"猫"，看到狗说"狗"→Loss=0-**有错误**：小孩看到猫说"狗"→
【小白入门必看】一文读懂深度学习计算机视觉技术及学习路线
一、什么是计算机视觉？计算机视觉，其实就是教机器怎么像我们人一样，用摄像头看看周围的世界，然后理解它。比如说，它能认出这是个苹果，或者那边有辆车。除此之外，还能把拍到的照片或者视频转换成有用的信息，帮我们做决定。整个过程就是为了让机器能看懂图像，然后根据这些图像来做出聪明的选择。二、计算机视觉实现起来难吗？人类依赖视觉，找辆汽车轻而易举，毕竟汽车那么大，一眼就能看出来，所以常误以为计算机视觉简单，
2025年跑深度学习电脑配置-深度学习显卡推荐 OpenCV图像识别人工智能深度学习智能电视人工智能
2025年跑深度学习任务，电脑配置需从处理器、内存、显卡、存储、散热与电源、扩展性、网络连接等多方面综合考量，以下是具体分析：处理器（CPU）多核高性能：深度学习涉及大量并行计算任务，需要处理器具备强大的多核处理能力。英特尔至强Scalable处理器（SapphireRapids或后续架构）和AMDEPYC处理器（Genoa或后续架构）是不错的选择。英特尔至强Scalable处理器提供卓越的单核性
【深度学习第六期深度学习中的归一化与正则化技术：原理、实践与应用】码上有前 Python 深度学习 Pytorch 深度学习人工智能 cnn
作者：“码上有前”文章简介：深度学习欢迎小伙伴们点赞、收藏⭐、留言深度学习中的归一化与正则化技术：原理、实践与应用摘要：本文深入探讨深度学习中批量归一化（BN）、层归一化（LN）、标准化以及正则化等关键技术。详细阐述它们的基本原理，包括如何调整数据分布、控制模型复杂度等；通过丰富的实例和对应代码，展示在不同网络架构中这些技术的具体实现方式，以及对模型训练和性能的影响；同时，对比分析各项技术的特点和
深度神经网络课程设计：从理论到实践 Vita Libre
本文还有配套的精品资源，点击获取简介：深度神经网络是深度学习预测的核心技术，本课程设计项目旨在教授学生如何构建和应用深度神经网络进行各种预测任务，包括图像识别和自然语言处理。学生将通过源代码示例学习从网络架构设计、数据预处理到模型训练与评估的完整流程，并掌握深度学习的基本概念、组件及技巧。1.深度神经网络定义和在深度学习预测中的角色深度神经网络（DeepNeuralNetworks,DNNs）是深
深度学习基础与应用：从理论到实战创新工场
本文还有配套的精品资源，点击获取简介：深度学习是人工智能的核心分支，通过模拟人脑神经网络处理大量数据以执行复杂任务。Python因其简洁性和强大的库支持成为深度学习研究的首选语言。本文概述了深度学习基础概念、核心算法、Python框架，并假设了一个包含教程、示例代码、数据集、交互式学习环境、性能评估指标和进阶主题的“deep-learning-study-main”压缩包内容，旨在帮助学习者深入理
大模型与智能体：螺旋共生，绘就智能新蓝图东锋17 人工智能大模型智能体人工智能
大模型与智能体：螺旋共生，绘就智能新蓝图在人工智能的前沿领域，大模型与智能体宛如两颗璀璨的星辰，以一种精妙的螺旋共生关系，重塑着智能世界的格局，深刻影响着我们生活与工作的方方面面。大模型：构筑智能大厦的基石大语言模型，像广为人知的GPT-4、通义千问等，凭借在海量数据中深度学习的锤炼，展现出卓越的语言理解与生成天赋。它们就像知识渊博的学者，能熟练应对各类自然语言任务。无论是洋洋洒洒的文章创作，还是
深度学习之迁移学习路溪非溪人工智能迁移学习机器学习
认识迁移学习迁移学习（TransferLearning）是机器学习中的一种重要技术，其核心思想是将在一个任务上学习到的知识（模型参数、特征表示等），迁移应用到另一个相关但不同的任务中，从而提升新任务的学习效率和性能，尤其是在新任务数据有限的情况下。一、迁移学习的核心动机传统机器学习通常要求为每个新任务收集大量标注数据并从头训练模型，但现实中面临以下挑战：数据稀缺：例如医疗影像分析（罕见疾病样本少）
【深度学习-Day 35】实战图像数据增强：用PyTorch和TensorFlow扩充你的数据集吴师兄大模型深度学习入门到精通深度学习 pytorch tensorflow 人工智能 python 大模型 LLM
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
【深度学习】【入门】Linear和flatten 学习中的阿陈深度学习人工智能
1.Linear1.Linear的概念Linear层，通常也被称为全连接层，是神经网络中一种经典且基础的层结构。它的核心特点是每一个神经元都与上一层的所有神经元相连接，这种全连接的方式使得信息能够在层与层之间充分传递和整合2.Linear层的作用Linear层在神经网络中主要承担着特征整合与输出映射的重任。在经过卷积、池化等层提取出数据的局部特征后，Linear层能够将这些分散的局部特征进行整合，
魔都AI医疗哪家强？全景揭秘科技创新与未来钱景！
引言上海作为中国科技创新的先锋城市，正在AI医疗领域崭露头角。根据2024年12月的数据，上海拥有34家专注于AI药物研发的公司，占全国预临床研究的60%和临床试验的47%。这些公司利用深度学习、大语言模型（LLM）和计算机视觉等技术，革新药物发现、医疗影像分析和数据治理，推动医疗行业的智能化转型。从全球首个人工智能医院“AgentHospital”到AI驱动的诊断系统，上海的AI医疗生态正在重塑
深度学习基础2 TY-2025 深度学习深度学习人工智能
5.张量索引操作（1）索引操作行列索引列表索引print(data[[0,2],[1,2]])#返回(0,1)，(2,2)两个位置的元素print(data[[[0],[1]],[1,2]])#返回0，1行的1，2列共4个元素范围索引print(data[:3,:2])#前3行前2列数据print(data[2:,:2])#第2行到最后的前2列数据布尔索引tensor([[0,7,6,5,9],[
Python 领域 vllm 安装与环境配置全攻略 Python编程之道 Python编程之道 python 开发语言 ai
Python领域vllm安装与环境配置全攻略关键词：Python、vllm、安装、环境配置、深度学习摘要：本文围绕Python领域中vllm的安装与环境配置展开，全面且深入地介绍了vllm的相关知识。首先阐述了背景信息，包括目的范围、预期读者、文档结构和术语表。接着详细讲解了vllm的核心概念与联系，分析其核心算法原理并给出具体操作步骤，还引入了相关数学模型和公式进行说明。通过项目实战，提供代码实
语义分割模型的轻量化与准确率提升研究 pk_xz123456 仿真模型深度学习算法 transformer 深度学习人工智能算法数据结构
语义分割模型的轻量化与准确率提升研究1.引言语义分割是计算机视觉领域的核心任务之一，它要求模型为图像中的每个像素分配一个类别标签。随着深度学习的发展，语义分割模型在多个领域得到了广泛应用，如自动驾驶、医学影像分析、遥感图像解译等。然而，现有的语义分割模型往往面临两个主要挑战：模型复杂度高导致难以部署在资源受限的设备上，以及准确率仍有提升空间以满足实际应用需求。本文将从模型轻量化和准确率提升两个角度
AIGC领域AI作画：在数字雕塑中的应用实践 AI原生应用开发 AI 原生应用开发 AIGC AI作画 ai
AIGC领域AI作画：在数字雕塑中的应用实践关键词：AIGC、AI作画、数字雕塑、生成对抗网络、3D建模、艺术创作、深度学习摘要：本文深入探讨了AIGC(人工智能生成内容)技术在数字雕塑领域的创新应用。我们将从技术原理、算法实现到实际案例，全面解析AI如何赋能传统数字雕塑创作流程。文章首先介绍AIGC在艺术创作中的背景和发展现状，然后详细讲解核心算法原理和数学模型，接着通过实际项目案例展示AI作画
Python深度学习实践：建立端到端的自动驾驶系统 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：建立端到端的自动驾驶系统1.背景介绍自动驾驶系统是当今科技领域最具挑战性和前景的应用之一。它融合了计算机视觉、深度学习、规划与控制等多个领域的先进技术,旨在实现车辆的自主感知、决策和操控。随着人工智能技术的不断发展,越来越多的公司和研究机构投入了大量资源来开发自动驾驶系统。Python作为一种高效、易学且开源的编程语言,在这一领域扮演着重要角色。本文将探讨如何利用Pyth
Python 爬虫实战：Selenium 爬取豆瓣相册（图片分类 + 标签提取）西攻城狮北 python 爬虫 selenium
一、引言豆瓣作为国内知名的社区平台，其相册功能允许用户上传和分享各类图片，涵盖电影海报、音乐专辑、生活记录等多个领域。这些图片数据对于了解用户兴趣、进行内容推荐和市场调研具有重要价值。然而，豆瓣对直接的数据访问设定了诸多限制，因此，本文将介绍如何通过Python爬虫技术结合Selenium自动化工具，合法高效地爬取豆瓣相册图片，并运用深度学习技术实现图片分类和标签提取。二、开发环境搭建（一）编程语
【深度学习】大模型GLM-4-9B Chat ，微调与部署(3) TensorRT-LLM、TensorRT量化加速、Triton部署 XD742971636 深度学习机器学习深度学习人工智能
文章目录获取TensorRT-LLM代码：构建docker镜像并安装TensorRT-LLM：运行docker镜像：安装依赖魔改下部分package代码：量化：构建图：全局参数插件配置常用配置参数测试推理是否可以代码推理CLI推理性能测试小结验证是否严重退化使用NVIDIATriton部署在线推理服务器代码弄下来编译镜像启动容器安装依赖量化构建trtengines图Triton模板说明实操发起Tr
大白话解释深度学习中多尺度特征融合及其意义来自宇宙的曹先生深度学习人工智能
想象一下，你正在看一幅城市街道的照片。在这张照片中，你可能会看到：远处的小汽车，它们在图像中看起来很小。近处的大巴士，它们在图像中看起来很大。还有一些行人，他们可能在不同的距离上，大小各异。假设你想训练一个计算机程序来识别和分割这些不同的物体（汽车、巴士、行人）。如果这个程序只能在一个固定的尺度上“看”图像，比如说只能处理大物体，它可能会错过那些远处的小汽车，因为这些小汽车在图像中占据的像素很少。
想要了解大模型，看懂这一篇就够了！大模型工作流程及核心参数介绍！ Gq.xxu qwen3 vllm transforms 大语言模型部署深度学习人工智能
若想深入探究大模型核心参数的效果与作用，就务必先弄清大模型的工作流程，明确核心参数在流程各阶段的效能与功能，知晓其具体含义。一，大模型的工作流程大模型运行时的工作原理可以概括为输入处理→特征提取→模型推理→结果生成四个核心阶段，整个过程融合了深度学习架构、自然语言处理技术以及分布式计算能力。从用户输入到大模型输出，整个工作的处理流程如下：输入文本→分词→嵌入+位置编码→Transformer多层处
深度学习-Tensor
Tensor张量：与numpy中的ndarray不同之处：tensor可以在GPU或其他专用硬件上运行，以加速计算。一、Tensor初始化1.直接从数据中创建data=[[1,2],[3,4]]x_data=torch.tensor(data)2.从numpy数组创建np_array=np.array(data)x_np=torch.from_numpy(np_array)3.从另一个Tensor
基于存算一体架构的实时深度学习推理优化瑕疵热点资讯架构深度学习人工智能
博客主页：瑕疵的CSDN主页Gitee主页：瑕疵的gitee主页⏩文章专栏：《热点资讯》基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化基于存算一体架构的实时深度学习推理优化引言存算一体架构的核心优势1.能效比突破2.实时性保障架构设计与实现技术1.存储单元创新2.硬件加速器设计3.电路级优化深度学习推理优化策略1.模型压缩技术2.硬件-软件协同优化3.运行时调度典型应
【深度学习新浪潮】什么是上下文长度？小米玄戒Andrew 深度学习新浪潮深度学习人工智能 LLM 语言模型大模型模型优化上下文长度
大型语言模型（LLM）的上下文长度是指模型在处理当前输入时能够有效利用的历史文本长度，通常以token（如单词、子词或标点）为单位衡量。例如，GPT-4支持128Ktoken的上下文，而Llama4Scout甚至达到了10Mtoken的惊人规模。这一指标直接影响模型在长文档理解、多轮对话等复杂任务中的表现。一、上下文长度的合理范围上下文长度的选择需结合具体应用场景：日常对话：通常需要8K–32Kt
Manus AI与多语言手写识别 tonngw 人工智能
技术文章大纲：ManusAI与多语言手写识别引言手写识别技术的发展背景与市场需求ManusAI的定位与核心技术优势多语言场景下的挑战与机遇ManusAI的核心技术架构基于深度学习的端到端手写识别模型多模态数据融合（笔迹压力、书写轨迹等）自适应语言模型与字符集扩展机制多语言手写识别的关键技术非拉丁语系（中文、阿拉伯语等）的笔迹特征提取小样本语言数据的迁移学习策略上下文感知与语法纠错在低资源语言中的应
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
【AI大模型】神经网络反向传播：核心原理与完整实现我爱一条柴ya 学习AI记录人工智能神经网络深度学习 ai AI编程
一、反向传播的本质与意义反向传播（Backpropagation）是神经网络训练的核心算法，通过链式法则高效计算损失函数对网络参数的梯度，实现神经网络的优化学习。它的出现解决了神经网络训练中的关键瓶颈，使深度学习成为可能。为什么需要反向传播？参数规模爆炸：现代神经网络有数百万至数十亿参数手动计算不可行：复杂网络梯度计算量指数级增长高效优化需求：梯度下降算法需要精确的梯度计算二、前向传播与反向传播对
基于YOLOv8深度学习架构的智能农业巡检小车系统—面向农作物与杂草实时精准识别的创新实践
1.科技赋能智慧农业随着全球人口的持续增长和农业生产面临的挑战，精准农业已成为现代农业发展的必然趋势。其中，农作物与杂草的精准识别是实现自动化、智能化管理的关键一环。传统的人工除草效率低下，化学除草则可能带来环境问题。因此，开发高效、精准、环保的智能农业系统迫在眉睫。本文将深入探讨一款基于深度学习和智能硬件集成的农田作业智能小车系统。我们将重点聚焦于其硬件系统设计、软件系统架构、核心算法创新(特别
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交

深度模型中的优化

深度模型中的优化

学习与纯优化差别

神经网络优化中的挑战

基本算法

自适应学习率算法

优化策略与元算法

你可能感兴趣的:(深度学习)