蜗牛蜗牛慢慢爬

深度模型训练之learning rate

文章目录

1.基于指数型的衰减

1.1.exponential_decay
1.2.piecewise_constant
1.3.polynomial_decay
1.4.natural_exp_decay
1.5.inverse_time_decay

2.基于余弦的衰减

2.1.cosine_decay
2.2.cosine_decay_restarts
2.3.linear_cosine_decay
2.4.noisy_linear_cosine_decay

3.自定义

3.1.auto_learning_rate_decay

4.小结

下文根据Tensorflow中learning rate decay的奇技淫巧整理，增加了相关源码，另外针对不同方法，不同特点，在后续会给出更多的实例化。
深度学习中参数更新的方法想必大家都十分清楚了——sgd，adam等等，孰优孰劣相关的讨论也十分广泛。可是，learning rate的衰减策略大家有特别关注过吗？
说实话，以前我也只使用过指数型和阶梯型的下降法，并不认为它对深度学习调参有多大帮助。但是，最近的学习和工作中逐渐接触到了各种奇形怪状的lr策略，可以说大大刷新了三观，在此也和大家分享一下学习经验。
learning rate衰减策略文件在tensorflow/tensorflow/python/training/learning_rate_decay.py中，函数中调用方法类似tf.train.exponential_decay就可以了。
以下，我将在ipython中逐个介绍各种lr衰减策略。本文的示例代码可以再我的github上找到：参考链接

1.基于指数型的衰减

下面的几个实现都是基于指数型的衰减。个人理解其问题在于一开始lr就快速下降，在复杂问题中可能会导致快速收敛于局部最小值而没有较好地探索一定范围内的参数空间。

1.1.exponential_decay

让学习率满足一些性质的情况下不断下降，这里指数衰减的一个性质是它的衰减值是当前值的一部分，也就是说 $\frac {dN}{dt}=−λN$ ，其中N是要进行衰减的值，例如学习率。为了满足上面的性质，具体的衰减如下， $N(t)=N_0e^{−λt}$ ,

计算公式
$decayed\_learning\_rate = learning\_rate * decay\_rate ^ {global\_step / decay\_steps}$

函数原型
exponential_decay(learning_rate, global_step, decay_steps, decay_rate, staircase=False, name=None)

learning_rate：初始学习率．
global_step：用于衰减计算的全局步数，非负。用于逐步计算衰减指数。
decay_steps：衰减步数，必须是正值．决定衰减周期．
decay_rate：衰减率．
staircase：若为True，则以不连续的间隔衰减学习速率即阶梯型衰减（就是在一段时间内或相同的epoch_{（往往是相同的epoch内）}内保持相同的学习率）；若为False，则是标准指数型衰减．
name：操作的名称，默认为ExponentialDecay．（可选项）

指数型lr衰减法是最常用的衰减方法，在大量模型中都广泛使用。

特点
简单直接，收敛速度快．

代码示例

import matplotlib.pyplot as plt
import tensorflow as tf
#global_step = tf.Variable(0, name='global_step', trainable=False)

y = []
z = []
N = 200
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    for global_step in range(N):
        # 阶梯型衰减
        learing_rate1 = tf.train.exponential_decay(
            learning_rate=0.5, global_step=global_step, decay_steps=10, decay_rate=0.9, staircase=True)
        # 标准指数型衰减
        learing_rate2 = tf.train.exponential_decay(
            learning_rate=0.5, global_step=global_step, decay_steps=10, decay_rate=0.9, staircase=False)
        lr1 = sess.run([learing_rate1])
        lr2 = sess.run([learing_rate2])
        y.append(lr1[0])
        z.append(lr2[0])

x = range(N)
fig = plt.figure()
ax = fig.add_subplot(111)
ax.set_ylim([0, 0.55])
plt.plot(x, y, 'r-', linewidth=2)
plt.plot(x, z, 'g-', linewidth=2)
plt.title('exponential_decay')
ax.set_xlabel('step')
ax.set_ylabel('learing rate')
plt.show()

效果图

红色为阶梯型衰减，绿色为标准指数衰减

1.2.piecewise_constant

分段常数衰减就是在定义好的区间上，分别设置不同的常数值，作为学习率的初始值和后续衰减的取值．

函数原型

piecewise_constant(x, boundaries, values, name=None)

x：0-D标量Tensor．
boundaries：边界，tensor或list.
values：指定定义区间的值．
name：操作的名称，默认为PiecewiseConstant．

分段常数下降法类似于exponential_decay中的阶梯式下降法，不过各阶段的值是自己设定的。

其中，x即为global step，boundaries=[step_1, step_2, …, step_n]定义了在第几步进行lr衰减，values=[val_0, val_1, val_2, …, val_n]定义了lr的初始值和后续衰减时的具体取值。需要注意的是，values应该比boundaries长一个维度。

特点
这种方法有助于使用者针对不同任务进行精细地调参，在任意步长后下降任意数值的learning rate。

代码示例


# piecewise_constant 阶梯式下降法
import matplotlib.pyplot as plt
import tensorflow as tf

#global_step = tf.Variable(0, name='global_step', trainable=False)
boundaries = [10, 20, 30]
learing_rates = [0.1, 0.07, 0.025, 0.0125]
y = []
N = 40
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    for global_step in range(N):
        learing_rate = tf.train.piecewise_constant(global_step, boundaries=boundaries, values=learing_rates)
        lr = sess.run([learing_rate])
        y.append(lr[0])

x = range(N)
plt.plot(x, y, 'r-', linewidth=2)
plt.title('piecewise_constant')
plt.show()

1.3.polynomial_decay

函数使用多项式衰减，以给定的decay_steps将初始学习率（learning_rate）衰减至指定的学习率（end_learning_rate）．

计算方法
$global\_step = min(global\_step,decay\_steps)$
$decayed\_learning_rate = (learning\_rate-end\_learning\_rate)*(1-global\_step/decay\_steps)^{ power}+end_learning_rate$

函数原型

polynomial_decay(learning_rate, global_step, decay_steps, end_learning_rate=0.0001, power=1.0, cycle=False, name=None)

learning_rate：初始学习率．
global_step：用于衰减计算的全局步数，非负.
decay_steps：衰减步数，必须是正值．
end_learning_rate：最低的最终学习率．
power：多项式的幂，默认为1.0（线性）．
cycle：学习率下降后是否重新上升．参数cycle决定学习率是否在下降后重新上升．若cycle为True，则学习率下降后重新上升；使用decay_steps的倍数，取第一个大于global_steps的结果．
name：操作的名称，默认为PolynomialDecay。

参数cycle目的：防止神经网络训练后期学习率过小导致网络一直在某个局部最小值中振荡；这样，通过增大学习率可以跳出局部极小值．

示例代码

# 学习率下降后是否重新上升
import matplotlib.pyplot as plt
import tensorflow as tf
y = []
z = []
N = 200
#global_step = tf.Variable(0, name='global_step', trainable=False)

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    for global_step in range(N):
        # cycle=False
        learing_rate1 = tf.train.polynomial_decay(
            learning_rate=0.1, global_step=global_step, decay_steps=50,
            end_learning_rate=0.01, power=0.5, cycle=False)
        # cycle=True
        learing_rate2 = tf.train.polynomial_decay(
            learning_rate=0.1, global_step=global_step, decay_steps=50,
            end_learning_rate=0.01, power=0.5, cycle=True)
        lr1 = sess.run([learing_rate1])
        lr2 = sess.run([learing_rate2])
        y.append(lr1[0])
        z.append(lr2[0])

x = range(N)
fig = plt.figure()
ax = fig.add_subplot(111)
plt.plot(x, z, 'g-', linewidth=2)
plt.plot(x, y, 'r--', linewidth=2)
plt.title('polynomial_decay')
ax.set_xlabel('step')
ax.set_ylabel('learing rate')
plt.show()

运行结果

1.4.natural_exp_decay

应用自然指数衰减的学习率．
natural_exp_decay 和 exponential_decay 形式近似，natural_exp_decay的底数是e．

计算方法
$decayed\_learning\_rate = learning\_rate * exp(-decay\_rate * global\_step)$

函数原型

natural_exp_decay(learning_rate, global_step, decay_steps, decay_rate, staircase=False, name=None)

learning_rate：初始学习率．
global_step：用于衰减计算的全局步数，非负.
decay_steps：衰减步数．
decay_rate：衰减率．
staircase：若为True，则是离散的阶梯型衰减（就是在一段时间内或相同的eproch内保持相同的学习率）；若为False，则是标准型衰减．
name: 操作的名称，默认为ExponentialTimeDecay．

特点
自然指数衰减比指数衰减要快的多，一般用于较快收敛，容易训练的网络．

示例代码

import matplotlib.pyplot as plt
import tensorflow as tf
#global_step = tf.Variable(0, name='global_step', trainable=False)

y = []
z = []
w = []
N = 200
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    for global_step in range(N):
        # 阶梯型衰减
        learing_rate1 = tf.train.natural_exp_decay(
            learning_rate=0.5, global_step=global_step, decay_steps=10, decay_rate=0.9, staircase=True)
        # 标准指数型衰减
        learing_rate2 = tf.train.natural_exp_decay(
            learning_rate=0.5, global_step=global_step, decay_steps=10, decay_rate=0.9, staircase=False)
        # 指数衰减
        learing_rate3 = tf.train.exponential_decay(
            learning_rate=0.5, global_step=global_step, decay_steps=10, decay_rate=0.9, staircase=False)
        lr1 = sess.run([learing_rate1])
        lr2 = sess.run([learing_rate2])
        lr3 = sess.run([learing_rate3])
        y.append(lr1[0])
        z.append(lr2[0])
        w.append(lr3[0])

x = range(N)
fig = plt.figure()
ax = fig.add_subplot(111)
ax.set_ylim([0, 0.55])
plt.plot(x, y, 'r-', linewidth=2)
plt.plot(x, z, 'g-', linewidth=2)
plt.plot(x, w, 'b-', linewidth=2)
plt.title('natural_exp_decay')
ax.set_xlabel('step')
ax.set_ylabel('learing rate')
plt.show()

运行结果

1.5.inverse_time_decay

该函数应用反向衰减函数提供初始学习速率．利用global_step来计算衰减的学习速率．

计算方法

staircase为False:
$decayed\_learning\_rate = learning\_rate / (1 + decay\_rate * global\_step / decay\_step)$
staircase为True
$decayed\_learning_rate =learning\_rate/(1+decay\_rate*floor(global_step/decay_step))$
函数原型

inverse_time_decay(learning_rate, global_step, decay_steps, decay_rate, staircase=False, name=None)

learning_rate：初始学习率．
global_step：用于衰减计算的全局步数．
decay_steps：衰减步数．
decay_rate：衰减率．
staircase：是否应用离散阶梯型衰减．（否则为连续型）
name：操作的名称，默认为InverseTimeDecay．

import matplotlib.pyplot as plt
import tensorflow as tf
y = []
z = []
N = 200
#global_step = tf.Variable(0, name='global_step', trainable=False)

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    for global_step in range(N):
        # 阶梯型衰减
        learing_rate1 = tf.train.inverse_time_decay(
            learning_rate=0.1, global_step=global_step, decay_steps=20,
            decay_rate=0.2, staircase=True)
        # 连续型衰减
        learing_rate2 = tf.train.inverse_time_decay(
            learning_rate=0.1, global_step=global_step, decay_steps=20,
            decay_rate=0.2, staircase=False)
        lr1 = sess.run([learing_rate1])
        lr2 = sess.run([learing_rate2])

        y.append(lr1[0])
        z.append(lr2[0])

x = range(N)
fig = plt.figure()
ax = fig.add_subplot(111)
plt.plot(x, z, 'r-', linewidth=2)
plt.plot(x, y, 'g-', linewidth=2)
plt.title('inverse_time_decay')
ax.set_xlabel('step')
ax.set_ylabel('learing rate')
plt.show()

运行结果

2.基于余弦的衰减

下面的几个实现，都是基于cos函数的。

2.1.cosine_decay

cosine_decay是近一年才提出的一种lr衰减策略，基本形状是余弦函数。其方法是基于论文实现的：
SGDR: Stochastic Gradient Descent with Warm Restarts

计算方法

global_step = min(global_step, decay_steps)
cosine_decay = 0.5 * (1 + cos(pi * global_step / decay_steps))
decayed = (1 - alpha) * cosine_decay + alpha
decayed_learning_rate = learning_rate * decayed

函数原型
cosine_decay(learning_rate, global_step, decay_steps, alpha=0.0, name=None)

learning_rate：标初始学习率．
global_step：用于衰减计算的全局步数.
decay_steps：衰减步数．
alpha：最小学习率（learning_rate的部分）。
name：操作的名称，默认为CosineDecay

import matplotlib.pyplot as plt
import tensorflow as tf
y = []
z = []
N = 200
#global_step = tf.Variable(0, name='global_step', trainable=False)

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    for global_step in range(N):
        # 阶梯型衰减
        learing_rate1 = tf.train.cosine_decay(
            learning_rate=0.1, global_step=global_step, decay_steps=150,
            alpha=0.0)
        # 连续型衰减
        learing_rate2 = tf.train.cosine_decay(
            learning_rate=0.1, global_step=global_step, decay_steps=150,
            alpha=0.3)
        lr1 = sess.run([learing_rate1])
        lr2 = sess.run([learing_rate2])

        y.append(lr1[0])
        z.append(lr2[0])

x = range(N)
fig = plt.figure()
ax = fig.add_subplot(111)
plt.plot(x, z, 'r-', linewidth=2)
plt.plot(x, y, 'g-', linewidth=2)
plt.title('cosine_decay')
ax.set_xlabel('step')
ax.set_ylabel('learing rate')
plt.show()

运行效果

2.2.cosine_decay_restarts

cosine_decay_restarts是cosine_decay的cycle版本。first_decay_steps是指第一次完全下降的step数，t_mul是指每一次循环的步数都将乘以t_mul倍，m_mul指每一次循环重新开始时的初始lr是上一次循环初始值的m_mul倍。

函数原型
cosine_decay_restarts(learning_rate, global_step, first_decay_steps, t_mul=2.0, m_mul=1.0, alpha=0.0, name=None)

learning_rate ：标量float32或float64 Tensor或Python数字。初始学习率。
global_step ：标量int32或int64 Tensor或Python数字。用于衰减计算的全局步骤。
first_decay_steps ：标量int32或int64 Tensor或Python数字。衰减的步骤数。
t_mul ：标量float32或float64 Tensor或Python数字。用于导出第i个周期中的迭代次数
m_mul ：标量float32或float64 Tensor或Python数字。用于导出第i个周期的初始学习率：
alpha ：标量float32或float64 Tensor或Python数字。最小学习率值作为learning_rate的一部分。
name ：String。操作的可选名称。默认为’SGDRDecay’。

特点
余弦函数式的下降模拟了大lr找潜力区域然后小lr快速收敛的过程，加之restart带来的cycle效果，有涨1-2个点的可能。

示例代码

 import matplotlib.pyplot as plt
import tensorflow as tf
y = []
z = []
N = 1000
#global_step = tf.Variable(0, name='global_step', trainable=False)

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    for global_step in range(N):
        # 阶梯型衰减
        learing_rate1 = tf.train.cosine_decay_restarts(
            learning_rate=0.1, global_step=global_step,t_mul=2.0,m_mul=0.5, alpha=0.0, first_decay_steps=200)
        # 连续型衰减
        learing_rate2 = tf.train.cosine_decay_restarts(
            learning_rate=0.1, global_step=global_step, t_mul=2.0,m_mul=1.0, alpha=0.0,first_decay_steps=200)
        lr1 = sess.run([learing_rate1])
        lr2 = sess.run([learing_rate2])

        y.append(lr1[0])
        z.append(lr2[0])

x = range(N)
fig = plt.figure()
ax = fig.add_subplot(111)
plt.plot(x, y, 'r-', linewidth=2)
plt.plot(x, z, 'g-', linewidth=2)
plt.title('cosine_decay_restarts')
ax.set_xlabel('step')
ax.set_ylabel('learing rate')
plt.show()

运行效果

红色线条t_mul=2.0，m_mul=0.5，蓝色线条t_mul=2.0，m_mul=1.0

2.3.linear_cosine_decay

linear_cosine_decay的参考文献是Neural Optimizer Search with Reinforcement Learning，主要应用领域是增强学习领域，本人未尝试过。可以看出，该方法也是基于余弦函数的衰减策略。

计算公式

global_step=min(global_step,decay_steps)
linear_decay=(decay_steps-global_step)/decay_steps)
cosine_decay = 0.5*(1+cos(pi*2*num_periods*global_step/decay_steps))
decayed=(alpha+linear_decay)*cosine_decay+beta
decayed_learning_rate=learning_rate*decayed

函数原型
linear_cosine_decay(learning_rate, global_step, decay_steps, num_periods=0.5, alpha=0.0, beta=0.001, name=None)

learning_rate：标初始学习率．
global_step：用于衰减计算的全局步数.
decay_steps：衰减步数。
num_periods：衰减余弦部分的周期数．
alpha：见计算．
beta：见计算．
name：操作的名称，默认为LinearCosineDecay。

2.4.noisy_linear_cosine_decay

将噪声线性余弦衰减应用于学习率．
计算方法
与linear_cosine_decay相同

函数原型

learning_rate：标初始学习率．
global_step：用于衰减计算的全局步数.
decay_steps：衰减步数．
initial_variance：噪声的初始方差．
variance_decay：衰减噪声的方差．
num_periods：衰减余弦部分的周期数．
alpha：见计算．
beta：见计算．
name：操作的名称，默认为NoisyLinearCosineDecay．

特点

根据论文Neural Optimizer Search with Reinforcement Learning提出．在衰减过程中加入了噪声，一定程度上增加了线性余弦衰减的随机性和可能性．

示例代码：

import matplotlib.pyplot as plt
import tensorflow as tf
y = []
z = []
w = []
N = 200
#global_step = tf.Variable(0, name='global_step', trainable=False)

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    for global_step in range(N):
        # 余弦衰减
        learing_rate1 = tf.train.cosine_decay(
            learning_rate=0.1, global_step=global_step, decay_steps=50,
            alpha=0.5)
        # 线性余弦衰减
        learing_rate2 = tf.train.linear_cosine_decay(
            learning_rate=0.1, global_step=global_step, decay_steps=50,
            num_periods=0.2, alpha=0.5, beta=0.2)
        # 噪声线性余弦衰减
        learing_rate3 = tf.train.noisy_linear_cosine_decay(
            learning_rate=0.1, global_step=global_step, decay_steps=50,
            initial_variance=0.01, variance_decay=0.1, num_periods=0.2, alpha=0.5, beta=0.2)
        lr1 = sess.run([learing_rate1])
        lr2 = sess.run([learing_rate2])
        lr3 = sess.run([learing_rate3])
        y.append(lr1[0])
        z.append(lr2[0])
        w.append(lr3[0])

x = range(N)
fig = plt.figure()
ax = fig.add_subplot(111)
plt.plot(x, y, 'r-', linewidth=2)
plt.plot(x, z, 'b-', linewidth=2)
plt.plot(x, w, 'g-', linewidth=2)
plt.title('cosine_decay')
ax.set_xlabel('step')
ax.set_ylabel('learing rate')
plt.show()

3.自定义

3.1.auto_learning_rate_decay

当然大家还可以自定义学习率衰减策略，如设置检测器监控valid的loss或accuracy值，若一定时间内loss持续有效下降／acc持续有效上升则保持lr，否则下降；loss上升／acc下降地越厉害，lr下降的速度就越快等等自适性方案。

4.小结

在我的实际使用中，最常用的就是exponential_decay，但是可以尝试一下cosine_decay_restarts，一定会带给你惊喜的~

参考文献

Tensorflow中learning rate decay的奇技淫巧
TensorFlow学习－－学习率衰减/learning rate decay

你可能感兴趣的:(自然语言处理,tensorflow,深度学习)

ValueError: Tensor conversion requested dtype int64 for Tensor with dtype float64: ‘Tensor(“loss/a 初识-CV 机器学习 keras KL散度相对熵 int TensorFlow keras
用keras以TensorFlow作为后端重写相对熵函数，报错。。。defKL(y_true,y_pred):weights=K.sum(K.cast(K.argmax(y_true,axis=1)*K.log(K.argmax(y_true,axis=1)/K.argmax(y_pred,axis=1)),dtype='float32'))returnweights*losses.categor
pytorch与深度学习随记——AlexNet 黑色的山岗在沉睡深度学习随记深度学习 pytorch 人工智能
AlexNet和LeNet的设计理念非常相似，但也存在显著差异：基本结构对比网络深度：AlexNet比LeNet-5要深得多，AlexNet由八层组成：五个卷积层、两个全连接隐藏层和一个全连接输出层。激活函数：AlexNet使用ReLU而不是sigmoid作为其激活函数，这有助于缓解梯度消失问题并加速训练过程。AlexNet架构的创新点局部响应归一化(LRN)：AlexNet引入LRN层，可以创建
深度学习-138-LangGraph之应用实例(七)构建自动绘图系统皮皮冰燃深度学习深度学习人工智能 LangGraph
文章目录1初始化核心功能1.1大语言模型1.2结构化输出1.3搜索引擎1.4Python执行环境2编排流2.1创建图2.2可视化图2.3应用图3绘图指定线型4添加工具增强4.1执行工具和打印工具4.2绑定工具4.3编排流4.4可视化图4.5应用1初始化核心功能1.1大语言模型importosos.environ['OLLAMA_HOST']='127.0.0.1'os.environ['OLLAM
穿越AI边界：深度集成DeepSeek API与云平台的实践之路云边有个稻草人热门文章人工智能 DeepSeek 大数据集成DeepSeek API DeepSeek算法阿里云百炼平台集成
云边有个稻草人-CSDN博客随着人工智能技术的日益发展，深度学习和自然语言处理（NLP）已经在很多领域得到了广泛的应用。DeepSeek作为一款领先的大型语言生成模型，凭借其强大的推理和生成能力，已经被越来越多的开发者和行业专家所青睐。通过DeepSeek提供的API接口，开发者可以在多个领域中实现先进的自然语言理解和生成任务。本文将深入探讨如何使用Python调用DeepSeek的API接口，并
AI在农业中的应用:精准农业的新时代 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI,农业,精准农业,机器学习,深度学习,计算机视觉,农业机器人1.背景介绍农业是人类文明的基石，也是全球经济的重要支柱。然而，随着人口增长和资源短缺，传统农业面临着诸多挑战，例如低效率、资源浪费、环境污染和气候变化的影响。为了应对这些挑战，精准农业应运而生。精准农业是指利用现代信息技术和数据分析手段，对农业生产进行精细化管理，提高资源利用效率、产量和产品质量，同时减少环境污染。人工智能（AI）作
AI驱动的企业学习管理系统 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
AI、机器学习、深度学习、企业学习管理系统、个性化学习、学习路径推荐、知识图谱1.背景介绍在当今瞬息万变的数字化时代，企业面临着前所未有的挑战和机遇。知识更新速度加快，技术迭代日新月异，员工需要不断学习新技能，提升自身竞争力，才能适应不断变化的市场环境。传统的企业学习管理系统(LearningManagementSystem,LMS)往往以标准化课程和批量学习为主，难以满足员工个性化学习需求，且缺
从零到精通：小白DeepSeek全栈入门指南好东西不迷路各自资源 AI 前端 html python
第一部分：认知准备（1-3天）1.1基础概念搭建人工智能三要素：数据/算法/算力深度学习与传统机器学习的区别神经网络基本结构（输入层/隐藏层/输出层）常用术语解析：epoch、batch、loss、accuracy1.2环境配置实战Python环境搭建（推荐Anaconda）condacreate-ndeepseekpython=3.8condaactivatedeepseek深度学习框架选择指南
Python vLLM 实战应用指南 ghostwritten python python 开发语言
文章目录1.vLLM简介2.安装vLLM3.快速开始3.1加载模型并生成文本3.2参数说明4.实战应用场景4.1构建聊天机器人示例对话：4.2文本补全输出示例：4.3自定义模型服务启动服务调用服务5.性能优化5.1GPU加速5.2动态批处理6.总结vLLM是一种高性能的开源深度学习推理引擎，专注于高效的生成式模型推理任务。它通过动态批处理和内存优化技术大幅提高了大模型（如GPT系列）的推理性能，非
从零到一：利用DeepSeek构建高精度图像分类模型实战解析一碗黄焖鸡三碗米饭人工智能前沿与实践分类数据挖掘人工智能
引言：为什么选择DeepSeek进行图像分类？在计算机视觉领域，图像分类作为基础任务，其技术演进经历了从传统特征工程到深度学习的革命性转变。DeepSeek作为国产自研的深度学习框架，凭借其高效计算优化和灵活架构设计，在ImageNet等基准测试中展现出与PyTorch、TensorFlow等主流框架相媲美的性能。本文将手把手带您实现从零搭建工业级图像分类模型的全过程。一、DeepSeek技术架构
深度学习模型可视化：通俗易懂的全面解读 Crazy learner 模型部署深度学习人工智能
目录1.什么是深度学习模型可视化？2.张量（Tensors）：深度学习中的核心数据结构3.常见的节点操作**Gather**操作**Transpose**操作**Pow**操作**Add**操作**Mix**操作4.查看模型详情5.可视化工具总结在深度学习领域，理解模型内部的工作原理对于优化、调试和改进模型至关重要。随着神经网络的复杂性日益增加，开发者和研究人员逐渐意识到，可视化不仅是理解模型的一
自然语言处理NLP入门 -- 第八节OpenAI GPT 在 NLP 任务中的应用山海青风人工智能 gpt 自然语言处理 python
在前面的学习中，我们已经了解了如何使用一些经典的方法和模型来处理自然语言任务，如文本分类、命名实体识别等。但当我们需要更强的语言生成能力时，往往会求助于更先进的预训练语言模型。OpenAI旗下的GPT系列模型（如GPT-3、GPT-3.5、GPT-4等）在生成文本方面拥有强大的表现。它们不仅能进行语言生成，也可用于诸多NLP任务，包括文本摘要和情感分析。本章将重点介绍：GPT的文本生成原理和应用场
考研导师选择方法 herosunly 考名校研究生经验分享考研选择导师考研导师选择方法
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
深度学习-81-大语言模型LLM之基于litellm与langchain与ollama启动的模型交互皮皮冰燃深度学习深度学习语言模型 langchain
文章目录1LiteLLM1.1生成对话补全1.2响应格式(OpenAIFormat)1.3异步调用1.4流式生成对话补全1.5支持的ollama模型2langchain2.1LangChain简介2.2LangChain架构2.3构建简单LLM应用程序(OllamaLLM)2.3.1生成对话补全2.3.2流式生成对话补全2.4聊天模型(ChatOllama)2.4.1Invoke调用2.4.2st
DeepSeek怎么用，DeepSeek使用指南最全合集（保姆级教程） xiecoding.cn deepseek deepseek使用指南 deepseek怎么用 deepseek免费教学 deepseek资料合集
DeepSeek是一款由国内顶尖团队开发的人工智能大模型，旨在为用户提供高效、智能的问答和知识服务。作为国产AI模型的代表，DeepSeek不仅在自然语言处理（NLP）领域表现出色，还在多个应用场景中展现了强大的能力。与ChatGPT等国际知名模型相比，DeepSeek在中文语境下的表现尤为突出，能够更好地理解中文的复杂语义和文化背景。DeepSeek使用资源下载为了方便大家更好地学习和使用Dee
《动手学PyTorch深度学习建模与应用》第二章：2.4-2.6节详解环工人学Python 深度学习 pytorch 人工智能 python 机器学习学习
写在前面：不知不觉已经更了第一个章节，目前的内容都是很基础的内容，有人会问现在ai时代，还有必要学习这些内容吗，我想说的是，越是基础的内容我们越要认真去学习和分析，ai可以快速解决问题，但是我希望我们可以知其所以然，感谢所有支持的收藏和粉丝，希望这些文章对你们有些许帮助！点点关注不迷路，免费的赞和收藏走起来！后续更新第一时间提示哦，每周会更新不同内容，下周更新如何用各种模态的大模型去为你服务，编写
ACL2024最佳论文揭榜，中国本科生破译3000年前的甲骨文密码会议之眼人工智能人工智能
标题：ACL2024最佳论文揭榜！中国本科生破译3000年前的甲骨文密码一、会议介绍ACL（AnnualMeetingoftheAssociationforComputationalLinguistics）2024，即第62届国际计算语言学年会，正在2024年8月11日至8月16日在泰国曼谷召开。作为计算语言学和自然语言处理领域的顶级会议，ACL是学者们展示最新成果、交流思想的重要平台。它被CCF
在Python中高效操作三维和四维数组相乘：人工智能基础 NumPy部分秋‍. python numpy 开发语言人工智能
一、前言在深度学习、科学计算和数据分析领域，处理高维数组是家常便饭。本文将深入探讨三维和四维数组的相乘操作，通过NumPy库演示各种实用技巧。二、核心概念梳理1.数组维度理解三维数组：(层,行,列)可理解为多个二维矩阵的堆叠四维数组：(批次大小,通道数,高度,宽度)常见于图像处理2.关键函数对比函数特性说明支持维度np.multiply元素级相乘任意np.dot标准矩阵点积≤2np.matmul广
J-LangChain，用Java实现LangChain编排！轻松加载PDF、切分文档、向量化存储，再到智能问答花千树-010 JLangChain-TG langchain java pdf AIGC nlp AI编程
Java如何玩转大模型编排、RAG、Agent？？？在自然语言处理（NLP）的浪潮中，LangChain作为一种强大的模型编排框架，已经在Python社区中广受欢迎。然而，对于Java开发者来说，能否有一个同样高效、灵活的工具来实现类似功能？答案是肯定的！今天，我们将聚焦J-LangChain——一个专为Java打造的LangChain实现，带你探索如何用Java语言轻松构建从PDF处理到智能问答
LangChain教程 - RAG - PDF问答花千树-010 LangChain langchain pdf AIGC python nlp embedding 人工智能
系列文章索引LangChain教程-系列文章在现代自然语言处理（NLP）中，基于文档内容的问答系统变得愈发重要，尤其是当我们需要从大量文档中提取信息时。通过结合文档检索和生成模型（如RAG，Retrieval-AugmentedGeneration），我们可以构建强大的问答系统。本博客将详细介绍如何使用FastAPI和LangChain框架，创建一个基于PDF文档的RAG问答API。一、背景在许多
基于 BERT 的自定义中文命名实体识别实现风清扬【coder】自然语言分析处理自然语言处理 bert nlp transformer
基于BERT的自定义中文命名实体识别实现在自然语言处理中，命名实体识别（NamedEntityRecognition，NER）是一项重要的任务，旨在识别文本中的特定实体，如人名、地名、组织机构名等。本文将介绍如何使用BERT模型实现自定义中文命名实体识别，并提供详细的代码分析和解读。一、项目背景命名实体识别在许多领域都有广泛的应用，如信息提取、问答系统、机器翻译等。传统的命名实体识别方法通常基于规
python数据预处理技术与实践期末考试_Python机器学习手册：从数据预处理到深度学习... 坂田月半
内容简介O'ReillyMedia,Inc．介绍第1章向量、矩阵和数组1.0简介1.1创建一个向量1.2创建一个矩阵1.3创建一个稀疏矩阵1.4选择元素1.5展示一个矩阵的属性1.6对多个元素同时应用某个操作1.7找到最大值和最小值1.8计算平均值、方差和标准差1.9矩阵变形1.10转置向量或矩阵1.11展开一个矩阵1.12计算矩阵的秩1.13计算行列式1.14获取矩阵的对角线元素1.15计算矩阵
英特尔开发板试用：结合OAK深度相机进行评测 OAK中国_官方数码相机
最近英特尔官方发布了一篇文章：主要介绍了如何将英特尔开发板（小挪吒）与OAK深度相机结合使用，并通过OpenVINO™工具套件进行开发和性能评测OAK相机：作为深度数据采集的核心设备，其深度测距功能与OpenVINO™推理相结合，实现了高效的目标检测和深度信息处理。OpenVINO™：作为英特尔的深度学习推理框架，为开发板和OAK相机提供了强大的推理支持。性能优化：通过模型转换和硬件加速，去实现高
VSLAM新方案之《在复杂环境中实现高精度与超强鲁棒性》 OAK中国_官方 SLAM 人工智能 rpab-map
OAKChina&苏州泛科特机器人联合推出OAK-DSeries&因子空间感知（FactorPerceptionKit）VSLAM解决方案01FactorPerceptionKit简介FactorPerceptionKit是一种真正基于深度学习技术的VSLAM方案，不同于许多厂商仅通过添加目标检测或语义分割模型来实现额外功能，我们直接在SLAM底层使用HF-Net模型，该模型同时进行局部特征点检测
深度学习开源数据集大全：从入门到前沿念九_ysl AI 人工智能
在深度学习中，数据是模型训练的基石。本文整理了当前最常用且高质量的开源数据集，涵盖图像、视频、自然语言处理（NLP）、语音与音频等方向，帮助研究者和开发者快速定位所需资源。一、图像类数据集1.MNIST简介：手写数字识别领域的“HelloWorld”，包含6万张训练图像和1万张测试图像，尺寸为28×28的灰度图。特点：适合入门级图像分类任务，支持快速验证算法原型28。下载地址：MNIST官网2.I
程序员未来的出路：行业趋势与职业发展分析 guzhoumingyue AI python
随着技术的发展和行业需求的变化，程序员的职业出路也在不断演变。以下是程序员未来可能的职业发展方向及具体建议：一、技术深耕路线AI与机器学习专家趋势：AI技术在各行业的应用日益广泛，从自动驾驶到智能客服，需求持续增长。技能要求：Python、TensorFlow、PyTorch、数据挖掘、算法优化。发展路径：从机器学习工程师做起，积累项目经验。深入研究深度学习、强化学习等前沿技术。成为AI架构师或数
计算机毕业设计 ——jspssm507Springboot 的论坛管理系统奔强的程序课程设计
博主小档案：花花，一名来自世界500强的资深程序猿，毕业于国内知名985高校。技术专长：花花在深度学习任务中展现出卓越的能力，包括但不限于java、python等技术。近年来，花花更是将触角延伸至AI领域，对于机器学习、自然语言处理、智能推荐等前沿技术都有独到的见解和实践经验。服务内容：1、提供科研入门辅导(主要是代码方面)2、代码部署3、定制化需求解决等4、期末考试复习计算机毕业设计——jsps
建筑兔零基础人工智能自学记录34|深度学习与神经网络2 阿克兔人工智能toto学习人工智能深度学习神经网络
1、人工神经网络ANN从生物课上学到的有关神经元、突触的生物神经网络，被模仿出了简化的人工神经网络（ANN,artificialneuralnetwork）。ANN结构为：输入层、隐藏层、输出层人工神经元：基于生物神经元的数学模型ANN过程：输入---加权求和---激活函数激活函数：类似生物神经元的阈值，达到阈值输出信号（‘神经网络的万能逼近定理’---两层以上神经网络可以逼近任意函数）2、深度学
揭开人工智能中 Tokens 的神秘面纱东锋1.3 人工智能 easyui 前端 javascript
揭开人工智能中Tokens的神秘面纱在人工智能，尤其是自然语言处理（NLP）领域，"tokens"是一个频繁出现且至关重要的概念。对于理解语言模型如何处理和理解人类语言，tokens起着基础性的作用。那么，究竟什么是tokens呢？它又在人工智能系统中扮演着怎样关键的角色？让我们一探究竟。什么是Tokens简单来说，tokens是将文本分割成的一个个基本单元。当我们输入一段文字时，人工智能模型不会
自然语言处理NLP入门 -- 第十节简单的聊天机器人山海青风 #自然语言处理自然语言处理 chatgpt
一、为什么要做聊天机器人？在互联网时代，我们日常接触到的“在线客服”“自动问答”等，大多是以聊天机器人的形式出现。它能帮我们快速回复常见问题，让用户获得及时的帮助，并在一定程度上减少人工客服的压力。同时，聊天机器人也是了解自然语言处理（NLP）最好的实战项目之一。因为它整合了文字理解（NLU）、对话管理、文本生成（NLG）等多方面知识，既能看到很直观的对话效果，也能结合深度学习模型让机器人变得更智
自然语言处理NLP入门 -- 第一节基础概念山海青风 #自然语言处理自然语言处理人工智能 python
本部分主要介绍NLP的基础概念，并通过实际案例演示NLP的核心任务，同时引导你搭建NLP开发环境，确保你能顺利开始后续学习。1.什么是自然语言处理（NLP）1.1NLP的定义自然语言处理（NaturalLanguageProcessing,NLP）是人工智能（AI）的一个子领域，专注于让计算机理解、解释和生成人类语言。NLP结合了计算机科学、语言学和机器学习，以便计算机能自动处理文本和语音数据。简
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR