cbd_2012

梯度优化算法

深度学习caffe:最优化方法

2017年02月14日 18:17:49 generalAI 阅读数：5422

上文提到，到目前为止，caffe总共提供了六种优化方法：

Stochastic Gradient Descent (type: "SGD"),
AdaDelta (type: "AdaDelta"),
Adaptive Gradient (type: "AdaGrad"),
Adam (type: "Adam"),
Nesterov’s Accelerated Gradient (type: "Nesterov") and
RMSprop (type: "RMSProp")

Solver就是用来使loss最小化的优化方法。对于一个数据集D，需要优化的目标函数是整个数据集中所有数据loss的平均值。

其中，fW(x(i))计算的是数据x(i)上的loss, 先将每个单独的样本x的loss求出来，然后求和，最后求均值。 r(W)是正则项（weight_decay)，为了减弱过拟合现象。

如果采用这种Loss 函数，迭代一次需要计算整个数据集，在数据集非常大的这情况下，这种方法的效率很低，这个也是我们熟知的梯度下降采用的方法。

在实际中，通过将整个数据集分成几批（batches), 每一批就是一个mini-batch，其数量（batch_size)为N<<|D|，此时的loss 函数为：

有了loss函数后，就可以迭代的求解loss和梯度来优化这个问题。在神经网络中，用forward pass来求解loss，用backward pass来求解梯度。

在caffe中，默认采用的Stochastic Gradient Descent（SGD）进行优化求解。后面几种方法也是基于梯度的优化方法（like SGD），因此本文只介绍一下SGD。其它的方法，有兴趣的同学，可以去看文献原文。

1、Stochastic gradient descent（SGD)

随机梯度下降（Stochastic gradient descent）是在梯度下降法（gradient descent）的基础上发展起来的，梯度下降法也叫最速下降法，具体原理在网易公开课《机器学习》中，吴恩达教授已经讲解得非常详细。SGD在通过负梯度和上一次的权重更新值Vt的线性组合来更新W，迭代公式如下：

其中，是负梯度的学习率(base_lr)，是上一次梯度值的权重（momentum），用来加权之前梯度方向对现在梯度下降方向的影响。这两个参数需要通过tuning来得到最好的结果，一般是根据经验设定的。如果你不知道如何设定这些参数，可以参考相关的论文。

在深度学习中使用SGD，比较好的初始化参数的策略是把学习率设为0.01左右（base_lr: 0.01)，在训练的过程中，如果loss开始出现稳定水平时，对学习率乘以一个常数因子（gamma），这样的过程重复多次。

对于momentum，一般取值在0.5--0.99之间。通常设为0.9，momentum可以让使用SGD的深度学习方法更加稳定以及快速。

关于更多的momentum，请参看Hinton的《A Practical Guide to Training Restricted Boltzmann Machines》。

实例：

base_lr: 0.01 
lr_policy: "step"
gamma: 0.1   
stepsize: 1000  
max_iter: 3500 
momentum: 0.9

lr_policy设置为step,则学习率的变化规则为 base_lr * gamma ^ (floor(iter / stepsize))

即前1000次迭代，学习率为0.01; 第1001-2000次迭代，学习率为0.001; 第2001-3000次迭代，学习率为0.00001，第3001-3500次迭代，学习率为10-5

上面的设置只能作为一种指导，它们不能保证在任何情况下都能得到最佳的结果，有时候这种方法甚至不work。如果学习的时候出现diverge（比如，你一开始就发现非常大或者NaN或者inf的loss值或者输出），此时你需要降低base_lr的值（比如，0.001），然后重新训练，这样的过程重复几次直到你找到可以work的base_lr。

2、AdaDelta

AdaDelta是一种”鲁棒的学习率方法“，是基于梯度的优化方法（like SGD）。

具体的介绍文献：

M. Zeiler ADADELTA: AN ADAPTIVE LEARNING RATE METHOD. arXiv preprint, 2012.

示例：

net: "examples/mnist/lenet_train_test.prototxt"
test_iter: 100
test_interval: 500
base_lr: 1.0
lr_policy: "fixed"
momentum: 0.95
weight_decay: 0.0005
display: 100
max_iter: 10000
snapshot: 5000
snapshot_prefix: "examples/mnist/lenet_adadelta"
solver_mode: GPU
type: "AdaDelta"
delta: 1e-6

从最后两行可看出，设置solver type为Adadelta时，需要设置delta的值。

3、AdaGrad

自适应梯度（adaptive gradient）是基于梯度的优化方法（like SGD）

具体的介绍文献：

Duchi, E. Hazan, and Y. Singer. Adaptive Subgradient Methods for Online Learning and Stochastic Optimization. The Journal of Machine Learning Research, 2011.

示例：

net: "examples/mnist/mnist_autoencoder.prototxt"
test_state: { stage: 'test-on-train' }
test_iter: 500
test_state: { stage: 'test-on-test' }
test_iter: 100
test_interval: 500
test_compute_loss: true
base_lr: 0.01
lr_policy: "fixed"
display: 100
max_iter: 65000
weight_decay: 0.0005
snapshot: 10000
snapshot_prefix: "examples/mnist/mnist_autoencoder_adagrad_train"
# solver mode: CPU or GPU
solver_mode: GPU
type: "AdaGrad"

4、Adam

是一种基于梯度的优化方法（like SGD）。

具体的介绍文献：

D. Kingma, J. Ba. Adam: A Method for Stochastic Optimization. International Conference for Learning Representations, 2015.

5、NAG

Nesterov 的加速梯度法（Nesterov’s accelerated gradient）作为凸优化中最理想的方法，其收敛速度非常快。

具体的介绍文献：

I. Sutskever, J. Martens, G. Dahl, and G. Hinton. On the Importance of Initialization and Momentum in Deep Learning. Proceedings of the 30th International Conference on Machine Learning, 2013.

示例：

net: "examples/mnist/mnist_autoencoder.prototxt"
test_state: { stage: 'test-on-train' }
test_iter: 500
test_state: { stage: 'test-on-test' }
test_iter: 100
test_interval: 500
test_compute_loss: true
base_lr: 0.01
lr_policy: "step"
gamma: 0.1
stepsize: 10000
display: 100
max_iter: 65000
weight_decay: 0.0005
snapshot: 10000
snapshot_prefix: "examples/mnist/mnist_autoencoder_nesterov_train"
momentum: 0.95
# solver mode: CPU or GPU
solver_mode: GPU
type: "Nesterov"

6、RMSprop

RMSprop是Tieleman在一次 Coursera课程演讲中提出来的，也是一种基于梯度的优化方法（like SGD）

具体的介绍文献：

T. Tieleman, and G. Hinton. RMSProp: Divide the gradient by a running average of its recent magnitude. COURSERA: Neural Networks for Machine Learning.Technical report, 2012.

示例：

net: "examples/mnist/lenet_train_test.prototxt"
test_iter: 100
test_interval: 500
base_lr: 1.0
lr_policy: "fixed"
momentum: 0.95
weight_decay: 0.0005
display: 100
max_iter: 10000
snapshot: 5000
snapshot_prefix: "examples/mnist/lenet_adadelta"
solver_mode: GPU
type: "RMSProp"
rms_decay: 0.98

最后两行，需要设置rms_decay值。

SGD

x+= -learning_rate*dx

Momentum

Momentum可以使SGD不至于陷入局部鞍点震荡，同时起到一定加速作用。
Momentum最开始有可能会偏离较远(overshooting the target)，但是通常会慢慢矫正回来。

v = mu*v - learning_rate*dx
x+= v

Nesterov momentum

基本思路是每次不在x位置求dx，而是在x+mu*v处更新dx，然后在用动量公式进行计算
相当于每次先到动量的位置，然后求梯度更新
vt=μvt?1?ε▽f(θt?1+μvt?1)
θt=θt?1+vt
计算▽f(θt?1+μvt?1)不太方便，做如下变量替换：?t?1=θt?1+μvt?1 ，并带回上述公式可以得到
vt=μvt?1+ε▽f(?t?1)
?t?1=?t?1?μvt?1+(1+μ)vt

v_prev = v
v = mu*v-learning_rate*dx
x += -mu*v_prev+(1+mu)*v

AdaGrad

使用每个变量的历史梯度值累加作为更新的分母，起到平衡不同变量梯度数值差异过大的问题

cache += dx**2
x += -learning_rate*dx/(np.sqrt(cache)+1e-7)

RMSProp

在AdaGrad基础上加入了decay factor，防止历史梯度求和过大

cache = decay_rate*cache + (1-decay_rate)*dx**2
x += -learning_rate*dx/(np.sqrt(cache)+1e-7)

ADAM

初始版本：类似于加入动量的RMSProp

m = beta1*m + (1-beta1)*dx
v = beta2*v + (1-beta2)*(dx**2)
x += -learning_rate*m / (np.sqrt(v)+1e-7)

真实的更新算法如下：

m = beta1*m + (1-beta1)*dx
v = beta2*v + (1-beta2)*(dx**2)
mb = m/(1-beta1**t) # t is step number
vb = v/(1-beta2**t)
x += -learning_rate*mb / (np.sqrt(vb)+1e-7)

mb和vb起到最开始的时候warm up作用，t很大之后(1-beta1**t) =1

Second Order optimization methods

second-order taylor expansion:
J(θ)≈J(θ0)+(θ?theta0)T+12(θ?θ0)TH(θ?θ0)
θ?=θ0?H?1▽θJ(θ0)

Quasi_newton methods (BFGS) with approximate inverse Hessian matrix L-BFGS (limited memory BFGS)
Does not form/store the full inverse Hessian.
Usually works very well in full batch, deterministic mode

实际经验

ADAM通常会取得比较好的结果，同时收敛非常快相比SGD L-BFGS适用于全batch做优化的情况有时候可以多种优化方法同时使用，比如使用SGD进行warm up，然后ADAM 对于比较奇怪的需求，deepbit两个loss的收敛需要进行控制的情况，比较慢的SGD比较适用

tensorflow 不同优化算法对应的参数

SGD

optimizer = tf.train.GradientDescentOptimizer(learning_rate=self.learning_rate)

Momentum

optimizer = tf.train.MomentumOptimizer(lr, 0.9)

AdaGrad

optimizer = tf.train.AdagradientOptimizer(learning_rate=self.learning_rate)

RMSProp

optimizer = tf.train.RMSPropOptimizer(0.001, 0.9)

ADAM

optimizer = tf.train.AdamOptimizer(learning_rate=self.learning_rate, epsilon=1e-08)

部分局部参数需要查找tensorflow官方文档

直接进行优化
train_op = optimizer.minimize(loss)
获得提取进行截断等处理
gradients, v = zip(*optimizer.compute_gradients(loss))
gradients, _ = tf.clip_by_global_norm(gradients, self.max_gradient_norm)
train_op = optimizer.apply_gradients(zip(gradients, v), global_step=self.global_step)

Caffe 不同优化算法参数

caffe的优化需要在solver.prototxt中指定相应的参数

type代表的是优化算法

比较坑的是不同的版本之间type会有变化(ADAM or Adam)，需要看具体代码
* Stochastic Gradient Descent (type: “SGD”),
* AdaDelta (type: “AdaDelta”),
* Adaptive Gradient (type: “AdaGrad”),
* Adam (type: “Adam”),
* Nesterov’s Accelerated Gradient (type: “Nesterov”) and
* RMSprop (type: “RMSProp”)

SGD

base_lr: 0.01
lr_policy: "step" # 也可以使用指数，多项式等等
gamma: 0.1
stepsize: 1000
max_iter: 3500
momentum: 0.9

AdaDelta

net: "examples/mnist/lenet_train_test.prototxt"
test_iter: 100
test_interval: 500
base_lr: 1.0
lr_policy: "fixed"
momentum: 0.95
weight_decay: 0.0005
display: 100
max_iter: 10000
snapshot: 5000
snapshot_prefix: "examples/mnist/lenet_adadelta"
solver_mode: GPU
type: "AdaDelta"
delta: 1e-6

AdaGrad

net: "examples/mnist/mnist_autoencoder.prototxt"
test_state: { stage: 'test-on-train' }
test_iter: 500
test_state: { stage: 'test-on-test' }
test_iter: 100
test_interval: 500
test_compute_loss: true
base_lr: 0.01
lr_policy: "fixed"
display: 100
max_iter: 65000
weight_decay: 0.0005
snapshot: 10000
snapshot_prefix: "examples/mnist/mnist_autoencoder_adagrad_train"
# solver mode: CPU or GPU
solver_mode: GPU
type: "AdaGrad"

Nesterov

base_lr: 0.01
lr_policy: "step"
gamma: 0.1
weight_decay: 0.0005
momentum: 0.95
type: "Nesterov"

ADAM

train_net: "nin_train_val.prototxt"
base_lr: 0.001
###############
##### step:base_lr * gamma ^ (floor(iter / stepsize))
#lr_policy: "step"
#gamma: 0.1
#stepsize: 25000
##### multi-step:
#lr_policy: "multistep"
#gamma: 0.5
#stepvalue: 1000
#stepvalue: 2000
#stepvalue: 3000
#stepvalue: 4000
#stepvalue: 5000
#stepvalue: 10000
#stepvalue: 20000
###### inv:base_lr * (1 + gamma * iter) ^ (- power)
# lr_policy: "inv"
# gamma: 0.0001
# power: 2
##### exp:base_lr * gamma ^ iter
# lr_policy: "exp"
# gamma: 0.9
##### poly:base_lr (1 - iter/max_iter) ^ (power)
# lr_policy: "poly"
# power: 0.9
##### sigmoid:base_lr ( 1/(1 + exp(-gamma * (iter - stepsize))))
# lr_policy: "sigmoid"
# gamma: 0.9
#momentum: 0.9
solver_type: ADAM
momentum: 0.9
momentum2: 0.999
delta: 1e-8
lr_policy: "fixed"
display: 100
max_iter: 50000
weight_decay: 0.0005
snapshot: 5000
snapshot_prefix: "./stage1/sgd_DeepBit1024_alex_stage1"
solver_mode: GPU

RMSProp

net: "examples/mnist/lenet_train_test.prototxt"
test_iter: 100
test_interval: 500
base_lr: 1.0
lr_policy: "fixed"
momentum: 0.95
weight_decay: 0.0005
display: 100
max_iter: 10000
snapshot: 5000
snapshot_prefix: "examples/mnist/lenet_adadelta"
solver_mode: GPU
type: "RMSProp"

你可能感兴趣的:(梯度优化算法)

基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
数学建模、运筹学之非线性规划 AgentSmart 算法学习算法动态规划线性代数线性规划
数学建模、运筹学之非线性规划一、最优化问题理论体系二、梯度下降法——无约束非线性规划三、牛顿法——无约束非线性规划四、只包含等值约束的拉格朗日乘子法五、不等值约束非线性规划与KKT条件一、最优化问题理论体系最优化问题旨在寻找全局最优值（或为最大值，或为最小值）。最优化问题一般可以分为两个部分：目标函数与约束条件。该问题的进一步细分也是根据这两部分的差异。最优化问题根据变量的取值范围不同可以划分为一
Python实现梯度下降法闲人编程 python python 开发语言梯度下降算法优化
博客：Python实现梯度下降法目录引言什么是梯度下降法？梯度下降法的应用场景梯度下降法的基本思想梯度下降法的原理梯度的定义学习率的选择损失函数与优化问题梯度下降法的收敛条件Python实现梯度下降法面向对象的设计思路代码实现示例与解释梯度下降法应用实例：线性回归场景描述算法实现结果分析与可视化梯度下降法的改进版本随机梯度下降（SGD）小批量梯度下降（Mini-batchGradientDesce
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
【3.6 python中的numpy编写一个“手写数字识”的神经网络】 wang151038606 深度学习入门 python numpy 神经网络
3.6python中的numpy编写一个“手写数字识”的神经网络要使用Python中的NumPy库从头开始编写一个“手写数字识别”的神经网络，我们通常会处理MNIST数据集，这是一个广泛使用的包含手写数字的图像数据集。但是，完全用NumPy来实现神经网络（包括数据的加载、预处理、模型定义、前向传播、损失计算、反向传播和权重更新）是一个相当复杂的任务，因为NumPy本身不提供自动微分或高级优化算法（
TensorFlow的基本概念以及使用场景张柏慈决策树
TensorFlow是一个机器学习平台，用于构建和训练机器学习模型。它使用图形表示计算任务，其中节点表示数学操作，边表示计算之间的数据流动。TensorFlow的主要特点包括：1.多平台支持：TensorFlow可以运行在多种硬件和操作系统上，包括CPU、GPU和移动设备。2.自动求导：TensorFlow可以自动计算模型参数的梯度，通过优化算法更新参数，以提高模型的准确性。3.分布式计算：Ten
如何让大模型更聪明？吗喽一只人工智能算法机器学习
随着人工智能技术的飞速发展，大模型在多个领域展现出了前所未有的能力，但它们仍然面临着理解力、泛化能力和适应性等方面的挑战。让大模型更聪明，从算法创新、数据质量与多样性、模型架构优化等角度出发，我们可以采取以下策略：一、算法创新优化损失函数：损失函数是优化算法的核心，直接影响模型的最终性能。在大模型中，需要设计更为精细的损失函数来捕捉数据中的复杂性和细微差别。例如，结合任务特性和数据特性，设计多任务
梯度提升机 (Gradient Boosting Machines, GBM) ALGORITHM LOL boosting 集成学习机器学习
梯度提升机(GradientBoostingMachines,GBM)通俗易懂算法梯度提升机（GradientBoostingMachines，GBM）是一种集成学习算法，主要用于回归和分类问题。GBM本质上是通过训练一系列简单的模型（通常是决策树），然后将这些模型组合起来，从而提高整体预测性能。基本步骤初始模型：首先，我们用一个简单的模型（如一个常数值）作为预测模型，记为F0(x)F_0(x)F
十大机器学习算法-梯度提升决策树（GBDT） zjwreal 机器学习 GBDT 机器学习梯度提升提升树梯度提升决策树
简介梯度提升决策树（GBDT）由于准确率高、训练快速等优点，被广泛应用到分类、回归合排序问题中。该算法是一种additive树模型，每棵树学习之前additive树模型的残差。许多研究者相继提出XGBoost、LightGBM等，又进一步提升了GBDT的性能。基本思想提升树-BoostingTree以决策树为基函数的提升方法称为提升树，其决策树可以是分类树或者回归树。决策树模型可以表示为决策树的加
【04】深度学习——训练的常见问题 | 过拟合欠拟合应对策略 | 过拟合欠拟合示例 | 正则化 | Dropout方法 | Dropout的代码实现 | 梯度消失和爆炸 | 模型文件的读写花落指尖❀ #深度学习深度学习人工智能目标检测神经网络 cnn
深度学习1.常见的分类问题1.1模型架构设计1.2万能近似定理1.3宽度or深度1.4过拟合问题1.5欠拟合问题1.6相互关系2.过拟合欠拟合应对策略2.1问题的本源2.2数据集大小的选择2.3数据增广2.4使用验证集2.5模型选择2.6K折交叉验证2.7提前终止3.过拟合欠拟合示例3.1导入库3.2数据生成3.3数据划分3.4模型定义3.5辅助函数3.6可视化4.正则化4.1深度学习中的正则化4
使用LSTM（长短期记忆网络）模型预测股票价格的实例分析 eeee~~ 深度学习 lstm 人工智能 rnn 金融 python 神经网络
一：LSTM与RNN的区别LSTM（LongShort-TermMemory）是一种特殊的循环神经网络（RNN）架构。LSTM是为了解决传统RNN在处理长序列数据时遇到的梯度消失或梯度爆炸问题而设计的。在传统的RNN中，信息通过隐藏状态在时间步之间传递，但由于权重的重复应用，随着时间的推移，梯度可能会迅速减小或增大，导致网络难以学习长期依赖关系。LSTM通过引入了一种称为“门”（gates）的机制
深度学习算法，该如何深入，举例说明 liyy614 深度学习
深度学习算法的深入学习可以从理论和实践两个方面进行。理论上，深入理解深度学习需要掌握数学基础（如线性代数、概率论、微积分）、机器学习基础和深度学习框架原理。实践上，可以通过实现和优化深度学习模型来提升技能。理论深入数学基础线性代数：理解向量、矩阵、特征值和特征向量等，对于理解神经网络的权重和偏置矩阵至关重要。概率论：用于理解模型的不确定性，如Dropout等正则化技术。微积分：理解梯度下降等优化算
opencv 梯度幅值_基于OpenCV的图像梯度与边缘检测！莫仝汉 opencv 梯度幅值
严格的说，梯度计算需要求导数。但是图像梯度的计算，是通过计算像素值的差得到梯度的近似值。图像梯度表示的是图像变化的速度，反映了图像的边缘信息。边缘是像素值快速变化的地方。所以对于图像的边缘部分，其灰度值变化较大，梯度值也较大；对于图像中较平滑的部分，其灰度值变化较小，梯度值也较小。为了检测边缘，我们需要检测图像中的不连续性，可以使用图像梯度来检测不连续性。但是，图像梯度也会受到噪声的影响，因此建议
opencv13:图像梯度 uncle_ll #OpenCV opencv sobel scharr laplacian
目标在本章中，将学习：查找图像梯度，边缘等学习以下函数：cv2.Sobel()cv2.Scharr()cv2.Laplacian()理论1)边缘：灰度或结构等信息的突变处，边缘是一个区域的结束，也是另一个区域的开始，利用该特征可以分割图像。2)边缘点：图像中具有坐标[x，y]，且处在强度显著变化的位置上的点。3)边缘段：对应于边缘点坐标[x，y]及其方位，边缘的方位可能是梯度角OpenCV提供三种
2-90 基于matlab的总图专业平面布置优化程序 'Matlab学习与应用 matlab工程应用物流强度物流关系数数据物流流进厂房标号总图专业平面布置优化 matlab
基于matlab的总图专业平面布置优化程序，输入数据物流流进厂房标号、物流关系数、物流关系标号、物流强度，双目标优化算法计算最优平面布置方案。程序已调通，可直接运行。下载源程序点链接：2-90基于matlab的总图专业平面布置优化程序
太阳结构之对流层--太阳也一直开着振动模式？科学的大手
对流层光能在辐射区逐渐被重粒子吸收，变成粒子的动能（热能）。当辐射区顶的实际温度梯度绝对值大于绝热温度梯度绝对值时，即温度变化太快，超过了绝热传导的速度，就会发生对流运动，进而形成对流层（来不及传递能量了，我自己动吧）。这就相当于辐射区是个火炉，在加热对流层中的物质，底部热物质向上运动，直达太阳表面并冷却，然后下沉到底部，重新加热，再次上升，如此反复，形成循环的冷热交替过程，完成能量的传输（烧开水
Adam优化器：深度学习中的自适应方法 2401_85743969 深度学习人工智能
引言在深度学习领域，优化算法是训练神经网络的核心组件之一。Adam（AdaptiveMomentEstimation）优化器因其自适应学习率调整能力而受到广泛关注。本文将详细介绍Adam优化器的工作原理、实现机制以及与其他优化器相比的优势。深度学习优化器概述优化器在深度学习中负责调整模型的参数，以最小化损失函数。常见的优化器包括SGD（随机梯度下降）、RMSprop、AdaGrad、AdaDelt
《机器学习》—— XGBoost（xgb.XGBClassifier）分类器张小生180 机器学习人工智能
文章目录一、XGBoost分类器的介绍二、XGBoost（xgb.XGBClassifier）分类器与随机森林分类器（RandomForestClassifier）的区别三、XGBoost（xgb.XGBClassifier）分类器代码使用示例一、XGBoost分类器的介绍XGBoost分类器是一种基于梯度提升决策树（GradientBoostingDecisionTree，GBDT）的集成学习算
基于深度学习的对抗样本生成与防御 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的对抗样本生成与防御是当前人工智能安全领域的关键研究方向。对抗样本是通过对输入数据进行微小扰动而产生的，能够导致深度学习模型做出错误预测。这对图像分类、自然语言处理、语音识别等应用构成了严重威胁，因此相应的防御措施也在不断发展。1.对抗样本生成对抗样本生成的方法主要有两大类：基于梯度的方法和基于优化的方法。1.1基于梯度的方法这些方法利用模型的梯度信息，通过细微的扰动来生成对抗样本，迫
深圳市专精特新预计9月初申报！申报成功后，有哪些好处？深科信项目申报助手专精特新补贴资金经验分享其他科技
广东省专精特新中小企业已开放申报，9月30日申报截止！深圳市专精特新中小企业预计9月初开放（请以官方通知为准，推荐使用深科信项目申报通知订阅功能~）我们整理专精特新中小企业认定有哪些好处？认定流程如何？以及深圳市专精特新中小企业认定条件，千万别错过啦！有任何问题欢迎咨询深科信！深圳市专精特新中小企业的认定流程01申报企业登录优质中小企业梯度培育平台02完成《数字化水平评测》03填写《专精特新中小企
基于深度学习的结构优化与生成 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的结构优化与生成技术应用于多种领域，例如建筑设计、机械工程、材料科学等。该技术通过使用深度学习模型分析和优化结构形状、材料分布、拓扑结构等因素，旨在提高结构性能、减少材料浪费、降低成本、并加快设计流程。1.结构优化与生成的核心概念结构优化：涉及通过调整结构设计参数（如形状、材料、厚度等）来改善其特定性能指标，如强度、刚度、重量、成本或安全性。传统的优化方法依赖于数值仿真和数学优化算法，
如何在Java中实现高效的分布式梯度下降算法省赚客app开发者 java 分布式算法
如何在Java中实现高效的分布式梯度下降算法大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！在本文中，我们将探讨如何在Java中实现高效的分布式梯度下降算法。分布式梯度下降（DistributedGradientDescent）是一种常用于训练大规模机器学习模型的优化方法，特别是在处理大规模数据集时非常有效。本文将介绍如何设计和实现这一算法，以提高训练效率。分布式梯度
pytorch正向传播没问题，loss.backward()使定义的神经网络中权重参数变为nan 加速却甩不掉伤悲 pytorch 神经网络人工智能
记录一个非常坑爹的bug:loss回传导致神经网络中一个linear层的权重参数变为nan1.首先loss值是正常数值；2.查了好多网上的解决办法：检查原始输入神经网络数据有没有nan值，初始化权重参数，使用relu激活函数，梯度裁剪，降低优化器的学习率等等都没解决，个人认为这些应该影响不大，一般不会出问题；3.最后是使用如下异常检测：检测在loss回传过程中哪一块出现了问题torch.autog
fpga图像处理实战-边缘检测（Roberts算子）梦梦梦梦子~ OV5640+图像处理图像处理计算机视觉人工智能
Roberts算子Roberts算子是一种用于边缘检测的算子，主要用于图像处理中检测图像的边缘。它是最早的边缘检测算法之一，以其计算简单、速度快而著称。Roberts算子通过计算图像像素在对角方向的梯度来检测边缘，从而突出图像中灰度变化最剧烈的部分。原理Roberts算子通过对图像应用两个2x2的卷积核（也称为掩模或滤波器）来计算图像在水平和垂直方向上的梯度。假设原始图像的像素值为I(x,y)，则
系统架构设计师——架构评估（一）吴代庄 #系统架构设计师系统架构架构数据库系统架构设计师
质量属性1.性能：性能通常指软件系统的响应时间、处理速度和资源消耗等。高性能的软件应用能够快速响应用户请求，处理大量数据而不影响用户体验。在设计阶段，需要考虑优化算法、高效编码和适当的硬件资源配置来提高系统性能。提升性能提升性能是软件系统中至关重要的方面，尤其是在高负载和高并发的场景下。以下是提升性能的策略，包括资源需求、资源管理和资源仲裁：资源需求减少处理事件时对资源的占用：通过优化算法和数据结
7. 深度强化学习：智能体的学习与决策 Network_Engineer 机器学习学习机器学习深度学习神经网络 python 算法
引言深度强化学习结合了强化学习与深度学习的优势，通过智能体与环境的交互，使得智能体能够学习最优的决策策略。深度强化学习在自动驾驶、游戏AI、机器人控制等领域表现出色，推动了人工智能的快速发展。本篇博文将深入探讨深度强化学习的基本框架、经典算法（如DQN、策略梯度法），以及其在实际应用中的成功案例。1.强化学习的基本框架强化学习是机器学习的一个分支，专注于智能体在与环境的交互过程中，学习如何通过最大
深度学习-OpenCv的运用（4）红米煮粥深度学习 opencv 人工智能
文章目录一、图像形态学二、图像形态学的基本概念三、形态学操作的主要类型四、代码实现1.图像腐蚀2.图像膨胀3.开运算-先腐蚀后膨胀4.闭运算-先膨胀后腐蚀5.梯度运算6.顶帽与黑帽五、总结一、图像形态学图像形态学是数学中研究形状、结构和变换的一个分支，在图像处理领域，它主要用于描述和分析图像中的形状和结构。图像形态学通过操作图像中的形状和结构元素（也称为内核或模板），来实现图像的分析、增强、去噪和
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比