五癫

机器学习-梯度下降法实现线性回归

1. 背景

文章的背景取自An Introduction to Gradient Descent and Linear Regression，本文想在该文章的基础上，完整地描述线性回归算法。部分数据和图片取自该文章。没有太多时间抠细节，所以难免有什么缺漏错误之处，望指正。

线性回归的目标很简单，就是用一条线，来拟合这些点，并且使得点集与拟合函数间的误差最小。如果这个函数曲线是一条直线，那就被称为线性回归，如果曲线是一条二次曲线，就被称为二次回归。数据来自于GradientDescentExample中的data.csv文件，共100个数据点，如下图所示：

我们的目标是用一条直线来拟合这些点。既然是二维，那么 y=b+mx 这个公式相信对于中国学生都很熟悉。其中 b 是直线在y轴的截距（y-intercept）， m 是直线的斜率（slope）。寻找最佳拟合直线的过程，其实就是寻找最佳的 b 和 m 的过程。为了寻找最佳的拟合直线，这里首先要定义，什么样的直线才是最佳的直线。我们定义误差（cost function）：

误 差 函 数 E r r o r (b, m) = 1 N \sum 1 N ((b + m x i) - y i) 2

计算损失函数的python代码如下：

# y = b + mx
def compute_error_for_line_given_points(b, m, points):
    totalError = sum((((b + m * point[0]) - point[1]) ** 2 for point in points))
    return totalError / float(len(points))
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4

现在问题被转化为，寻找参数 b 和 m ，使得误差函数 Error(b,m) 有最小值。在这里， xi 和 yi 都被视为已知值。从下图看，最小二乘法所做的是通过数学推导直接计算得到最低点；而梯度下降法所做的是从图中的任意一点开始，逐步找到图的最低点。

2. 多元线性回归模型

从机器学习的角度来说，以上的数据只有一个feature，所以用一元线性回归模型即可。这里我们将一元线性模型的结论一般化，即推广到多元线性回归模型。这部分内部参考了机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)。假设有 x1 ， x2 ， ... , xn 共 n 个feature， θ 为 x 的系数，则

拟 合 函 数 h θ (x) = θ 0 + θ 1 x 1 + . . . + θ n x n = θ T x ， 其 中 x 0 = 1

误 差 函 数 J (θ) = 1 2 \sum i = 1 m (h θ (x (i)) - y (i)) 2 ， m 代 表 有 m 组 样 本

更一般地，我们可以得到广义线性回归。 ϕ(x) 可以换成不同的函数，从而得到的拟合函数就不一定是一条直线了。

广 义 线 性 函 数 h θ (x) = θ T x = θ 0 + \sum i = 1 n θ i ϕ i (x i)

2.1 误差函数的进一步思考

这里有一个有意思的东西，就是误差函数为什么要写成这样的形式。首先是误差函数最前面的系数 12 ，这个参数其实对结果并没有什么影响，这里之所以取 12 ，是为了抵消求偏导过程中得到的 2 。可以实验，把 Error(b,m) 最前面的 1N 修改或者删除并不会改变最终的拟合结果。那么为什么要使用平方误差呢？考虑以下公式：

y (i) = θ T x (i) + ε (i)

假定误差 ε(i)(1⩽i⩽m) 是独立同分布的，由中心极限定理可得， ε(i) 服从均值为 0 ，方差为 σ2 的正态分布（均值若不为0，可以归约到 θ0上）。进一步的推导来自从@邹博_机器学习的机器学习课件。

所以求 maxL(θ) 的过程，就变成了求 minJ(θ) 的过程，从理论上解释了误差函数 J(θ) 的由来。

3 最小二乘法求误差函数最优解

最小二乘法（normal equation）相信大家都很熟悉，这里简单进行解释并提供python实现。首先，我们进一步把 J(θ) 写成矩阵的形式。 X 为 m 行 n 列的矩阵（代表 m 个样本，每个样本有 n 个feature）， θ 和 Y 为 m 行 1 列的矩阵。所以

J (θ) = 1 2 \sum i = 1 m (h θ (x (i)) - y (i)) 2 = 1 2 (X θ - Y) T (X θ - Y)

所以 θ 的最优解为： θ=(XTX)−1XTY 。

当然这里可能遇到一些问题，比如 X 必须可逆，比如求逆运算时间开销较大。具体解决方案待补充。

3.1 python实现最小二乘法

这里的代码仅仅针对背景里的这个问题。部分参考了回归方法及其python实现。

# 通过最小二乘法直接得到最优系数，返回计算出来的系数b, m
def least_square_regress(points):
    x_mat = np.mat(np.array([np.ones([len(points)]), points[:, 0]]).T)  # 转为100行2列的矩阵，2列其实只有一个feature，其中x0恒为1
    y_mat = points[:, 1].reshape(len(points), 1)  # 转为100行1列的矩阵
    xT_x = x_mat.T * x_mat
    if np.linalg.det(xT_x) == 0.0:
        print('this matrix is singular,cannot inverse')  # 奇异矩阵，不存在逆矩阵
        return
    coefficient_mat = xT_x.I * (x_mat.T * y_mat)
    return coefficient_mat[0, 0], coefficient_mat[1, 0] # 即系数b和m
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10

程序执行结果如下：
b = 7.99102098227, m = 1.32243102276, error = 110.257383466, 相关系数 = 0.773728499888

拟合结果如下图：

4. 梯度下降法求误差函数最优解

有了最小二乘法以后，我们已经可以对数据点进行拟合。但由于最小二乘法需要计算 X 的逆矩阵，计算量很大，因此特征个数多时计算会很慢，只适用于特征个数小于100000时使用；当特征数量大于100000时适合使用梯度下降法。最小二乘法与梯度下降法的区别见最小二乘法和梯度下降法有哪些区别？。

4.1. 梯度

首先，我们简单回顾一下微积分中梯度的概念。这里参考了方向导数与梯度，具体的证明请务必看一下这份材料，很短很简单的。

讨论函数 z=f(x,y) 在某一点 P 沿某一方向的变化率问题。设函数 z=f(x,y) 在点 P(x,y) 的某一邻域 U(P) 内有定义，自点 P 引射线 l 到点 P′(x+Δx,y+Δy) 且 P′∈U(P) ，如下图所示。

定义函数 z=f(x,y) 在点 P 沿方向 l 的方向导数为：

\partial f \partial l = lim ρ \to 0 f ( x + Δ x , y + Δ y ) - f ( x , y ) ρ ， 其 中 ρ = (Δ x) 2 + (Δ y) 2 - - - - - - - - - - - - \sqrt

方向导数可以理解为，函数 z=f(x,y) 沿某个方向变化的速率。可以类比一下函数 y=kx+b 的斜率 k=dydx 。斜率越大，函数 y 增长得越快。那么现在问题来了，函数 z=f(x,y) 在点 P 沿哪个方向增加的速度最快？而这个方向就是梯度的方向

g r a d f (x, y) = \partial f \partial x i \to + \partial f \partial y j \to

从几何角度来理解，函数 z=f(x,y) 表示一个曲面，曲面被平面 z=c 截得的曲线在 xoy 平面上投影如下图，这个投影也就是我们所谓的等高线。

函数 z=f(x,y) 在点 P(x,y) 处的梯度方向与点 P 的等高线 f(x,y)=c 在这点的法向量的方向相同，且从数值较低的等高线指向数值较高的等高线。

4.2 梯度方向计算

理解了梯度的概念之后，我们重新回到1. 背景中提到的例子。1. 背景提到，梯度下降法所做的是从图中的任意一点开始，逐步找到图的最低点。那么现在问题来了，从任意一点开始， b 和 m 可以往任意方向”走”，如何可以保证我们走的方向一定是使误差函数 Error(b,m) 减小且减小最快的方向呢？回忆4.1. 梯度中提到的结论，梯度的方向是函数上升最快的方向，那么函数下降最快的方向，也就是梯度的反方向。有了这个思路，我们首先计算梯度方向，

\partial E r r o r ( b , m ) \partial m = \sum i = 1 N x i ((b + m x i) - y i)

\partial E r r o r ( b , m ) \partial b = \sum i = 1 N ((b + m x i) - y i) ， x 0 恒 为 1

有了这两个结果，我们就可以开始使用梯度下降法来寻找误差函数 Error(b,m) 的最低点。我们从任意的点 (b,m) 开始，逐步地沿梯度的负方向改变 b 和 m 的值。每一次改变， Error(b,m) 都会得到更小的值，反复进行该操作，逐步逼近 Error(b,m) 的最低点。

回到更一般的情况，对于每一个向量 θ 的每一维分量 θi ，我们都可以求出梯度的方向，也就是错误函数 J(θ) 下降最快的方向：

\partial \partial θ j J (θ) = \partial \partial θ j 1 2 \sum i = 1 m (h θ (x (i)) - y (i)) 2 = \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j

4.3 批量梯度下降法

从上面的公式中，我们进一步得到特征的参数 θj 的迭代式。因为这个迭代式需要把m个样本全部带入计算，所以我们称之为批量梯度下降

θ' j = θ j - α \partial J ( θ ) \partial θ j = θ j - α \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j

针对此例，梯度下降法一次迭代过程的python代码如下：

def step_gradient(b_current, m_current, points, learningRate):
    b_gradient = 0
    m_gradient = 0
    N = float(len(points))
    for i in range(0, len(points)):
        x = points[i, 0]
        y = points[i, 1]
        m_gradient += (2 / N) * x * ((b_current + m_current * x) - y)
        b_gradient += (2 / N) * ((b_current + m_current * x) - y)
    new_b = b_current - (learningRate * b_gradient)  # 沿梯度负方向
    new_m = m_current - (learningRate * m_gradient)  # 沿梯度负方向
    return [new_b, new_m]
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11
    
    
    
    12

其中learningRate是学习速率，它决定了逼近最低点的速率。可以想到的是，如果learningRate太大，则可能导致我们不断地最低点附近来回震荡；而learningRate太小，则会导致逼近的速度太慢。An Introduction to Gradient Descent and Linear Regression提供了完整的实现代码GradientDescentExample。

这里多插入一句，如何在python中生成GIF动图。配置的过程参考了使用Matplotlib和Imagemagick实现算法可视化与GIF导出。需要安装ImageMagick，使用到的python库是Wand: a ctypes-based simple ImageMagick binding for Python。然后修改C:\Python27\Lib\site-packages\matplotlib__init__.py文件，在

# this is the instance used by the matplotlib classes
rcParams = rc_params()
 
   
   
   
   
    
    
    
    1
    
    
    
    2

后面加上：

# fix a bug by ZZR
rcParams['animation.convert_path'] = 'C:\Program Files\ImageMagick-6.9.2-Q16\convert.exe'
 
   
   
   
   
    
    
    
    1
    
    
    
    2

即可在python中调用ImageMagick。如何画动图参见Matplotlib动画指南，不再赘述。

learningRate=0.0001，迭代100轮的结果如下图：

After {100} iterations b = 0.0350749705923, m = 1.47880271753, error = 112.647056643, 相关系数 = 0.773728499888
After {1000} iterations b = 0.0889365199374, m = 1.47774408519, error = 112.614810116, 相关系数 = 0.773728499888
After {1w} iterations b = 0.607898599705, m = 1.46754404363, error = 112.315334271, 相关系数 = 0.773728499888
After {10w} iterations b = 4.24798444022, m = 1.39599926553, error = 110.786319297, 相关系数 = 0.773728499888

4.4 随机梯度下降法

批量梯度下降法每次迭代都要用到训练集的所有数据，计算量很大，针对这种不足，引入了随机梯度下降法。随机梯度下降法每次迭代只使用单个样本，迭代公式如下：

θ' j = θ j - α (h θ (x (i)) - y (i)) x (i) j

可以看出，随机梯度下降法是减小单个样本的错误函数，每次迭代不一定都是向着全局最优方向，但大方向是朝着全局最优的。

这里还有一些重要的细节没有提及，比如如何确实learningRate，如果判断何时递归可以结束等等。

参考文献

An Introduction to Gradient Descent and Linear Regression
方向导数与梯度
最小二乘法和梯度下降法有哪些区别？
GradientDescentExample
机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)
@邹博_机器学习
回归方法及其python实现
使用Matplotlib和Imagemagick实现算法可视化与GIF导出
Wand: a ctypes-based simple ImageMagick binding for Python
Matplotlib动画指南

转载自：http://blog.csdn.net/titan0427/article/details/50365480

你可能感兴趣的:(深度学习笔记)

吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
吴恩达深度学习笔记(24)-为什么要使用深度神经网络？极客Array
为什么使用深层表示？（Whydeeprepresentations?）我们都知道深度神经网络能解决好多问题，其实并不需要很大的神经网络，但是得有深度，得有比较多的隐藏层，这是为什么呢？我们一起来看几个例子来帮助理解，为什么深度神经网络会很好用。首先，深度网络在计算什么？如果你在建一个人脸识别或是人脸检测系统，深度神经网络所做的事就是，当你输入一张脸部的照片，然后你可以把深度神经网络的第一层，当成一
【深度学习笔记】1 数据操作 RIKI_1 深度学习深度学习笔记人工智能
注：本文为《动手学深度学习》开源内容，仅为个人学习记录，无抄袭搬运意图数据操作在深度学习中，我们通常会频繁地对数据进行操作。作为动手学深度学习的基础，本节将介绍如何对内存中的数据进行操作。在PyTorch中，torch.Tensor是存储和变换数据的主要工具。如果你之前用过NumPy，你会发现Tensor和NumPy的多维数组非常类似。然而，Tensor提供GPU计算和自动求梯度等更多功能，这些使
【深度学习笔记】6_4 循环神经网络的从零开始实现 RIKI_1 深度学习深度学习笔记 rnn
注：本文为《动手学深度学习》开源内容，部分标注了个人理解，仅为个人学习记录，无抄袭搬运意图6.4循环神经网络的从零开始实现在本节中，我们将从零开始实现一个基于字符级循环神经网络的语言模型，并在周杰伦专辑歌词数据集上训练一个模型来进行歌词创作。首先，我们读取周杰伦专辑歌词数据集：importtimeimportmathimportnumpyasnpimporttorchfromtorchimport
【深度学习笔记】6_10 双向循环神经网络bi-rnn RIKI_1 深度学习深度学习笔记 rnn
注：本文为《动手学深度学习》开源内容，部分标注了个人理解，仅为个人学习记录，无抄袭搬运意图6.10双向循环神经网络之前介绍的循环神经网络模型都是假设当前时间步是由前面的较早时间步的序列决定的，因此它们都将信息通过隐藏状态从前往后传递。有时候，当前时间步也可能由后面时间步决定。例如，当我们写下一个句子时，可能会根据句子后面的词来修改句子前面的用词。双向循环神经网络通过增加从后往前传递信息的隐藏层来更
深度学习笔记１：神经网络端到端学习笔记撒哈拉土狼深度学习
许多重要问题都可以抽象为变长序列学习问题（sequencetosequencelearning），如语音识别、机器翻译、字符识别。这类问题的特点是，1)输入和输出都是序列（如连续值语音信号/特征、离散值的字符），2)序列长度都不固定，3)并且输入输出序列长度没有对应关系。因此，传统的神经网络模型（DNN，CNN，RNN）不能直接以端到端的方式解决这类问题的建模和学习问题。解决变长序列的端到端学习，
吴恩达深度学习-L1 神经网络和深度学习总结向来痴_ 深度学习人工智能
作业地址：吴恩达《深度学习》作业线上版-知乎(zhihu.com)写的很好的笔记：吴恩达《深度学习》笔记汇总-知乎(zhihu.com)我的「吴恩达深度学习笔记」汇总帖（附18个代码实战项目）-知乎(zhihu.com)此处只记录需要注意的点，若想看原笔记请移步。1.1深度学习入门我们只需要管理神经网络的输入和输出，而不用指定中间的特征，也不用理解它们究竟有没有实际意义。1.2简单的神经网络——逻
深度学习笔记：推理服务 TaoTao Li tensorflow 深度学习深度学习人工智能机器学习
在线推理服务解决的问题样本处理特征抽取(生成)特征抽取过程特征定义通用定义具体定义特征抽取加速Embeding查询NN计算DL框架计算优化图优化量化优化异构计算CodeGen总结参考资料解决的问题模型训练解决模型效果问题，模型推理解决模型实时预测问题。推理服务是把训练好的模型部署到线上，进行实时预测的过程。如阿里的RTP系统顾名思义，实时预测是相对于非实时预测(离线预测)而言，非实时预测是将训练好
fast.ai 深度学习笔记（三）绝不原创的飞龙人工智能人工智能深度学习笔记
深度学习2：第1部分第6课原文：medium.com/@hiromi_suenaga/deep-learning-2-part-1-lesson-6-de70d626976c译者：飞龙协议：CCBY-NC-SA4.0来自fast.ai课程的个人笔记。随着我继续复习课程以“真正”理解它，这些笔记将继续更新和改进。非常感谢Jeremy和Rachel给了我这个学习的机会。第6课[##2017年深度学习优
深度学习笔记 stoAir 深度学习笔记人工智能
DeepLearningBasic神经网络：algorithm1input1outputinput2input3input4algorithm2监督学习：1个x对应1个y；Sigmoid:激活函数sigmoid=11+e−xsigmoid=\frac{1}{1+e^{-x}}sigmoid=1+e−x1ReLU:线性整流函数；##LogisticRegression-->binaryclassif
fast.ai 深度学习笔记（六）绝不原创的飞龙人工智能人工智能 python 深度学习
深度学习2：第2部分第12课原文：medium.com/@hiromi_suenaga/deep-learning-2-part-2-lesson-12-215dfbf04a94译者：飞龙协议：CCBY-NC-SA4.0来自fast.ai课程的个人笔记。随着我继续复习课程以“真正”理解它，这些笔记将继续更新和改进。非常感谢Jeremy和Rachel给了我这个学习的机会。生成对抗网络（GANs）视频
fast.ai 深度学习笔记（一）绝不原创的飞龙人工智能人工智能深度学习笔记
深度学习2：第1部分第1课原文：medium.com/@hiromi_suenaga/deep-learning-2-part-1-lesson-1-602f73869197译者：飞龙协议：CCBY-NC-SA4.0来自fast.ai课程的个人笔记。随着我继续复习课程以“真正”理解它，这些笔记将继续更新和改进。非常感谢Jeremy和Rachel给了我这个学习的机会。第一课开始[0:00]：为了训练
吴恩达深度学习笔记(15）-浅层神经网络之神经网络概述极客Array
神经网络概述（NeuralNetworkOverview）从今天开始你将学习如何实现一个神经网络。这里只是一个概述，详细的在后面会讲解，看不懂也没关系，先有个概念，就是前向计算然后后向计算，理解了这个就可以了，有一些公式和表达在后面会详细的讲解。在我们深入学习具体技术之前，我希望快速的带你预览一下后续几天你将会学到的东西。现在我们开始快速浏览一下如何实现神经网络。之前我们讨论了逻辑回归，我们了解了
Tensorflow实战深度学习笔记一独立开发者Lau
人类直观能力----人工智能（自然语言理解、图像识别、语音识别等）。经验----机器学习。训练----特征相关度。特征提取深度学习---自动地将简单的特征组合成更加复杂的特征，并使用这些复杂特征解决问题。深度学习--------不等于模仿人类大脑。
吴恩达深度学习笔记(82)-深度卷积神经网络的发展史极客Array
为什么要探索发展史(实例分析)？我们首先来看看一些卷积神经网络的实例分析，为什么要看这些实例分析呢？上周我们讲了基本构建，比如卷积层、池化层以及全连接层这些组件。事实上，过去几年计算机视觉研究中的大量研究都集中在如何把这些基本构件组合起来，形成有效的卷积神经网络。最直观的方式之一就是去看一些案例，就像很多人通过看别人的代码来学习编程一样，通过研究别人构建有效组件的案例是个不错的办法。实际上在计算机
深度学习笔记：灾难性遗忘 UQI-LIUWJ 机器学习笔记
1灾难性遗忘介绍当神经网络被训练去学习新的任务时，它可能会完全忘记如何执行它以前学过的任务。这种现象尤其在所谓的“连续学习”（continuouslearning）或“增量学习”（incrementallearning）场景中很常见2不同视角下看待灾难性遗忘以及对应的解决方法2.1从梯度的视角2.1.1从梯度的视角看灾难性遗忘我们有两个不同任务的损失曲面，用平滑的曲面训练完之后，再在坑坑洼洼的曲面
深度学习笔记（九）——tf模型导出保存、模型加载、常用模型导出tflite、权重量化、模型部署絮沫深度学习深度学习笔记人工智能
文中程序以Tensorflow-2.6.0为例部分概念包含笔者个人理解，如有遗漏或错误，欢迎评论或私信指正。本篇博客主要是工具性介绍，可能由于软件版本问题导致的部分内容无法使用。首先介绍tflite:TensorFlowLite是一组工具，可帮助开发者在移动设备、嵌入式设备和loT设备上运行模型，以便实现设备端机器学习。框架具有的主要特性：延时（数据无需往返服务器）隐私（没有任何个人数据离开设备）
深度学习笔记（八）——构建网络的常用辅助增强方法：数据增强扩充、断点续训、可视化和部署预测絮沫深度学习深度学习笔记人工智能
文中程序以Tensorflow-2.6.0为例部分概念包含笔者个人理解，如有遗漏或错误，欢迎评论或私信指正。截图和程序部分引用自北京大学机器学习公开课要构建一个完善可用的神经网络，除了设计网络结构以外，还需要添加一些辅助代码来增强网络运行的稳定性，鲁棒性。可以用来增强的方向主要有个，首先是数据输入前的预处理环节，其次是数据在训练过程中的优化，最后的数据在训练结束后的导出和可视化，同时能够及时保存结
深度学习笔记（七）——基于Iris/MNIST数据集构建基础的分类网络算法实战絮沫深度学习算法深度学习笔记
文中程序以Tensorflow-2.6.0为例部分概念包含笔者个人理解，如有遗漏或错误，欢迎评论或私信指正。截图和程序部分引用自北京大学机器学习公开课认识网络的构建结构在神经网络的构建过程中，都避不开以下几个步骤：导入网络和依赖模块原始数据处理和清洗加载训练和测试数据构建网络结构，确定网络优化方法将数据送入网络进行训练，同时判断预测效果保存模型部署算法，使用新的数据进行预测推理使用Keras快速构
《动手学深度学习》学习笔记第10章注意力机制北方骑马的萝卜《手动深度学习》笔记深度学习学习笔记
本系列为《动手学深度学习》学习笔记书籍链接：动手学深度学习笔记是从第四章开始，前面三章为基础知识，有需要的可以自己去看看关于本系列笔记：书里为了让读者更好的理解，有大篇幅的描述性的文字，内容很多，笔记只保留主要内容，同时也是对之前知识的查漏补缺《动手学深度学习》学习笔记第4章多层感知机《动手学深度学习》学习笔记第5章深度学习计算《动手学深度学习》学习笔记第6章卷积神经网络《动手学深度学习》学习笔记
深度学习笔记（六）——网络优化（2）：参数更新优化器SGD、SGDM、AdaGrad、RMSProp、Adam 絮沫深度学习深度学习笔记人工智能
文中程序以Tensorflow-2.6.0为例部分概念包含笔者个人理解，如有遗漏或错误，欢迎评论或私信指正。截图和程序部分引用自北京大学机器学习公开课前言在前面的博文中已经学习了构建神经网络的基础需求，搭建了一个简单的双层网络结构来实现数据的分类。并且了解了激活函数和损失函数在神经网络中发挥的重要用途，其中，激活函数优化了神经元的输出能力，损失函数优化了反向传播时参数更新的趋势。我们知道在简单的反
李沐—动手学深度学习笔记比三毛多一根头发笔记
目录引言1.2机器学习中的关键组件1.3.1监督学习2.预备知识2.1数据操作2.1.3.广播机制2.1.4.索引和切片2.1.5.节省内存2.1.6.转换为其他Python对象2.2.数据预处理2.2.1.读取数据集2.2.2.处理缺失值2.2.3.转换为张量格式2.3.线性代数2.3.2.向量2.3.5.张量算法的基本性质2.3.6.降维3.线性神经网络4.多层感知机4.1多层感知机4.1.1
深度学习笔记（四）——使用TF2构建基础网络的常用函数+简单ML分类实现絮沫深度学习深度学习笔记分类
文中程序以Tensorflow-2.6.0为例部分概念包含笔者个人理解，如有遗漏或错误，欢迎评论或私信指正。截图和程序部分引用自北京大学机器学习公开课TF2基础常用函数1、张量处理类强制数据类型转换：a1=tf.constant([1,2,3],dtype=tf.float64)print(a1)a2=tf.cast(a1,tf.int64)#强制数据类型转换print(a2)查找数据中的最小值和
深度学习笔记（三）——NN网络基础概念（神经元模型，梯度下降，反向传播，张量处理）絮沫深度学习深度学习笔记网络
文中程序以Tensorflow-2.6.0为例部分概念包含笔者个人理解，如有遗漏或错误，欢迎评论或私信指正。截图部分引用自北京大学机器学习公开课人工智能算法的主流分类首先明白一个概念，广义上的人工智能算法并不是只有MachineLearning或DeepLearning，而是一个相对的，能够使用计算机模拟人类智能在一定场景下自动实现一些功能。所以系统控制论中的很多最优控制算法同样可以称之为智能算法
深度学习笔记（五）——网络优化（1）：学习率自调整、激活函数、损失函数、正则化絮沫深度学习深度学习笔记网络 tensorflow
文中程序以Tensorflow-2.6.0为例部分概念包含笔者个人理解，如有遗漏或错误，欢迎评论或私信指正。截图和程序部分引用自北京大学机器学习公开课通过学习已经掌握了主要的基础函数之后具备了搭建一个网络并使其正常运行的能力，那下一步我们还需要进一步对网络中的重要节点进行优化并加深认知。首先我们知道NN（自然神经）网络算法能够相比传统建模类算法发挥更好效果的原因是网络对复杂非线性函数的拟合效果更好
《动手学深度学习》学习笔记第9章现代循环神经网络北方骑马的萝卜《手动深度学习》笔记深度学习学习笔记
本系列为《动手学深度学习》学习笔记书籍链接：动手学深度学习笔记是从第四章开始，前面三章为基础知识，有需要的可以自己去看看关于本系列笔记：书里为了让读者更好的理解，有大篇幅的描述性的文字，内容很多，笔记只保留主要内容，同时也是对之前知识的查漏补缺9.现代循环神经网络前一章中我们介绍了循环神经网络的基础知识，这种网络可以更好地处理序列数据。我们在文本数据上实现了基于循环神经网络的语言模型，但是对于
《动手学深度学习》学习笔记第8章循环神经网络北方骑马的萝卜《手动深度学习》笔记深度学习学习笔记
本系列为《动手学深度学习》学习笔记书籍链接：动手学深度学习笔记是从第四章开始，前面三章为基础知识，有需要的可以自己去看看关于本系列笔记：书里为了让读者更好的理解，有大篇幅的描述性的文字，内容很多，笔记只保留主要内容，同时也是对之前知识的查漏补缺8.循环神经网络到目前为止我们默认数据都来自于某种分布，并且所有样本都是独立同分布的（independentlyandidenticallydistri
深度学习笔记（二）——Tensorflow环境的安装絮沫深度学习深度学习笔记 tensorflow
本篇文章只做基本的流程概述，不阐述具体每个软件的详细安装流程，具体的流程网上教程已经非常丰富。主要是给出完整的安装流程，以供参考环境很重要一个好的算法环境往往能够帮助开发者事半功倍，入门学习的时候往往搭建好环境就已经成功了一半。在机器学习或者深度学习的设计研究中，人们往往会使用已经有的网络框架来构建网络模型和设计各种识别分类或者生成算法。主要可以给我们学习和使用的框架这里推荐两个：Tensorfl
2022-01-23 深度学习笔记 Luo_淳专业学习深度学习人工智能
深度学习笔记引言：机器学习——自动寻找函数。1.你想要找什么函数？①Regression——Theoutputofthefunctionisascalar.②BinaryClassification——OnlyoutputYesorNo.举例：输入句子，输出句子positive还是negtive。③Multi-classClassification——分类，输入图片，输出图片中物品的类型。
深度学习笔记：下载鸢尾花数据集，并展示所有的属性 BioVS python tensorflow numpy
背景：深度学习课程作业。通过此作业，可了解tensorflow、matplotlib、pandas和numpy。可学习到matplot画图及细节设计，如图的颜色、字体大小、循环画图方法等代码：importtensorflowastfimportmatplotlib.pyplotaspltimportpandasaspdimportnumpyasnpTRAIN_URL="http://downloa
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他