李宏毅机器学习笔记-Lecture1

李宏毅机器学习笔记-Lecture1_续

  • 机器学习基本概念(下)
    • Piecewise Linear Curves
    • Beyond Piecewise Linear Curves
    • Sigmoid Function
      • 各参数对Sigmoid的影响
    • 用Sigmoid拟合Piecewise Linear Curves
    • New Model with More Features
      • 最终模型
      • 对各个参数的认识
    • ML Framework
      • 构造模型
      • 构造损失函数
      • 找到最优参数
      • Batch & Epoch & Update
    • ReLU
    • Multi-layer

机器学习基本概念(下)

Piecewise Linear Curves

用const+多组HardSigmoid去拟合分段线性曲线。
李宏毅机器学习笔记-Lecture1_第1张图片
对于上图中的红线中的第一段,可以用下图中的蓝线0+蓝线1等效,即const+HardSigmoid。这样就可以把一条复杂的曲线等效成1个const+多个HardSigmoid。李宏毅机器学习笔记-Lecture1_第2张图片
继续:
李宏毅机器学习笔记-Lecture1_第3张图片 最终:
李宏毅机器学习笔记-Lecture1_第4张图片

Beyond Piecewise Linear Curves

转化成Piecewise Linear Curves
非分段线性的曲线,比如说下图所示曲线,可以取上面的点,连成线段,转换成分段线性曲线。当这些小绿点取得更密集时,这些曲线将被分成更短的线性线段,从而几乎拟合原曲线。
李宏毅机器学习笔记-Lecture1_第5张图片

Sigmoid Function

(之所以说李宏毅老师课讲得好,在于其循循善诱,逐步推进,使得推导过程和结论自然而然,比如说在这个地方,虽然前面已经提到HardSigmoid,即“蓝方”;但没有直接给出HardSigmoid的表达式,即使是直接给出大家也能理解。而是提出如何去给出HardSigmoid的表达式,引出Sigmoid,在用HardSigmoid逼近线性曲线后,又用Sigmoid去逼近HardSigmoid,从而让人十分自然又印象深刻地去理解这几者之间的内在联系,去比较HardSigmoid和Sigmoid孰优孰劣。)
李宏毅机器学习笔记-Lecture1_第6张图片

各参数对Sigmoid的影响

李宏毅机器学习笔记-Lecture1_第7张图片

用Sigmoid拟合Piecewise Linear Curves

李宏毅机器学习笔记-Lecture1_第8张图片
其中c、b、w就是我们在训练模型时要寻找的参数。

New Model with More Features

由此可以得到一个可以描述更多特征的新模型。
李宏毅机器学习笔记-Lecture1_第9张图片
如上图所示,第2行表示可以用更多参数去描述、去权衡某一个特征;第4行表示可以描述、权衡更多的特征。

j: no. of features
i: no. of sigmoid
r 1 = b 1 + w 11 x 1 + w 12 x 2 + w 13 x 3 r_{1} = b_{1} + w_{11}x_{1} + w_{12}x_{2} + w_{13}x_{3} r1=b1+w11x1+w12x2+w13x3,即r代表蓝色虚线框内的部分。

李宏毅机器学习笔记-Lecture1_第10张图片

将上述运算过程用矩阵表示:
李宏毅机器学习笔记-Lecture1_第11张图片
用向量表示:
李宏毅机器学习笔记-Lecture1_第12张图片
接下来,将r通过sigmoid获得a:
李宏毅机器学习笔记-Lecture1_第13张图片
注意理解Sigmoid的个数 与模型复杂度的联系。

最终模型

李宏毅机器学习笔记-Lecture1_第14张图片
用向量矩阵表示:
李宏毅机器学习笔记-Lecture1_第15张图片

对各个参数的认识

(其中绿色的b是向量或矩阵,b是标量值)
李宏毅机器学习笔记-Lecture1_第16张图片

其中:
b: bias
w: weight
c: 本质就是w

ML Framework

机器学习框架主要包括:

  1. function with unknown parameters
  2. define loss from training data
  3. optimization

构造模型

即机器学习框架第一步:function with unknown parametes.
在此之前已经涉及足够多,不再赘述。

构造损失函数

  • Loss is a function of parameters: L ( θ ) L(\theta) L(θ).
  • Loss means how good a set of values is.
    (其中 θ \theta θ表示所有未知参数)
    李宏毅机器学习笔记-Lecture1_第17张图片

找到最优参数

在这里插入图片描述
其中 θ = [ θ 1 , θ 2 , θ 3 , . . . ] T \theta = [\theta_{1}, \theta_{2}, \theta_{3}, ... ]^{T} θ=[θ1,θ2,θ3,...]T

  • (Randomly) Pick initial values θ 0 \theta^{0} θ0
  • Compute Gradient李宏毅机器学习笔记-Lecture1_第18张图片
  • Update李宏毅机器学习笔记-Lecture1_第19张图片

Batch & Epoch & Update

将训练数据集随意分成若干份,每一份都是一个batch,然后根据这个batch去计算梯度,对参数进行更新。如下图所示:
李宏毅机器学习笔记-Lecture1_第20张图片
为了更好地理解和区分这几个概念,下面是1个例子:
李宏毅机器学习笔记-Lecture1_第21张图片
所以对于一个训练集,当一个人说ta走完一个epoch时,是不知道ta到底update了多少次参数的,还取决于ta选择的batchsize。

ReLU

Rectified Linear Unit,简称ReLU。
李宏毅机器学习笔记-Lecture1_第22张图片
注意要两个ReLU才能等效成一个Hard Sigmoid:
李宏毅机器学习笔记-Lecture1_第23张图片
李宏毅机器学习笔记-Lecture1_第24张图片

Activation Function: 激活函数
在很多模型中ReLU是好于Sigmoid的。

Multi-layer

李宏毅机器学习笔记-Lecture1_第25张图片
三层ReLU的效果一览:
李宏毅机器学习笔记-Lecture1_第26张图片
可以看到这个基本拟合周末的变化,但2021/02/14附近还是出现了一个较大的偏差,在现实中是因为过年造成的。

你可能感兴趣的:(笔记,深度学习,学习,机器学习,学习,人工智能)