GNN笔记系列 2

GNN笔记系列 2

  • Statistical Risk Minimization
  • Training or Learining Proceess of Artificial Intelligence
  • Empirical Risk Minimization
  • Learning Parametrization
  • Stochastic Gradient Descent(SGD)
    • Gradient Descent(GD)
    • Stochastic Gradient Descent(SGD)
    • SGD的性质

Statistical Risk Minimization

GNN笔记系列 2_第1张图片
找到使真值 y y y和预测值 ϕ ( x ) \phi(x) ϕ(x)的损失的期望达到最小的映射 ϕ ∗ \phi^* ϕ
所以这是一个统计损失最小化问题。

Training or Learining Proceess of Artificial Intelligence

GNN笔记系列 2_第2张图片
人工智能,或者说机器学习的学习过程(训练过程),其实就是解决统计损失最小化问题的过程。
上述过程的实现需要我们知道概率分布 p ( x , y ) p(x,y) p(x,y),这个先决条件来自哪里呢?
有三种可能:

①系统建模:实际构建模型:需要我们事先知道输入和输出之间的规律;
②系统标识:我们不知道控制系统的规律,但从自然界中获得数据 ( x q , y q ) (x_q,y_q) (xq,yq),可以把它看作是概率分布 p ( x , y ) p(x,y) p(x,y),然后对模型进行评估。
③机器学习:绕过分布,直接学习估计图 ϕ ( x ) \phi(x) ϕ(x),通过数据采样块,使用模型将输出与输入相关联。

Empirical Risk Minimization

经验风险最小化,这是一种绕过模型的学习形式,通过模仿输入(或者称为观测数据),而不是模仿模型。
GNN笔记系列 2_第3张图片

数据对 ( x q , y q ) (x_q,y_q) (xq,yq),用经验风险最小化代替统计风险最小化:
在这里插入图片描述
在上式中,如果样本量Q足够大,两者式近似相等的。
经验风险最小化问题解决:
在这里插入图片描述

Learning Parametrization

学习参数化,就是引入一个函数类 C C C
GNN笔记系列 2_第4张图片
例如,选择线性函数类: ϕ ( x ) = H x \phi(x)=Hx ϕ(x)=Hx解决如下问题:
在这里插入图片描述
将SRM 和 ERM问题限制在同一个函数类上:
GNN笔记系列 2_第5张图片
当C足够光滑且Q足够大时,这两个问题的解是相同的。

ERM与SRM有三个区别:

1.分布情况不详,ERM可以访问训练集中的数据对:
GNN笔记系列 2_第6张图片
2.非参数ERM问题不存在:
GNN笔记系列 2_第7张图片
3.使用数据而不是模型进行学习:
GNN笔记系列 2_第8张图片

函数类限制了ERM的搜索空间,没有它,ERM就没有意义。参数化的显式表达式:
在这里插入图片描述
上式将寻找最优函数的过程重新表述为寻找最优参数的过程。函数类决定了AI如何从训练集中的输入 x q x_q xq推广到不属于训练集中的输入 x x x.
在这里插入图片描述

Stochastic Gradient Descent(SGD)

随机梯度下降法是用于最小化经验风险的常用方法。

Gradient Descent(GD)

一个估计器最小化经验风险的训练:
在这里插入图片描述
用梯度 g ( H ) = ∇ L ( H ) g(H) =\nabla L(H) g(H)=L(H)——垂直于损失 L ( H ) L(H) L(H)的水平集。下图描绘了指向水平集内部的结果,为 L ( H ) L(H) L(H)的负梯度方向,它指向最小参数 H ∗ H^* H
GNN笔记系列 2_第9张图片
从数学上将,负梯度和指向最小参数的箭头之间的夹角是小于90°的。
在这里插入图片描述
梯度下降法:在这里插入图片描述
在上式中, g ( H t ) g(H_t) g(Ht) H t H_t Ht的梯度,用步长 ϵ \epsilon ϵ来缩放它,最终, H t H_t Ht收敛到最优参数 H ∗ H^* H,梯度的平均损失函数就是逐点梯度的平均值:
在这里插入图片描述
将上述两式合并,可以得到:
在这里插入图片描述
但是这种方法有个缺点:计算代价太大。

Stochastic Gradient Descent(SGD)

为了避免这个缺点,使用随机梯度下降法,即SGD:
在第t次迭代中,从训练集中选择一批 Q t ( < < Q ) Q_t(<Qt(<<Q)个样本,这时,将随机梯度定义为在批集上逐点梯度的平均值。
GNN笔记系列 2_第10张图片
GNN笔记系列 2_第11张图片

SGD的性质

GNN笔记系列 2_第12张图片
说明一下:
GNN笔记系列 2_第13张图片
在这里插入图片描述

你可能感兴趣的:(GNNs,人工智能,算法,神经网络)