串联起深度学习的整体,以及其他领域

1、从模型拟合(收敛)数据关系出发:y=f(x)\Rightarrow y=net(x)

2、f从简单的一层和两层连接开始,发展;f被表示成net

3、如何判断收敛:\sum_{i=1}^{N} (y-\widehat{y})^{2}\rightarrow 0,即目标函数

4、如何界定任务:x\rightarrow yx表示什么?y表示什么?,例如y表示房价、经济增长率、工资收入、地心引力大小、引力波的幅度等等

5、如何定义模型f,也就是如何定义网络net,比如CNN、RNN、Transformer等等

6、如何收集数据:\left \{ \left ( x_{1},y_{1}\right ),(x_{2},y_{2}) ,...\right \},样本数据,例如:人的需求指向

7、如何训练:

      a、计算预测\widehat{y}=net(x)

      b、计算损失loss=\sum_{i=1}^{N} (y-\widehat{y})^{2}

      c、计算梯度\partial_{ (\mathbf{w},b)}\frac{1}{N}\sum_{i=1}^{N}loss(x^{(i)},y^{(i)},w,b)

      d、更新参数(\mathbf{w},b)\rightarrow (\mathbf{w},b)-\eta\cdot \mathbf{g}

8、梯度是什么?不同层的梯度?怎么计算梯度?

      计算梯度:1)链式法则;2)自动微分

9、优化算法是什么?即\eta的设定方式,固定的,还是变化的,怎么变化。有哪些?

10、小批量数据训练,批量指N大小: 

loss=\sum_{i=1}^{N} (y-\widehat{y})^{2}\rightarrow \sum_{i=1}^{N} (y-net(x))^{2} \rightarrow \mathbf{g} \rightarrow \mathbf{w}

11、前向传播:计算net(x)

12、后向传播,计算梯度,更新参数

13、net包括什么?1)、网络架构 2)、参数

14、参数初始化?方法

15、如何添加层?扩大net的规模?ResNet

16、更新参数w的方式:\mathbf{g} \rightarrow \mathbf{w},梯度

17、模型有哪些?怎么发展的?如何设计

18、生成式人工智能?

19、概率

20、过拟合指什么?loss_{train}>loss_{validation}

21、什么是泛化?y=net(x),实际中(或者条件发生变化的时候) y的结果好使不?

22、怎么判断泛化能力?取决于验证的数据集,看loss_{validation}的大小

23、参数与模型之间的关系?模型 = 网络架构 + 参数

24、什么叫大模型?参数规模超过10,0000,0000,10亿或更大

25、大模型的挑战?收敛并有效,好用

26、现实中训练模型所面临的挑战?梯度消失、梯度爆炸、过拟合、欠拟合、数据分布\left \{ \left ( x,y \right ) \right \}发生变化、计算量大(计算性能不够)

27、数据预处理raw data:x{}'\rightarrow x

28、结果:想要的,y

29、串联其他领域的知识,例如:信息论领域的,对目标函数或代价函数的设定,数据生成的概率,特定的模式等等,

串联的方式有:y=net(x);挑选net的方式,依据loss=\sum_{i=1}^{N} (y-\widehat{y})^{2},设定预期方向(符合大多数人的预期方式)

30、串联数学,y=f(x)

你可能感兴趣的:(深度学习,人工智能)