外一章
1. 深度学习的数学基础
概率统计 线性代数 最优化 信息论 微积分
1. 矩阵线性变换
特征值:\(Ax=\lambda x\)
从线性变换的角度 ,矩阵相乘对原始向量同时施加方向变化和尺度变化。对于有些特殊的向量,矩阵的作用只有尺度变化而没有方向变化。这类特殊的向量就是特征向量,变化系数即为特征值。
矩阵的秩:
从线性方程组的角度,是度量矩阵行列之间的相关性。
从数据点分布的角度,是表示数据需要的最小的基的数量。数据分布模式越容易被捕捉,即需要的基越少,秩就越小。数据冗余度越大,需要的基就越少,秩越小。若矩阵表示的是结构化信息,如图像、用户-物品表等,各行之间存在一定相关性,一般是低秩的。
2. 机器学习-数据降维
较大的奇异值包含了矩阵的主要信息。只保留前r个较大奇异值及其对应的特征向量(一般r取\(\frac{d}{10}\)就可以保留足够信息),可实现数据从n * d维降到(n * r + r * r + r * d)。
低秩近似:保留决定数据分布的最主要的模式/方向(丢弃的可能是噪声或其他不关键信息)。
数据矩阵X一般同时包含结构信息和噪声,矩阵分解为两个矩阵相加,一个是低秩的(结构信息造成行或列间线性相关),另一个是稀疏的(噪声是稀疏的)。
2. 机器学习三要素:模型、策略与算法
1. 概率/函数形式的统一
2. 最优的策略设计
为什么选择梯度下降而非启发式优化?启发式善于处理有很多极值的情况,但很多时候没有局部极值(都是鞍点)优化效率低,复杂度高
训练误差->泛化误差
最合适的模型:机器学习从有限的观测数据中学习出规律,并将总结的规律推广应用到未观测样本上,即追求泛化性能。
泛化误差(期望风险)
训练误差(经验风险)
泛化错误
机器学习目的是获得小的泛化误差。训练误差要小,训练误差与泛化误差足够接近。
策略设计:无免费午餐定理、奥卡姆剃刀原理
欠拟合:训练集的一般性质尚未被学习器学好
过拟合:学习器把训练集特点当作样本的一般特点(训练误差小,测试误差大)
数据增广(训练集越大,越不容易过拟合)
3. 损失函数
BP神经网络和损失函数
平方损失、交叉熵
3. 频率学派 & 贝叶斯学派
频率学派:关注可独立重复的随机试验中单个事件发生的频率。可能性:事件发生频率的极限值。模型参数是唯一的,需要从有限的观测数据中估计参数值。
贝叶斯学派:关注随机事件的可信程度。可能性=假设+数据,数据是对初始假设做出修正,使观察者对概率的主观认识更接近客观实际。