从零开始:机器学习的数学原理和算法实践--学习笔记(1)

梯度

梯度:多元函数对各个自变量求偏导形成的向量

泰勒公式

f ( x ) = f ( a ) 0 ! + f 1 ( a ) 1 ! ∗ ( x − a ) + f 2 ( a ) 2 ! ∗ ( x − a ) 2 + f 3 ( a ) 3 ! ∗ ( x − a ) 3 + . . . + R n ( x ) f(x) = \frac{f(a)}{0!} + \frac{f^1(a)}{1!}*(x-a) + \frac{f^2(a)}{2!}*(x - a)^2+ \frac{f^3(a)}{3!} * (x-a)^3 + ... + R_n(x) f(x)=0!f(a)+1!f1(a)(xa)+2!f2(a)(xa)2+3!f3(a)(xa)3+...+Rn(x)
此公式为 f ( x ) f(x) f(x)在点a处的泰勒级数

泰勒公式的主要作用是对特别复杂的函数进行化简,具体来说就是通过近似函数来代替原函数,通过使用简单熟悉的多项式去替代复杂的原函数

基向量与线性无关

线性无关: 线性无关的一组向量中任意一个向量都不能由其他向量所表示;由一组向量的线性组合得到零向量只能通过所有系数为0这种方式实现,那么这组向量就是线性无关的,反之就是线性相关的。

矩阵向量乘法描述线性变换: 矩阵向量乘法描述的是线性空间中的一种线性变换,原始向量所对应的线性变换作用下空间位置甚至空间维度和形态都发生了改变,这就是矩阵的空间映射作用;矩阵 A A A 与列向量 X X X 的乘积 A X AX AX 就等于将原始列向量 X X X 的默认基向量分别对应地变换为矩阵 A A A 的各列,由矩阵 A A A 的各列作为目标向量的新基向量。
矩阵 == 线性变换

最小二乘法

最小二乘法中的二乘代表平方的意义,最小二乘代表平方和最小,具体指测量值与真实值之间的误差平方最小化,即各个点的横坐标对应的原始点纵坐标与直线上拟合点纵坐标误差的平方和最小化,
e = ∣ b − p ∣ = ( b 1 − q 1 ) 2 + ( b 2 − q 2 ) 2 + . . . + ( b n − q n ) 2 e = |b - p| = \sqrt{(b_1 - q_1)^2 + (b_2 - q_2)^2+ ... +(b_n - q_n)^2} e=bp=(b1q1)2+(b2q2)2+...+(bnqn)2
其中向量 b b b 代表原始点的纵坐标, q q q 代表拟合点的纵坐标, P P P为投影矩阵
函 数 名 = { x ^ = ( A T A ) − 1 A b p = A ( A T A ) − 1 A b P = A ( A T A ) − 1 A 函数名=\begin{cases} \hat{x} = (A^TA)^{-1}Ab \\ p = A(A^TA)^{-1}Ab \\ P = A(A^TA)^{-1}A \end{cases} =x^=(ATA)1Abp=A(ATA)1AbP=A(ATA)1A

矩阵的特征向量与特征值

  1. 特征向量:经过线性变换后向量的方向不变,只是大小(特征值)发生变化
  2. 矩阵具有特征向量的条件:
    • 矩阵必须是方阵
    • d e t ( A − λ I ) = 0 det(A - \lambda I) = 0 det(AλI)=0 有解

相似矩阵对角化

把矩阵 A A A 转化为对角矩阵,且对角矩阵的每一个列向量为原矩阵的特征向量,对角线上的值为特征值

大数定律

由伯努利提出:保持试验条件不变,多次的重复实验,随机事件出现的概率近似等于它出现的频率

中心极限定律

抽样样本均值围绕总体样本均值呈现正态分布

你可能感兴趣的:(矩阵,概率论,线性代数)