【花书阅读笔记】第一章到第四章

【花书阅读笔记】第一章到第四章

  • 第一章 前言
    • 第二章 线性代数
      • 2.1 标量、向量、矩阵和张量
    • 2.2 矩阵与向量相乘
    • 2.3单位矩阵与逆矩阵
    • 2.4线性相关和生成子空间
    • 2.5 范数
      • L1范数与Frobenius范数
      • 向量点积
    • 2.6 特殊类型的矩阵和向量
      • 对称矩阵
      • 单位向量
      • 正交矩阵
    • 2.7 特征分解
      • 矩阵特征分解的用处
    • 2.8 奇异值分解
    • 2.9 Moore-Penrose伪逆
    • 2.10 迹运算
    • 2.11 行列式
    • 2.12 实例:主成分分析
  • 第三章 概率与信息论
    • 3.1 为什么要用概率?
    • 3.2 随机变量
    • 3.3 概率分布
      • 3.3.1 离散型变量和概率分布律函数
      • 3.3.2连续性变量和概率密度函数
    • 3.4 边缘概率
    • 3.5 条件概率
    • 3.6 条件概率的链式法则
    • 3.7 独立性和条件独立性
    • 3.8 期望,方差和协方差
      • 方差和协方差
    • 3.9 常用概率分布
      • Bernoulli分布(伯努利分布)
      • multinoulli分布(多项分布)
      • 高斯分布
        • 指数分布和Laplace分布
        • Dirac分布(迪瑞克分布)和经验分布![在这里插入图片描述](https://img-blog.csdnimg.cn/2021051420485223.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMzOTUwOTI2,size_16,color_FFFFFF,t_70)
        • 分布的混合
      • 3.10 常用函数的性质
        • logistic sigmoid函数
        • softplus函数
        • 有用的性质
    • 3.11 贝叶斯规则
    • 3.12 连续型变量的技术细节
      • 雅可比矩阵
    • 3.13 信息论
    • 3.14 结构化概率模型
  • 第四章 数值计算
    • 4.1 上溢和下溢
    • 4.2 病态条件数
    • 4.3 基于梯度的优化方法(略)
      • 4.3.1 梯度之上:Jacobian和Hessian矩阵
    • 4.4 约束优化(略)
    • 4.5 实例:线性最小二乘

第一章 前言

  • 人工智能的真正挑战在于解决那些对人来说很容易执行、但很难形式化描述的任务。
  • 简单的机器学习算法的性能在很大程度上依赖于给定数据的表示

第二章 线性代数

2.1 标量、向量、矩阵和张量

  • 标量:一个数
  • 向量:一列数
    【花书阅读笔记】第一章到第四章_第1张图片
  • 矩阵:二维数组
  • 张量:多维数组 Aijk
  • 广播
  • 【花书阅读笔记】第一章到第四章_第2张图片

2.2 矩阵与向量相乘

2.3单位矩阵与逆矩阵

2.4线性相关和生成子空间

2.5 范数

范数是向量的大小
【花书阅读笔记】第一章到第四章_第3张图片
当P=2时,称为欧几里得范数。
严格的说,范数是满足下面性质的任意函数:
在这里插入图片描述

在这里插入图片描述

L1范数与Frobenius范数

【花书阅读笔记】第一章到第四章_第4张图片

向量点积

在这里插入图片描述

2.6 特殊类型的矩阵和向量

对称矩阵

【花书阅读笔记】第一章到第四章_第5张图片

单位向量

【花书阅读笔记】第一章到第四章_第6张图片
在这里插入图片描述

正交矩阵

【花书阅读笔记】第一章到第四章_第7张图片

2.7 特征分解

例如:整数可以分解为质数
【花书阅读笔记】第一章到第四章_第8张图片

【花书阅读笔记】第一章到第四章_第9张图片

矩阵特征分解的用处

【花书阅读笔记】第一章到第四章_第10张图片

2.8 奇异值分解

奇异值分解也是一种分解矩阵的方法,可以把矩阵分解为奇异向量和奇异值
每个矩阵都有奇异值分解,但不一定有特征值分解,例如非方阵矩阵就没有特征值分解
【花书阅读笔记】第一章到第四章_第11张图片

2.9 Moore-Penrose伪逆

求非方阵的逆
【花书阅读笔记】第一章到第四章_第12张图片
【花书阅读笔记】第一章到第四章_第13张图片

2.10 迹运算

【花书阅读笔记】第一章到第四章_第14张图片

  • 迹运算在转置运算下是不变的

在这里插入图片描述

  • 多个矩阵乘积的迹:
    在这里插入图片描述
  • 标量在迹运算后仍然是它自己:
    在这里插入图片描述

2.11 行列式

【花书阅读笔记】第一章到第四章_第15张图片

2.12 实例:主成分分析

略了先

第三章 概率与信息论

3.1 为什么要用概率?

机器学习不确定性的三个原因:

  • 被建模系统内在的随机性
  • 不完全观测
  • 不完全建模

3.2 随机变量

随机变量是可以随机的取不同值的变量,可以连续也可以离散。

3.3 概率分布

概率分布(probability distribution)用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。我们描述概率分布的方式取决于随机变量是离散的还是连续的。

3.3.1 离散型变量和概率分布律函数

离散型变量的概率分布可以用概率分布律函数来描述。


概率分布律函数可以同时作用于多个随机变量。这种多个变量的概率分布被称为联合概率分布(joint probability distribution)。P(x = x,y =y)表示x = x和y =y同时发生的概率。我们也可以简写为P(a , y)。
【花书阅读笔记】第一章到第四章_第16张图片
【花书阅读笔记】第一章到第四章_第17张图片

3.3.2连续性变量和概率密度函数

【花书阅读笔记】第一章到第四章_第18张图片

3.4 边缘概率

【花书阅读笔记】第一章到第四章_第19张图片

3.5 条件概率

【花书阅读笔记】第一章到第四章_第20张图片
这里需要注意的是,不要把条件概率和计算当采用某个动作后会发生什么相混

计算一个行动的后果被称为干预查询 (intervention query)。干预查询属于因果模型 (causal modeling) 的范畴,我们不在本书中讨论。

3.6 条件概率的链式法则

【花书阅读笔记】第一章到第四章_第21张图片

3.7 独立性和条件独立性

【花书阅读笔记】第一章到第四章_第22张图片

3.8 期望,方差和协方差

【花书阅读笔记】第一章到第四章_第23张图片

方差和协方差

【花书阅读笔记】第一章到第四章_第24张图片
在这里插入图片描述
二者之间的关系
【花书阅读笔记】第一章到第四章_第25张图片

3.9 常用概率分布

Bernoulli分布(伯努利分布)

【花书阅读笔记】第一章到第四章_第26张图片

multinoulli分布(多项分布)

【花书阅读笔记】第一章到第四章_第27张图片

高斯分布

【花书阅读笔记】第一章到第四章_第28张图片
一般的,当不明确要使用什么分布时,首选正态分布,原因如下:
【花书阅读笔记】第一章到第四章_第29张图片
多维正态分布略

指数分布和Laplace分布

【花书阅读笔记】第一章到第四章_第30张图片

Dirac分布(迪瑞克分布)和经验分布【花书阅读笔记】第一章到第四章_第31张图片

【花书阅读笔记】第一章到第四章_第32张图片

分布的混合

略了

3.10 常用函数的性质

logistic sigmoid函数

【花书阅读笔记】第一章到第四章_第33张图片
【花书阅读笔记】第一章到第四章_第34张图片

softplus函数

【花书阅读笔记】第一章到第四章_第35张图片
【花书阅读笔记】第一章到第四章_第36张图片

有用的性质

【花书阅读笔记】第一章到第四章_第37张图片

3.11 贝叶斯规则

【花书阅读笔记】第一章到第四章_第38张图片

3.12 连续型变量的技术细节

略了吧,懒得看 = =

雅可比矩阵

【花书阅读笔记】第一章到第四章_第39张图片

3.13 信息论

有空补充,感觉挺重要的。

3.14 结构化概率模型

有空补充

第四章 数值计算

4.1 上溢和下溢

一种特别的毁灭性舍入误差是下溢(underflow)。当接近零的数被四舍五入为零时发生下溢。许多函数在其参数为零而不是一个很小的正数时才会表现出质的不同。


另一个极具破坏力的数值错误形式是上溢(overflow)。当大量级的数被近似为o或-oo时发生上溢。进一步的运算通常导致这些无限值变为非数字。


必须对上溢和下溢进行数值稳定的一个例子是softmax 函数


底层库的开发者在实现深度学习算法时应该牢记数值问题。

4.2 病态条件数

在这里插入图片描述

4.3 基于梯度的优化方法(略)

【花书阅读笔记】第一章到第四章_第40张图片
有些临界点既不是最小点也不是最大点。这些点被称为鞍点 (saddle point)
【花书阅读笔记】第一章到第四章_第41张图片

4.3.1 梯度之上:Jacobian和Hessian矩阵

在这里插入图片描述

【花书阅读笔记】第一章到第四章_第42张图片

对于二阶导表示只基于梯度信息的梯度下降步骤是否会产生如我们预期的那样大的改善,因此是重要的

4.4 约束优化(略)

【花书阅读笔记】第一章到第四章_第43张图片
一个更复杂的方法是设计一个不同的、无约束的优化问题,其解可以转化成原始约束优化问题的解

4.5 实例:线性最小二乘

【花书阅读笔记】第一章到第四章_第44张图片
我们使用梯度下降法:
【花书阅读笔记】第一章到第四章_第45张图片
也可以用牛顿法:
【花书阅读笔记】第一章到第四章_第46张图片
【花书阅读笔记】第一章到第四章_第47张图片
看的都不太懂这几个小节

你可能感兴趣的:(自动化理论知识复习,人工智能,深度学习,机器学习)