学习AI建议掌握的数学资料:
数学分析(微积分),线性代数,概率论,统计,应用统计,数值分析,常微分方程,偏微分方程,数值偏微分方程,运筹学,离散数学,随机过程,随机偏微分方程,抽象代数,实变函数,泛函分析,复变函数,数学建模,拓扑,微分几何,渐近分析......
可以劝退了……
其实,绝大部分AI爱好者,对数学的要求没有那么高,只需要学习高等数学、线性代数、概率论与数理统计三门课,如果时间还不够,那看下本文我整理的必须掌握的部分。看不懂公式的时候,可以查下本文,大部分能找到是什么意思。
我最近在编写AI基础系列,数学是所有的基础。可以说,数学基础是机器学习从业人员的天花板。博士的代码能力,不一定比硕士强,但数学基础,往往要比硕士扎实很多。为什么机器学习从业人员学历越高,往往工资越高,通常和掌握的基础知识正相关。有时间,一定要认真打基础!!(黄海广)
目前已经发布:
AI 基础:Python开发环境设置和小技巧
AI 基础:Python 简易入门
AI 基础:Numpy 简易入门
AI 基础:Pandas 简易入门
AI 基础:Scipy(科学计算库) 简易入门
AI基础:数据可视化简易入门(matplotlib和seaborn)
AI基础:特征工程-类别特征
AI基础:特征工程-数字特征处理
AI基础:特征工程-文本特征处理
AI基础:词嵌入基础和Word2Vec
AI基础:图解Transformer
AI基础:一文看懂BERT
后续持续更新
本文节选自我的github里的内容,基本满足要求了,如果完整资料也可以在github下载:
https://github.com/fengdu78/Data-Science-Notes
必须掌握导数和微分的概念
(1)
或者:
(2)
设函数 , ]在点 可导则:
(1)
(2)
(1) (常数)
(2) ( 为实数)
(3)
特例:
(4)
特例:
(5)
(1) 反函数的运算法则:
设 在点 的某邻域内单调连续,在点 处可导且 ,则其反函数在点 所对应的 处可导,并且有
(2) 复合函数的运算法则:
若 在点 可导,而 在对应点 ( )可导,则复合函数 在点 可导,且
(3) 隐函数导数 的求法一般有三种方法:
1)方程两边对 求导,要记住 是 的函数,则 的函数是 的复合函数.例如 , , , 等均是 的复合函数.
对 求导应按复合函数连锁法则做.
2)公式法.由 知 ,其中, , 分别表示 对 和 的偏导数
3)利用微分形式不变性
设函数 在点 处的某邻域内具有 阶导数,则对该邻域内异于 的任意点 ,在 与 之间至少存在 一个 ,使得: 其中 称为 在点 处的 阶泰勒余项。
令 ,则 阶泰勒公式 ……(1)
其中 , 在0与 之间.(1)式称为麦克劳林公式
常用五种函数在 处的泰勒公式
(1)
或
(2)
或
(3)
或
(4)
或
(5)
或
矩阵: 个数 排成 行 列的表格 称为矩阵,简记为 ,或者 。若 ,则称 是 阶矩阵或 阶方阵。
矩阵的线性运算
1.矩阵的加法
设 是两个 矩阵,则 矩阵 称为矩阵 与 的和,记为 。
2.矩阵的数乘
设 是 矩阵, 是一个常数,则 矩阵 称为数 与矩阵 的数乘,记为 。
3.矩阵的乘法
设 是 矩阵, 是 矩阵,那么 矩阵 ,其中称为 的乘积,记为 。
4. 、 、 三者之间的关系
(1)
(2)
但 不一定成立。
(3) ,
但 不一定成立。
(4)
5.有关矩阵秩的结论
(1) 秩 =行秩=列秩;
(2)
(3) ;
(4)
(5) 初等变换不改变矩阵的秩
(6) 特别若 则:
(7) 若 存在 若 存在
若 若 。
(8) 只有零解
1.有关向量组的线性表示
(1) 线性相关 至少有一个向量可以用其余向量线性表示。
(2) 线性无关, , 线性相关 可以由 唯一线性表示。
(3) 可以由 线性表示 。
2.有关向量组的线性相关性
(1)部分相关,整体相关;整体无关,部分无关.
(2) ① 个 维向量 线性无关 , 个 维向量 线性相关 。
② 个 维向量线性相关。
③ 若 线性无关,则添加分量后仍线性无关;或一组向量线性相关,去掉某些分量后仍线性相关。
3.有关向量组的线性表示
(1) 线性相关 至少有一个向量可以用其余向量线性表示。
(2) 线性无关, , 线性相关 可以由 唯一线性表示。
(3) 可以由 线性表示
4.向量组的秩与矩阵的秩之间的关系
设 ,则 的秩 与 的行列向量组的线性相关性关系为:
(1) 若 ,则 的行向量组线性无关。
(2) 若 ,则 的行向量组线性相关。
(3) 若 ,则 的列向量组线性无关。
(4) 若 ,则 的列向量组线性相关。
5. 维向量空间的基变换公式及过渡矩阵
若 与 是向量空间 的两组基,则基变换公式为:
其中 是可逆矩阵,称为由基 到基 的过渡矩阵。
6.坐标变换公式
若向量 在基 与基 的坐标分别是 ,
即: ,则向量坐标变换公式为 或 ,其中 是从基 到基 的过渡矩阵。
7.向量的内积
1.事件的关系与运算
(1) 子事件: ,若 发生,则 发生。
(2) 相等事件: ,即 ,且 。
(3) 和事件: (或 ), 与 中至少有一个发生。
(4) 差事件: , 发生但 不发生。
(5) 积事件: (或 ), 与 同时发生。
(6) 互斥事件(互不相容): = 。
(7) 互逆事件(对立事件):
2.运算律
(1) 交换律:
(2) 结合律:
(3) 分配律:
3.德 摩根律
4.完全事件组
两两互斥,且和事件为必然事件,即
5.概率的基本公式
(1)条件概率:
,表示 发生的条件下, 发生的概率。
(2)全概率公式:
(3) Bayes公式:
注:上述公式中事件 的个数可为可列个。
(4)乘法公式:
6.事件的独立性
(1) 与 相互独立
(2) , , 两两独立
; ; ;
(3) , , 相互独立
;
; ;
7.独立重复试验
将某试验独立重复 次,若每次实验中事件A发生的概率为 ,则 次试验中 发生 次的概率为:
8.重要公式与结论
(5)条件概率 满足概率的所有性质,
例如:
(6)若 相互独立,则
(7)互斥、互逆与独立性之间的关系:
与 互逆 与 互斥,但反之不成立, 与 互斥(或互逆)且均非零概率事件 与 不独立.
(8)若相互独立,则 与 也相互独立,其中 分别表示对相应事件做任意事件运算后所得的事件,另外,概率为1(或0)的事件与任何事件相互独立。
逻辑回归代价函数:
即:
推导过程:
考虑:
则:
所以:
注:虽然得到的梯度下降算法表面上看上去与线性回归的梯度下降算法一样,但是这里的 与线性回归中不同,所以实际上是不一样的。另外,在运行梯度下降算法之前,进行特征缩放依旧是非常必要的。
需要用到的性质:
(如果 是对称阵)
(如果 是对称阵)
假设我们得到矩阵 (为了简单起见,我们假设 是满秩)和向量 ,从而使 。在这种情况下,我们将无法找到向量 ,由于 ,因此我们想要找到一个向量 ,使得 尽可能接近 ,用欧几里德范数的平方