机器学习入门基础笔记

线性代数和微积分基础

基础公式

向量基础:

标量:是一个单独的数,一般用普通小写字母或者希腊字母表示a,α等。

向量:一个同时具有大小和方向的几何对象[a1,a2,...aN],通俗来讲把数排列成一行或者一列就是向量。有行向量和列向量的分类,向量的模可以理解为向量的长度,向量的范数是向量的另一种的度量方式,向量的模=向量2范数。

\left \|\underset{a}{\rightarrow} \right \|_{1}=\sum \left | Xi \right | 向量的1阶范数

\left \| \underset{a}{\rightarrow} \right \| _{2}=\sqrt{(x_{1}^{2}+....+x_{N}^{2})}

\left \| \underset{a}{\rightarrow} \right \|_{\infty }=max\left | x_{i} \right |

机器学习基础公式:

y=f(x)=xw^{T}+b

矩阵计算

矩阵的定义:由M*N个数排列成M行,N列的表

矩阵的加法

import numpy as np
x=np.mat([[1,2],[3,4]])
y= np.mat([[10,20],[30,40]])

print(x+y)#矩阵的加法

 矩阵的乘法

矩阵的转置

数学中的符号与运算

求最大化参数:argmax_{c}P(c)返回P(c)值最大时对应的C的值。

求最值:max Y

微分法则

范数:L1范数,L2范数,L无穷范数

微分定义:在数学中漫威粉是对函数的局部变化率的一种线性描述。

单变量微积分:导数:f^{'}=\lim_{x\rightarrow 0}\frac{f(x+h)-f(x)}{h}  微分定义 :df=f^{'} dx

微分的基本法则,

导数公式

复合函数的求导法则

 

统计学和概率论基础

概率定义:是一个在0到1之间的实数,是对随机事件发生的可能性的度量。

概率说明:概率,通常是指一个具有不确定性的时间发生的可能性。\Phi-不可能事件,\Omega-必然事件。

古典概率(事前概率):

在给定条件下:

1)实验的全部可能结果只有有限个,且两两不相容。

2)事件发生的概率是相等的。

离散概率:知道样本空间和事件域,抛硬币和明天是否下雨都是离散概率事件。与之对应的是连续事件概率。

条件概率

条件概率:在已知事件A发生的情况下,事件B发生的概率,记为:P(B|A)

事件交集:事件A与事件B同时发生的概率,记为:P(AB)

条件概率不为0的前提是,事件之间有交集。 

条件概率的计算公式: P(B|A)=\frac{P(AB)}{P(A)}

全概率公式

全概率公式:如果事件A1,A2,A3,...An构成一个完备事件组,即它们两两互不相容,其和为全集:P(B)=\sum_{i=1 }^{\infty}P(A_{i}B)

例子:P(B)=P(AB)+P(\bar{A}B)=P(A)P(B|A)+P(\bar{A})P(B|\bar{A})

机器学习入门基础笔记_第1张图片

随机变量的定义:随机变量并不是变量,他们实际上是将(样本空间中的)结果映射到真值的函数。

联合分布的定义:

两个及以上随机变量组成的随机变量的概率分布叫做联合分布。

P(X=a,Y=b)或者PX,Y(a,b)来表示,X取值为a且Y取值为b时的概率。

用P(X,Y)来表示它们的联合分布。\sum_{x}\sum_yP(X=x,Y=y)=1

边缘分布:边缘分布是指一个随机变量对于其自身的概率分布,为了得到一个随机变量的边缘分布,我们将该分布中所有其他变量相加:P(x)=\sum _{y}P(x,y)=\sum _{y}P(x|y)P(y)机器学习入门基础笔记_第2张图片

 条件分布:对于二位变量(X,Y)可以考虑在其中一个随机变量取得(可能的)固定值的条件下,另一随机变量的概率分布,这样得到的X或Y的概率分布叫做条件概率分布,简称条件分布。条件分布为概率论中用于探讨不确定性的关键工具之一,它明确了在另一随机变量已知的情况下(或者通俗来说,当已知事件为真时)的某一随机变量的分布。

数学期望:E(X)

数学方差:Var(X)用于描述离散程度,方差的算术平方根称为该随机变量的标准差。

优化方法基础

范数

拉格朗日乘子法和KKT条件

 

信息论基础

信息熵

条件熵

互信息

 

你可能感兴趣的:(概念与基础知识,数学,机器学习基础,概率与统计)