基础理论—概率论和统计学直观

概率论与统计学


概率论是统计学的基础,统计学是概率论的发展,二者密不可分。

大家往往说概率统计,而不是统计概率,从这点就可以知道这两者谁是基础,谁是上层应用。

概率论

概率论是统计推断的基础,在给定数据生成过程下观测、研究数据的性质。

面向未来的预测。

袋子里有10个白球,2个黑球,预测你能抓到白球的概率。

概率论是纯数学:是一套纯数学化理论,有严格的公理基础,里面的结论都是用严格的数学推导做出来的。

概率论是假设你已经知道了整体然后对一个事件的发生概率进行计算。

统计学

统计推断则根据观测的数据,反向思考其数据生成过程。

对过去信息的推理,比如发生了一场命案你要推断出凶手是谁。

袋子里信息你一无所知,每次从袋子里抓一个球,一共抓了10次,抓到了8次白球,2次黑球,那么袋子里的球的比例是多少?

数理统计是应用数学,而统计学则是借鉴了概率论和数理统计的一门超级应用学科(数学)。

统计是指你不完全理解整体,你的目的就是为了理解整体的。

描述统计学

来描绘或总结观察量的基本情况的统计总称。
其与推论统计相对应。
运用的工具有:平均数、中位数、众数、标准差、相对差、四分差等等。

推论统计学

研究如何根据样本数据去推断总体数量特征的方法。
现有样本的描述,再对总体的未知数量特征进行概率推断。

置信区间

样本与总体:
样本不能完全代表总体,但是可以一定程度上代表总体。
通过样本可以估计总体的特征,但是结果由一定的不确定性。

样本统计量(简称统计量):
1、指的是样本的函数,并且此函数不含有未知参数。
2、常见的统计量有:样本均值,样本方差,样本极差等。

抽样误差:
样本不足以代表总体。举例:样本平均数与总体平均数之差。

点估计:
(point estimation)。
样本已知,总体参数估计问题。
样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点估计。

区间估计:
(interval estimate)
点估计给出一种最大的可能参数,而区间估计给出总体参数估计的一个区间范围。
该区间通常由样本统计量加减估计误差得到。

置信区间:
Confidence interval。
1、样本估计出的参数+-一定的误差。分别对应置信上线和下线。
2、区间越大,置信水平越高;就是“放宽标准”。

置信水平:
Confidence level,又叫置信度。
就是总体参数的真实值落在置信区间内的让人相信的程度,用概率来表示。

派别

一种划分

频率学派

认为事物本身冥冥之中是服从一个分布的,这个分布的参数是固定的。

概率的分布是自然的神秘力量在起作用,概率的期望值是固定的,上帝控制着这个值。也就是通常所说的上帝视角。

往往我们遇到的实际问题就是要找出上帝控制的哪个参数值。

“最大似然”和“置信区间”是基于频率学派的。

频率学派尊重对事件的采样统计结果,

贝叶斯学派

贝叶斯派并不相信那个参数值是固定的,而是认为这个参数值可能是A也可能是B,也可能是某个区间。
贝叶斯派想的是我不可能去完整的观察某件事,采样统计也不可能考虑到每一个细节。
比如抛硬币:完美的硬币不可能存在嘛,实际情况抛硬币的时候要考虑风向,考虑当时抛硬币人的力道方向等。
所以贝叶斯派不把某件事发生的概率当做是固定的,而是把某件事发生的概率也当做一个未知的变量去考虑。
“逆概”问题
贝叶斯原理源于他生前为解决一个“逆概”问题写的一篇文章。
什么是“逆概”问题?“逆概”是相对于“正向概率”来说的概念。
以从袋里里抓球的问题举例,正向概率有一个前提就是我们对袋子里面的情况已经全部掌握了,就是我们可以准确的知道未来。
然而现实生活是你经常不知道袋子里面有多少个球(不确定性)。
逆概问题好像和目前的“大数据”、“人工智能”问题很像,
我们都是要基于目前已知的知识来获取对未来的预测。
用一些已知样本预测不在样本之内的数据。
贝叶斯解决啥问题
贝叶斯公式解决的是一些原因X无法直接观测、测量,而我们希望通过其结果Y来反推出原因X的问题,也就是知道一部分先验概率,来求后验概率的问题。

另一种划分

描述统计是对数据的一种概括。描述统计是罗列所有数据,然后选择一些特征量(例如均值、方差、中位数、四分中位数等)对总体数据进行描述。
推断统计是一种对数据的推测。推断统计无法获取所有数据,只能得到部分数据,然后根据得到的数据推测总体数据的情况。

问题

辨析

随机变量:
随机变量是对不确定性事情的描述,它的取值是可以变的,一个取值对应事情中的一个结果,随机变量所有取值对应的概率求和是1,注意该系统中所有事件的结果对应具体的的情况,该情况发生才可以用概率来描述。

概率:
随机系统得到某种结果的可能性。
概率是在0-1之间的数值,是对随机事件发生某种情况可能性的度量,描述其确定性程度,换句话说是靠谱程度。
概率的严格定义基于概率空间(Ω, F, P)的概念。Ω是一个非空集合,称为样本空间;F是样本空间Ω
幂集的一个非空子集,F的集合元素称为事件Σ;
P称为概率,每个事件都有一个概率值。
P(A),其实是指,在样本空间 Ω 中,事件A的数量占Ω的比率,记作P(A)。

独立:
事件之间互不影响,绝对独立。
两个独立随机变量的性质:P(A∩B)= P(A) P(B),事件A和B都发生。
第一次掷骰子1点朝上,第二次掷骰子1点朝上这两个事件就是独立事件。

互斥:
一个事件发生了,那么另外一件事情发生的概率为0。
有性质:P(A∪B)=P(A)+P(B),事件A发生或者B发生。
一次掷骰子1点朝上、2点朝上这两个事件就是互斥事件。

相关事件:
例子:条件概率-数学乐
不放回拿球就是相互影响的相关事件,在后面我们称之为条件概率。

期望

数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。

它反映随机变量平均取值的大小。

离散型随机变量的数学期望

定义:
    离散型随机变量的一切可能的取值xi与对应的概率p(xi)乘积之和。

    是简单算术平均的一种推广,类似加权平均。

公式:

基础理论—概率论和统计学直观_第1张图片

连续型随机变量的数学期望

基础理论—概率论和统计学直观_第2张图片

边缘概率

 边缘分布(Marginal Distribution)指在概率论和统计学的多维随机变量中,只包含其中部分变量的概率分布,是与多维随机变量相对的。
 边缘概率是与联合概率对应的,P(X=a)或P(Y=b),这类仅与单个随机变量有关的概率称为边缘概率

联合概率

联合概率表示两个事件共同发生的概率。A与B的联合概率表示为 P(AB) 或者P(A,B),或者P(A∩B)。

条件概率

条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:P(A|B),读作“在B条件下A的概率”。

条件概率有时候也称为:后验概率。后验概率是考虑某个条件后的概率分布。

两个事件的是有关系的,但不一定非得有因果上或者时间序列上的关系,所以具体问题具体分析他们之间的关系。

通过不放回拿球的条件概率来理解,条件概率是球少的前提下下发生的概率,是“二级概率”,在树图上表示问题的范围是被缩小的。

条件概率是贝叶斯的思想,我们对这个世界认识是不全面的,生活中绝大多数决策面临的信息都是不全的,就是信息不完备,我们手中只有有限的数据。

条件概率,从这个名字而知某件事的发生概率是有条件的。即这个世界不是简单的一维,而是有附加条件的。这个附加条件可能是一个也可能是多个。这样才是完备思考这个世界的正确姿势。如果拥有更多的条件样本,那么我们会对某件事情发生的概率的预测会更准确。
举个例子,如果明天晴天,我就会出门,这就是一个在已知条件下的可能性时间,晴天是一个可能性的事件,出门也就成了一个可能性的事件。通过已知的天气统计数据和我以往的出门统计数据,就可以预测出明天我出门的概率。

更多例子:条件概率-数学乐
这个例子有助于帮助理解条件概率公式$P(A \cap B) = P(A)P(A|B)$,以及条件概率多项的公式$P(A \cap B \cap C) = P(A)P(A|B)P(C|A,B)$,其中A是树图中的第一个事件。

全概率公式

设事件(L1,...Ln)是一个完备事件组,则对于任意一个事件C,若有如下公式成立

image.png

三种概率的关系

条件概率= 联合概率/边缘概率

 P(A|B)=P(A,B) / P(B) 
 P(B|A)=P(A,B) / P(A)
 P(A,B) = P(A|B)*P(B)  = P(B|A)*P(A)

随机变量

英语(random variable),是指随机事件的概率在某些数量上的表现。

在“某件事情发生的概率”中某件事件是可量化,并且量化的数字可以变化,我们把这种可变化成为随机。

但是注意随机变量的个数有不可数的情况。

比如:抛出10次硬币2次朝上的概率是在描述固定的事件的概率,固定数量是2,如果我们把我换成m,就是描述一个可变事件的概率。这个m我们称之为随机变量。

用数量化表示的的好处是可以用数学分析的方法来研究随机现象。

一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼叫次数,灯泡的寿命等等,都是随机变量的例子。

离散型随机变量

在一定区间内变量取值为有限个或可数个。

掷硬币的结果就是一个典型的离散型随机变量。

离散分布某些变量发生的概率使用求和Σ。

例如某地区某年人口的出生数、死亡数,某药治疗某病病人的有效数、无效数等。

连续型随机变量

在一定区间内变量个数有无限个,数值无法一一列举出来。

时间就是一个典型的连续变量。

连续分布某一区间的概率使用积分 ∫。

例如某地区男性健康成人的身长值、体重值,一批传染性肝炎患者的血清转氨酶测定值等。取值可以有无数个小数位。

概率分布

广义地,它指称随机变量的概率性质,我们可以说两个随机变量具有同一种的概率分布,但不能说同分布的随机变量是相同的随机变量。可以把随机变量分类,每一类称作一个分布,部分随机变量有相同分布。

狭义上,它是指随机变量的概率分布函数。

用于表示随机变量的概率取值。

以数学函数的形式告诉我们在一些实验中不同可能结果的概率。

概率分布是比可量化的概率更高的维度。 

举个例子:抛出10次硬币,有2次硬币朝上的可能性称之为概率。而我们把抛出10次硬币,有m(0=

离散概率分布

随机变量是离散的,随机变量对应的概率值可以量化。

概率质量函数

(Probability Mass Function)。
概率质量函数即随机变量在各个可能离散值上对应的概率。

函数的图像是一个直方图:横纵代表随机变量的所有取值,纵轴代表发生的概率。

抛硬币例子:
    正面取值1,反面取值0
抛硬币的概率质量函数:        

基础理论—概率论和统计学直观_第3张图片


概率质量函数可以定义在任何离散随机变量上: 包括常数分布,二项分布(包括Bernoulli分布),
负二项分布,Poisson分布,几何分布以及超几何分布随机变量上.

伯努利分布

    一个试验只有两种结果(1,0),是互斥发生的,
    可以表示例子的(成功,失败),(通过,未通过)等。

    每个结果有对应的概率。一种结果发生的概率为p,另一种结果发生的概率为1-p。

概念定义公式:

image.png


概率质量函数:

基础理论—概率论和统计学直观_第4张图片

二项分布

原始事件发生的概率只有两种p,1-p。在总的实验次数固定的情况下,事件发生X次的概率会符合某个固定的函数公式。这个公式称为二项分布。

在一次试验中事件 A 发生的概率为 p ,把这种试验重复做 n 次,把 X 记为 n 次试验中事件 A 发生的次数,X的取值范围是 0−n,P(X=k)=Ckn pk (1−p)n−k ,称 X 服从二项分布,记为 X∼B(n,p) 。

不要理会上面的公式,我只是为了借此公式说明一些概念:
自变量:总的试验次数n,一次试验发生的概率p,在总的实验中事件发生的次数X。
随机变量:公式定义中的X。
概率分布:是一个取值为概率的公式

伯努利分布 vs 二项分布

    二项分布就是重复n次独立的伯努利试验,
    即伯努利分布是二项分布在n=1时的特例。

公式区别:

基础理论—概率论和统计学直观_第5张图片

连续概率分布

   随机变量是连续的,随机变量对应的概率值不可以直接量化,考察某个随机变量的概率是没有意义的,要通过随机变量的区间来量化这一区间内随机变量发生的概率。

概率密度函数

(Probability Distribution Function)。

是针对连续型随机变量的,描述随机变量的输出值,是一个函数。

为什么概率密度函数不是直接表示概率?
    因为在实际的样本中无法精确确认样本到底属于哪个随机变量。         
    人的身高难道真的有170cm高的,
    从很微观的层面要么多一点点,要么少一点点。
    
    假如真的是概率,那么多的微观随机变量值相加也没办法计算,相加也不是等于1。
    
用密度的角度理解更好:
    从函数值角度来讲,某一个点越大那么这一点出现的样本数相对其它点就越多(越密),但并不是用来直接代表概率。
    




泊松分布

泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数等等。
 
 也属于离散随机变量。
 
 当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似。
 
 泊松分布正是由二项分布推导而来的。
 
 泊松分布有一个已知值,单位时间或者单位面积发生的概率。
 
 随机变量是N个时间或者面积。

正态分布

  正态分布是一种很重要的连续型随机变量的概率分布。生物现象中有许多变量是服从或近似服从正态分布的,如家畜的体长、体
  重、产奶量、产毛量、血红蛋白含量、血糖含量等。

(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution)。

 正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形.
 
 其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分
 布。
 
 属于连续型随机变量的分布。
 
 正态分布有两个已知值,位置参数为 μ ,幅度参数σ, 的概率分布。
 
 正态分布最早由A.棣莫弗在求二项分布的渐近公式中得到,而后又在统计中得到验证。
 所以定义直接给了一个公式,说符合这种公式的就叫正态分布。

贝塔分布

Beta分布是一种连续型概率密度分布。由两个参数a,b决定。

其定义域为(0,1),一般被用于建模“伯努利试验事件成功的概率”的概率分布。

beta分布可以看作一个概率的概率密度分布,当你不知道一个东西的具体概率是多少时,它可以给出了所有概率出现的可能性大小。

各种分布与贝叶斯公式

原来我一直不知道贝叶斯公式与二项分布,多项式分布有什么关系,怎么把这两者结合起来。

后来看的多了才知道,原来贝叶斯公式中的P(A)就可以是某个分布。

用各种分布组成了贝叶斯方程,然后求解各种分布的参数。

这样才真的串起来了。

机器学习中主要就是已知一些“抽样”数据在求各种分布的参数,
然后得到参数后进行泛化预测。

条件概率分布

   已知两个相关的随机变量X 和Y,随机变量Y 在条件{X =x}下的条件概率分布是指当已知X 的取值为某个特定值x之时,Y 的概率分布。
   
   很多机器学习的算法的目标函数都是条件概率分布。

概率分布参数推断

似然函数

在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。
用于参数的推断。

其实是知道

求似然函数的过程是总结规律的过程,而不是应用已知规律的过程。

极大似然估计

(Maximum Likelihood Estimate,MLE)也称为最大概似估计或最大似然估计。

极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!

换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。
    
P(x|θ) 如果 θ 是已知确定的, x 是变量,这个函数叫做概率函数(probability function),
它描述对于不同的样本点 x(随机变量) ,其出现概率是多少。

P(x|θ) 如果 x 是已知确定的样本数据, θ 是变量(模型的参数),这个函数叫做似然函数(likelihood function),
它描述对于不同的模型参数,出现 x 这个样本点的概率是多少。

这两者有点像反函数,也可以理解为最大似然估计就是对概率密度函数求反的过程。

求极大似然函数估计值的步骤:
    1、选取似然函数(一般是概率密度函数或概率质量函数),写出样本的联合概率分布。
    
    2、并对联合概率分布取对数,整理成加和形式
    
    3、求导数,令导数为0,得到似然方程 
    
    4、解似然方程,得到的参数即为所求

两句题外话:
    机器学习中的分布(机器学习中是自然界的问题)一样呈现正态分布。

    为什么令导数等于0即可:
        在概率统计的导数没有其他数学方程式那么复杂的曲线走位,一般是只有一个极值点的

最大期望算法

todo
EM 算法 
Expectation-maximization algorithm,又译为期望最大化算法。

是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐性变量。

黑白球抽样求参数

袋子里有黑白两种球,放回抽样100次,抽出70次白球,30次黑球。
100次抽样的每次分布都一样,假设为分布参数为 Model。100次抽样看做样本空间。

假设分布 P(样本结果|Model) 是 在某个模型Model下,100次抽样的分布。

我们已经知道(我们做的100次抽样,也可以成为观测)似然函数的结果了,即 p^70(1-p)^30。

这个似然函数就是我们现实抽样观测到的情况,也可以看做最容易出现的结果,
那么对p^70(1-p)^30求导求出最大值,我们就可以得到p值。

注意p表示概率,P表示分布。

贝叶斯估计

贝叶斯估计最关键的点是可以利用贝斯定理结合新的证据及以前的先验机率,
来得到新的机率(这和频率论推论相反,频率论推论只考虑证据,不考虑先验机率)。

贝叶斯更新(Bayesian updating:
而且贝叶斯估计可以迭代使用:在观察一些证据后得到的后设机率可以当作新的先验机率,
再根据新的证据得到新的后设机率。
因此贝斯定理可以应用在许多不同的证据上,不论这些证据是一起出现或是不同时出现都可以,
这个程序称为贝叶斯更新(Bayesian updating)。

贝塔分布

贝塔分布(Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数。

Dirichlet分布

Dirichlet分布是分布的分布。
Dirichlet的概率是(多项)分布的概率的概率。

Dirichlet分布就是多项分布的共轭先验分布。

共轭先验

(conjugate priors)。

共轭先验(conjugate priors)是一种概率密度,它使得后验概率的密度函数和先验概率的密度函数有着相同的函数形式。

P ( X | evidence ) = P ( evidence | X ) * P ( X ) / P ( evidence)
含义以及变形如下:
后验概率 = likehood * 先验概率 / 样本集合(确定值)


如果P ( X )能使得P ( evidence | X )和P ( X | evidence )具有相同的表达形式, 
那么我们就说P ( X )为共轭先验(conjugate priors)。
换句话说 
如果 先验概率 使得  likehood 和 后验概率 有相同的表达形式,那么我们就说先验概率为共轭先验。

共轭先验,便于新观测数据产生时下一次的迭代计算。

马尔可夫链

又称离散时间马尔可夫链(discrete-time Markov chain,缩写为DTMC)。
为状态空间中经过从一个状态到另一个状态的转换的随机过程。
系统根据概率分布,可以从一个状态变到另一个状态,也可以保持当前状态。
状态的改变叫做转移,与不同的状态改变相关的概率叫做转移概率。

采样

目的是用离散的数据近似代替连续(或原先就是离散)的数据。

换句话说,概率密度大的地方要能多采集点,而概率密度小的地方少采集点。

累计概率分布

我们采样的函数是概率密度函数。
而累计概率分布是通过对概率密度函数积分得到的。

累计概率分布的区间是0-1。
1、先生成均匀分布采样数
2、带入累计概率分布,求样本点,这些样本点就是按照原来概率密度函数分布的。

吉布斯采样

用于在难以直接采样时从某一多变量概率分布中近似抽取样本序列。
适用于条件分布比边缘分布更容易采样的多变量分布。

相关系数

Correlation coefficient 

研究变量之间线性相关程度的量,一般用字母 r 表示。

公式:

直观:
    
todo

信息熵

定义引入

信息量

表示随机变量某一次发生所携带的“信息”。
这里的“信息”不是承载内容的多少,而是与事件发生的概率有关。
事件发生的概率越高,信息量反而越小;事件发生的概率越低,信息量反而越大。
$I(x_0)= -log(p(x_0))$
$x_0$表示事件的某一种情形。

信息熵

信息量只跟某一次事件发生有关。
如果把事件看成一个随机变量,综合考虑事件的所有可能情况,那么就需要引入信息熵。
信息熵表示随机变量的所有随机事件所有信息量的期望,需要在信息量的基础上乘以随机变量本次发生的概率,并对所有项求和。
$H(x)=-\sum\limits_{i=0}^np(x_i)log(p(x_i))$
n代表所有可能的情形,每种情形的概率是$p(x_i)$。
所以信息熵是对随机变量系统性的描述,个人理解为随机变量整体的信息量。

所以熵的大小跟随机变量的取值个数有关,取值个数越多,熵可能越大。
在随机变量取值个数相同的情况下,每个随机变量对应的概率越均衡熵可能越大。
随机变量的信息熵:
a) 不同类别的概率分布越均匀,信息熵越大;
b) 类别个数越多,信息熵越大;
c) 信息熵越大,越不容易被预测;

相对熵

relative entropy,又称KL散度(Kullback-Leibler (人名缩写KL) divergence)。

可以用来衡量同一个随机变量 x 的两个单独的概率分布 P(x) 和 Q(x)的差异。
在机器学习中,$D_{KL}(P‖Q)$被定义为:如果用P来描述目标问题,而不是用Q来描述目标问题,得到的信息增量(information gain)。
机器学习中P是固定的,我们可以不断的训练Q来缩小分布的差异性。

$D_{KL}(p||q)=\sum\limits_{i=1}^np(x_i)log(\frac{p(x_i)}{q(x_i)})$

$D_{KL}(p||q) = \sum\limits_{i=1}^np(x_i)log(p(x_i))-\sum\limits_{i=1}^np(x_i)log(q(x_i))$

注意相对熵是不具有对称性值的。

交叉熵

直接给出公式
$H(p,q)= -\sum\limits_{i=1}^np(x_i)log(q(x_i))$
可以从相对熵的公式推导出来,
推导过程如下:
$ D_{KL}(p||q) = \sum\limits_{i=1}^np(x_i)log(p(x_i))-\sum\limits_{i=1}^np(x_i)log(q(x_i))$
$\qquad\qquad=-H(p(x))+[-\sum\limits_{i=1}^np(x_i)log(q(x_i))]$
后半分就是交叉熵的定义。
由此公式可以看出,相对熵(KL散度) = 交叉熵 - 熵

在机器学习中,我们需要评估label和predicts之间的差距,使用KL散度刚刚好,即$D_{KL}(y||ŷ )$。
由于KL散度中的前一部分$−H(y)$不变,故在优化过程中,只需要关注交叉熵就可以了。
所以一般在机器学习中直接用用交叉熵做loss,评估模型。

信息增益IG(Y|X)

衡量一个属性(x)区分样本(y)的能力。

IG(Y|X)越大表示x越重要:在系统中的区分性越强。

熵 与 方差

方差和信息熵都可以用于量化信息。

方差和熵都是通过描述不确定性的多少来量化信息。

方差公式由数据大小到平均值的距离决定。

熵的大小跟数据大小无关,只跟样本数据概率有关。

方差描述不确定度在某些情况下会失效。

交叉熵

主要用于度量两个概率分布间的差异性信息。

交叉熵越小,两个概率的分布约接近。

神经网络(机器学习)中作为损失函数,
p表示真实标记的分布,q则为训练后的模型的预测标记分布,交叉熵损失函数可以衡量p与q的相似性

离散变量交叉熵:

image.png

    p为真实分布,q为非真实分布。
    
    
    

假设检验

todo

卡方检验

todo 
参考
频率学派和贝叶斯学派的参数估计
概率论与统计学的关系是什么
说说统计学、概率论和数理统计这些老梗
条件概率分布与机器学习
“贝叶斯原理”对认知的提升
联合概率、边缘概率、条件概率之间的关系&贝叶斯公式
理解贝叶斯定理
最大似然估计-百度百科
一文搞懂极大似然估计
机器学习之极大似然估计详解
为什么说Dirichlet分布是分布的分布
从似然函数到EM算法(附代码实现)
最大似然函数及其求解
深入理解信息熵
信息熵、信息增益、条件熵基本概念及联系
方差和熵
交叉熵
一文搞懂交叉熵在机器学习中的使用,透彻理解交叉熵背后的直觉
深入理解Beta分布:从定义到公式推导
如何科学地采样

你可能感兴趣的:(概率,统计学)