优势比和最大似然

1. 优势比 odds ratio

1.1 什么是优势比        

优势比(odds ratio;OR)是一种描述概率的方式,用于反映分类变量之间的相关性。

  • 优势:设定p为事件发生的概率,则发生的优势为,odds= p/1-p。
  • 优势比:p1为事件1发生的概率,p2为事件2发生的可能/概率,

                        优势比为odds ratio= (p1/(1-p1)) /(p2/(1-p2))

                        可以理解为事件1发生的概率相较于事件2发生概率的比值。

1.2举例和公式

问题:熬夜和肥胖是否相关?

数据:身材胖/瘦人群,分别统计熬夜人群和不熬夜人群和结构

是否熬夜/身材

熬夜

25

19

不熬夜

15

21

  • 胖子人群熬夜的优势= (25/(25+15) ) / (1-25/(25+15) )=25/15= 1.67
  • 瘦子人群熬夜的优势= (19/(19+21) ) / (1-19/(19+21) )=19/21= 0.9
  • 则 胖子熬夜的概率/ 瘦子熬夜的概率 = 胖瘦和熬夜的优势比 = 1.67/0.9 =1.86>1

结论:

  • OR = 1,胖瘦与熬夜没有相关性;
  • OR > 1,熬夜会增加肥胖概率;
  • OR < 1,熬夜会降低肥胖概率;

2. 最大似然估计

2.1 似然和概率

我们常常用概率(Probability) 来描述一个事件发生的可能性。

似然性(Likelihood) 正好反过来,意思是一个事件实际已经发生了,反推在什么参数条件下,这个事件发生的概率最大。

用数学公式来表达上述意思,就是:

  • 已知参数 θ 前提下,预测某事件 x 发生的条件概率为 P(x|θ) ;
  • 已知某个已发生的事件 x,未知参数 θ 的似然函数为 L(θ|x);
  • 上面两个值相等,即: P(x|θ)=L(θ|x)。需要说明的是两者在数值上相等,但是意义并不相同,一个是关于 θ 的函数,一个是关于 x 的函数,两者从不同的角度描述一件事情。
2.2 最大似然估计的概念

最大似然估计Maximum Likelihood Estimate的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。

当我们已知事件x发生后,从θ1,θ2,⋯,θn中找出哪一个 θ 参数使的似然函数的值到达了最大值,说明在这个参数下最有可能发生x事件,即这个参数最合理。

2.3 举例和公式

假设一个袋子装有白球与红球,比例未知,现在抽取10次(每次抽完都放回,保证事件独立性),假设抽到了7次白球和3次红球,在此数据样本条件下,估计袋子中白球和红球的比例。大家会猜比例是7:3。

利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。就是采用最大似然估计法求解袋子中白球的比例。

我们已知:

  • 样本空间D={x1,x2...,xn}为本次实验的样本空间;
  • 白球出现的概率为θ;
  • 红球出现的概率为1-θ。

概率函数P(x1,x2...,xn|θ)称为对于样本空间Dθ的似然函数。

        

如果\hat{\Theta }是参数空间中能使似然函数L(θ)最大的θ值,则\hat{\Theta }应该是“最可能”的参数值,那么\hat{\Theta }就是θ的极大似然估计量,记作。

        优势比和最大似然_第1张图片

解本案例如下:

  1. 取一次的概率函数为(取到白球时x=1,红球时x=0):
  2. 令模型M=f(x;θ)
  3. 本次事件的概率为:

(为什么多此一举用M转换一次? 只是为了让我理解网上很多资料里面的公式推导,这里的M可以是线性概率密度函数,也可以是正态分布函数等等。)

        ​​​​​​​优势比和最大似然_第2张图片

  • 本次事件发生的概率为: 
  • 令函数值最大,就是对函数求导,并且令导函数等于0.

        

        求解得到结果 θ=0.7

​​​​​​​2.4 最大似然估计求解过程

由上可知最大似然估计的一般求解过程:

  1. 1)写出似然函数;
  2. 2)对似然函数取对数,并整理;
  3. 3)求导数 ;
  4. 4)解似然方程

参考文档:

优势比和Logistics:大厂数据分析高频面试-逻辑回归和优势比1

最大似然:极大似然估计详解,写的太好了!_极大似然估计函数-CSDN博客

最大似然估计:详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解-CSDN博客

优势比:如何理解Logistic回归输出的OR值 - 知乎

你可能感兴趣的:(数据分析,概率论,算法,机器学习,数据分析)