007第四十二篇:重温一遍—最大似然估计?统计学(19)

似然(likelihood):过去的可能性。

最大似然估计(maximum likelihood estimation):是一种统计方法,它用来求一个样本集的相关概率密度函数的参数。

“现实的就是合理的,合理的就是现实的”。——黑格尔

为什么费真么大力气做最大似然估计?是因为我们想根据最符合数据的模型猜测总体中自变项与因变项的关系。打比方:我得到某人的一件衣服,想根据这件衣服猜测衣服主人的体型特征,衣服越合身,猜测越准确。最大似然性估计就好比做衣服,衣服做出来请“数据”穿上试一试,不合身就修改,修改到合身就不改了。我们每次修改模型,就相当修改一次衣服,我们希望衣服越来越合身。理论上修改可以无休止的做下去,但是实践不允许,也没有必要,改到一定程度就行了。SPSS默认的标准是千分之一的概率,我们就不再修改模型。总体是不是真的如此,我们真的不知道,但统计分析还是让我们更接近真相。

最大似然估计是分析过去的可能性,把过去的场景变换一下,过去的过程就会有不同的轨迹。有些方法论学家说实际上所有社会科学的方法都可以归纳为最大似然估计。事实到底是什么我们不知道,永远也不会知道。我们只能是构建一些模型,然后看这些模型中哪个最适合现实,我们就说哪个模型最近似的描述了现实的情况,我们就认为这个模型显示的样本统计值(回归系数)是总体参数的最佳估计。

举个栗子:事实胜于雄辩(种族是否受到公司歧视)

首先,得到种族与是否经理的实际分布,根据卡方值检验,两个变项有显著相关,而且是负相关。少数族裔员工当经理的概率明显小于白人员工。

然而,反方有不同声音提出:真正影响当经理概率的是教育程度,不是少数族裔。

接着,我们控制教育程度。对数回归的结果显示,教育程度相同情况下少数族裔员工当经理概率仍然显著小于白人员工。

然而,反方再次提出:只控制教育程度还不够,真正影响当经理概率的,并非是否少数族裔,而是教育程度、来公司前的工作经验、在公司服务的时间。


007第四十二篇:重温一遍—最大似然估计?统计学(19)_第1张图片
迭代修改后结果


007第四十二篇:重温一遍—最大似然估计?统计学(19)_第2张图片
spss运算后的结果

最大似然估计的结果,不能说是真实情况,但这就是目前最近似于真实情况的模型。少数族裔再数次迭代后,每单位少数族裔改变带来是否当经理-2.318单位的改变,仍然明显的影响着是否当经理的结果。有可能还会出现其他如:“管理能力”等干扰项,还是可以进一步的研究。

你可能感兴趣的:(007第四十二篇:重温一遍—最大似然估计?统计学(19))