随即变量与概率分布
数学家解决问题的方式是抽象,如果一类事物能找到共同点,就会被抽象成一个数学量。在随机时间的问题上,这个抽象出来的结果就叫随机变量。
什么是随机变量呢?简单说,就是把随机事件可能的结果抽象成一个数字,每个数字对应一个概率。这个随机变化的数字,就是随机变量。
把随机变量的所以结果和它对应的概率全部统计出来后,我们就有了一个东西,概率分布。
以地震为例,如果把所有的地震的震级都统计出来,根据频率法,我们就能知道不同级别的地震发生的概率了。
通过从整体上描述一个随机事件所有可能的结果和对应的概率分布情况,我们就能像上帝伏看世界一样,从整体上把握这件事的基本轮廓,也就为进一步探索其中的规律提供了可能。
每一个随机事件都有自己的概率分布,随机事件不同,概率分布自然也不同,但经过不断的研究,数学家们逐渐发现,概率分布是有规律可循的。
比如人的身高和智商,看起来毫无干系,但他们的分布情况挺相似的,都是正常水平的比较多,而特别高和特别低的非常少,再比如地震,小规模的地震数量很多,但破坏性很小,大规模的地震数量很少,但破坏性大,这个和个人财富的分布状况又比较一致。
数学家还发现这些概率分布的变化规律甚至可以用数学 公式来精确表示,这就是概率分布模型。有了这些模型,解决各种随机事件就简单多了,看看它适用于哪个模型,直接带入公式计算就好了。
现实世界纷繁复杂,各种随机变量数不胜数,但再概率学家眼里,他们只分为两类,一类是已经找到变化规律,可以用概率分布模型描述,另一类还没有找到变化规律,无法用概率分布模型描述的。
对于规律相似的同一类现象,概率分布模型只有一个,只是模型中的参数不同,比如人的身高和智商,他们的规律就很相似,都服从正态分布,只是各自的均值和方差不一样。同样的,地震和个人财富大体上都服从幂律分布,只是对应的幂指数不一样。
当然,如果不少同一类现象,不遵循同一个规律,就不能用同一种概率分布模型,如果非要拿正态分布的公式去计算幂律分布,肯定是要闹笑话的。
如果用概率分布模型描述还没有找到变化规律怎么办?一般情况下,面对一个无法解释的现象,专家们会先假设它服从某个概率分布模型,然后再验证假设。
比如股市这个问题,过去的经济学家发现,股票的波动情况和抛硬币一样,连续两天都涨或者都跌的可能性差不多都是50%,服从正态分布,于是他们就用正态分布来模拟股市,并根据这个模型的数学特征,比如,数学期望,方差,极端情况出现的可能性,来构建整个金融体系的风险系统。
最后,人们拿模型来预测和现实中股市涨跌情况来做个对比,发现变化挺一致,所以人们认为,股市的变化服从正态分布这个模型。
很快,金融危机爆发了 ,市场完全不遵循正态分布的规律。在正态分布的模型中,几十亿年才会出现的极端情况,一天内反复出现。这时候人们终于明白,用正态分布来评估股市风险,可能压根就是错的,换句话说,丛一开始就选错了模型。
概率分布好比一个工具箱,一个个概率分布模型就好比是工具箱里的工具。遇到问题,我们丛工具箱里找工具解决。如果工具选错了,就得重新选择。
目前,有多少种工具供我们选择呢?
常见的有几十种,像正态分布,幂律分布,指数分布,数学家会根据不同的现象,不同的变化特征,发明和发现新的模型。
如果试了所有的 概率分布模型,还是无法准确描述某个随机变量,这时候怎么办?
科学家还在发现更多的模型,不断探索真理,向真理世界靠拢,不就是科学发展的过程吗?