传说骰子的发明人是三国时期的文学家曹植,是为了占卜之用。时至今日,它已演化为人类广泛用于赌博和休闲娱乐的工具,深入千家万户。除老百姓外,科学家们对骰子也可谓情有独钟,甚至在上个世纪还爆发了关于“上帝掷骰子吗”的大讨论。当然,我今天并不想讨论这么大的一个话题,但依然不妨碍我把掷骰子试验背后隐藏的二项分布和大数定理引入自然界,用它对一些生物学现象进行探讨和分析。比如下面我们可以来研究下“细菌掷筛子吗”这个问题。
1777年法国数学家布丰[1] 别出心裁地想到一种计算圆周率π的方法:随机投针法。他对此方法的描述是:在平面上画有一组间距为D的平行线,将一根长度为L(L<D)的针任意掷在这个平面上,则此针与平行线中任一条相交的概率是p=2L/(πD),π即为圆周率。1901年意大利数学家马里奥•拉扎里尼(Mario Lazzarini)重复了这个试验。他总共投掷了3408次针,得到π的值为355/113,已经精确到了小数点的第6位。关于它的解法可以参看wikipedia页面布丰投针问题。有同学想验证这个试验但又没有针和时间怎么办呢?那就来尝试运行一下这个计算机模拟程序吧。
[ 图1 布丰投针问题3D模拟图(图像来源:ventrella.com)]
还有一个例子来自于果壳网介绍过的神秘的本福特定律。它和布丰问题一样,都是实验者在经过大量独立重复试验或统计大量同类数据之后发现,某一事件发生的频率趋于一个稳定值。这就是数学概率论中的大数定律(Law of large numbers)。它的数学语言描述如下:
(公式1),
其中,n为独立重复试验次数,nx为事件x发生的次数,p为事件x在每次试验中发生的概率,ε是任意大于0的正数。可以看到,当n值足够大,也就是试验次数足够多的时候,事件发生的频率趋于稳定,偏差几乎为零。
关于大数定理另一个更加直观的例子来自于wikipedia上介绍的掷骰子试验(图2)。
[图2 可以直观地看到,随着骰子投掷次数的逐渐增加,骰子点数的平均值渐渐趋于3.5(图像汉化自wikipedia)]
因为掷骰子试验符合二项分布规律,所以它的期望值3.5即为它最后的稳定值。
回到文章开头的问题:细菌掷骰子吗?
请先想象这样一个理想化的试验。在某个生物实验室遗忘的一角,有一个盛了足量营养液的培养皿,里面无忧无虑地生活着几千只细菌。我们认为这些原核生物均为单倍体,且仅以二分裂法这种无性繁殖方式进行繁殖,不会产生任何基因突变。这些细菌体内的基因基本上全部相同,除了一组中性等位基因——所谓中性基因,在这里可以理解为对细菌的生存和繁殖无任何影响的基因。我们将这组等位基因设为A和B,且各自的基因频率各为50%。它们在这个被遗忘的桃花源里开始毫无压力地繁衍后代,细菌数量开始急剧增长。但是好景不长,随着营养液内水分的蒸发,培养皿开始渐渐枯竭,导致细菌大量死亡。最后培养皿中只剩下了四只细菌。对于这种种群数量数量级以上减少的事件,在生物学中我们称之为瓶颈效应。
根据之前的假设,我们可以用等位基因A和B来标记这四只细菌,那么推断有如下16种集合情况:
{A,A,A,A}, {A,A,A,B}, {A,A,B,A} ,{A,A,B,B},
{A,B,A,A}, {A,B,A,B}, {A,B,B,A}, {A,B,B,B},
{B,A,A,A}, {B,A,A,B}, {B,A,B,A}, {B,A,B,B},
{B,B,A,A}, {B,B,A,B}, {B,B,B,A}, {B,B,B,B}.
因为等位基因A和B存在于四只幸存者细菌体内的几率是等可能的(初始基因频率为50%),所以上述16种情况每一种情况出现的概率均为1/2*1/2*1/2*1/2=1/16。我们再根据A、B在集合中不同的数量进行划分,得出表1:
A |
B |
集合数 |
出现概率 |
4 |
0 |
1 |
1/16 |
3 |
1 |
4 |
4/16 |
2 |
2 |
6 |
6/16 |
1 |
3 |
4 |
4/16 |
0 |
4 |
1 |
1/16 |
[表1 对16种集合根据A、B数量的划分]
从表1中我们可以看到,A和B基因频率相同(即等位基因A和B数量相等)的概率只有6/16,而A、B基因频率不相等的概率却有10/16。初始时等位基因A和B的基因频率是相等的,而现在A和B的基因频率更倾向于不相等,且有12.5%的概率使得等位基因A或者B在这一代彻底消亡。基因频率的大幅度改变,使某一等位基因倾向消失(相对于另一等位基因倾向固定),这就是遗传漂变。在生物遗传学中,瓶颈效应将有可能导致遗传漂变。
叙述和解释完这个假想试验和其中的生物学概念后,因为试验中细菌等位基因的遗传规律符合概率论中二项分布,我们下面便先用二项分布对这一假想实验进行描绘:
f(k;n,1/2)=(Ckn)(1/2)n (公式2),
其中Ckn是二项式系数,n表示细菌的数量,k表示等位基因A(或者B)的数量,1/2是等位基因A和B的基因概率。当n值足够大,如初始的103数量级以上的话,根据大数定理,只要细菌的繁殖数量始终保持在这一数量级上,那么等位基因A和B的基因频率将保持恒定,即初始的50%。但当细菌大量死亡,比如本例中所举的一个极端,最后仅幸存四只的话,那么显然已构不成“大数”,参考图2掷骰子试验投掷次数小于100的情形,基因频率将处于一个极大的波动之中。
这一分析同样适用于真核生物(双倍体)。对于大部分真核生物,每一个个体都会有两个基因拷贝,即相对应的基因型为AA、AB和BB,而A和B的基因频率可能不再相等,那么我们可以把公式2一般化为:
f(k;n,p)=(Ck2n)pk(1-p)2n-k(公式3),
其中p表示等位基因A的基因频率,(1-p)即为等位基因B的基因频率。这个公式也被命名为Wright-Fisher模型,以示英国统计学家、遗传学家R.A.Fisher[2] 和美国遗传学家Sewall Wright [3]对群体遗传学这一领域的杰出贡献。
Wright-Fisher模型是一个理想化群体模型。它的适用条件是:
(1)二倍体生物;
(2)群体内成员可与其它性别任意成员进行交配和繁殖(随机交配);
(3)群体内性别比为1:1;
(4)没有世代重叠现象,即认为上一代第一次完成繁殖任务后即死去或永久失去生育能力;
(5)每个个体都有同等机会将自己的遗传信息传递给下一代,且不考虑突变和自然选择因素。
至此,自然界里几乎所有的生物都可以“掷骰子”了。
事实上,目前自然界中很多生物濒危的原因都与瓶颈效应造成的遗传漂变有关。例如2002年的一份研究报告就指出,大熊猫在四万三千年前遭遇的种群瓶颈效应,是使其陷入今日绝境的主要原因。遗传漂变将导致物种某个或某些等位基因永久消失。其实质就是降低了该物种的遗传多样性。遗传多样性越高,则族群中可供自然选择的基因越多,对于环境适应能力就越强,就越有利于族群的生存及演化。而大熊猫本身生育率低,对生活环境的要求又高,在遭受到瓶颈效应后,遗传多样性变贫乏,在野外更难存活。再加之19世纪末和20世纪初国内外人士对大熊猫的猎杀和对其栖息地的破坏,使得大熊猫的生存现状雪上加霜。直到1958年四川卧龙自然保护区的建立,大熊猫的生存才在一定程度上得到了保障,数量也开始逐年增加。
与大熊猫一样遭受瓶颈效应后陷入困境的还有猎豹(Acinonyx jubatus)、欧洲野牛(Bison bonasus)、美洲野牛(Bison bison)、北象海豹(Mirounga angustirostris)等等。其中猎豹在遭受瓶颈效应后因为长年近亲交配,已使得族群对于某些疾病缺乏应变能力,且有低精子浓度、低精子活动力及畸形精子鞭毛等诸多问题[5] 。这些都是遗传多样性低带来的恶果。
[图3:猎豹(Acinonyx jubatus),图片来源]
写到结尾,我不想大家读完这篇文章后走入另一个误区,认为种群数量越少,则遗传多样性也越低,或者遗传多样性越低,则其种群数量一定很少,其实这二者之间没有必然的关系。比如滇金丝猴(Rhinopithecus bieti)被国际自然保护联盟列为濒危物种,而相对应的川金丝猴(Rhinopithecus roxellana)数量比滇金丝猴多,濒危程度也比滇金丝猴小(属易危物种)。但实际上滇金丝猴的遗传多样性并不比川金丝猴低。另一个例子是穿山甲,它是我国二级保护动物,而事实上穿山甲的遗传多样性要高于家猪 [4]。所以物种保护状况的评定需要考虑多方面因素(如生存数量、喂养成功率、已知威胁等等)。
最后再说一点,瓶颈效应是可以导致遗传漂变的充分条件而非充要条件。奠基者效应也可促成遗传漂变的发生,这里就不再赘述了(就当留给大家作为扩展阅读吧)。
了解更多:
[1]乔治-路易•勒克莱尔,布丰伯爵(Georges-Louis Leclerc, Comte de Buffon,1707年9月7日-1788年4月16日),法国博物学家、数学家、生物学家、启蒙时代著名作家。
[2]罗纳德•艾尔默•费希尔爵士(Sir Ronald Aylmer Fisher,1890年2月17日-1962年7月29日),英国统计学家、演化生物学家与遗传学家,现代统计学与现代演化论的奠基者之一。
[3]休厄尔•格林•莱特(Sewall Green Wright,1889年12月21日-1988年3月3日),美国遗传学家、演化生物学家,群体遗传学奠基人之一。
[4]濒危动物遗传多样性研究
[5]wikipedia:Genetic Drift,种群瓶颈
本文已发表于果壳网 死理性派 《用死理性派的眼光看自然:万物皆会掷骰子》,发表时有修改