关于幂律分布的一个笔记_哈克_新浪博客

关于幂律分布的一个笔记_哈克_新浪博客

    关于幂律分布的一个笔记
    (2011-03-02 18:12:27)
    转载▼
    标签:
    幂律
    二八法则
    杂谈
        分类: 公度世界

    0:题外话或补记

    最早知道二八法则,还是一本介绍犹太民族杰出人物的书,被称为犹太法则。说犹太人跟钱打交道较其他民族多,很早就知道了这个世界上是80%的人把钱借给了20%的会钱生钱的人,而且论据之一居然是人体80%是由水组成,只有20%为其他关键物质;另一论据是空气80%由氮气构成,只有20%包括氧气在内的其他气体。这些固然都是颇有趣的现象,但一直未能上升到理论的高度。

    

    1:幂律即Power law是系统科学中一个常见的现象

    经济学财富分布满足Pareto Power law tail分布,语言中有词频的幂律分布,城市规模和数量满足幂律分布,音乐中有f分之1噪音(幂律分布)……。通常人们理解幂律分布就是所谓的马太效应,二八原则,即少数人聚集了大量的财富,而大多数人的财富数量都很小,因为胜者通吃的原则。
              
    股市中有80%的投资者只想着怎么赚钱,仅有20%的投资者考虑到赔钱时的应变策略。但结果是只有那20%投资者能长期盈利,而80%投资者却常常赔钱。

      20%赚钱的人掌握了市场中80%正确的有价值信息,而80%赔钱的人因为各种原因没有用心收集资讯;  当80%人看好后市时,股市已接近短期头部,当80%人看空后市时,股市已接近短期底部。只有20%的人可以做到铲底逃顶,80%人是在股价处于半山腰时买卖的。

      券商的80%佣金是来自于20%短线客的交易,股民的80%收益却来自于20%的交易次数。因此,除非有娴熟的短线投资技巧,否则不要去贸然参与短线交易。

      只占市场20%的大盘指标股对指数的升降起到80%作用,在研判大盘走向时,要密切关注这些指标股的表现。

      一轮行情只有20%的个股能成为黑马,80%个股会随大盘起伏。80%投资者会和黑马失之交臂,但仅20%的投资者与黑马有一面之缘,能够真正骑稳黑马的更是少之又少。

      有80%投资利润来自于20%的投资个股,其余20%投资利润来自于80%的投资个股。投资收益有80%来自于20%笔交易,其余80%笔交易只能带来20%的利润。所以,投资者需要用80%的资金和精力关注于其中最关键的20%的投资个股和20%的交易。

      股市中20%的机构和大户占有80%的主流资金,80%的散户占有20%资金,所以,投资者只有把握住主流资金的动向,才能稳定获利。

      成功的投资者用80%时间学习研究,用20%时间实际操作。失败的投资者用80%时间实盘操作,用20%时间后悔。

      股价在80%的时间内是处于量变状态的,仅在20%的时间内是处于质变状态。成功的投资者用20%时间参与股价质变的过程,用80%时间休息,失败的投资者用80%时间参与股价量变的过程,用20%时间休息。

    

    

    2:几种幂率分布模型

    以收入或人口数为横坐标,以不低于该收入值或人口数的个体数或概率为纵坐标,可绘出一条向右偏斜得很厉害,拖着长长“尾巴”的累积分布曲线(如图1右图所示),它与钟形的泊松分布曲线有显著的不同。这种“长尾”分布表明,绝大多数个体的尺度很小,而只有少数个体的尺度相当大,像国家人口,全世界有300多个国家和地区,只有11个国家的人口数超过一亿。“长尾”分布就属于幂律分布。

    关于幂律分布的一个笔记

    

         图1 泊松分布(左)                   与            “长尾”分布(右)

    对“长尾”分布研究做出重要贡献的是Zipf和Pareto。

         1932年,语言学家Zipf在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系:P(r)~r^(-α),这种分布就称为Zipf定律,它表明在英语单词中,只有极少数的词被经常使用,而绝大多数词很少被使用。实际上,包括汉语在内的许多国家的语言都有这种特点。物理世界在相当程度上是具有惰性的,动态过程总能找到能量消耗最少的途径,人类的语言经过千万年的演化,最终也具有了这种特性,词频的差异有助于使用较少的词汇表达尽可能多的语义,符合“最小努力原则”。

         19世纪的意大利经济学家帕累托(Pareto)研究了个人收入的统计分布,发现少数人的收入要远多于大多数人的收入,提出了著名的80/20法则,即20%的人口占据了80%的社会财富。个人收入X不小于某个特定值x的概率与x的常数次幂亦存在简单的反比关系:P[X≥k]~x^(-k),上式即为Pareto定律。对Pareto分布P[X >= x] ~ x-k,通过求导很容易得到其概率分布密度:p[X = x] ~ x-(k+1) = x-a,a = 1+k。对于Pareto定律,在成熟市场中,金融资产收益率的幂律分布其幂指数约等于3.

         Zipf定律与Pareto定律都是简单的幂函数,我们称之为幂律分布;还有其它形式的幂律分布,像名次——规模分布、规模——概率分布,这四种形式在数学上是等价的,幂律分布的示意图如图1右图所示,其通式可写成y=c*x^(-r),其中x,y是正的随机变量,c,r均为大于零的常数。这种分布的共性是绝大多数事件的规模很小,而只有少数事件的规模相当大。对上式两边取对数,可知lny与lnx满足线性关系,也即在双对数坐标下,幂律分布表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否满足幂律的依据。判断两个随机变量是否满足线性关系,可以求解两者之间的相关系数;利用一元线性回归模型和最小二乘法可得lny对lnx的经验回归直线方程,从而得到y与x之间的幂律关系式。图2显示的是图1右图在双对数坐标下的图形,由于某些因素的影响,图2前半部分的线性特性并不是很强,而在后半部分(对应于图1右图的尾部),则近乎为一直线,其斜率的负数就是幂指数。 
                             关于幂律分布的一个笔记        
          图2 双对数坐标下一个幂律分布的示意图,直线表示对图1右图尾部的线性拟合
                     Gutenberg-Richter law

    Gutenberg 和Richter 于1954年发现地震震级为m的地震分布N(m)的对数和震级m之间存在线性关系:logN(m) ≈a−bm;

       

    3:幂律可作为自组织临界的证据

    幂律分布是自组织临界系统在混沌边缘,即从稳态过渡到混沌态的一个标志,利用它可以预测这类系统的相位及相变。它认为,由大量相互作用的成分组成的系统会自然地向自组织临界态发展;当系统达到这种状态时,即使是很小的干扰事件也可能引起系统发生一系列灾变。著名的“沙堆模型”形象地说明了自组织临界态的形成和特点(如图3):

    关于幂律分布的一个笔记

    设想在一平台上缓缓地添加沙粒,一个沙堆逐渐形成。开始时,由于沙堆平矮,新添加的沙粒落下后不会滑得很远。但是,随着沙堆高度的增加,其坡度也不断增加,沙崩的规模也相应增大,但这些沙崩仍然是局部性的。到一定时候,沙堆的坡度会达到一个临界值,这时,新添加一粒沙子(代表来自外界的微小干扰)就可能引起小到一粒或数粒沙子,大到涉及整个沙堆表面所有沙粒的沙崩。这时的沙堆系统处于“自组织临界态”,有趣的是,临界态时沙崩的大小与其出现的频率呈幂律关系。这里所谓的“自组织”是指该状态的形成主要是由系统内部各组成部分间的相互作用产生,而不是由任何外界因素控制或主导所致,这是一个减熵有序化的过程;“临界态”是指系统处于一种特殊的敏感状态,微小的局部变化可以不断被放大、进而扩延至整个系统。自组织临界理论可以解释诸如火山爆发、山体滑坡、岩层形成、日辉耀斑、物种灭绝、交通阻塞、以及金融市场中泡沫崩溃的现象。

       

      4:启示

      帕累托法则换句话就是强调了重要的少数与琐碎的多数,也指世界上充满了不平衡性,比如20%的人口拥有80%的财富,20%的上市公司创造了80%的价值,80%的收入来自20%的商品,80%的利润来自20%的顾客,等等。

        这一法则潜在地影响了许多成功人士,特别是商界精英、计算机专家和质量工程师。这一法则已经帮助人们塑造了一个现代化世界。然而,它现在依然是我们这个时代一个伟大的秘密。即使是那些百里挑一的能理解并运用80/20法则的行家们,也不过仅仅发现了它的冰山一角而已。

你可能感兴趣的:(博客)