统计学国内四门B类期刊分别是:《统计研究》、《统计信息与论坛》、《统计与决策》和《数理统计与管理》。
陈希孺先生是统计届唯一的一名院士,推荐看《数理统计学简史》。
陈希孺翻译的英文文献里有一个moral certainty ,陈先生翻译成道德确定性,直译不太妥,准确来说是,内心的确定性,即把握度,有多少的把握。
【陈希孺(1934.2.11-2005.8.8)湖南省望城县人,国际著名数理统计学家 。陈希孺1956年毕业于武汉大学数学系,1961年调至中国科大数学系工作,1980年任教授,1997年当选为中国科学院院士。】
统计学的结论和数学的结论:数学的结论要求是正确的,不管任何时候都强调要准确,哪怕地球毁灭;而统计学的结论是由样本推断总体估计得到的,可能不一定正确,是留有余地的结论。
关于统计学的源头众说纷纭:
2000多年前就要这样的方法,为了计算整棵树的果实数量,有人先计算了一颗枝的果实数量,再计算整棵树的树枝数;还有,为了计算敌人城墙的高度,找一些士兵数城墙从下到上共有多少块(直线),另外每块砖的厚度是一样的,这样可知城墙高度,根据所有士兵所报的砖头数,找出众数,使用该数。
但是,一般这样不认为是真正的统计学,现在看来,统计学的源头认为是1662年英国的John Grant。
1654年法国著名神童Pascal和Fermat(费马)通信关于赌金问题探讨。赌金问题:A和B两人约定,每人出资H元(比如H=1元),两人比赛,一局一胜负,最终谁赢得次数先超过S(比如S=100)就说明谁赢了,但是当A赢a场(a
1657年惠更斯发表的《论赌博中的计算》,是一篇关于概率论的科学论文(他是概率论的创始人),显示了他在数学上的造诣。
【克里斯蒂安·惠更斯(Christiaan Huyg(h)ens,1629年04月14日-1695年07月08日)荷兰物理学家、天文学家、数学家,1629年4月4日生于海牙,1695年7月8日卒于海牙。他是介于伽利略与牛顿之间一位重要的物理学先驱,是历史上最著名的物理学家之一,也是著名数学家】
附录:统计学简史
统计是初产生于研究对国家,特别是对其经济以及人口的描述。当时现代数学尚未形成。因此那时的统计史基本上是经济史的范畴。现代统计主要起源于研究总体(population),变差(variation)和简化数据(reduction of data)
第一个经典文献属于John Graunt(1620-1674),其具有技巧的分析指出了把一些庞杂、令人糊涂的数据化简为几个说明问题的表格的价值。他注意到在非瘟疫时期,一个大城市每年死亡数有统计规律,而且出生儿的性别比为1.08,即每生13个女孩就有14个男孩。大城市的死亡率比农村地区要高。在考虑了已知原因的死亡及不知死亡年龄的情况下, Graunt估计出了六岁之前儿童的死亡率,并相当合理地估计出了母亲的死亡率为1.5%。因此,他从杂乱无章的材料中得出了重要的结论。他还给出了一个新的生命表。
Edmond Halley(哈雷)(1656-1742)利用了Breslau的记有死亡年龄的数据,改进了Graunt的生命表并引进了死亡率的定义。
瑞士数学家 Leonhard Euler(欧拉)(1717-1783)提出了平稳生命表的概念。
Joha De Witt(1625-1672)等人最早讨论退休金和人寿保险的方案。
ThomasRobert MalthuS(马尔萨斯)(1766-1834),Alfred James Lotke(1881-1949),Ronald Aylmer Fisher(费歇)(189l-l962),及William Feller(费勒)(1906-1970)等人用渐趋复杂的数学来研究生命表的理论,这对人类及其它总体的动力学描述具有显著意义。
William Petty(1623-1687)是Graunt同时代的经济学家及朋友。他认为需要建立中央统计部来利用人口统计学的知识;由行政区利用列出记录年龄,性别,婚姻状况等细节的记录表格来收集数据;要有出生,死亡,婚姻,收入,教育和商业等方面的统计数据。 当时在研究诸如死亡等时间序列时,Graunt注意到了随机的起伏;但他仅以机械的术语加以描述一把这些与钟表运动的忽动忽停相联系。实际上,这种不规则的变化也影响赌博和天文学。因此,其后进一步导致了随机误差的误差分布概念的出现。
赌博产生了第一个机会事件的模型:如果硬币就骰子的每一面都有相同概率,则导致估计抛一个均衡的硬币所出现的正面次数或挪一个均衡的骰子的总点数。
更一般地,Abrahamde Moivre(棣美佛)(1667-1754)导出了对二项分布的一个近似;这使每一个概率都等于正态曲线下的一块面积,这是一种的中心极限定理。
Pierre simon Laplace(拉普拉斯)(1749-1827)导出了对男子出生比例的类似的渐近公式。
Jacob Bemonlli(伯努利)(1664-1705)以弱大数定律支持了对大样本均值的使用。
Thomas simpson(辛普森)(1710-1761)计算了同分布随机变量和的精确分布,同样也支持了对大样本均值的使用。 在天文学中,要对一些运动星体位置的未知参数进行估计,通常某种意义上“最好的”估计都是来源于一些注定不和谐的观察值,因为只要观察值在数量上超过参数,就会产生度量误差。
Roger Cotes(1682-1716),Thomas Bayes(贝叶斯)(1702-1761),Euler,Johnson Tobias Mayer(1723-1762),Rudger Josif Boskovic(1711-1787),Laplace和Adrien MarieLegendre(勒让德)(1752-1833)都在研究这个问题。后来被Friedrich Gauss(高斯)(1777-1855)解决。John Michell(米歇尔)(1724-1793)用统计方法证明了双星的存在。
然而,认定现代统计理论是由精算科学,人口学和天文学的需要而发展来的观点是不正确的;事实上,它是由心理学,医学,人体测量学,遗传学和农业的需要发展出来的。 直到1830年,几乎所有的经验分布都是关于一维误差或一个非数值变量。
在1830年之后,天文学家和社会学家 Adolphe Jacques Quetelet(1796-1874)使得诸如身高体重之类的度量值的变量的经验分布通俗化。他在生物统计研究中大量利用了理论二项分布和正太分布。
后来 Ladislaus von Bortkiewicz(1868-1931)报告了在普鲁士兵团中由马踢造成的受伤事故,发现Poisson(普阿松)分布和官方统计学有关。在计算血红细胞数目上,Poisson分布也被Ernst Ahbe(184O-1905)所用。从那时起,该分布被大量地用于计数的试验中,比如闪光的计数。
在生物学上,统计方法使得 JOhann Gregor Mendel(孟德尔)(1822-1884)认识到某些主要遗传基因的存在,它们在0,l和2三个水平显现,其中水平0(双隐性)能和水平1和2区别开来。他能确定有相同或不相同的水平的个体之间交配的结果,而且提出了某些生物学事件等价干掷一个硬币的模型;他能对任意交配的结果给出概率并用实验来验证其假设。
虽然经济学没有产生超出用初等理论来求解问题,但在较早的医学统计中却产生了有意思的问题。 Philippe Pinel(1745-1826)和 Pierre Charles alexandre Louis(1787-1872)开始了建立疾病分类的困难课题;这些工作人员保存了精确和完整的所有病例的记录,并且能给出和预后有关的统计数字。Louis能有利用跟踪调查的方法反驳了当时广泛滥用的放血疗法。他的三个学生是值得一提的:Jules Gavarret(1808-1890)写了一本医学统计的教科书;书中有应用 Simeon-Denis Poisson(178O-1840)理论来对两个比例进行检验的许多应用; Oliver Wendell Holmes(1819-1894)和他的不知名的数学顾问对一系列分娩热病例给出了有趣的分析,证明该病是传染的,这优于任何十九世纪的类似研究;William Farr(1807-1883)在官方统计学中建立了新的惯例。 更直接的原动力来自于遗传学(确切地说是优生学)。
Francis Galton(1822一19ll)在 1886 年研究了两代豌豆重量之间的相关时发现了Y关于一个正态变量X的线性回归及类似于椭圆的等概率线;由此 James douglas Hamilton dickson(1849-1931)导出了密度与exp(-1/2 x*TAx)成比例的联合正态形式;按标准记号,x*TAx应为x+(y一ρxx)/(1-ρρ).ρ为y对x的回归直线的斜率。从此,多元正态分布就经常出现在文献之中;而两个和三个变量的正态分布在Laplace 时就已经知道了。该联合分布能够由互相独立的正态随机变量的线性变换而构造,例如 Giovanni Antonio amedeo Plana(1781-1863)和 lrenee-Jules Bravais(1811-1863)所做,而且,反过来它能分解为互相独立的正整随机变量的积,如Auguste Bravais(1811 -1865)和 Ire-nee-Jules Bravais(1811- 1863)所做。
Idsaac odhunter(1820- 1884)在最小二乘理论上导出了一般形式的多元正态分布,即exp(-xTAx)乘以一个常数;Arthur Cayley(1821-1895)把 xTAx化简为平方和并确定了该常数值。这些人都未对 A-1=v的非对角线元素感兴趣,这里 v是协方差矩阵。Galton后来说"这些误差或偏差正是我想要研究并了解的。” 正态分布在理论统计中扮演了一个非常重要角色。有许多理由来说明这一点;一般来说成果一个模型包含着正态分布的几个非平凡特性,则它必须具备所有的特性。
在 1895年,Karl Pearson(皮尔森)(1857-1936)认识到对更理论的统计分布的需要,并且得到作为微分方(Pearson方程组)解的密度函数;和另外一些统计学家一样,Andrei andree-viC Markov(马尔科夫)(1856-1922)不愿用 Pearson分布方程组,因为即使得了皮尔森τ曲线作为一个极限分布,也没有明显的模型来产生它们。
Markov进一步证明Pearson xx统计量为样本尺寸乘以Wihelm Hector Richard albrcht Lexis(1837-1914)的离散系数。 Walter Frank, Raphael Weldon(1860-1906)利用取独立初第二项变量和的方法得到二项变量的联合分布。
许多作者,比如 Alexander Claig Aitken(1895-1967),已经参与了发展该思想;但是许多其它思想已经被用来获得联合分布。在 Karl Pearson的方法不能产生更多的联合分布之后,Sergei Natanovic Bernstein(1880-1968)认为一个更具有生产价值的方法可能存在于随机过程的领域中。