数据简化DataSimp导读:《统计学七支柱》前言[美]Stephen M.Stigler史蒂芬·斯蒂格勒。本书介绍了统计学的七个基本思想——聚合、信息、似然、相互比较、回归、设计、残差,从其由来到引入,从基本概念到对“统计”这门学科的深远影响,并由此深入阐述统计学的科学本质。StephenM.Stigler是著名统计学家、统计学史研究家,芝加哥大学教授。其父是诺贝尔经济学奖得主GeorgeJ. Stigler。除本书外,还著有《统计探源》等统计学著作。希望国人真正懂得科学、技术怎么来的、是给谁用的、为了什么搞科技和制度,舍本逐末要不得赶紧改正吧。
《统计学七支柱》前言[美]StephenM.Stigler史蒂芬·斯蒂格勒 (6090字)目录
A《统计学七支柱》前言[美]StephenM.Stigler史蒂芬·斯蒂格勒 (5090字)
B《统计学七支柱》图书信息及其他“统计学”名著 (750字)
参考文献(118字)Appx(626字).数据简化DataSimp社区简介
统计学七支柱
文|选自豆瓣网,2018-01-01
内容简介
本书介绍了统计学的七个基本思想——聚合、信息、似然、相互比较、回归、设计、残差,从其由来到引入,从基本概念到对“统计”这门学科的深远影响,并由此深入阐述统计学的科学本质。
作者简介
Stephen M.Stigler是著名统计学家、统计学史研究家,芝加哥大学教授。其父是诺贝尔经济学奖得主GeorgeJ. Stigler。除本书外,还著有《统计探源》等统计学著作。
目录
版权声明
献词
前言
第1章 聚合:从表格和均值到最小二乘
第2章 信息:度量与变化率
第3章 似然:概率尺度上的校准
第4章 相互比较:作为标准的样本内变异
第5章 回归:多元分析、贝叶斯推断和因果推断
第6章 设计:实验方案和随机化的作用
第7章 残差:科学逻辑、模型比较以及诊断展示
结论
《统计学七支柱》前言
“统计学是什么?”早在1838年就有人提出过这个问题(与英国皇家统计学会有关),此后这个问题又被反复提起。多年来,铁打的问题和流水的答案已成为该讨论的特点。综合问题和答案可以看出,持续的疑问源于,统计学并不是一个单一学科。自诞生至今,统计学的工作内容经历了翻天覆地的变化:从极端强调“统计学家仅收集数据而不分析”,转变为从计划到分析的所有研究阶段皆积极寻求与科学家的合作。并且,统计学工作者面对不同的科学领域时,需要相应调整自身角色:在某些应用中,我们接受基于数学理论推导的科学模型;而某些应用中,我们构建如牛顿力学体系一样稳定的模型。在一些应用中,我们既是积极的计划者,又是消极的分析师;而在另一些应用中,我们的角色则恰恰相反。统计学工作者除了角色众多,还需要为了避免失误、保持角色平衡而面对种种挑战。这就难怪“统计学是什么”的老问题,无论面对哪个时代的新挑战,总会被重复提起。“统计学的挑战”在19世纪30年代指经济统计,在20世纪30年代指生物问题,而目前指定义模糊的“大数据”问题。
统计学有各种各样的问题、方法和解释,那到底有没有自己的核心科学呢?如果统计学工作者总是致力于在诸多科学领域工作——从公共政策到验证希格斯玻色子的发现——甚至有时候只被视为服务人员,那统计学还能真正合理地被大家视为统一的学科吗?它能被视为我们统计学工作者自己的科学吗?这个问题就是我想在《统计学七支柱》书中解决的。我不打算告诉你统计学是什么或不是什么,而是尝试制定七个原则,即支撑统计学领域的七根支柱。它们在过去曾以不同方式支撑统计学,我保证,它们一定还会在无限的未来继续起到这样的作用。我会尽力使你相信,每根支柱的引入都是革命性的,并对统计学的发展产生了深远影响。
本书书名借鉴了托马斯·劳伦斯(即阿拉伯的劳伦斯)完成于1926年的回忆录《智慧七柱》。这部回忆录的名称源于《旧约·箴言》,《箴言》9:1写道:“智慧建造了房舍,雕琢了七根支柱。”根据《箴言》,建造智慧的房屋是为了欢迎寻求知识的人。此外,本书还有一个目的:阐释统计推理的核心思想。
将这七个原则称作“统计学的七大支柱”之前,我先强调,它们是七根“支撑”的柱子,是统计学的学科基础,而不是完整的体系。一方面,这七根支柱都有古老的起源;另一方面,现代学科通过自身结构的伟大独创性,以及华丽承诺不断产生的精彩的新思想,将统计学构建为多元化的科学。在不脱离现代工作的前提下,我希望在统计学核心中建立跨时代和跨应用领域的连接和统一。
第一根支柱称为聚合(Aggregation)。我们也可以使用它在19世纪的名称“观测的组合”,甚至使用最简化的名称:均值。名字太简单可能误导读者,其实,虽然它现在看来已不新鲜,但在早年却真正地具有革命性,并且时至今日依然如此——无论它在何时进入新的应用领域。那么,它如何体现革命性?按照规定,给定一些观测值,你可以通过丢弃信息而真正获得信息!我们对观测值取简单的算术平均值,丢弃观测值的个别特征,而将其都纳入汇总值进行考虑。目前,这在重复测量中很常见,比如观测恒星在太空中的位置。然而在17世纪,可能需要忽略这样一些信息,比如法国是个酒鬼观测员做出的观测,俄罗斯人是用旧仪器做出的观测,英国是个很靠谱的朋友做的观测。事实上,抹去个体观测的细节比任何单个观测都能给出更棒的指示。
根据记录,算术平均值的使用最早出现在1635年;而其他形式的统计汇总的历史则更为悠久,可以追溯到美索不达米亚文明最初出现文字的时代。当然,第一根支柱最近的重要实例更为复杂。最小二乘法及其衍生方法的本质都是均值,它们通过对数据进行加权汇总而抹去数据的个体特性——指定的协变量除外。甚至核密度估计和各类现代平滑器在本质上也是均值。
第二根支柱叫作信息(Information),更具体地说是“信息度量”,也是说来话长又很有意思。我们什么时候有足够的证据证明一种药物的疗效?这个问题可以追溯到古希腊。而研究信息积累率的时代则要近很多。18世纪早期,人们发现在很多情况下,一个数据集的信息量仅与观测个数n的平方根成正比,而不与n本身成正比。这也是革命性的思想。假设你试图说服一名宇航员,如果他想将研究精度提高一倍,那么他需要用4倍数目的观测;又或者,第二组20个观测值与前20个观测值尽管同样精确,但第二组的信息量并不像第一组的那么大。我们将这个思想称为“根号n规则”。它需要一些很强的假设,并且在很多复杂的情形中使用时需要修正。无论如何,1900年就明确建立了这样的思想:数据中的信息可以测量,而测量的精度与数据量有关,某些情形下可以精确刻画相关性的形式。
我将第三根支柱命名为似然(Likelihood),意味着使用了概率的推理的校准。显著性检验和普通的P值都是最简单的似然形式,但诚如其名,与“似然”有关的方法丰富多彩,其中许多方法或者与费舍尔推断的参数族有关,或者与贝叶斯推断的参数族有关。各种各样的检验可以追溯到至少一千年前,但最早使用概率的检验则出现在18世纪早期。许多例子出现在18世纪~19世纪,而系统性处理则出现在20世纪罗纳德·费舍尔的工作,以及耶日·奈曼和伊冈·皮尔逊的工作中。从那时起,统计学家开始认真发展了一整套似然理论。人们最熟悉的检验可能是用概率校准推断,但一个概率数字无论作为置信区间还是贝叶斯后验概率,都必须完全附属于一种推断。事实上,250年前发表的“托马斯·贝叶斯定理”就是为了完成这个目标。
第四根支柱的名字是相互比较(Intercomparison)。这个名称借鉴了弗朗西斯·高尔顿的一篇论文,它表达了一个过去激进但现在普通的思想:统计比较常常可以采用数据自身的内部标准,而不必采用外部标准。相互比较最常见的例子是学生t检验和方差分析的检验。一方面,在复杂设计中,变化的划分可能错综复杂;另一方面,复杂设计允许区组设计、裂区设计,或完全根据手头数据评价的层次设计。这种思想非常激进,而且在“有效”的检验中,这种思想有着与最强大的工具一样的问题:可能由于忽略外部科学标准而导致错误方式的滥用。我们可以将自助法视为相互比较在假设弱化后的现代版本。
第五根支柱叫作回归(Regression)。这个名称源于高尔顿1885年发表的论文,这份文献基于二元正态分布解释了什么是回归。达尔文的自然选择理论存在内部矛盾:选择需要增加多样性,但定义物种需要群体外观稳定。高尔顿尝试为这个理论设计一个数学框架,并成功地克服了这组矛盾。
回归现象可简单解释为:假设有两个不完全相关的观测变量,你选择了其中极值远离均值的变量,那么可以预期另一个(以标准差为单位)不会那么极端。高个子的父母平均会孕育身高稍矮的子女,而高个子的子女平均会有身高稍矮的父母。但这一现象涉及的不只是一个简单的悖论:真正新奇的思想在于,提问的方式不同,答案就完全不同。事实上,这项工作引入了现代多元分析和任何推断理论都需要的工具。引入这个条件分布的工具前,真正一般化的贝叶斯定理无法使用。因此,这根支柱与因果、推断一样,是贝叶斯学派的核心内容。
第六根支柱是设计(Design)。类似于在“实验设计”中的含义,但“设计”的范围更广泛,它的目标是:先设定观测的权重相同,再训练我们的思想。设计的某些要素历史悠久,《旧约全书》和早期的阿拉伯医学提供了相应的例子。从19世纪晚期,随着查尔斯·皮尔斯和费舍尔先后发现随机化在推断中的巨大作用,统计学出现了对设计主题的新理解。费舍尔认识到结合严谨的随机化方法将会带来好处,于是在实验法则中引入激进的改变。这些改变一反几个世纪以来的实验哲学和实践,将这一主题提升到了一个新的高度。多因素现场试验中,费舍尔的设计允许效应的分离和相互作用的估计;实施随机化后,有效推断不再需要正态性或者材料的均匀性的假设。
第七根也是最后一根支柱称为残差(Residual)。“残差”表示“其他的一切”,你也许会怀疑这是一种托词,但我想表达一种更具体的思想。从19世纪30年代开始,有关残差现象的概念在关于逻辑的书籍中就很常见。正如一位作者所说:“复杂的现象……可以通过减去已知原因的影响进行简化……留下……需要解释的残差现象。通过这样处理……科学……得到了极大的促进。”而后,这种思想总体上归入古典的范围,却以一种新方式在统计学中得到使用。
这种新方式结合了结构化模型族,并通过概率计算和统计逻辑在族内做选择,从根本上强化和规范了方法。模型诊断(画出残差)在统计学中极为常见,但通过拟合和比较嵌套模型探索高维空间的方法更具重大意义。每个对回归系数显著性的检验都体现了这种思想,针对时间序列的每一个探索亦是如此。
我重新概括了七根支柱,用七种基本统计思想的作用来表达——尽管这样做也许会导致过度简化的风险。
(1)定向减少或压缩数据的价值。
(2)数据量上升,价值会减少。
(3)如何使用概率测量我们做的事?
(4)如何使用数据中的内部变化帮助分析?
(5)从不同角度提问可以产生有启发性的不同答案。
(6)规划观测的重要作用。
(7)所有这些思想如何用于科学探索和比较彼此矛盾的解释。
但是,无论这些思想出现于过去还是现在,以上平淡的陈述都没有表现出这些思想出现时的革命性。在当时,这些思想——从放弃数据值的个体特点到降低新数据和等价值数据的权重,再到克服障碍使用概率测量博弈外部的不确定性——已经丢弃或推翻了既有的牢固的数学和科学信念。世界产生了数据,那么数据自身的变化如何能够测量世界的不确定性?高尔顿的多元分析向科学家揭示,科学家依赖的比例规则(流传自欧几里得时代的比例规则)不适用于数据有变化的科学世界。这推翻了3000年来的数学传统。费舍尔的设计直接否定了实验科学家和逻辑学家几个世纪以来深信的内容,他的模型比较方法对实验科学来说绝对新颖,而接受这种方法则需要几代人的思维改变。
想知道以上所有思想的革命性和影响力有多大吗?只要考虑一下这些思想持续受到的强烈批评便可知一二。这些批评常常攻击那些我认为价值很大的地方,列举如下。
●批评统计将人视为纯粹的统计量,而忽略人作为个体的特性。
●批评大数据仅仅可以回答那些默认基于规模基础的问题。
●批评显著性检验会忽略问题的科学内容。
●批评回归分析会忽略问题中更重要的内容。
这些批判本身也有缺陷。虽然不乏正确之处,并且在某些极端的例子中直击要害,但是,这些批判常常只瞄准方法,而非方法在例子里的运用方式。1927年,爱德华·B·威尔逊对此做了一番精彩的评论:“就像没有接受过工具训练的人会害怕仓库中的任何一件工具一样,缺乏统计学知识的人会相信科学方法论中的统计工具都非常危险。”
我将讲述这七根支柱,并简单介绍它们的历史。这七根支柱都是优秀的工具,但人们需要足够的智慧和训练才可以有效使用它们。这些思想不是数学的一部分,也不是计算机科学的一部分,它们是统计学的核心内容。另外,我现在需要承认,虽然在本书开始直接否认了我的目的是解释统计学是什么,但到本书结尾,其实我已经完成了这个目标。
现在,我要简短地回应一个未了结的问题:《箴言》9:1究竟说了什么?它是这样一条古语:“智慧建造了房舍,雕琢了七根支柱。”为什么一间房屋需要七根柱子?这种结构无论在古代还是在当代似乎都鲜有人知。最近的一项我比较信服的研究表明,那些负责为日内瓦1和詹姆斯王2翻译圣经的16世纪学者们,因为不太了解早期的苏美尔神话,错误地翻译了这一节。七根支柱根本不是建筑的结构,而是大洪水之前美索不达米亚的七个伟大王国。七位智者向国王进谏建立了七个城市,七个王国正是建立在这七个城市基础之上的。因此,智慧的房屋建立在这七位智者的意见之上。时代更近的学者提出了新的翻译:
“智慧建造了房舍,七位智者奠定了其基础。”
正是由于远远多于七位的智者的不懈努力,我得以将他们的成果总结为七根支柱。其中一些智者的姓名已经淹没在历史的长河之中,在本书的相关部分,我们会读到他们的智慧成果。(本节完)
1指1570年在日内瓦出版的圣经译本。——译者注
2英王詹姆斯一世下令将圣经译为英文,于1611年出版。——译者注
《统计七支柱》图书信息
文|选自豆瓣网,2018-01-01
书名: 统计学七支柱 (原作名: TheSeven Pillars of Statistical Wisdom)
作者: [美]史蒂芬·斯蒂格勒 (原作者: Stephen M. Stigler)
译者: 高蓉 / 李茂
出版社: 人民邮电出版社(原出版社: Harvard University Press)
出版年: 2018-1-1 (原出版年: 2016-3-7)
页数: 129 (原页数: 240)
定价: CNY 39.00 (原定价: USD 22.95)
ISBN: 9787115469977 (原ISBN: 9780674088917)
装帧: 平装(原装帧: Paperback)
图书标签: 统计学数学数据分析方法论科学2018科普
丛书: 图灵新知 (丛书信息: 图灵新知 (共104册), 这套丛书还有《引力是什么》,《如何破解达芬奇密码?》,《自由的发现》,《身边的电子学》,《宇宙之书》等。)
其他“统计学”名著
文|选自豆瓣网,2018-01-01
The Seven Pillars ofStatistical Wisdom
技术分析简史
金融数据分析导论:基于R语言
复杂数据统计方法
概率的烦恼
金融建模与投资管理中的数学
市场的(错误)行为:风险、破产与收益...
理解信念:人工智能的科学理解
经济物理学导论
数据之魅
我来说两句
6 有用阿道克 2018-02-23 这本书是有关几种重要统计思想的历史来源的回溯。记录的是数百年来这些思想萌芽和发展的若干瞬间。请读者注意,本书并非女士品茶那种按照时间和学科分支书写的科普著作,它更接近于历史的札记。有些思想的发展或许并不瞩目,但源远流长。我是译者,希望读者可以从本书所述的故事中有所收获。
2 有用小美她爹大帅 2018-02-07 看目录有趣,读罢更像写给行家的历史掌故。一些问题依历史文献原意引述,不同于如今的表达方式,颇不好读;一些重要概念以文字概述,没有基础者难得领会,比如用文字描述三大计量检验的来历演变;各主题按历史事件进展叙述,不按概念网络和思想脉络来叙述,比如第二章提到信息矩阵又不深入。难读之处,也许是因为作者历史散文式的文风,类似他的《统计探源》,也许是译者的问题。
0 有用小宇宙 2018-03-18 果然最难的部分在最后面
0 有用薛定谔的猫 2018-06-09 不是讲理论的,而是讲历史的
-END-
参考文献(118字)
1. Stephen M.Stigler. 统计学七支柱.[EB/OL] 豆瓣, https://book.douban.com/subject/30134619/,2018-01-01
1. Stephen M.Stigler. 《统计学七支柱》试读:前言.[EB/OL] 豆瓣, https://book.douban.com/reading/53858470/,2018-01-01
x.秦陇纪.数据科学与大数据技术专业概论;人工智能研究现状及教育应用;纯文本数据神经网络训练;大数据简化之技术体系[EB/OL].数据简化DataSimp(微信公众号)http://www.datasimp.org,2017-06-06.
《统计学七支柱》前言[美]Stephen M.Stigler史蒂芬·斯蒂格勒 (6090字)
秦陇纪
简介:《统计学七支柱》前言[美]Stephen M.Stigler史蒂芬·斯蒂格勒。(公号回复“统计学七支柱”,文末“阅读原文”可下载4码12图8k字11页PDF资料) 蓝色链接“数据简化DataSimp”关注后下方菜单项有文章分类页,欢迎转发、赞赏支持社区。作者:[美]史蒂芬·斯蒂格勒Stephen M.Stigler。来源:[美]史蒂芬·斯蒂格勒Stephen M.Stigler《统计学七支柱》、数据简化社区秦陇纪微信群聊公众号,引文出处请看参考文献。主编译者:秦陇纪,数据简化社区、科学Sciences、知识简化新媒体创立者,数据简化OS设计师、C/Java/Python/Prolog程序员,IT教师。版权声明:科普文章仅供学习研究,公开资料©版权归原作者,请勿用于商业非法目的。秦陇纪2018数据简化DataSimp综合汇译编,投稿合作,或出处有误、侵权、错误或疏漏(包括原文错误)等,请联系[email protected]沟通、指正、授权、删除等。每天十几万字中英文阅读、几万字文章汇译编、时间精力人力有限,欢迎转发、赞赏、加入支持社区。欢迎转发:“数据简化DataSimp、科学Sciences、知识简化”新媒体聚集专业领域一线研究员;研究技术时也传播知识、专业视角解释和普及科学现象和原理,展现自然社会生活之科学面。秦陇纪发起未覆盖各领域,期待您参与~ 强烈谴责超市银行、学校医院、政府公司肆意收集、滥用、倒卖公民姓名、身份证号手机号、单位家庭住址、生物信息等隐私数据!
Appx(626字).数据简化DataSimp社区简介
信息社会之数据、信息、知识、理论持续累积,远超个人认知学习的时间、精力和能力。应对大数据时代的数据爆炸、信息爆炸、知识爆炸,解决之道重在数据简化(Data Simplification):简化减少知识、媒体、社交数据,使信息、数据、知识越来越简单,符合人与设备的负荷。数据简化2018年会议(DS2018)聚焦数据简化技术(Data Simplification techniques):对各类数据从采集、处理、存储、阅读、分析、逻辑、形式等方ose 做简化,应用于信息及数据系统、知识工程、各类数据库、物理空间表征、生物医学数据,数学统计、自然语言处理、机器学习技术、人工智能等领域。欢迎投稿数据科学技术、简化实例相关论文提交电子版(最好有PDF格式)。填写申请表加入数据简化DataSimp社区成员,应至少一篇数据智能、编程开发IT文章:①高质量原创或翻译美欧数据科技论文;②社区网站义工或完善S圈型黑白静态和三彩色动态社区LOGO图标。论文投稿、加入数据简化社区,详情访问www.datasimp.org社区网站,网站维护请投会员邮箱[email protected]。请关注公众号“数据简化DataSimp”留言,或加微信QinlongGEcai(备注:姓名/单位-职务/学校-专业/手机号),免费加入投稿群或”科学Sciences学术文献”读者微信群等。长按下图“识别图中二维码”关注三个公众号(搜名称也行,关注后底部菜单有文章分类页链接):
数据技术公众号“数据简化DataSimp”:
科普公众号“科学Sciences”:
社会教育知识公众号“知识简化”:
(转载请写出处:©秦陇纪2010-2018汇译编,欢迎技术、传媒伙伴投稿、加入数据简化社区!“数据简化DataSimp、科学Sciences、知识简化”投稿反馈邮箱[email protected]。)
普及科学知识,分享到朋友圈
转发/留言/打赏后“阅读原文”下载PDF