对于任意基于数据的项目,最重要的第一步都是查看数据,这正是探索性数据分析的关键理念所在。通过总结并可视化数据,我们可以对项目获得有价值的洞悉和理解。
结构化数据:数值型数据(连续型数据\离散型数据)、分类数据(二元数据\有序数据)
数据分类的作用:数据分类为软件指明了数据的处理方式。
矩形数据对象是数据科学分析中的典型引用结构,矩形数据对象包括电子表格、数据库表等。
矩形数据本质上是一个二维矩阵,其中行表示记录(事例),列表示特征(变量)。
除矩形数据外,还有时序数据、空间数据、图形数据。
典型值是对数据最常出现位置的估计,即数据的集中趋势。
位置只是总结特性的一个维度,另一个维度是变异性(variability),也称离差(dispersion),它测量了数据值是紧密聚集的还是发散的。变异性是统计学的一个核心概念,统计学关注如何测量变异性,如何降低变异性,如何识别真实变异性中的随机性,如何识别真实变异性的各种来源,以及如何在存在变异性的情况下做出决策。
自由度是n还是n-1,计算结果的差别并不大,这是因为通常 n 总是足够大,以至于除以 n 或除以 n−1 时,结果并不会有很大的差别。
如果在方差公式中使用了直观的除数 n,那么就会低估方差的真实值和总体的标准偏差。这被称为有偏估计。但是,如果除以 n−1 而不是 n,这时标准偏差就是无偏估计。
要完整地解释为什么使用 n 会导致有偏估计,这就涉及自由度的概念。自由度考虑了计算估计量中的限制个数。在这种情况下,自由度是 n−1,因为其中有一个限制:标准偏差依赖于计算样本的均值。对于很多问题而言,数据科学家并不需要担心自由度的问题。但是在某些情况下,自由度十分重要
各种估计量都是通过将数据总结为单一数值,去描述数据的位置或变异性。这些估计量可用于探索数据的整体分布情况。
使用基本的比例或百分比,我们就能了解分类数据的情况
无论是在数据科学还是研究中,很多建模项目的探索性数据分析都要检查预测因子之间的相关性,以及预测因子和目标变量之间的相关性。
计算上面的估计量时,我们一次仅查看一个变量,这被称为单变量分析。而相关性分析是比较两个变量间关系的一种重要方法,这是双变量分析。包含两个及以上变量的估计量及绘图,即多变量分析。
比较两个变量所用的图表类型,例如散点图、六边形图和箱线图,完全可以通过条件(conditioning)这一概念扩展到多个变量。
图中左侧表示总体,统计学假设总体遵循一个潜在的未知分布。图的右侧表示抽样数据及其经验分布,这是我们唯一可用的。要想根据左侧的图获得右侧的图,我们需要做抽样,图中用箭头表示。传统统计学关注的主要是图的左侧部分,即如何对总体运用一些基于强假设的理论。现代统计学已将关注点转移到图的右侧部分,因而也不再需要做出假设。
样本是大型数据集的一个子集,统计学家通常将大型数据集称为总体。
抽样可以是有放回的,即可以在每次抽取后将所抽取的观测值放回到总体中,并可被随后的抽取重新选中。抽样也可以是无放回的,即一个观测值一旦被抽取,就不会参与随后的抽取。
在统计学中,数据质量还涉及抽样的代表性这一概念。
统计偏差是一些系统性的测量误差或抽样误差,它是在测量或抽样过程中产生的。我们应严格区分由随机选取所导致的误差和由偏差所导致的误差。
选择偏差是指以一种可导致误导性或短暂性结论的方式,有选择性地选取数据的操作。选择偏差可能是有意而为之,也可能是无意识的。
趋均值回归指对同一变量做连续测量时出现的一种现象,即在极端观测值后,会出现更趋向于中心的观测值。对极值给予特殊的关注和意义,会导致某种形式的选择偏差。
要估计统计量或模型参数的抽样分布,一个简单而有效的方法是,从样本本身中有放回地抽取更多的样本,并对每次重抽样重新计算统计量或模型。这一过程被称为自助法。自助法无须假设数据或抽样统计量符合正态分布。
自助法并不补偿小规模样本。它不创建新的数据,也不会填补已有数据集中的缺口。它只会告知我们,在从原始样本这样的总体中做抽取时,大量额外的样本所具有的行为。
有时重抽样这个词等同于自助法。在更多情况下,重抽样还包括置换过程。置换过程组合了多个样本,并且抽样可能是无放回的。但是在任何情况下,自助法都是指对观测数据集做有放回的抽样。
要了解一个样本估计量中潜在的误差情况,除了使用之前介绍的频数表、直方图、箱线图和标准误差等方法外,还有一种方法是置信区间。
很少有人会过于信任以单一数值呈现的估计量,即点估计。为了解决这一普遍性问题,我们可以使用一个范围而不是单一的值去表示估计量。统计抽样原理是置信区间的实现基础。
统计量的抽样分布指从同一总体中抽取多个样本时,一些样本统计量的分布情况。经典统计学主要关注如何从小样本推导更大总体的情况。
鉴于估计量或模型是基于某个样本的,因此其中可能存在误差,也可能会由于抽取样本的不同而有所差异。我们需要了解这种差异究竟如何,即我们的主要关注点在于抽样的变异性。
呈钟形的正态分布是传统统计学中的一个标志性概念。事实上,由于样本统计量的分布通常呈现出正态分布的形状,这使得正态分布业已成为一种推导样本统计量近似分布的数学公式的强大工具。
正态分布源于很多统计量在抽样分布中是正态分布的。即便如此,只有在经验概率分布或自助法分布不可用时,才会使用正态性假设作为最后一招。
在标准正态分布中,x 轴的单位为距离均值的标准偏差。为了使数据能够与标准正态分布做对比,我们需要将数据值减去均值,然后除以标准偏差。这一过程被称为归一化或标准化。
t 分布呈正态分布形状,但是钟形稍厚,尾部略长。t 分布广泛用于描述样本统计量的分布。样本均值的分布通常呈 t 分布形状。t 分布是一个分布家族,家族中的每个成员根据样本规模的不同而有所不同。样本的规模越大,t 分布就越趋向于正态分布形状。
t 分布通常被称为学生 t 分布,因为它是 1908 年由格赛特(Gossett)以“学生”(Student)为作者名发表在期刊 Biometrika 上的。
二项输出在建模中十分重要,因为它们表示了基本的决策情况,例如是否购买、是否点击、存活还是死亡等。
二项试验是一种具有两种可能结果的试验,其中一种结果的概率为 p,另一种结果的概率为 1−p。
当 n 很大并且 p 不接近于0(或1)时,二项分布可使用正态分布近似。
一些过程是根据一个给定的整体速率随机生成事件的。所生成的事件可能是随时间扩展的,例如某个网站的访问者情况、一个收费站的汽车到达情况等;也可能是散布于空间中的,例如每平方米纺织品上的缺陷情况、每百行代码中的拼写错误情况。
韦伯分布:是指数分布的一种延伸,它通过指定形状参数 β,允许事件发生率产生变化。
实验设计是统计学实践的基石,几乎所有的研究领域都要用到实验。实验设计的目标是设计出能确认或推翻某个假设的实验。
如果看到统计显著性、t 检验或 p 值等概念,这一般是在经典统计推断“流水线”的场景下,统计推断过程开始于某个假设,例如,“药物 A 要好于现有的标准药物”,是设计用于验证假设的,我们希望所设计的实验能得出结论性的结果。实验中会收集并分析数据,进而得出结论。推断(inference)一词反映了这样一个意图:将从有限数据集上得到的实验结果应用于更大的过程或总体。
A/B 测试将实验分成两个组开展,进而确定两种处理、产品、过程等中较优的一个。在两组实验中,一般会有一组采用现有的标准处理,或者是不执行任何处理,称为对照组,而另一组称为实验组。实验中的一个典型假设是实验组要优于对照组。
在单盲研究中,实验对象本身并不知道自己接受的是处理 A 还是处理 B。如果对象知道自身所接受的处理,那么会对响应产生影响。双盲研究是指研究者和协助者(例如医学研究中的医生和护士)都不知道哪个对象接受了哪种处理。
假设检验也称显著性检验,假设检验的目的是确定一个观测到的效果是否是由随机性(random chance)造成的。
在统计学中,重抽样是指从观测数据中反复地抽取数据值,目标是评估一个统计量中的随机变异性。
重抽样过程主要有两种类型,即自助法和置换检验。自助法用于评估一个估计量的可靠性;置换检验将两组或多组样本组合在一起,并将观测值随机地(或穷尽地)重新分配给重抽样,也称作随机化检验、随机置换检验、准确检验等。
如果生成的结果超出了随机变异的范围,则我们称它是统计显著的。
针对P值,美国统计协会的声明指出了针对研究人员和期刊编辑的六项原则:
如果我们能从足够多的视角去观察数据,并提出足够多的问题,几乎总是可以发现具有统计显著性的效果。
方差分析是一种检验多个组之间统计显著性差异的统计学方法。
卡方检验适用于计数数据,它可以检验数据与预期分布的拟合程度。在统计实践中,卡方统计量的最常见用法是与 r×c 列联表一起使用,以评估对变量间独立性的零假设是否合理。
多臂老虎机算法(multi-arm bandit algorithm)是一种检验方法,尤其适用于 Web 测试。
统计学中最常见的目标可能就是回答下列问题:变量X(很多情况下是X1,…, Xp)与变量Y是否有关联?如果两者间有关联,那么关联的关系如何?是否可以使用这种关联关系去预测Y?
简单线性回归用于建模两个变量变化幅度间的关系。相关性是衡量两个变量间相关情况的另一种方法。这两者之间的差别在于,相关性衡量的是两个变量的关联程度,而回归则量化了两个变量间关系的本质。
Y = b0 + b1X 该公式表述为:“Y等于X乘以b1,再加上常数b0。”其中,我们称b0为截距”(或常量),b1为X的斜率。机器学习领域的人士习惯将Y称为目标,将X称为特征向量。
响应变量和预测变量之间的关系并非总是线性的。
朴素贝叶斯算法使用在给定输出情况下观测到预测因子值的概率,估计给定一组预测因子的值时观测到结果Y = i的概率。
判别分析是最早提出的统计分类器。包含了很多种方法,其中最常用的是线性判别分析法(LDA)。
逻辑回归类似于多元线性回归,只是结果是二元的。它使用多种变换将问题转换成可以拟合线性模型的问题。逻辑回归也是一种结构化模型方法,而非以数据为中心的方法。这与判别分析一样,但是不同于K最近邻和朴素贝叶斯。逻辑回归的计算速度快,模型输出可以快速地对新数据打分
测量模型分类性能的一种简单方法是,计算预测正确的比例。
K最近邻算法是一种简单的预测和分类技术,它不像回归那样需要拟合一个模型。但这并不意味着使用K最近邻算法不需要人工干涉。K最近邻算法的预测结果取决于特征的规模、相似性的测定方法以及K值的设置等因素。
递归分区(recursive partition):反复对数据进行划分和细分,目的是使每个最终细分内的结果尽可能同质。
拆分值(split value):一个预测变量值,它将一组记录分为两部分,使得一部分中的预测变量小于拆分值,而另一部分中的预测变量大于拆分值。
节点:在决策树中(或在一组相应的分支规则中),节点是拆分值的图形化表示(或规则表示)。
叶子:一组if-then规则的终点,或一个树分支的终点。在树中访问叶子的规则,构成了对树中一条记录的分类规则。
损失:在拆分过程的某一阶段中误分类的个数。损失越大,不纯度越高。
不纯度:表示在数据的一个细分中发现多个类混杂的程度。细分中混杂的类越多,该细分的不纯度就越高。(异质性/同质性、纯度)
剪枝:为了降低过拟合,对一棵完全长成树逐步剪枝的过程。
集成:使用一组模型给出预测。(模型平均)
Bagging:对数据使用自助法构建一组模型的通用方法。Bagging是bootstrap aggregating(自助法聚合)的缩写。(自助法聚合)
随机森林:使用决策树的一类自助法聚合估计。该算法不仅对记录做抽样,而且也对变量做抽样。(自助法聚合决策树)
变量重要性:对预测变量在模型性能中重要性的测量。
Boosting:在拟合一组模型时所使用的一种通用方法。Boosting在每轮连续的拟合中,会对具有更大残差的记录赋予更大的权重。
Adaboost:Boosting算法的一种早期实现,它根据残差的情况对数据重新加权。
梯度提升:一种更通用的Boosting算法。它将问题转化为代价函数最小化的问题。
随机梯度提升(SGD):最常用的Boosting算法。它在每轮拟合中加入了对记录和数据列的重抽样。
正则化:通过在代价函数中对模型参数的数量添加惩罚项,避免产生过拟合。
超参数:在拟合算法之前就需要设定的参数。
指的是无须使用已标记数据(即输出已知的数据)训练模型,便可以抽取数据内涵的统计学方法。
主成分分析(PCA)就是一种能够发现数值型变量共变方式的技术。基本理念是,将多个数值型预测变量组合成一组规模较小的变量,它们是原始变量的加权线性组合。所形成的规模较小的一组变量被称为主成分。主成分可以“解释”完整变量集的大部分变异性,同时降低数据维度。在构建主成分中所使用的权重,体现了原始变量对新的主成分的相对贡献。
聚类是一种数据分组技术,使得组内记录彼此相似。聚类的一个目标是识别数据中重要且有意义的组。
层次聚类的灵活性是有一定代价的,它不能很好地扩展到具有数百万条记录的大规模数据集上。即便是只有数万条记录的中等规模数据集,层次聚类可能也需要大量的计算资源。
笔记摘录于《面向数据科学家的实用统计学》