统计数据:一个成功数据科学项目的最佳起点

全文共2534字,预计学习时长7分钟

统计数据:一个成功数据科学项目的最佳起点_第1张图片

图源:unsplash

 

统计数据是运用实验数据扩展人类知识面的科学与实践,以应用数学的一个分支——统计理论为基础。统计理论中,随机事件和不确定性通过概率论建模。

 

要想开启一个兼具意义和效果的数据科学项目,需要深入理解原始数据和相关领域知识。初步的统计工具和可视化图表,能帮助人们更深入、直观地理解数据及其行为。

 

统计学包含许多基本概念,如描述性统计和推断性统计。描述性统计使用均值、标准差等指标总结样本数据,推断性统计从随机变化的数据中得出结论。描述性统计可用于分析人口数据,数值描述符包括均值和标准差,多用于连续数据类型(如收入),而频率和百分比则在描述分类数据(如教育)方面更为有效。

 

对人口数据进行具有意义的总结时,需要推断性统计。推断性统计通过样本数据模式,推断数据所代表的人群,同时考虑随机性。计算统计学,或统计计算,是连接统计学和计算机科学的桥梁,是具体到数理统计科学的计算科学(或科学计算)。

 

统计实践包括对不确定研究对象进行整理、总结和解释。鉴于统计数据是为了从现存数据中提取最佳信息,有的作者将统计数据视为决策理论的分支。

 

随机试验中,实验方案中指定的随机方式用于指导统计分析,而统计分析在实验方案中往往也是特定的。例如,测量系统分析(MSA)是一种实验数学方法,用于确定在测量过程中的变化对整个过程可变性的贡献率。

 

本文将介绍最适用易用的统计概念,以便启动一个成功的数据科学项目。

 

均值或平均值

 

均值或平均值是一组数字的总和除以该组数字的计数。这组数字往往是某一实验或观察性研究的一系列结果,或是某一调查的一系列结果。在某些情况下,“数学平均值”的说法更受青睐,因为它能很好区别于几何平均值、调和平均值等其他平均值。

 

方差

 

方差是随机变量偏离其平均值的平方的期望值。通俗来说,它衡量的是一组数字与其平均值的差距。方差在统计学中处于核心地位,使用场景涵盖描述性统计、统计推断、假设检验、拟合优度和蒙特卡罗抽样。

 

方差分析

 

方差分析(ANOVA)是统计假设检验的一种形式,广泛用于实验数据分析。假设零假设是真实的,如果测试结果(依据零假设和样本计算得出)被认为不可能是偶然发生的,那么它就具有统计显著性。当概率(p值)小于预先设定的临界值(显著性水平),统计显著性结果便可证明拒绝零假设的合理性,但前提是零假设的先验概率不高。

 

统计数据:一个成功数据科学项目的最佳起点_第2张图片

图源:unsplash

 

标准差

 

标准差衡量的是一组值的变化量或离差。低标准差表示数值大小接近集合的平均值(也称期望值),高标准差则表示数值范围跨度较大。

 

错误

 

从一个零假设出发,可识别错误的两种基本形式:

 

· 第一类错误,错误拒绝零假设,呈现“假阳性”。

· 第二类错误,即原假设未能被拒绝,且总体之间的实际差异被忽略,呈现“假阴性”。

 

卡方检验(Chi-squared test)

 

卡方检验,也称χ2检验,是一种统计假设检验,当检验统计量在零假设下呈卡方分布,尤其是皮尔逊卡方检验及其变体中,卡方检验有效。皮尔逊卡方检验用于确定在一个或多个列联表类别中,预期频率和实际频率之间是否存在统计显著性差异。

 

t检验(Student’s t-test)

 

如果测试统计中比例项已知,当测试统计遵循正态分布时,t检验最为常用。当比例项未知且被基于数据的估算替代时,测试统计遵循t分布。例如,t检验可用于确定两组数据的平均值是否存在显著差异。

 

皮尔逊(Pearson)相关系数

 

皮尔逊相关系数是两个变量的协方差除以其标准差的乘积。该定义涉及“乘积矩”,即均值调整随机变量的乘积的均值(关于原点的第一个矩),因此名称中出现了修饰语积矩。

 

统计数据:一个成功数据科学项目的最佳起点_第3张图片

图源:unsplash

 

相关性和依赖性

 

相关性或依赖性代指两个随机变量或双变量数据之间的所有统计关系,无论是否是因果关系。广义上的相关性涵盖所有统计关联,虽然它通常指的是一对变量线性相关的程度。

 

依赖现象的常见例子包括父母及其子女身体状况之间的联系,商品价格和消费者愿意购买数量之间的联系,正如需求曲线所描述的那样。

 

回归分析

 

回归分析是一系列统计过程,用于测算因变量和一个或多个自变量之间的关系。最常见的回归分析是线性回归,即研究人员根据特定的数学标准找到最符合数据的直线。

 

斯皮尔曼等级(Spearman’s rank)相关系数

 

两个变量之间的斯皮尔曼相关等于这两个变量的等级值之间的皮尔逊相关;皮尔逊相关评估线性关系,而斯皮尔曼相关评估单调关系(无论线性与否)。如果没有重复的数据值,每个变量都是另一个变量的完美单调函数时,就会出现+1或1的完美斯皮尔曼相关。

 

概率论

 

概率论是从计算的角度对可能事件进行研究。换言之,概率论是用于分析随机事件的数学分支。

 

随机试验中,在进行试验之前,所有可能结果都已知,但并不确定会出现哪种结果,并且试验可以在相同的条件下以期望的频率进行。概率论的核心是随机变量、随机过程和事件。除解释随机现象之外,概率论还检验非随机事件,这些事件通过多次重复测试,结果会遵循特定的模式。检验这些模式的结果是大数定律和中心极限定理。

 

统计数据:一个成功数据科学项目的最佳起点_第4张图片

图源:unsplash

 

时间序列分析

 

时间序列分析包括分析时间序列数据,以提取有意义的统计数据和数据的其他特征。时间序列预测基于先前观察值,使用模型来预测未来值。虽然回归分析常用于检验一个或多个独立时间序列的当前值对另一个时间序列当前值的影响,但这种类型的时间序列分析并不是人们所说的“时间序列分析”。

 

时间序列分析侧重于比较单个时间序列或多个相关时间序列在不同时间点的值,中断时间序列分析是干预单个时间序列的分析。

 

想要完成一个成功的数据科学项目,以上的统计知识必不可少。

 

统计数据:一个成功数据科学项目的最佳起点

一起分享AI学习与发展的干货

欢迎关注全平台AI垂类自媒体 “读芯术”

(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)

你可能感兴趣的:(热点文章,人工智能,AI,大数据)