第1章 程序员的统计思维

这本书讨论如何将数据转换为知识。 数据是廉价的( 至少相对而言如此), 但知识却异常宝贵。

书中对三门相互关联的学科进行介绍:

  • 概率论
    主要研究随机事件。 人们对某些事件发生的可能性高低一般都有直观的认识, 所以未经特殊训练就会使用“ 可能”、“ 不可能” 之类的词汇。 但本书会介绍如何量化这种可能性
  • 统计学
    统计学旨在根据数据样本推测总情况。 大部分统计分析都基于概率, 所以这两方面的内容通常兼而有之。
  • 计算
    量化分析的最佳工具。 计算机是处理统计量的常用工具。 此外, 计算实验还有助于理解概率论和统计学中的概念。

在日常生活中,我们经常会依据自己的个人经历得到一些经验之谈,这些经验之谈会因为观察的数量太少、选择偏差、确认偏差、不准确等因素存在种种不足。

为解决这种不足,本书运用以下统计学手段:

  • 收集数据
    量化分析的最佳工具。 计算机是处理统计量的常用工具。 此外, 计算实验还有助于理解概率论和统计学中的概念。
  • 描述性统计
    计算能总结数据的统计量, 并评测各种数据可视化的方法。
  • 探索性数据分析
    寻找模式、 差异和其他能解答我们问题的特征。 同时, 我们会检查不一致性, 并确认其局限性。
  • 假设检验
    在发现明显的影响时( 比如两个族群间的差异), 我们需要评判这种影响是否真实, 也就是说是否是因为随机因素造成的。
  • 估计
    我们会用样本数据推断全部人口的特征。

术语

  • 经验之谈(anecdotal evidence)
    个人随意收集的证据, 而不是通过精心设计并经过研究得到的。
  • 直观效应(apparent effect)
    表示发生了某种有意思的事情的度量或汇总统计量。
  • 人为(artifact)
    由于偏差、 测量错误或其他错误导致的直观效应。
  • 队列(cohort)
    一组被调查者。
  • 横断面研究( cross-sectional study)
    收集群体在特定时间点的数据的研究。
  • 字段( field)
    数据库中组成记录的变量名称。
  • 纵贯研究( longitudinal study)
    跟踪群体, 随着时间推移对同一组人反复采集数据的研究。
  • 过采样( oversampling)
    为了避免样本量过少, 而增加某个子群体代表的数量。
  • 总体( population)
    要研究的一组事物, 通常是一群人, 但这个术语也可用于动物、 蔬菜和矿产。
  • 原始数据( raw data)
    未经或只经过很少的检查、 计算或解读而采集和重编码的值。
  • 重编码( recode)
    通过对原始数据进行计算或是其他逻辑处理得到的值。
  • 记录( record)
    数据库中关于一个人或其他对象的信息的集合。
  • 代表性( representative)
    如果人群中的每个成员都有同等的机会进入样本, 那么这个样本就具有代表性。
  • 被调查者( respondent)
    参与调查的人。
  • 样本( sample)
    总体的一个子集, 用于收集数据。
  • 统计显著( statistically significant)
    若一个直观效应不太可能是由随机因素引起的, 就是统计显著的。
  • 汇总统计量( summary statistic)
    通过计算将一个数据集归结到一个数字( 或者是少量的几个数字),而这个数字能表示数据的某些特点。
  • 表( table)
    数据库中若干记录的集合。

你可能感兴趣的:(第1章 程序员的统计思维)