数据与统计学

统计学:收集、处理、分析、解释数据并从数据中得出结论的科学

统计学所提供的是是一系列有关数据收集、处理和分析的方法。

收集数据:取得数据
处理数据:图表展示
分析数据:利用统计方法分析数据
数据解释:结果的说明
得到结论:从数据分析中得出客观结论

数据分析

数据分析是利用统计方法对数据进行分析,数据分析所使用的方法大体分为两种:描述统计与推断统计(descriptive statistics & inferential statistics)

一、变量与数据

  • 变量(variable):描述所观察对象某种特征的概念,其的特点是从一次观察到下一次观察可能会出现不同结果

观察一个企业的销售额,这个月和上个月有所不同;观察股票市场上涨股票的家数,今天与昨天数量不一样;观察一个班学生的生活费支出,一个人和另一个人不一样;投掷一枚骰子观察其出现的点数,这次投掷的结果和下一次也不一样
“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”等就是变量

  • 数据(data):变量的观测结果

二、变量分类

  1. 类别变量(categorical variable)
    取值为事物属性或类别以及区间值的变量,也称分类变量(classified variable)定性变量(qualitative variable)

    比如,观察人的性别、公司所属的行业、用户对商品的评价时,得到的结果就不是数字,而是事物的属性此外,考虑学生月生活费支出的档次可能分为1000以下、1000—1500、1500—2000、2000以上4档,作为变量的“月生活费支出档次”这4档取值也不是普通的数值,而是数值区间,因而也称为区间值类别变量

    类别变量根据取值是否有序分为两种
     名义(nominal)值类别变量也称无序类别变量,其取值是不可以排序的
     顺序(ordinal)值类别变量也称有序类别变量,其取值间可以排序
     当类别变量只取两个值时也称为二值(binary)类别变量,例如“性别”这一变量取值为男和女。二值变量可以看成名义变量,也可以看成有序变量

  2. 数值变量(metric variable)
    取值为数字的变量,也称为定量变量(quantitative variable)

    数值变量的观察结果称为数值数据(metric data)或定量数据

    数值型变量根据其取值的不同,可以分为离散变量(discrete variable)连续变量(continuous variable)。离散型变量是只能取有限个值是变量,而且其取值可以一一列举。连续型变量是可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举,当离散变量的取值很多时,也可以将离散变量当作连续变量来处理

三、数据的来源

  • 寻找二手数据
  • 抽取样本
    总体(population):包含所研究的全部个体(数据)的集合
    样本(sample):从总体中抽取的一部分元素的集合
    样本量(sample size):构成样本的元素的数目
  • 概率抽样方法
    例如简单随机抽样、分层抽样、系统抽样、整群抽样等。

四、概率抽样方法

  1. 概率抽样(probability sampling):根据一个已知的概率来抽取样本单位,也称随机抽样
    特点:
     按一定的概率以随机原则抽取样本
     抽取样本时使每个单位都有一定的机会被抽中
     每个单位被抽中的概率是已知的,或是可以计算出来的
     当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率

  2. 简单随机抽样(simple random sampling)
    从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中 。抽取元素的具体方法有重复抽样和不重复抽样

    特点
     简单、直观,在抽样框完整时,可直接从中抽取样本
     用样本统计量对目标量进行估计比较方便

    局限性
     当N很大时,不易构造抽样框
     抽出的单位很分散,给实施调查增加了困难
     没有利用其他辅助信息以提高估计的效率

简单随机样本(simple random sample): 由简单随机抽样形成的样本
从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为n样本都有相同的机会(概率)被抽中。参数估计和假设检验所依据的主要是简单随机样本

  1. 分层抽样(stratified sampling):将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本
    优点:
     保证样本的结构与总体的结构比较相近,从而提高估计的精度
     组织实施调查方便
     既可以对总体参数进行估计,也可以对各层的目标量进行估计

  2. 系统抽样(systematic sampling)
    将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位
    先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位
     优点:操作简便,可提高估计的精度
     缺点:对估计量方差的估计比较困难

  3. 整群抽样(cluster sampling):将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查
    特点
     抽样时只需群的抽样框,可简化工作量
     调查的地点相对集中,节省调查费用,方便调查的实施
     缺点是估计的精度较差

你可能感兴趣的:(数据与统计学)