统计学第一周-数据的图标展示

统计学定义:数据经过收集、处理、分析,最后通过解释数据得出结论的科学。

既然是是对数据的统计,首先要清楚数据的分类。按照计量尺度,数据分为分类数据、顺序数据、数值型数据。按收集数据的方法,数据分为观测数据与实验数据。按照时间状况,数据可以分为时间序列数据与截面数据。


了解数据分类后,要对统计学的一些基础知识和数据有一定的了解。我们每次的研究对象应该是全部个体的集合,既然是集合,就分为有限集合总体和和无限集合总体。对于无限总体来说,每次抽样是独立的,互不影响。对于有限总体,每次抽样并不独立。我们往往无法对总体进行直接的统计分析,对与总体的调查或分析称之为普查。所以要对总提进行抽样,即从总体中抽取一部分元素对总体进行推断。对于总体的概括性度量叫做参数,对于抽样样本的概括性度量叫统计量。


在分析之前,要进行数据获取,数据来源分为两类,一类是直接来源,即自己通过调查或实验获得的数据。另一类是间接来源,即二手数据,是别人获取的数据,我们做二次加工。收集数据的方式也有很多,但要结合项目和分析场景确定搜集方式。通常要考虑获取的时间,成本、人力、操作复杂度等。一般传统的数据搜集方式分为自填式、面访式、电话式与实验产生。但对于互联网时代,数据的获取方式多种多样,有端侧采集的数据、传感器获取的数据等。


获取数据后需要对数据进行预处理,包括数据准确性与完整性的审核、数据筛选、数据排序以及数据的大致分布情况等。


在无法做普查的情况下,我们要对总体进行抽样。抽样分为概率抽样与非概率抽样。概率抽样是随机的抽样,较有技术含量,可以评估总体的参数、误差、置信区间等。非概率抽样较为简单、时效,成本低,较适合探索性研究、发现问题等,不适合用于对总体的评估。


在行程对总体评估的结论前,一定要考虑什么因素会导致结果的误差。抽样本身会引入误差,不同抽样的样本,对总体的评估往往会有一定差异。但差异一般会稳定在一个区间,随着抽样样本量的增大,这个差异区间会越来越小。除了抽样本身引入的误差,还会有一些非抽样误差、测量误差、无回答误差、调查员误差等。


对于不同数据,要用不同的图表才能对数据做更好的描述,具体每种类型适合的图标见下图。同时还有一些衡量图标好坏的标准,大家在制作图表时可以作为参考。


你可能感兴趣的:(统计学第一周-数据的图标展示)