【4.1 统计学基本概念】(描述性统计分析)——CDA

1.大纲

此部分占10%

【4.1 统计学基本概念】(描述性统计分析)——CDA_第1张图片

 

 

1.1 统计学含义

统计学是关于数据的科学。统计学是一门收集、处理、分析、解释数据并从数据中得出结论的科学。

统计学的对象是数据。

数据的形式:分数字和文字。

【4.1 统计学基本概念】(描述性统计分析)——CDA_第2张图片

(1) 阿拉伯数字一定是数字吗?

不一定。

处理数据时,会把男认为1,女记作0;此时的1和0 不是数字。

实际上,,阿拉伯数字只是一个代替的符号而已,阿拉伯数字符号也可表示文字。

(2)

 

1.1.1 数据分析步骤:

收集数据——处理数据——分析数据——解释数据

  • 数据收集——取得统计数据
  • 数据处理——将数据用图表等形式展示出来
  • 数据分析——选择适当的统计方法研究数据,并从数据中提取有用信息得出结论

1.1.2 数据分类

分析数据2部分:描述性统计分析、推断性分析

(1)描述性分析:descriptive statistics    研究数据收集、处理和描述的统计学方法

(总体规模、对比关系、集中趋势、离散程度、偏态、峰态)

eg:所有CDA持证人收入情况,电话问询,这就是描述性分析;

(2)推断性分析:inferential statistics   是研究如何利用样本数据来推断总体特征的统计方法

eg:分析中国人的收入情况:可在各个城市抽取一定的样本来研究

 特点:(根据数据携带信息 依次从低级到高级

分类型数据:不可排序,不可计算——定性数据

顺序性数据:可排序,不可计算——定性数据

数值型数据:可排序,可计算。——定量数据    (比如:身高,年龄)

为什么没有不可排序,可计算的数据呢?有但很少;辅助型数据;(a+bi)

【4.1 统计学基本概念】(描述性统计分析)——CDA_第3张图片

面板数据/混合数据——混合界面和时间序列数据。

按概率型不同——离散型数据、连续型数据

(1)比如卖出去的商品个数,是整数;

连续型取到某一样本值的概率为0;无限次数据,会算出概率为0;

特殊数据——虚拟变量数据 

eg:教育水平,产品质量等

 【4.1 统计学基本概念】(描述性统计分析)——CDA_第4张图片

区间(分组的数值型数据)——仍属于数值型。

不同类型的数据之间可进行转换,低级数据的方法高级数据可用。

 

1.1.3 总体和样体

1.总体——population

所有和总体有关的东西都是一个定值。  

指研究的所有元素的集合。其中,每个元素称为个体。

用希腊字母表示。

包含所研究的全部个体(数据)的集合,通常由所研究的一些个体组成。

2.样本——sample

所有和样本有关系的东西都是变量。用英文字母表示。

从总体中抽取的一部分元素的集合。

样本是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为 样本容量(sample size)

抽样的目的:根据样本提供的信息推断总体的特征。

1.1.4 参数和统计量

1.参数-parameter     /pə'ræmɪtɚ/

至研究者想要了解的总体的某种特征值

主要有 总体均值(μ)、总体标准差、总体比例(π)等  

2.统计量-statistic  

根据样本数据计算出来的一个量,即 样本的某个特征值;

样本的一个函数,叫做统计量。

【4.1 统计学基本概念】(描述性统计分析)——CDA_第5张图片

 

1.1.5 变量

1.变量:

描述事物某种特征的概念。如:商品销售额、受教育程度、产品的质量等级等。

2.变量与数据的关系

变量的具体表现称为变量值,数据。

3.变量的分类

根据变量的数据计量尺度不同来分。

变量是特征,数据是反映出来的。

分类变量(categorical variable):说明事物类别的一个名称

顺序变量(rank variable):说明事物有序类别的一个名称

数值型变量(metric variable):说明事物数字特征的一个名称

你可能感兴趣的:(CDA数据分析,数据挖掘,大数据,CDA,数据分析)