数据科学分析与统计

数据科学分析与统计

 

 

 

1、统计学的介绍

2、 基本概念

3、分析方法

4、数据分组处理

5、数据的静态分析指标

6、数据的动态分析指标

7、数据动态分析一一时间数列模型


 

1、统计学的介绍

1.1 含义

统计学是以数据为食物的动物

       Data—— Statistics ——Information

描述统计学(Descriptive Statistics),研究如何取得反映客观现象的数据,并通过图表形式对所搜集的数据进行加工处理和显示,进而通过综合、概括与分析得出反映客观现象的规律性数量特征。内容包括统计数据的搜集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等

推断统计学(Inferential Statistics),研究如何根据样本数据去推断总体数量特征,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征作出以概率形式表述的推断。

描述统计和推断统计是统计方法的两个组成部分,描述统计是整个统计学的基础,推断统计则是现代统计学的主要内容。推断统计在现代统计学中的地位越来越重要,已成为统计学的核心内容,这是因为在对现实问题的研究中所获得的数据主要是样本数据。但是二者的作用及地位都是同样重要。从描述统计学发展到推断统计学,是统计学发展的巨大成就,也是统计学成熟的重要标志。

 

1.2 研究对象、特点及其历史

统计学的研究对象是大量社会经济现象事物总体的数量方面,反映社会现象事物的发展变化在具体时间、地点、条件下的数量表现,揭示事物的本质、相互联系、变动规律性和发展趋势。

1)数量性  

 数量性是统计学研究对象最基本的特点。 “三算”:what,how ,how  much。也就是,“算什么”、“怎么算”、“算出来的是多少”。

2)总体性      

 社会经济统计是以社会经济现象总体的数量方面作为自己的研究对象。 

3)变异性    

研究同类现象的数量特征,前提是每个个体是具有差异的。

 

政治算术学派    

威廉·配第:英国古典政治经济学之父,统计学创始人,最早的宏观经济学者。于1672年出版的《政治算术》,对经济学、统计学的发展均具有重大意义。    

约翰·格兰特最重要的贡献是编制了世界上第一个死亡表。——统计学创始人

 

国势学派      

海尔曼·康令(H.Conring,1606—1681)第一个在德国黑尔姆斯太特大学以“国势学”为题讲授政治活动家应具备的知识;    

阿亨华尔在哥廷根大学开设“国家学”课程,其主要著作是《近代欧洲各国国势学纲要》。首次提出“统计学”一词,并定义为国家显著事项的学问,言下之意是通过这门科学可了解国家理乱兴亡之迹。

 

概率论学派    

布莱斯·帕斯卡(B. Pascal,1623-1662)和数学家费马(Pde Fermat,1601-1665),他们以通信的方式讨论赌博时的概率问题。    

瑞士数学家贝努利(I.Bernoulli,1654-1705)提出二项分布理论。

法国的分析学家、概率论学家、物理学家拉普拉斯(P. S. Laplace,1748-127)在1814年发表《概率分析论》一书,构筑了古典概率理论的完整体系,并用于自然和社会现象的研究。  

 法国著名数学家泊松(S.D. Poisson,1781-1840)提出泊松分布。

 

数理统计学派——“英美数理统计学派”

比利时学者阿道夫·凯特勒(Adolphe Quetelet,1796-1874),《社会物理》,奠定了近代统计学的基础,被誉为“近代统计学之父”、数理统计学派创始人;享有“国际统计会议之父”。

 

社会统计学派    

德国大学统计学教授克尼斯(K.G.A. Knies,1812-1898)首创,统计学家恩格尔(C.L. Engel,1821-1896)和梅尔;    

弗朗西斯·高尔顿(F.Golton,1822-1911)——创立了回归分析;      

卡尔·皮尔逊——为现代统计学打下基础,“统计学之父”。

葛塞特(W.S. Gosset,1876-1937)——t一分布;    

博雷尔(E. Borel,1871-1956)奠定了现代概率理论的基础;    

纳德·费雪(R.A. Fisher,1890—1962),提出Z分布、显著性水平、假设检验、自由度、实验设计和方差分析等方法和概念;

博弈论开创者:美国冯·诺依曼(J.V. Neumann)和摩根斯坦(O. Morgenstern)提出博弈论,使决策理论更加系统化;

 

现代统计学时期

        美国的大学自1950年将统计学设为独立的学系,1955年开始颁授统计学的高级学位。    

从20世纪50年代起,统计学受计算机、信息论等现代科学技术的影响,新研究领域层出不穷。据估计,现代统计学是以指数式加速度发展的,新的研究分支不断增加,统计应用领域不断扩展。统计方法在各学科领域的应用又进一步促进了统计方法研究的深入发展。

 

2、基本概念

1、总体和单位

总体=有限总体+无限总体

总体是由客观存在的、在同一性质基础上结合起来的许多个别事物构成的整体。同质性,大量性、差异性。用大写表示。

有限总体:是由有限量的单位构成的总体,总体单位是可数的。

无限总体:当总体单位数难以确定,其数量有可能是无限、不可数时。

总体单位,简称“单位”,是组成总体的个体,所以有的地方也把单位称为“个体”。

总体和总体单位的关系,是整体与个体、集合与元素的关系,两者相互依存、相互联系。 二者的具体形式会随着统计研究目的的不同而变化。

 

按计算方法分:      数值平均数:算术平均数、调和平均数、几何平均数

                              位置平均数:中位数、众数

按反映时间分:      动态平均数、静态平均数

 

2、平均数

平均指标,是将同质总体内各单位某一数量标志的差异抽象化,用以反映总体在一定时间、地点条件下的一般水平。第一,反映总体各单位标志值分布的集中趋势。 第二,比较同类现象在不同时空范围的差异。 第三,分析现象之间的依存关系。

 

算术平均数是将总体各单位的标志值相加求其算术总和,然后除以总体单位个数而得。其基本公式:总体标志总量  /  总体单位总量 

2.1、简单算术平均数

适用于未分组的统计资料

2.2、 加权算术平均数

适用于分组的统计资料,由组距式数列计算加权算术平均数,可用组中值代表各组变量值。

加权算术平均数与简单算术平均数的关系:

  • 相同点,两者均受极端值的影响;
  • 不同点,加权算术平均数除了受极端值的影响外,还受权数或次数多少的影响。 联系:当各组权数相同或次数相等时,加权算术平均数就变成简单算术平均数。

加权平均数的影响因素:①若各组标志值不变,各组单位数同时扩大或缩小相同的倍数则 平均数不变;②若各组单位数不变,各组标志值同时扩大或缩小 相同的倍数,平均数也随之扩大或缩小相同的倍数。③若各组权数是相等的,则用加权算术平均和简单算术平均的计算结果是相同。

  • 各组标志值(x)
  • 各组权数(次数或比重)f 、 x/∑f

2.3、调和平均数

在很多情况下,由于只掌握每组的标志值 x 和标志总量 m 而缺少总体单位数 f 的资料,不能直接采用算术平均数法计算平均数,则应采用调和平均数。有简单调和平均数和加权调和平均数两种。

简单调和平均数 (未分组资料):简单调和平均数是标志值倒数的算术平均数的倒数。

数据科学分析与统计_第1张图片

H——调和平均数,x——各单位标志值,n——变量值的个数

如:有某种水果在甲乙丙三个农贸市场的价格分别为1元/千克、0.9元/千克、0.9元/千克。如果在这三个农贸市场各买1元钱的水果,那么平均每千克水果的价格应为多少?

数据科学分析与统计_第2张图片

 

加权调和平均数  (已分组资料)    已知各组的标志值水平和各组的标志总量,不知各组的单位数时。易受极端值的影响。只要有一个标志值为0,就不能计算调和平均数。 调和平均数应用的范围较小。

数据科学分析与统计_第3张图片

H——调和平均数,m——各组标志值总量,x——各组标志值

 

市场

价格(元/千克)

         x

 销售额(元)

m

    2.00

    2.50

    2.40

  60 000

  50 000

  60 000

合计

     —

 170 000

平均价格:

加权调和平均数和加权算术平均数的关系:

  • 两者权数不同
  • 对同一问题的计算结果相同

数据科学分析与统计_第4张图片

  • 两者应用条件不同,已知分母,使用算术平均数;已知分子,使用调和平均数。

数据科学分析与统计_第5张图片

3、众 数

在总体中出现次数最多的标志值,即总体中最常遇到的最普遍、最一般的变量值,它能直观地说明客观现象分配中的集中趋势。用M0表示。

组距式下,确定众数所在的组 通过公式计算众数值

公式为:             下限公式                                                                             上限公式

                                                               

      L、U:众数所在组的下限、上限 ;  :众数组与前一组次数之差         i :众数所在组的组距 ;    :众数组与后一组次数之差

 

根据表中的数据,计算50名工人日加工零件数的众数,中位数。

某车间50名工人日加工零件数分组表

按零件数分组

频数(人)

累积频数

105-110

110-115

115-120

120-125

125-130

130-135

135-140

3

5

8

14

10

6

4

3

8

16

30

40

46

50

合计

50

    

4、中位数

先对数列按数值大小排序,确定中位数的位置

组距式下:先确定中位数所在位置 然后用公式计算中位数

 

下限公式                                                                  上限公式

数据科学分析与统计_第6张图片                         数据科学分析与统计_第7张图片

L、U:中位数所在组下限、上限                                fm:中位数所在组的次数              

i:中位数所在组的组距

Sm-1、Sm+1:中位数所在组前面、后面各组的累计次数

 

类比上表:

中位数位次是

数据科学分析与统计_第8张图片

5、平均差-均值

标志变异指标是反映总体各个单位标志值的差异程度或离散程度。通过变异指标可以表明总体标志值分布状况的特征。

作用: ①反映总体单位标志值分布的离散程度。 ②说明平均数代表性的大小。 ③反映数据变化过程的稳定性、节奏性和均衡性。

标志变异指标: 全距 平均差 标准差(方差) 离散系数

平均差是总体各单位标志值与其算术平均数离差的绝对值的算术平均数,用A.D表示。与全距相比,平均差的计算考虑了各个标志值之间的差异,因而能比较确切地反映变量数列的标志变动程度。综合反映总体中各单位标志值的差异程度。    

平均差越大,标志变异程度越大,平均数代表性越小;反之亦然。

未分组—简单平均差

已分组—加权平均差

数据科学分析与统计_第9张图片

6、标准差(方差)-均值

标准差是各单位标志值对其算术平均数离差的平方的算术平均数的平方根。方差是标准差的平方。平均差是用绝对值消除各标志值与平均数离差的正负值问题,而标准差是用平方再开方的方法消除各标志值与平均数离差的正负值。它的含义与平均差相同,也表示各标志值对算术平均数的平均距离,所不同的是在数学处理上有所区别。

未分组—简单式

数据科学分析与统计_第10张图片

已分组—加权式

数据科学分析与统计_第11张图片

标准差的优点较多,它既采用了差异的平均的原理,又使用了全部标志值进行计算,较为全面;同时回避了全距、平均差等指标的缺点,是实际工作中使用较多的一个重要的统计分析指标。

7、离散系数——找差异

全距、平均差和标准差,它们都是反映数据离散程度的总量指标,其数值大小不仅受统计资料中标志值的平均水平高低的影响,而且都有计量单位。

因此,对于不同的统计总体只有当在它们的平均数相等时,才能用绝对指标比较其离散程度

离散系数(变异系数)是将标志变异指标除以其相应的算术平均数。

离散系数有全距系数VR、平均数系数VA.D和标准差系数Vσ三种,其中最常用的是标准差系数。

注意:

①把标志变异指标和平均指标结合起来,准确描述统计总体特征。

②把标志变异绝对指标和相对指标结合起来。

③根据统计资料是否分组,标志变异指标也简单变异指标和加权变异指标两种。

数据科学分析与统计_第12张图片

8、标志和指标、变异和变量 

标志=品质标志+数量标志

标志=可变标志+不变标志

不变的数量标志、可变的数量标志、不变的品质标志和可变的品质标志

总体中各单位具有的共同属性或特征称为标志。每个单位都具有、共同表现出来的、属性或特征。

品质标志表明单位属性方面的特征,只能用文字来表现;

数量标志表明单位数量方面的特征,只用数值来表示,又称标志值。

统计指标,又称综合指标,是根据统计研究的目的,确定所要研究的统计总体和总体单位,然后对总体各单位数量标志的具体表现进行登记、汇总,最后形成说明总体合特征的各种数据资料。数量性‘综合性、具体性。

统计指数

数量指标:是反映社会经济现象总规模、总水平或工作总量的统计指标。反映现象的总数量,也就是总体的外延规模,通常用绝对数表示,它的数值随总体范围的大小而增减。

总量指标:是反映社会经济现象总规模或总水平的统计指标,其数值用绝对数表示,总量指标是最基本的统计指标,属于数量指标。

平均指标:是说明各个单位某一数量标志一般水平的统计指标,用来代表总体的一般水平,也可以反映发展的平均水平和平均速度。

质量指标:是反映社会经济现象的相对水平和工作质量的统计指标反映现象质的属性,也就是总体的内涵,一般用相对数或绝对数表示,它的数值不随总体范围的大小而增减

相对指标:又称相对数,是社会经济现象中两个互相联系的指标数值之比,用来反映有联系的事物之间的数量对比关系。

静态指标(综合指标)

标志与指标的关系

  • 反映的对象范围不同:标志是反映的对象是总体单位;指标反映的对象是总体;
  • 形式不同:标志包括只能用文字表现的品质标志和只能用数字表示的数量标志;指标的两个分类(数量指标和质量指标)都只能用数字表示。

指标的数值是由总体单位的个数或总体单位的数量标志值综合而形成的;

指标和标志可以互相转化。

指标体系=基本统计指标体系+专题统计指标体系

指具有内在联系的一系列指标所构成的整体。

基本统计指标体系反映国民经济和社会发展及其个组成部分的基本情况的统指标体系。

专题统计指标体系是针对某一个经济或社会问题而制定的统计指标体系

变异=属性变异+数值变异

标志和指标的具体表现各不相同,它们之间的这种差别与变化称为变异。

属性变异是指品质标志的变化。

数值变异是指数量标志的变化。

变量

变量按其取值的连续性分为离散变量和连续变量;  

变量按其影响因素不同,可分为确定性变量和随机性变量。

数据科学分析与统计_第13张图片

3、分析方法

  • 大量观察法    

是指对被研究事物足够多的单位进行观察、分析,以反映总体特征的一种统计方法。大数定律的一般概念是:在观察过程中,每次取得的结果不同,这是由偶然性所致的,但如果进行大量、重复观察,其结果的平均值却几乎接近确定的数值。

  • 统计分组法    

是根据事物内在的规律、性质和统计研究任务的要求,将总体各单位按照某种标志划分为不同类型的一种研究方法。这种方法是研究总体内部差异的重要方法。通过分组可以研究总体中不同类型的性质以及它们的分布情况。

  • 综合指标法    

是指应用各种统计综合指标来反映和研究社会经济现象总体的一般数量特征和数量关系的研究方法,它是统计分析的基本方法之一。

  • 统计推断法    

统计在研究现象的总体数量关系时,需要了解的总体对象范围有时候可能很大,甚至是无限的,但由于时间、精力或者经济等各方面约束,以致常常在客观上我们只能从中观察部分单位,根据观察结果计算和分析,以推断出总体情况。

  • 统计模型法

根据一定的经济理论和假设条件,用数学模型去模拟客观经济现象相互关系的一种研究方法。

4、数据分组处理

对调查所取得的原始数据资料进行科学的分组、汇总、综合与加工,使之条理化、系统化,从而得出反映总体特征的综合资料的工作过程。

统计分组是根据统计分析的目的和任务,将统计总体按照一定的标志划分为若干个组成部分的一种统计整理方法。

4.1、分组标志选择方法

选择分组标志

标志的多少:

简单分组:按一个标志对总体进行分组

复合分组:将两个或两个以上的分组标志层叠起来对总体进行分组

标志性质:

品质标志分组是反映事物属性差异的,比如人口普查时,人按照职业、性别、民族等进行分组。按品质标志分组为品质分组 按数量标志分组为变量分组

数量标志分组是反映实物数量差异的。比如产品的产量、学生的成绩、人的体重等。在此处,分组组限的确定是有难度的。

数据科学分析与统计_第14张图片

4.2、变量分组

单项式分组:以一个变量值作为一组。适用于:离散性变量且变量值较少。如:居民家庭按儿童数量分组,可分为:0个、1个、2个、3个以上

组距式分组:以一个区间作为一组。 适用于:连续变量和不重复的变量值个数很多的离散变量。如:某班学生按统计学考试分组,分为60以下、60-70、70-80、80-90、90以上。

单项式数列

组距式数列

将一个变量值作为一个组

将变量值的一个区间作为一组

适合于离散变量

适合于连续型变量,但也适合于个别离散型变量(如成绩、年龄)

适合于变量值较少的情况

适合于变量值较多的情况

组距=上限-下限

闭口组:  下限、上限都有。如200——300

开口组:  下开口组:       ××以下          

                上开口组:       ××以上

如果总体中有极值时,就采用下开口组

组中距=(上限+下限)/2

全距=Max - Mid

最小组的下限要略低于或等于最小变量值,最大组的上限要略高于或等于最大变量值,以免在分组中产生遗漏。

数据科学分析与统计_第15张图片

 组数与组距的确定,要力求能够将总体分布的特点反映出来。由于全距是既定的,在等距分组情况下,组距和组数存在相互制约的关系:

组距=全距/组数组距

需要注意:根据上式计算的只能是一个参考数。

重叠式组限:相邻两组中,小组的上限和大组的下限是同一数值。适用于连续型变量分组。

不重叠组限:相邻两组中,小组的上限和大组的下限是两个衔接的整数,中间无其他整数。适用于离散型变量分组。    

开口组的组中值可由相邻的组距推算所缺的组限:      

所缺下限=上限-邻组组距      

所缺上限=下限+邻组组距

4.3、数据分配

在数据分组的基础上,把总体的所有单位按组归并排列,形成总体中各个单位在各组间的分布。也称分布数列或次数(频数)分布。分配数列是在分组的基础上加上频数的分布的 

 ①  组别:  x  

 ②  权数 :  次数(频数)f           比重(频率)f/∑f

 

数据科学分析与统计_第16张图片

数据科学分析与统计_第17张图片

各组的组距完全相等的分组称为等距数列 各组的组距不完全相等的分组称为不等距数列。一般而言,若各单位变量值分布较均匀,则编制等距数列;若变量值分布不均匀,则编制不等距数列。

累计次数与累计频数

向上累计:从变量值低的组开始,将各组次数(频率)逐次向变量值高的组累计,说明各组上限以下的单位数是多少。

向下累计:从变量值高的组开始,将各组次数(频率)逐次向变量值低的组累计,说明各组下限以上的单位数是多少。

销售额(百万元)

商店数

频率(﹪)

         累计次数

      累计频率(﹪)

向上累计

向下累计

向上累计

向下累计

5以下

5~10

10~15

15~20

20~25

25以上

4

10

16

13

4

3

8

20

32

26

8

6

4

14

30

43

47

50

50

46

36

20

7

3

8

28

60

86

94

100

100

92

72

40

14

6

合计

50

100

分配数列的次数分布类型

钟形分布    

“两头小,中间大” 即越靠近中间的变量值分布次数愈多;越远离变量值中点分布的次数愈少,形态如钟或山丘。

数据科学分析与统计_第18张图片

U形分布  

  “两头大,中间小”   较大和较小的变量值出现的次数多,而中间变量值出现的次数少。

数据科学分析与统计_第19张图片

J形分布  

  “一边大,一边小” 次数随着变量值的变化大多数集中在某一端的分布。

数据科学分析与统计_第20张图片

 

5、数据的静态分析指标

5.1 总量指标

反映某一现象总体在一定时间、地点、条件下的总规模或总水平的指标。其表现形式为绝对数,因而又称为绝对指标。它是计算相对指标和平均指标的基础。相对指标和平均指标是由两个有联系的总量指标对比而得到的,它们是总量指标的派生指标。总量指标准确与否,将直接影响相对指标和平均指标。

如:全国总人口:1 370 536 875人,香港特别行政区人口:7 097 600人,澳门特别行政区人口:552 300人。

从其内涵分析,包含指标名称、计算方法、时间限制、空间限制、指标数值和计量单位6个要素。

2017年房地产开发投资3101.97亿元,比上年增长13.3%。        

指标名称:房地产开发投资      

 计算方法:统计汇总        

时间限制:2017年1月1日至2017年12月31日这段时期        

空间限制:全国(不含港、澳、台)        

指标数值:3101.97、13.3%        

计量单位:亿元、百分数

 

总体内单位的总数——总体单位总量                                          职工人数

总体中各单位某一数量标志值的总和——总体标志总量             工资总额

注意:随着研究目的和研究对象的不同,总体单位总量和总体标志总量可以相互转化。

数据科学分析与统计_第21张图片

时期指标:在一段时期内发展过程的总和,某种产品的产量、商品销售额、工资总额、国民生产总值等都是时期指标。  

     ① 具有可加性       四季度的商品销售额等于一年的商品销售额

     ② 数值大小与时期长短有直接关系    时期长→数值大

     ③ 连续登记    经常性调查,企业年利润总额就是由每个月的利润额相加累计得来

时点指标:在某一时刻(时点)的总量指标,人口数、商品库存量、馆藏图书册数、外汇储备额等都是时点指标。

             ① 不具可加性      馆藏图书册数,上午5000册,下午5008册,数值相加无意义

             ② 数值大小与时间间隔长短无关    企业商品库存量

             ③ 间断计数      一次性调查,人口普查

5.2 相对指标

相对指标是质量指标的一种形式,是由两个有联系的指标,具体数值抽象化,进行对比所得,用于表明各种经济现象间的数量对比关系。如人口的性别比例和年龄构成、人口的出生率和死亡率、人口密度等都属于相对指标。

相对指标的基本公式:

数据科学分析与统计_第22张图片

例如,某企业去年实现利润50万元,今年实际55万元,今年利润增长了百分之十。

 

结构相对指标

是在总体分组的基础上,以总体内部各部分数值与总体数值之比,反映各部分在总体中所占的比重。结构相对指标一般用百分数表示。结构相对指标包括单位数结构和标志值结构。总体中各组(部分)比重之和必须等于100%。男职工所占比重。

作用:

① 可以揭示事物的基本特征;

② 可以反映事物的本质特征(由内部矛盾决定);

③ 从不同时期,可以看出事物的变化过程及其发展趋势

比例相对指标

反映总体中各组成部分之间数量对比关系的相对指标,也即同一总体内各个部分指标数值之比。男职工与女职工之比。

比较相对指标

将同类指标做静态对比求得的比值。它表明同类事物在不同空间条件下的数量对比关系。乙市场大米价格/甲市场大米价格。对比2003年中国与美国教育发展水平:美国人均教育经费 /  中国人均教育经费

 作用:

反映某种现象在同一时间不同空间条件下的差异程度。

用途:

①对比的两个指标必须是同一性质的,也就是必须是可比的;    

②可以是绝对数对比,也可以是相对数或平均数对比;  

③既可用于不同国家、地区、单位的比较,也可用于先进与落后的比较,还可用于和标准水平与平均水平的比较。

强度相对指标

两种不同总体、不同性质而有联系的总量指标的比值,表明现象的强度、密度、普遍程度。如:人口密度、商业网密度、医务人员密度、人均国内生产总值

强度相对指标:    两个 性质不同   而有联系      的分子、分母可互换,形成正指标和逆指标。

正指标:数值大小与现象间的密度、强度成正比例关系。

逆指标:数值大小与现象间的密度、强度成反比例关系。 一般来说,正指标越大越好,逆指标越小越好。

 

                              强度相对指标

                           平均指标

含义不同

两个有联系而性质不同的总体对比而形成相对数指标

反映同质总体单位标志值一般水平的指标

 反映问题不同

反映两不同总体现象形成的密度、强度、普遍程度

反映同一现象在同一总体中的一般水平

分子分母是否存在一一对应关系

分子分母是否为同一总体

分子分母是否可以互换

是(不是全部)

                                                                       

            数据科学分析与统计_第23张图片

计划完成程度相对指标

 

计划指标为绝对数(总量指标)时,基本公式为

 

计划指标为平均数时,计算公式为

 

计划指标为相对数时,计算公式为

数据科学分析与统计_第24张图片

6、数据的动态分析指标

动态相对指标也叫动态相对数,它指的是同类现象在不同时间上的指标数值对比的比率,表明同类事物在不同时间状态下的对比关系,说明现象在时间上的运动、发展和变化的相对程度。

注:对比标准的时期叫基期,通常选报告期的前期、某固定期作为基期。

       把用来和基期对比的时期叫做报告期,也叫计算期。

 

①结构相对指标        部分与总体的关系

②比例相对指标        部分与部分的关系

③比较相对指标        横向对比关系

④强度相对指标        关联指标间的关系

⑤计划完成相对指标      实际与计划的关系

⑥动态相对指标        纵向对比关系

另:①⑤⑥分子分母不可互换; ②③④分子分母可互换; ④带计量单位

 

7、数据动态分析一一时间数列模型

时间数列(动态数列、时间序列),是将同一经济指标数值按时间顺序排列而形成的数列。构成要素:时间  t  指标数值   a

                                                                           时间数列与变量数列的比较

数列名称

数列性质

变量性质

总体是否分组

时间数列

动态数列

针对总体的经济指标的变化状况

不分组

变量数列

静态数列

针对的是总体分组后频数的变化

分组

作用:

  •  从时间的变化过程中我们可以了解经济现象的一些 历史状况的变化
  • 可以立足现在对当前态势,通过编制的时间数列进 行分析
  • 可以展望未来并对今后进行经济预测,可以研究时 间数列中现象的发展方向等,为预测提供依据

数据科学分析与统计_第25张图片

数据科学分析与统计_第26张图片

                                                                                          总量指标时间数列

 

时期数列

时点数列

可加性

大小与时间关系

与时期长短有直接关系

与间隔长短有直接关系

取得方式

连续登记

间断登记

   

连续时点数列(在建楼盘数)

间断时点数列(年末人口数)

相对数时间数列是由一系列同类的相对指标,按时间的先后顺序加以排列而形成的数列。它反映社会经济现象之间相互对比关系的发展过程。

数据科学分析与统计_第27张图片

平均指标时间数列是指由一系列同类平均指标按时间先后顺序排列的时间数列。用来说明社会经济现象一般水平的变化过程或发展趋势。 平均指标时间数列主要分为两类: 

  • 静态平均指标时间数列        
  • 动态平均指标时间数列

时间数列的编制原则

  1. 时间长短应相等(间隔一致):时期数列——时期长短相等 时点数列——时间间隔相等
  2. 总体范围要一致:同一总体在不同时间上的变化
  3. 指标的经济内容应相同:不同时期指标数值所包含的经济内容应该相同
  4. 指标的计算方法、计算价格、计算单位应一致:口径一致

时间数列水平分析指标:发展水平、平均发展水平  (序时平均数)、增长量和平均增长量。

7.1、水平分析指标一一发展水平

发展水平是指时间数列中的每项指标数值,用来反映社会经济现象在各个时期或时点上所达到的规模或水平。

  • 发展水平是计算其它动态分析指标的基础。
  • 发展水平表现形式可以是绝对数、相对数或平均数。
  • 若为绝对数时,发展水平用ɑ表示。
  • 若为相对数或平均数时,发展水平用c表示。

序列:a0,a1,a2,...,an-1,an

按其所处的位置

最初水平 a0 , 中间水平a1 ,....,an-1 , 最末水平 an.

按其作用不同

报告期水平(被研究、被比较),基期水平(基准)

7.2、水平分析指标一一平均发展水平

平均发展水平又称序时平均数或动态平均数。它是时间数列中各个不同时期或时点上发展水平的平均数,用以表明现象在一段时间内发展变化的一般水平。

  • 平均发展水平是把社会经济现象在不同时间上的变动差异抽象化。
  • 从动态上说明现象在某一段时间内的一般水平。

静态平均数和动态平均数的计算原理相同。平均发展水平的计算方法,首先要判断所掌握的时间数列的类型。

指标性质

计算依据

平均对象

 作用

静态平均数

变量数列

各单位标志值

现象在同一时间上总体各单位的标志值的一般水平

动态平均数

时间数列

各时间发展水平

现象在各个时间上发展的一般水平

总量指标时间数列

若为时期数列,采用简单算术平均法:

若为时点数列,

根据连续时点数列计算平均发展水平

①逐日登记的连续时点数列,用简单算术平均法

②分组情况下的连续时点数列,以数值持续的天数为权数进行加权算术平均(式中 f  为天数):

根据间断时点数列计算平均发展水平

①间隔相等的间断时点数列,采用首尾折半法:

数据科学分析与统计_第28张图片

②间隔不等的间断时点数列,采用加权算术平均法:

数据科学分析与统计_第29张图片

数据科学分析与统计_第30张图片

时间

间隔

1-4月

5-7月

8-12月

4

3

5

数据科学分析与统计_第31张图片

不同动态数列对应的平均发展水平的计算方法:

数据科学分析与统计_第32张图片

相对指标时间数列

相对指标时间数列计算序时平均数时是不能采用简单算术平均的方法来求解。由于该数列派生于两个有联系的总量指标时间数列,因此,求其平均发展水平,可先根据分子、分母的总量指标时间数列的性质,分别计算它们的平均发展水平,再进行对比,即可得到所求的相对指标时间数列的平均发展水平。相对指标是不能直接相加的。

数据科学分析与统计_第33张图片

  •  分子、分母都是时期数列
  • 分子、分母都是时点数列
  • 分子是时期、分母是时点数列

平均指标时间数列

平均指标可分为静态平均指标和动态平均指标

静态平均指标时间数列      

实质上也是两个总量指标时间数列相对比所形成的。因此,其平均发展水平的计算与相对指标时间数列平均发展水平的计算完全相同。

动态平均指标时间数列      

根据情况不同而定,如果时期相等,可用简单算术平均数计算,如果时期不等,可用时期长度作为权数进行加权平均的计算。

 

7.3、水平分析指标一一增长量

增长量是报告期发展水平与基期发展水平之差,用以说明社会经济现象在一定时期内增减变化的绝对数量。

增长量=报告期水平—基期水平         其值可以大于、等于或小于0

根据基期的不同,可分为:

                  

逐期增长量和累计增长量之间的关系

累计增长量等于相应的各个逐期增长量之和

相邻两个累计增长量之差等于相应的逐期增长量

7.4、水平分析指标一一平均增长量

平均增长量是指现象在一定时期内平均每期增长的数量。它是逐期增长量的平均数。由于各个逐期增长量之和等于累计增长量,所以也可以用累计增长量除以时间数列的项数减1(逐期增长量的个数)求得。

 数据科学分析与统计_第34张图片

7.4、速度分析指标一一平均增长量 

动态数列速度分析指标:发展速度、增长速度、平均发展速度、平均增长速度、增长1%的绝对值

发展速度是数列中报告期水平与基期水平之比,表明现象发展变化的方向和程度。其值可大于、等于或小于1。

按基期不同:环比发展速度,                                                定基发展速度

        数据科学分析与统计_第35张图片

 

你可能感兴趣的:(数学,概率论,大数据,机器学习,人工智能,数据分析)