R-因子分析的应用

 

摘要

了解各个地区的教育水平对提升国民素质及建设美好社会主义中国有着极大的作用。本文对中国各省市就业人员受教育水平进行研究,使用了2015年全国31个省份的就业人员受教育程度的数据,运用因子分析方法对影响其教育水平的因素进行分析,选取了3个主要因子,并合理解释了全国各个地区就业人员受教育水平在各个因子上的得分,给出了全国各个省份就业人员受教育水平的综合评价,愿为因子分析法在实际生活中的应用提供依据。

关键词:就业人员受教育水平、因子分析法

Abstract

Understanding the educationallevel of various regions plays a great role in improving the quality of thepeople and building a better socialist China. This paper studies theeducational level of the employment personnel in various provinces and citiesin China, uses the data of the educational level of the workers in 31 provincesin 2015, analyzes the factors affecting their educational level by means offactor analysis, selects 3 main factors, and understands the education of theemployment personnel in all regions of the country. The score of the level oneach factor gives the comprehensive evaluation of the educational level of theemployment personnel in all provinces of the country, and is willing to providethe basis for the application of factor analysis in the actual life.

Keywords:Theeducational level and factor analysis method of the employment personnel



现如今,随着经济多元化的不断发展,各层岗位所需要的人才也不断的多元化,各省份就业人员的文化水平参差不齐。为了更好的了解各省份就业人员整体文化水平,本文以2015年劳动力调查资料中各省份就业人员文化水平所占比例的数据为例,使用因子分析法对各省份从业人员文化水平进行了综合分析,得出了北京、上海、天津、江苏、广东地区的就业人员文化程度普遍高于其他地区。

二、          因子分析简介

2.1 基本思想:

因子分析同主成分分析一样,它也是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。其基本思想是根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,不同组的变量间相关性则较低。

因子分析不仅可以帮助我们对复杂的经济问题进行分析和解释,还可用于对变量或样品进行分类处理。本文以R型因子分析(即研究变量间的相关关系)出发,对所给出的问题进行分析、解释及分类。

2.2 模型理论:

假设由n个样品,每个样品观测值p个指标,这p个指标之间具有较强的相关性。为了便于研究,对样本观测数据进行标准化处理。使标准化后的变量均值为0,方差为1。为方便,将原始变量及标准化变量均用向量X表示,用表示标准化的公共因子(F为隐变量,不可观测,且均值为0,协方阵为单位阵),此外,还假设是相互独立的。则有以下模型:

 

矩阵可表示为  

其中,                 

2.3因子分析基本步骤

⑴根据研究问题选取原始变量;

⑵对原变量进行标准化并求其相关阵,分析变量之间的相关性;

⑶求解初始公共因子及因子载荷矩阵(如主成分法、主轴因子法、极大似然法等);

⑷因子旋转(必要的时候可进行);

⑸计算因子得分;

⑹根据因子得分值进一步分析。

三、          案例分析

下面是全国31个省份的就业人员受教育程度(百分比)统计,即一百个就业人员中,各种学历的人员所占的比例,数据来源于2015年劳动力调查资料,为了操作方便,我们对数据做了一些处理,删除了一些指标。我们的目的是利用因子分析把31个省份归类,看看哪些省份的就业人员有着相似比率的受教育程度。方便我们更好选择就业城市。

 

 

 

3.1 数据及指标解释

地区

x1

x2

x3

x4

x5

x6

x7

x8

x9

北京

0.2

3

21.5

13.6

7.3

1.9

19.8

26.8

6.1

天津

0.5

8.4

33.5

12.1

9.8

1.3

14.8

17.3

2.3

河北

1.3

13.6

49.4

13.6

5.2

1.1

9.2

6

0.5

山西

1.3

11.6

47.5

13

4.9

0.9

10.9

9.1

0.8

内蒙古

2.4

17.7

45.2

12.5

3.4

0.8

10.2

7.6

0.3

辽宁

0.5

12.7

50.3

10.1

5.1

1.4

9.8

9.3

0.9

本文数据来源于《中国统计年鉴2015》,上述只展示了经处理的前几行数据,具体原数据详见附录。其中,

X1——为上过学;          x2——小学;

X3——初中;              x4——高中;

X5——中等职业教育;        x6——高等职业教育;

X7——大学专科;          x8——大学本科;

X9——研究生.

3.2计算运行结果

3.2.1 读入数据

> mydata <- read.csv(file.choose('education.csv'))
> attach(mydata)
> head(mydata)  

 

 

  地区  x1   x2   x3   x4  x5  x6   x7   x8  x9
1   北京 0.2  3.0 21.5 13.6 7.3 1.9 19.8 26.8 6.1
2   天津 0.5  8.4 33.5 12.1 9.8 1.3 14.8 17.3 2.3
3   河北 1.3 13.6 49.4 13.6 5.2 1.1  9.2  6.0 0.5
4   山西 1.3 11.6 47.5 13.0 4.9 0.9 10.9  9.1 0.8
5 内蒙古 2.4 17.7 45.2 12.5 3.4 0.8 10.2  7.6 0.3
6   辽宁 0.5 12.7 50.3 10.1 5.1 1.4  9.8  9.3 0.9
#计算相关阵
>r <- cor(scale(mydata[,-1])); r

 

  x1         x2          x3         x4          x5         x6
x1  1.0000000  0.7303868 -0.58210264 -0.7266064 -0.53040056 -0.6134866
x2  0.7303868  1.0000000 -0.25785170 -0.7334589 -0.72672006 -0.6840356
x3 -0.5821026 -0.2578517  1.00000000  0.3661459 -0.02643989  0.1504135
x4 -0.7266064 -0.7334589  0.36614590  1.0000000  0.44341872  0.7154409
x5 -0.5304006 -0.7267201 -0.02643989  0.4434187  1.00000000  0.6063987
x6 -0.6134866 -0.6840356  0.15041352  0.7154409  0.60639871  1.0000000
x7 -0.4076279 -0.7499635 -0.36459518  0.4065892  0.63640827  0.4968509
x8 -0.3320995 -0.6566241 -0.47734047  0.2718571  0.62871207  0.4120036
x9 -0.2724071 -0.5921219 -0.49823358  0.2173291  0.59530784  0.4256475
           x7         x8         x9
x1 -0.4076279 -0.3320995 -0.2724071
x2 -0.7499635 -0.6566241 -0.5921219
x3 -0.3645952 -0.4773405 -0.4982336
x4  0.4065892  0.2718571  0.2173291
x5  0.6364083  0.6287121  0.5953078
x6  0.4968509  0.4120036  0.4256475
x7  1.0000000  0.9456458  0.8577081
x8  0.9456458  1.0000000  0.9487681
x9  0.8577081  0.9487681  1.0000000

由相关系数阵可知其大多数简单相关系数是大于0.3的,由此我们可以进行因子分析。

3.2.2 求解公共因子及载荷矩阵(主成分法)

1)主成分选取

> mydata.pr <- princomp(scale(mydata[,-1]))
> summary(mydata.pr)

 

Importance of components:
                            Comp.1    Comp.2     Comp.3     Comp.4
Standard deviation     2.228114 1.5171842 0.70706911 0.64670310
Proportion of Variance 0.569997 0.2642862 0.05740129 0.04801841
Cumulative Proportion  0.569997 0.8342833 0.89168458 0.93970299
                           Comp.5     Comp.6     Comp.7      Comp.8
Standard deviation     0.48607383 0.41181881 0.32048415 0.128706142
Proportion of Variance 0.02712704 0.01947199 0.01179264 0.001901939
Cumulative Proportion  0.96683003 0.98630202 0.99809466 0.999996600
                             Comp.9
Standard deviation     5.441946e-03
Proportion of Variance 3.400215e-06
Cumulative Proportion  1.000000e+00
 
#勾画碎石图
> screeplot(mydata.pr, main = '碎石图', type = 'l', lwd = 2)

由方差贡献表知当选择前三个主成分时,其累积方差贡献率达到 89.2%(>85%)。此外,由碎石图可知从第三个方差变化的趋势已渐平稳,因此,我们选择前三个主成分。

2)计算因子载荷阵

>library(psych) 
> pc <- principal(r, nfactors = 3, rotate = 'none')
> pc$loadings
Loadings:
   PC1    PC2    PC3   
x1 -0.702  0.591  0.234
x2 -0.918  0.233  0.139
x3        -0.944 -0.288
x4  0.686 -0.538  0.298
x5  0.813              
x6  0.763 -0.298  0.487
x7  0.877  0.379       
x8  0.832  0.517 -0.132
x9  0.787  0.543       
 
                PC1   PC2   PC3
SS loadings    5.13 2.379 0.517
Proportion Var 0.57 0.264 0.057
Cumulative Var 0.57 0.834 0.892
通过因子载荷阵发现,未旋转的公共因子的实际意义并不好解释,其在各成分的载荷系数差别不大,因此,为更好的分析判别,我们有必要对公共因子进行方差最大化旋转。
3)因子旋转(即方差最大化因子旋转) 
> pc1 <- principal(r, nfactors = 3, rotate = 'varimax')
> pc1$loadings
Loadings:
      RC1    RC3    RC2   
x1 -0.291 -0.455 -0.778
x2 -0.630 -0.498 -0.521
x3 -0.462  0.156  0.859
x4  0.155  0.813  0.405
x5  0.661  0.394  0.270
x6  0.295  0.896  0.134
x7  0.919  0.271       
x8  0.975  0.153       
x9  0.936  0.162 -0.126
 
                 RC1   RC3   RC2
SS loadings    3.916 2.221 1.888
Proportion Var 0.435 0.247 0.210
Cumulative Var 0.435 0.682 0.892
我们很清楚的看到各主成分因子实行了两极分化,即新的因子载荷系数要么尽可能的接近于0,要么尽可能的接近于1,这样更能便于我们分析问题。

由旋转后的因子载荷矩阵可看出,公共因子F1在 x5(中等职业教育),x7(大学专科),x8(大学本科),x9(研究生)上载荷值都很大,在一定程度上反应了高等教育;而公共因子F2在x4(高中),x6(高等职业教育)的载荷较大,在此因子上反应了中等教育;对于公共因子F3,其在x1(未上过学), 在x2(小学),x3(初中)的载荷较大,则反应了初等教育(包括未受过教育),在这个方面因子上的得分越高,表明该省市就业人员文化水平较低,一定程度上反应了其教育资源有所匮乏,也在一定程度上反应了该省市比较落后的经济水平。

4)计算综合因子得分并排序
> W <- as.matrix(pc1$weights)
> X <- as.matrix(scale(mydata[,-1]))
> P <- X%*%W
> pc.rank <- function(F){
+   F1 = P[,1]
+   F2 = P[,2]
+   F3 = P[,3]
+   F = (0.57*F1+0.264*F2+0.057*F3)/0.892
+   F.rank = rank(-F)
+   result = cbind(F1, F2, F3, -F, F.rank)
+   return(result)
+ }
> pc.rank(F)        

   

            F1          F2            F3                      F.rank
 [1,]  3.49966630  0.61640350 -1.06899610 -2.350456883      1
 [2,]  2.10798877 -0.37441302  0.51224932 -1.268953783      3
 [3,] -0.17520540 -0.13803644  1.11990150  0.081249232     15
 [4,]  0.39214784 -0.78261582  1.30315753 -0.102235055      8
 [5,] -0.06679056 -0.80629340  0.82216454  0.228776567     21
 [6,]  0.24573412 -0.46700613  1.17065646 -0.093616867      9
 [7,] -0.64077476  0.73374032 -0.05071280  0.195543496     19
 [8,] -0.27684834 -0.01526615  0.87632180  0.125429903     16
 [9,]  2.70399200  0.05535172 -0.33408426 -1.722920956      2
[10,] -0.01944532  1.82624933 -0.57546749 -0.491305315      4
[11,]  0.22346389  0.38317856 -0.28247917 -0.238152742      6
[12,] -0.28500693 -1.21172171  0.43524582  0.512936624     27
[13,]  0.06395090 -0.35571897  0.26810817  0.047282095     14
[14,] -0.75156486  0.48514478  0.15405846  0.326830059     24
[15,] -0.36256328  0.64888330  0.52426580  0.006135346     12
[16,] -0.70144561  0.37720770  0.77624523  0.286990123     22
[17,] -0.30790151  0.92240564 -0.16307277 -0.065825199     10
[18,] -0.56653155  0.40763466  0.34155270  0.219550368     20
[19,] -0.68887713  3.05256165 -0.67564016 -0.420072673      5
[20,] -0.32297963 -0.48522098  0.91669665  0.291418180     23
[21,] -0.39404141  0.01123883  0.95981877  0.187137759     18
[22,] -0.17324784  0.43999563 -0.65313455  0.022220951     13
[23,] -0.74539468 -0.01588454 -0.56882973  0.517367470     28
[24,] -0.64733525 -1.65458547 -0.28132063  0.921330643     30
[25,] -0.59336609 -1.51451586 -0.23491061  0.842422377     29
[26,] -0.73664299 -1.46254300 -4.13638864  1.167905838     31
[27,] -0.52390478  1.35845021 -0.19757762 -0.054644854     11
[28,] -0.63545478 -0.01725606 -0.64977938  0.452693108     26
[29,] -0.09094485 -1.18370509 -0.48647443  0.439535598     25
[30,]  0.02176722 -0.54644248 -0.09943017  0.154171547     17
[31,]  0.44755649 -0.28722068  0.27785577 -0.218742957      7
 

由综合因子得分排序(F.rank),我们可看出排名前五的省份依次是北京、上海、天津、江苏、广东;排名末尾的五位分别为西藏、贵州、云南、四川、安徽。这表明对于受过高等教育的人员来说,他们更倾向于选择经济发达省市就业(例如北上广)以增加自己的就业实力,同时可看出这些省市就业压力之大;然而,对于较不发达的省市(如云、贵、藏等),它们就业人员中,其受教育程度相对北上广等省市就低得多,这也表明其经济水平相对落后状况,同时反应了一个省市经济实力是否发达,可在一定程度上由其受教育程度直接反应出。

5)总结

⑴  省份的经济实力作用于教育,而教育在一定程度上反作用于经济。拿北京和西藏两个省份来说,对于北京,其就业人员受教育程度明显比西藏要高,相比西藏,其经济实力明显雄厚,更能吸引更多的知识分子前去就业。对于西藏,无论是从经济方面还是从教育方面考虑,都相对落后,因此有待加强。

⑵  选择地方就业应结合自身实力。例如,选择在发达的省份就业的人除了要考虑自身技能以外,还需考虑自己的受教育水平。以北京为例,北京是一座动感城市,其各种竞争压力都很大。如果你想去北京工作,教育是衡量一个人是否优秀的硬指标。刚才前面提到,经济的发达程度与教育是相关联的。对于北京来说,其教育资源丰富,市民所受教育程度比较高。因此,如果你想去北京就业,拥有一个良好的教育背景是非常有必要的,它不仅能够增加你的就业竞争实力,更能够为你以后幸福生活奠定了基础。

⑶ 中国教育发展不平衡,国家应重视西部教育。由综合因子得分排名可知排名偏末的大都是西部地区,其中就有西藏、甘肃、贵州、云南、青海等省份。这些省份的就业人员中,其接受教育程度相对较低,有的甚至并没有接受过教育。而相比那些比较发达的省份,例如北京、上海、天津、广州等等,其就业人士所接受的教育程度至少为小学教育,有的甚至是研究生教育。由此可看出,仅在教育程度上,我国东西部差距之大(其他方面本文现不考虑)。因此,为了让每一个人享受知识,进而共同实现中国梦,民族梦,富强梦,那么国家重视西部教育就很有必要。

四、          结论

本文简单介绍了因子分析法的基本思想及实现步骤,以全国各省份就业人员的文化水平数据为例,运用了因子分析法对原始9个变量求解公共因子,合理地选取了3个公共因子,即高等教育、中等教育、初等教育,并计算了各省份就业人员整体文化水平的因子得分,合理的评价了各地区就业人员的文化水平,并提出了一些建议与看法。

附录

全国各省份就业人员受教育水平

单位: %

地区

未上过学

小学

初中

高中

中等职业教育

高等职业教育

大学专科

大学本科

研究生

北京1

0.2

3

21.5

13.6

7.3

1.9

19.8

26.8

6.1

天津2

0.5

8.4

33.5

12.1

9.8

1.3

14.8

17.3

2.3

河北3

1.3

13.6

49.4

13.6

5.2

1.1

9.2

6

0.5

山西4

1.3

11.6

47.5

13

4.9

0.9

10.9

9.1

0.8

内蒙古5

2.4

17.7

45.2

12.5

3.4

0.8

10.2

7.6

0.3

辽宁6

0.5

12.7

50.3

10.1

5.1

1.4

9.8

9.3

0.9

吉林7

1.2

20.9

43.1

13.9

3.7

1.4

7.6

7.8

0.4

黑龙江8

0.9

14

49.8

12.7

3.3

1.3

9.4

8.1

0.5

上海9

0.8

4.9

29.3

12.9

6.6

1.6

17.1

22

4.8

江苏10

2

13.1

40.6

13.6

5.6

2.1

12

10

0.9

浙江11

2.7

16.5

37.6

13.7

3.5

1.3

12.4

11.5

0.8

安徽12

7.4

20.6

45.2

8.9

3.9

0.8

7.3

5.6

0.4

福建13

3

20.3

41

11.2

5.6

1.1

8.8

8.5

0.6

江西14

2.7

20.6

44.8

14.1

4.1

1.2

7.2

5

0.4

山东15

2.7

14

47.9

13.1

6.1

1.5

8.3

5.9

0.5

河南16

2.4

14.6

51.2

13.8

4

1.3

7.6

4.8

0.4

湖北17

3.4

17.4

41.9

13.7

5.8

1.5

8.7

6.8

0.8

湖南18

2.2

17.9

44.7

15.2

3.9

1.1

8.2

6.2

0.4

广东19

0.9

12.8

42.7

17.4

6.6

2.3

9.8

6.9

0.6

广西20

1.7

19.2

50

9.3

5.1

1.3

8.1

5

0.4

海南21

2.5

14.1

50.8

12.1

5.3

1.3

7.7

5.9

0.3

重庆22

2.9

24.7

35.7

12.4

4.4

1.3

10.1

7.5

0.9

四川23

4.2

29.8

39

10

3.7

1.2

7

4.6

0.4

贵州24

8.7

32.2

40.3

5.6

3

0.7

5.3

4

0.2

云南25

6.1

34.3

39.7

5.7

3.5

0.8

4.9

4.6

0.4

西藏26

30.5

40.7

13.6

3

1.8

0.3

5.9

4

0.1

陕西27

2.7

14.7

45.5

13.8

3.9

1.8

10

6.8

0.8

甘肃28

5.6

27.7

36.9

11.8

3.7

1

6.8

6.2

0.4

青海29

7.2

27.5

35

8.9

2.8

0.7

9.9

7.8

0.2

宁夏30

6.1

19.8

38.8

11.5

3.7

0.9

10.7

8.3

0.4

新疆31

2.2

16.9

41

10.6

5.1

1.3

12.3

9.9

0.8

 

——数据来源于2015年劳动力市场调查资料                                                        

你可能感兴趣的:(R-因子分析的应用)