数据可视化分析----了解数据特征

1、 变量的类型

首先判断变量的类型,变量可以分为数值变量分类变脸

数据分类

2、 变量间的关系

然后,对于数值变量可以利用统计学方法做一些探索性分析,如考量数据的集中趋势可以计算均值、中位数等;想考量数据的分散趋势则可以计算值域、方差等

数据集中趋势的测量:均值、中位数、众数

数据分散趋势的测量:值域(最大值-最小值)、方差、标准差、四分位距

是否稳健统计量:(受极端值影响是否大)
是:中位数、四分位差
否:均值、标准差、值域

3、 变量的可视化

接下来,可以考虑将数据可视化展现。考虑不同的情况可以用以下图表来展示:

(1) 数值变量

一个变量:的可视化:直方图、点图、箱图

两个变量:考察两个变脸之间的关系:关联表、相对频率表、分段条形图、相对频率分段条试图、马赛克图;

(2) 一个分类变量+一个数值变量:

并排箱图

4、最后,就根据自己的分析目标再做具体的特定分析和可视化展示

以上思路仅供参考,针对不同的案例有不同的思路。

内容参考来源:慕课--R语言可视化分析

你可能感兴趣的:(数据可视化分析----了解数据特征)