缺失值

缺失值_第1张图片
夜夜夜夜

01、缺失值快速定位

格式:要定位的列[空缺的列]

> full$PassengerId[is.na(full$Fare)]
[1] 1044
> full$Name[is.na(full$Fare)]
[1] "Storey, Mr. Thomas"
缺失值快速定位

02、缺失值可视化

VIM包中提供了能可视化数据集中缺失值模式的函数:aggr函数

>a<-full$PassengerId[is.na(full$Age)]  
>length(a)
[1] 263       #263个缺失值

#可视化
library(VIM)  
aggr(full$Age,prop=FALSE,numbers=TRUE)  

红色表示缺失值的情况,蓝色表示非缺失值的情况


缺失值_第2张图片
缺失值263个

03、数据集缺失值

使用概率表示缺失状况

library(VIM)  
aggr(full,prop=TRUE,numbers=TRUE)

红色表示缺失值的概率,有两个变量缺失值比较严重。


缺失值_第3张图片
数据集缺失情况

检验一下
(1)survived变量缺失值有多少?

>a<-full$PassengerId[is.na(full$Survived)]  
>length(a)
[1] 418         #418个缺失值

(2)age变量缺失值有多少?

>a<-full$PassengerId[is.na(full$Age)]  
>length(a)
[1] 263       #263个缺失值

(3)Carbin变量是否真的没有缺失值?

>a<-full$PassengerId[is.na(full$Carbin)]  
>length(a)
[1] 0

你可能感兴趣的:(缺失值)