数据分析之Correlation Heatmaps绘制

当做数据分析,或者数据挖掘,来做二分类或者多目标分类任务时,需要分析目标和其他数据的相关性

kaggle经典项目Titanic就是通过数据来进行生存率的预测,在数据处理时采用了Correlation Heatmaps的方法。处理结果如下图

数据分析之Correlation Heatmaps绘制_第1张图片

其他项目中的相关性热力图处理后的效果

数据分析之Correlation Heatmaps绘制_第2张图片

在其他文章中详细介绍了如何使用python中的seaborn库来绘制热力图,其热力图效果如下所示。介绍的非常详细,可以尝试进行使用。

数据分析之Correlation Heatmaps绘制_第3张图片
数据分析之Correlation Heatmaps绘制_第4张图片
数据分析之Correlation Heatmaps绘制_第5张图片

其他文章中,介绍了一种我比较喜欢的风格,大家也可以进行学习

数据分析之Correlation Heatmaps绘制_第6张图片

接下来,介绍我在kaggle中发现使用r语言官方库提供的corr heatmaps的绘制,我很喜欢的风格。完成效果如下。软件包的各种花里胡哨的画法在https://blog.csdn.net/gavin_cdc/article/details/102608232/中也有详细介绍。

数据分析之Correlation Heatmaps绘制_第7张图片

其中遇到的问题包括出现❓的情况,经过排查,是数据中有缺失值导致的。使用处理语句如下

raw.data <- read.csv("xxx/xxx") #读入数据,数据格式为dataframe
raw.data <- na.omit(raw.data) #删除数据中缺失值的行

完成后,快速画图

library(corrplot) #加载库
correlations <- cor(raw.data,method="pearson")  #进行相关分析
corrplot(correlations, number.cex = .9, method = "circle", type = "full", tl.cex=0.8,tl.col = "black")  #绘图

你可能感兴趣的:(相关性热力图,数据分析)