机器学习数据探索中的画图汇总-变量相关性-异常值-数据分布散点图-直方图-KDE核密度曲线-QQ图-小提琴图-相关系数热力图-箱型图

双变量的相关性图

  • 双变量的散点图
    连续型+连续型
    两个变量是否线性相关 or 其他非线性关系。
    plt.scatter()

  • 小提琴图
    类别型+连续性
    结合箱型图+密度图
    双变量分析,横轴是不同类别,纵轴是连续变量的分布情况。
    sns.violinplot()【import seaborn as sns】

所有变量的相关性分析图

  • 热力图
    先算出所有变量的相关系数矩阵,根据这个矩阵画出热力图。
    sns.heatmap(corr_matrix)

异常值分析的图

  • 箱型图
    plt.boxplot(dataframe, labels=dataframe.columns)
    sns.boxplot()
  • 异常值分析倒是也可以用散点图直接看出来。

查看连续性变量分布的图

作用:

  1. 训练集和测试集的分布是否一致?
  2. 变量是否是正太分布的?
  • 直方图
    plt.hist()
  • kde核密度估计图
    可以看作直方图的加窗平滑。
    sns.kdeplot():只有kde曲线
    sns.distplot():kde曲线+直方图
  • QQ图
    用来看数据是否符合一个分布,符合的话,QQ图的点应该都在直线上。
    scipy.stats.probplot()

查看离散变量分布的图

频率分布图

线性回归关系图

主要用于分析变量之间的线性回归关系。一般是看 所有特征变量 和 target 之间是否有线性关系。
sns.regplot()

下面是一些图举例

散点图,双连续变量,线性关系分析。
机器学习数据探索中的画图汇总-变量相关性-异常值-数据分布散点图-直方图-KDE核密度曲线-QQ图-小提琴图-相关系数热力图-箱型图_第1张图片
小提琴图,连续+离散变量 分析。
机器学习数据探索中的画图汇总-变量相关性-异常值-数据分布散点图-直方图-KDE核密度曲线-QQ图-小提琴图-相关系数热力图-箱型图_第2张图片
箱型图的异常值分析。
机器学习数据探索中的画图汇总-变量相关性-异常值-数据分布散点图-直方图-KDE核密度曲线-QQ图-小提琴图-相关系数热力图-箱型图_第3张图片
散点图也可以做异常值分析。
机器学习数据探索中的画图汇总-变量相关性-异常值-数据分布散点图-直方图-KDE核密度曲线-QQ图-小提琴图-相关系数热力图-箱型图_第4张图片
机器学习数据探索中的画图汇总-变量相关性-异常值-数据分布散点图-直方图-KDE核密度曲线-QQ图-小提琴图-相关系数热力图-箱型图_第5张图片

kde + 直方图(左),QQ图(右)
机器学习数据探索中的画图汇总-变量相关性-异常值-数据分布散点图-直方图-KDE核密度曲线-QQ图-小提琴图-相关系数热力图-箱型图_第6张图片
分析每一个特征变量是不是正太分布。
机器学习数据探索中的画图汇总-变量相关性-异常值-数据分布散点图-直方图-KDE核密度曲线-QQ图-小提琴图-相关系数热力图-箱型图_第7张图片
用kde图分析 训练集、测试集 的分布是否一致。
机器学习数据探索中的画图汇总-变量相关性-异常值-数据分布散点图-直方图-KDE核密度曲线-QQ图-小提琴图-相关系数热力图-箱型图_第8张图片

线性回归关系图
机器学习数据探索中的画图汇总-变量相关性-异常值-数据分布散点图-直方图-KDE核密度曲线-QQ图-小提琴图-相关系数热力图-箱型图_第9张图片
热力图 分析 所有特征变量之间 以及 所有特征变量和 target 的相关性。
机器学习数据探索中的画图汇总-变量相关性-异常值-数据分布散点图-直方图-KDE核密度曲线-QQ图-小提琴图-相关系数热力图-箱型图_第10张图片
查看做Box-Cox变换前后的分布情况。
机器学习数据探索中的画图汇总-变量相关性-异常值-数据分布散点图-直方图-KDE核密度曲线-QQ图-小提琴图-相关系数热力图-箱型图_第11张图片

你可能感兴趣的:(机器学习,python,深度学习)