红酒、白酒数据集分析——案例(1)

详见:red_white_wine_quality数据集分析

(一)数据集概览
有两个样本:
winequality-red.csv:红葡萄酒样本 red-wine 数据集
winequality-white.csv:白葡萄酒样本 white-wine 数据集
每个样本都有得分从1到10的质量评分,以及若干理化检验的结果

# 理化性质 字段名称
1 固定酸度 fixed acidity
2 挥发性酸度 volatile acidity
3 柠檬酸 citric acid
4 残糖 residual sugar
5 氯化物 chlorides
6 游离二氧化硫 free sulfur dioxide
7 总二氧化硫 total sulfur dioxide
8 密度 density
9 PH值 pH
10 硫酸盐 sulphates
11 酒精度 alcohol
12 质量 quality

(二)问题提出

  • 根据此数据集中的列的直方图,以下哪个特征变量显示为右偏态?固定酸度、总二氧化硫、pH 值、酒精度
  • 根据质量对不同特征变量的散点图,以下哪个最有可能对质量产生积极的影响?_挥发性酸度、残糖、pH 值、酒精度
  • 某种类型的葡萄酒(红葡萄酒或白葡萄酒)是否代表更高的品质?
  • 哪个酸度水平的平均评分最高?
  • 酒精含量高的酒是否评分较高?
  • 口感较甜的酒是否评分较高?

(三)分析步骤

  • 导入数据和库依赖import

  • 修改不规范的列名rename

  • 合并数据集append

  • 基本数据分析:列数、缺失值统计、重复行统计duplicated、唯一值数量unique、平均值mean等等

  • 保存修改后的数据集to_csv

  • 可视化探索plot:绘制柱状图plot.hist、查看偏态skew、子图plt.subplots

  • 分组并绘图:groupby

你可能感兴趣的:(Python之数据可视化,数据分析)