uci数据集_有关葡萄酒质量的数据分析

uci数据集_有关葡萄酒质量的数据分析_第1张图片

将会使用NumPy 、 Pandas 以及 Matplotlib 做具体分析。

一、数据来源

来自 UCI 机器学习实验室的葡萄酒质量数据集:

Wine Quality Data Set​archive.ics.uci.edu

数据集是关于红葡萄酒样品的物理化学性质和质量等级。

二、数据集介绍

有两个数据集,提供了有关葡萄牙“青酒”的红葡萄酒和白葡萄酒变体的样本信息。每种样本都由专家做了质量评级,并进行了理化指标检验。包含以下12个字段:

  1. fixed acidity 固定酸度
  2. volatile acidity 挥发性酸度
  3. citric acid 柠檬酸
  4. residual sugar 残糖
  5. chlorides 氯化物
  6. free sulfur dioxide 游离二氧化硫
  7. total sulfur dioxide 总二氧化硫
  8. density 密度
  9. pH pH值
  10. sulphates 硫酸盐
  11. alcohol 酒精度
  12. quality 质量 - 0 到 10 之间的得分(葡萄酒专家至少 3 次评估的中值)

三、提出问题

  1. 哪些化学特性在预测葡萄酒质量方面最为重要?
  2. 是否特定类型的葡萄酒(红葡萄酒或白葡萄酒)的品质更高?
  3. 酒精含量更高的葡萄酒是否获得的评价更高?
  4. 味道更甜(残糖更多)的葡萄酒是否获得的评价更高?
  5. 什么水平的酸度(pH 值)代表质量更高?

对应以下分析思路:

  1. 查看各化学特性质量评分的相关性,找出那些化学特性会对葡萄酒质量有较大影响;
  2. 使用红葡萄酒和白葡萄酒的总体得分来比较得出结论;
  3. 观察酒精度质量评分的关系;
  4. 观察残糖量质量评分的关系;
  5. 质量评分高的时候,pH值集中在哪个区间。

四、探索数据

uci数据集_有关葡萄酒质量的数据分析_第2张图片

红葡萄酒的样本共有1599个。

uci数据集_有关葡萄酒质量的数据分析_第3张图片

白葡萄酒的样本共有4898个。

每个数据集中有12列。

uci数据集_有关葡萄酒质量的数据分析_第4张图片

uci数据集_有关葡萄酒质量的数据分析_第5张图片

数据集中没有缺失值。

uci数据集_有关葡萄酒质量的数据分析_第6张图片

红葡萄酒数据集中有240个重复行,白葡萄酒中有937个重复行。

uci数据集_有关葡萄酒质量的数据分析_第7张图片

红葡萄酒数据集中6个质量唯一值,白葡萄酒数据集中有7个质量唯一值。

五、合并数据集

uci数据集_有关葡萄酒质量的数据分析_第8张图片

5.1 创建颜色列

uci数据集_有关葡萄酒质量的数据分析_第9张图片

uci数据集_有关葡萄酒质量的数据分析_第10张图片

5.2 使用append组合数据框(注意和merge的区别)

uci数据集_有关葡萄酒质量的数据分析_第11张图片

5.3 保存已组合的数据集

uci数据集_有关葡萄酒质量的数据分析_第12张图片

六、使用可视化探索数据

uci数据集_有关葡萄酒质量的数据分析_第13张图片

6.1 各个特征的直方图

uci数据集_有关葡萄酒质量的数据分析_第14张图片

uci数据集_有关葡萄酒质量的数据分析_第15张图片

uci数据集_有关葡萄酒质量的数据分析_第16张图片

uci数据集_有关葡萄酒质量的数据分析_第17张图片

固定酸度、pH值和酒精度出现了右偏态。

6.2 质量与各个特征的散点图

uci数据集_有关葡萄酒质量的数据分析_第18张图片

uci数据集_有关葡萄酒质量的数据分析_第19张图片

uci数据集_有关葡萄酒质量的数据分析_第20张图片

uci数据集_有关葡萄酒质量的数据分析_第21张图片

酒精度最有可能对质量产生积极的影响。

七、使用groupby得出结论

uci数据集_有关葡萄酒质量的数据分析_第22张图片

uci数据集_有关葡萄酒质量的数据分析_第23张图片

白葡萄酒的平均质量较红葡萄酒的高。

uci数据集_有关葡萄酒质量的数据分析_第24张图片

0020bcad48a35e2d6baa3048a903105a.png

uci数据集_有关葡萄酒质量的数据分析_第25张图片

8ebd9c4fcaccf0f357f16b4a459a731e.png

uci数据集_有关葡萄酒质量的数据分析_第26张图片

uci数据集_有关葡萄酒质量的数据分析_第27张图片

低酸度水平得到的评分相对较高。

八、使用Query得出结论

uci数据集_有关葡萄酒质量的数据分析_第28张图片

uci数据集_有关葡萄酒质量的数据分析_第29张图片

酒精含量高时评分较高。

uci数据集_有关葡萄酒质量的数据分析_第30张图片

口感偏甜是评分较高。

九、用 Matplotlib 绘图

uci数据集_有关葡萄酒质量的数据分析_第31张图片

uci数据集_有关葡萄酒质量的数据分析_第32张图片

uci数据集_有关葡萄酒质量的数据分析_第33张图片

uci数据集_有关葡萄酒质量的数据分析_第34张图片

uci数据集_有关葡萄酒质量的数据分析_第35张图片

uci数据集_有关葡萄酒质量的数据分析_第36张图片

uci数据集_有关葡萄酒质量的数据分析_第37张图片

十、使用 Matplotlib 绘制酒的类型和质量视图

10.1 为红葡萄酒条柱高度和白葡萄酒条柱高度创建数组

uci数据集_有关葡萄酒质量的数据分析_第38张图片
  • 颜色和质量等级的每个组合有一个条柱。每个条柱的高度基于这个颜色与这个质量等级的样本的比例。
  • 1. 红葡萄酒条柱比例 = 每个质量等级的数量 / 红葡萄酒样本的总数
  • 2. 白葡萄酒条柱比例 = 每个质量等级的数量 / 白葡萄酒样本的总数

uci数据集_有关葡萄酒质量的数据分析_第39张图片

uci数据集_有关葡萄酒质量的数据分析_第40张图片

uci数据集_有关葡萄酒质量的数据分析_第41张图片

10.2 在柱状图上绘制比例

设置每个等级组的 x 坐标位置和每个条柱的宽度。

68c68a54bce16b15c52f0e6ffbbc9495.png

uci数据集_有关葡萄酒质量的数据分析_第42张图片

uci数据集_有关葡萄酒质量的数据分析_第43张图片

你可能感兴趣的:(uci数据集)