UCI数据集数据的分析 ——葡萄酒数据

1、前言

     葡萄酒是一种成分复杂的酒精饮料,不同产地、年份和品种的葡萄酒成分不同,这也是导致质量差异过大的重要因素。至今,质量评价主要还是依靠专家的感官。味道是最难理解的一种感官,因此用味蕾评价葡萄酒也就成为一件艰巨的任务。为了评估葡萄酒的质量,我们提出的方法就是根据酒的物理化学性质与质量的关系,找出高品质的葡萄酒具体与什么性质密切相关,这些性质又是如何影响葡萄酒的质量。

2、数据准备

    数据集链接

    数据集包括1599个红葡萄酒样本以及4898个白葡萄酒样本,每个样本含有12个变量:固定酸度、挥发酸度、柠檬酸、残糖、氯化物、游离二氧化硫、总二氧化硫、密度、pH值、硫酸盐、酒精,葡萄酒的质量(基于感觉)。

3、数据预处理

     为了提高数据的质量,可以对离群点和极端值进行丢弃修正,我们指定3个标准差以外的数据为离群点,5个标准差以外的为极端值。经过处理后,红葡萄酒数据可以剔除100多个样本,白葡萄酒可以剔除400多个样本。

 

4、变量相关性

     以前11个变量作为输入变量,质量作为输出变量,下面探讨酒的质量好坏主要与哪些输入变量有关,下面我们通过计算质量与固定酸度、挥发酸度、柠檬酸、残糖、氯化物、游离二氧化硫、总二氧化硫、密度、pH值、硫酸盐、酒精的简单相关系数来反映变量间的相关性。

     红葡萄酒数据的计算结果:

UCI数据集数据的分析 ——葡萄酒数据_第1张图片

        白葡萄酒数据的计算结果:

UCI数据集数据的分析 ——葡萄酒数据_第2张图片

      

        分析结果可知,红葡萄酒质量的好坏主要与酒精度、挥发酸以及硫酸盐有关。

白葡萄酒质量的好坏主要与酒精度、密度以及氯化物有关。

5、分析影响因素

     主要利用“数据审核”,例如得到下图:

酒精度与质量

UCI数据集数据的分析 ——葡萄酒数据_第3张图片

红葡萄酒数据的分析结果:

第一,样本中大部分红葡萄酒的质量都落在5-6间。
第二,在一定程度上,酒精度越高酒越好,中上水平的酒(即质量处于5-6)间的红葡萄酒的酒精度大致在9.1-10.5。
第三,高品质的红酒挥发酸普遍偏低,几乎挥发酸较高的红葡萄酒都是质量很差的酒。

第四,红葡萄酒质量和硫酸盐的分布接近正态分布,较好的红葡萄酒集中分布在硫酸盐中等水平上(0.59-0.85),且在一定的硫酸盐水平上红葡萄酒质量的分布比例较为一致。

白葡萄酒数据的分析结果:

第一,样本中大部分白酒的质量都落在5-6间。
第二,高品质的白葡萄酒的酒精度普遍偏高,大致处于10.7-13之间,低品质的酒几乎集中在酒精度较小的部分,反之,酒精度高的几乎全是质量极好的。
第三, 白葡萄酒质量在密度上的分布比较分散,大部分高品质的分布在密度0.991以上,而且高密度的白葡萄酒的质量一般都比较好。

第四,对于不同水平的氯化物,质量的分布近似正态分布,其中绝大部分集中在中间,且在氯化物的中等水平上高品质的酒占比最高,向两边该占比逐渐减小。

6、数据比较

     为了比较红白葡萄酒的各种物理化学性质的大小以及质量与性质有什么关系,我们特意将两类数据做出以下对比,结果呈现如下:

UCI数据集数据的分析 ——葡萄酒数据_第4张图片

UCI数据集数据的分析 ——葡萄酒数据_第5张图片

 

综合可得

  红葡萄酒比白葡萄酒的固定酸度略高,特别是高品质的酒,差异更为明显;

  红葡萄酒的残糖含量较低,而白葡萄酒的残糖量较高,特别质量中等的酒残糖更高;

  红葡萄酒和白葡萄酒的酒精度大体一致,而且酒精度越高,酒的质量越好,品质越高;

  红葡萄酒的氯化物含量明显高于白葡萄酒;

  红葡萄酒的总二氧化硫、游离二氧化硫都低于白葡萄酒,同时红葡萄酒的总二氧化硫含量随着质量的提高而上升,而白葡萄酒的总二氧化硫含量随着质量的提高而下降.

7、变量重要性

UCI数据集数据的分析 ——葡萄酒数据_第6张图片

UCI数据集数据的分析 ——葡萄酒数据_第7张图片

 

通过模型预测变量的重要性,我们可以发现(:

影响红葡萄酒的质量的变量关键依次为:酒精度->硫酸盐->挥发酸->总二氧化硫->PH值->残糖->游离二氧化硫->密度->氯化物->柠檬酸->固定酸度;

影响白葡萄酒的质量的变量关键依次为酒精度->挥发酸->游离二氧化硫->固定酸度->总二氧化硫->残糖->密度->PH值->柠檬酸->氯化物->硫酸盐

8、小结

 

     评价葡萄酒质量主要依赖专家的经验和感官,主观性过大,而我们提出的方法是基于客观数据驱动的,一方面可以直接作为评估质量的标准,另一方面,在专家评价与决策系统预测偏离太大时,可以采取多人品尝评价模式。

     一旦挖掘出某些变量性质和质量的密切关系,可以在葡萄酒生产阶段对该变量加以控制,以便提高葡萄酒的口味和质量,有效扩大葡萄酒的市场。

 

你可能感兴趣的:(数据分析)