从图中可得,质量分数的分布范围是3至9,大部分的质量分数居中,最多为6分。
fixed.acidity的分布区间大多数在6到8之间,其峰值在6.5附近,基本属于正态分布。 volatile.acidity的分布区间大多数在0.15到0.4之间,其峰值在0.25附近,基本属于正态分布。 citric.acid的分布区间大多数在0.1到0.6之间,其峰值在0.3附近,呈现正态分布,分布在0.5附近出现异常变化。 这3种酸的分布类似quality的分布,我猜想是不是这3种酸对白葡萄酒的质量有重要影响?
residual.sugar的分布区间大多数在0.5到2之间,呈正偏斜分布。
chlorides的分布区间大多数在0到0.1之间,除去长尾后,基本呈正态分布。
free.sulfur.dioxide的分布区间大多数在0到100之间,total.sulfur.dioxide的分布区间大多数在50到250之间,它们的图形都类似正态分布。
sulphates的分布区间大多数在0.25到0.75之间,基本呈正态分布。
alcohol的分布区间大多数在8到14之间,呈偏右斜分布。
由于数据集里有三种酸,所以创建一个变量all_acid把它们囊括其中。
数据集的结构:
这个数据集包含4,898 种葡萄酒,及11个量化每种酒化学成分的变量。
质量的评分:分数在 0(非常差)和 10(非常好)之间。
其他观测结果: 1、大部分的白葡萄酒由质量中等的构成; 2、常见的白葡萄酒的酒精度数为12度,数据集里数量最多的反而是9度; 3、各变量数值分布几乎是正态分布。
感兴趣的主要特征:
数据集的主要特征是 alcohol 和 quality。 我到网上了解了一下,醇类、酯类和缩醛等影响白葡萄酒呈香和呈味的最终形成,数据集里的变量就 alcohol 和这几种物质关联最大,我想就此探索一下。
其他有助调查的特征:
fixed.acidity, volatile.acidity, citric.acid, residual.sugar 和 PH。 毕竟酸、糖和 PH 会对人类味觉产生直接影响。
特征的分布情况:
所有变量几乎都是正态分布。即使我调整组宽来放大了图形,基本上还是正态分布。
从上图可得:
相关度较高的是 residual.sugar 与 density,相关系数为0.84; free.sulfur.dioxide 和 total.sulfur.dioxide,相关系数为0.62。
负相关度较高的是 alcohol 与 density,相关系数为-0.78 alcohol 与 total.sulfur.dioxide,alcohol 与 residual.sugar,两组的相关系数皆为-0.45。
从物理的角度来看,也能说明上述相关性的准确性,糖类密度大,而酒精密度小。所以 residual.sugar 的数值越大,则 density 的数值就会越大;alcohol 的数值越大,则 density 的数值就会越小。
从这条红色的相关性线可看出,alcohol 与 quality 呈正相关关系。
探索 fixed.acidity 与 quality 的关系
从图中可得,fixed.acidity 与 quality 的相关性并不大,呈微弱的负相关关系。
探索 volatile.acidity 与 quality 的关系
从图中可得,volatile.acidity 与 quality 的相关性也不大,呈较弱的负相关关系。
从图中可得,citric.acid 与 quality 的相关线几乎是一条直线,它们应该没有相关性。
探索 residual.sugar 与 quality 的关系
从图中可得,residual.sugar 与 quality 的相关性不大,呈较弱的负相关关系。
从图中可得,pH 与 quality 的相关性不大,呈较弱的正相关关系。
探索 residual.sugar 和 density 的关系
从图中可得,residual.sugar 和 density 有很强的正相关性。
从图中可得,alcohol 和 density 有较强的负相关性。
感兴趣的特征的变化情况:
我所感兴趣的特征主要是 alcohol 与 quality 的关系,从图中的相关线可看出它们呈很强的正相关关系。alcohol 随 quality 的增加而增加。
其他发现:
令我觉得意外的是,fixed.acidity 和 volatile.acidity 这两种酸居然跟 quality 成负相关,虽然程度不大。而 pH 却跟 quality 成正相关,虽然程度也不大。根据这个发现,我猜测是不是因为人体是偏酸性的,而从医学角度来说弱碱性的食物对人体有益,导致人类演化出了喜欢弱碱性食物的味觉。
最紧密的特征对:
residual.sugar 和 density 的关系,从图中可以容易发现,而且它们的相关系数为0.84。
探索 alcohol, pH, quality 的关系
从图中可得,当 alcohol > 10.5时,这三个变量才有一个稳定的关系, 即当 alcohol 一定时,pH 的数值越高, quality 的质量也越高。
探索 alcohol, total.sulfur.dioxide, quality 的关系
从图中来看, alcohol, total.sulfur.dioxide, quality 这三者的关系并不明显,而且对 quality 的影响也不大, 估计是二氧化硫仅作为保鲜的添加剂,不会对酒的质量造成太大的影响。
探索 alcohol, fixed.acidity, quality 的关系
从图中可得,quality 为3和9的关系比较奇怪,可能因为这两个的数据量比较少,而一般追求这些极端质量的人的品味都会比较独特,所以会造成误差。反观 quality 为4至8的,在 alcohol > 10.5的区域,当 alcohol 一定时,fixed.acidity的数值越高,quality 的质量越低。
探索 alcohol, density, quality 的关系
从图中可得,alcohol, density, quality 还是有一定关系的,撇开 quality 为3和9的,当 alcohol 一定时,density 的数值越高,quality 的质量越高。
特征之间彼此加强的情况:
pH、density 和 alcohol 是相互加强了彼此。
特征之间令人惊讶的互动:
alcohol, total.sulfur.dioxide, quality 的关系让我挺感到意外的,它们的关系验证了二氧化硫这一防腐剂并不会对酒的质量造成大的影响。
可选:您使用数据集创建了任何模型吗?讨论你的模型的优势和局限性。
无。
Description One
从图中可看出,绝大部分白葡萄酒的质量都是中等的,其中 quality = 6的最多。这也说明了市场的实际需求,中等质量的是最多人需要的。
Description Two
从图中可看出,quality 和 alcohol 有着很强的正相关关系。alcohol 就是乙醇,验证了我从网上了解到的——醇类、酯类和缩醛等影响白葡萄酒呈香和呈味的最终形成。
Description Three
从图中可看出,当 alcohol > 10.5,alcohol一定时,pH 的数值越高,quality 的质量越好。市面上酒精度数少于10度的白葡萄酒很少有,所以能说它们是有稳定的正相关性。
分析过程的挫折和成功:
刚开始探索这个数据集时,仅从自己的一些常识为方向先看看酸、糖、PH值和酒精是否对质量有最大的影响。通过后来的探索以及自己网上查阅,得到些有趣的发现,比如:人类会更喜欢偏碱性的白葡萄酒。而有些看似有很大影响的化合物——二氧化硫,却不会对白葡萄酒的质量产生太大的影响。
未来工作的深入的提议:
1、还是得先对数据集进行深入了解,以确定自己的探索方向,以防走弯路。
2、要充分收集数据集各类型的数据,本次这个数据集仅有11个变量,其他有影响质量的物质诸如酯类和缩醛等都没有囊括,这样分析得出的结论难免有所局限。而且质量为3和9的数据量收集得比较少。
3、该数据集应该把白葡萄的品种和产地、酒的年份也考虑进去。
4、对于这个数据集,还可以建立一个模型或者计算出一个公式来预测白葡萄酒的质量。