葡萄酒的评价模型
摘要
本文首先通过对葡萄酒的人为品尝评分结果的分析,利用相关系数和肯德尔和谐系数分析两组评酒员评分的差异,得出两组评酒员对红葡萄酒的评分结果较一致,对白葡萄酒的评分结果存在一定差异,再利用克隆巴赫(信度)系数评价两组评酒员分别对红葡萄酒和白葡萄酒各种酒样品评分的信度系数,去掉克隆巴赫(信度)系数不符合要求的酒样品的打分数据,在符合要求的酒样品中,把所有样品评分的克隆巴赫(信度)系数求平均值后得到每个组的最终克隆巴赫(信度)系数,利用该克隆巴赫(信度)系数取出两组评分数据中可信度较高的第一组。
然后,对葡萄的理化指标进行分析,开始是利用因子分析法中的主成分分析法提取出葡萄中理化指标的主成分,接下来利用提取出来的主成分数据,用K-means聚类分析法将红葡萄分成四类,白葡萄也分成四类,再结合可信度较高的第一组中每一类酒样品的打分数据,将每一类中每个酒样品分数的平均值加起来求平均值,得到每一类的一个分数,按照分数高低将这四类评为四个等级。
其次,找出酿酒葡萄和葡萄酒理化指标之间的联系,利用回归分析求出回归方程,利用最小二乘法求出多项式拟合方程,回归方程和多项式方程均能反映两者之间的联系。
接下来,用酿酒葡萄和葡萄酒理化指标来建立评价葡萄酒质量的方程,首先把酿酒葡萄和葡萄酒理化指标之间有联系的指标取出来,直接利用得到的多项式方程来反映两者的指标,没有联系的部分把葡萄中的主成分单独拿出来,再把葡萄酒中的成分单独拿出来,综合这些指标,结合专家评分结果,利用多元回归分析得到评价葡萄酒质量的回归方程,为粗略评价模型。
最后,利用附件三中的芳香物质代替评酒员为酒样品评分中的香气,结合葡萄酒和葡萄的主要理化指标来回归,最终得到一组反映外观、香气、口感、平衡/整体评价的几个回归方程,利用这些回归方程对应的参数数据代入回归方程得到葡萄酒每一项的评分,根据评分和相应的酒样品品尝的权系数值,利用模糊理论,对得到的结果进行评价就能确定葡萄酒的质量和等级。最终得出:结合芳香物质,可以用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
在模型改进中,利用BP神经网络对得到的回归方程进行训练,并用已有数据进行检验,测试模型的准确性,最终得到葡萄酒质量的综合评价模型。
整个求解过程中利用了SPSS软件和MATLAB软件辅助求解。
关键词:葡萄酒,主成分分析,相关性,聚类,回归分析,BP神经网络
一、 问题的提出
1.1 背景
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。
现有某一年份两组红葡萄酒的27种样品的品尝评分表、两组白葡萄酒的28种样品的品尝评分表、酿酒葡萄的理化指标表、葡萄酒的理化指标表、红葡萄酒的芳香物质表、白葡萄酒的芳香物质表、红葡萄的芳香物质表、白葡萄的芳香物质表10个数据表。
葡萄酒质量的好坏主要靠感官品尝和理化指标分析的方法来确定。
1.2 问题
1、 分析两组品酒员分别对红葡萄酒和白葡萄酒品尝品分表的数据,探讨两组品酒员的评价结果有无显著性差异,并确定哪一组品酒员的结果更可信?
2、 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
3、 分析酿酒葡萄理化指标与葡萄酒的理化指标之间的联系。
4、 分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
二、 基本假设
1、不同评酒员对同一种酒进行评分时是相互独立的;
2、同一评酒员对不同品种的酒进行评分是相互独立的;
3、第一组评酒员和第二组评酒员的评分是相互独立的;
4、葡萄和葡萄酒各项参数所测数据均为正常情况下测得的数据;
三、 符号说明
(表一)相关符号说明
符号 |
说明 |
|
相关系数 |
|
两组评酒员对红葡萄评分的相关系数 |
|
两组评酒员对白葡萄评分的相关系数 |
|
肯德尔和谐系数 |
|
酒样品种类数目 |
|
对某个样品的评酒员人数 |
|
克隆巴赫(信度)系数 |
|
聚类中心 |
|
向量X的平均值 |
|
向量X的方差 |
|
向量X,Y的卷积 |
|
酒样品中第i类的得分方差 |
|
每个评酒员为样品打分和的方差 |
四、 问题分析
本问题涉及的是统计学以及数据挖掘的知识,要解决的问题是如何根据感官品尝和酿酒葡萄理化指标以及葡萄酒的理化指标来评价葡萄酒质量,其核心和关键是数据分析,最终目标是建立评价葡萄酒质量的数学模型,达到用数学模型来评价葡萄酒质量的目的。
4.1基本思路
分析人为评价结果之间的差异我们考虑用相关系数和肯德尔和谐系数,可信度分析我们主要考虑克隆巴赫(信度)系数。要对葡萄酒进行分级,需要对数据进行处理,本题中我们主要考虑因子分析中的主成分分析法和聚类分析两个主要的数据处理技术,结合评酒员的评分来进行分级。在找出酿酒葡萄的理化指标和葡萄酒的理化指标之间的联系中我们主要用回归分析和曲线拟合,并结合之前的数据处理技术来找出它们之间的联系。对于葡萄酒质量的评价,我们认为,葡萄和葡萄酒的理化指标占有较大比重,葡萄酒和葡萄的芳香物质可以代替人的口感,通过提取葡萄和葡萄酒的理化指标的主成分以及葡萄酒和葡萄的芳香物质的主成分,结合第三问的分析,把葡萄和葡萄酒之间有关系的成分用拟合的式子表示,葡萄中把第二问提取出的主成分中没有相互关系的量单独表示,葡萄酒中把剩下的没有相互关系的量也单独表示,然后利用多元回归分析得到评价酒的质量的式子,最后用神经网络和模糊分析来修正评价模型。
4.2具体分析
问题一的具体分析:首先计算第一组红葡萄酒与第二组红葡萄酒之间、第一组白葡萄酒与第二组白葡萄酒之间的相关系数和肯德尔和谐系数,相关系数的计算需要第一组数据和第二组数据统一对应,我们把每一类酒样品评分表中每个人对每一项样品参数的评分相加,然后再把10个人的评分求平均值,得到每一类酒样品的最后评分,对于红葡萄酒和白葡萄酒,用两组评分处理过的最后结果可计算出相关系数和肯德尔和谐系数,根据相关系数和肯德尔系数就可以判断出品酒员的评价结果有无显著性差异。
可信度分析用克隆巴赫(信度)系数,我们对每一种酒样品计算一个克隆巴赫(信度)系数,最后除去信度系数小于0.35的数据,在把剩下的数据求平均值,把结果作为最后的信度系数,根据得到的信度系数就可以判读可信度高的评分组。
在具体数值计算时用MATLAB编程容易计算出结果。
问题二的具体分析:由于酿酒葡萄的理化指标有30种,并且它们之间存在着复杂的关系,我们采用主成分分析法将酿酒葡萄中较为接近的理化指标进行合并,最终提取出少量的核心成分作为对酿酒葡萄理化性质的描述,并利用核心成分构造不同酿酒葡萄的属性向量,利用K-means聚类方法将27种酿酒葡萄分成较为接近的几类,再结合第一题中可信度分析得到的较为可信的一组评酒人员给出的评分结果,将每一聚类的中心的评分作为该类的评分,并根据该评分划分酿酒葡萄的等级。
数值计算中利用的是MATLAB和SPSS软件。
问题三的具体分析:本题需要找出葡萄和葡萄酒的理化指标之间的联系,我们的思想是先对两者成分中相同的部分进行回归分析,根据回归分析的结果,如果两者的相关性比较大的,就可以利用回归分析求出回归方程,也可利用最小二乘法求出多项式拟合方程。由此就找到联系了,回归方程系数的求解利用SPSS软件较为方便,最小二乘法拟合数据的多项式方程的求解可以用MATLAB来计算。
问题四的具体分析:此问题分为两点,第一,利用酿酒葡萄和葡萄酒的指标评价葡萄酒的质量。第二,加入附件三的芳香物质,利用芳香物质中的某些成分代替人为品尝中的香味和口感,其香味和口感正是反映葡萄酒质量主要标志,因此对芳香物质的分析及其重要。在此我们利用相关联分析法,提取出芳香物质中与香气和口感有关的芳香物质,把葡萄和葡萄酒的各项主成分可以联系的联系起来,通过模糊分析设置一定的权值系数,不能联系的也可设置一个权值系数,使其主成分都起一定的作用,在利用葡萄和葡萄酒的指标评价葡萄酒的质量的基础上加上芳香物质的成分即可得到评价葡萄酒质量的模型,最后利用BP神经网络对模型进行优化,并测试模型效果,直到最后得到较好的评价模型为止。