大聪明亿泰

【天池】WineQuality葡萄酒品质--数据分析练习

一、问题描述

1、数据集

数据下载地址：Wine Quality
根据数据说明可知，Wine Quality数据集中包含两个数据子集，分别是红葡萄酒（red wine）和白葡萄酒（white wine）的样本，样本量如下：

数据集	数据量
红葡萄酒（red wine）	1599
白葡萄酒（white wine）	4898

每个样本数据的输入、输出规则都是一样的，其中输入条件包含11个客观条件，都是葡萄酒的物化性质，记录为数值；输出结果只有1个，那就是专业品酒师的主观评分（至少取到三次评分的中位数），评分跨度0—10分，0分代表非常糟糕，10分代表非常出色。输入输出指标说明如下：

输入指标	说明
fixed acidity	固定酸
volatile acidity	挥发性酸
citric acid	柠檬酸
residual sugar	残留糖
chlorides	氯化物
free sulfur dioxide	游离二氧化硫
total sulfur dioxide	二氧化硫总量
density	密度
pH	酸碱值
sulphates	硫酸盐
alcohol	酒精

输出指标	说明
quality	品质（得分介于0-10）

另外还需要了解到，试验中提供的葡萄酒都来自于葡萄牙的"Vinho Verde"葡萄酒，但葡萄酒的质量并不是均匀分布的，即普通的葡萄酒要远多于劣质葡萄酒或优质葡萄酒，因此可以通过离群点有效甄别出那些少量的劣质葡萄酒或优质葡萄酒。

数据说明原文如下：

Citation Request:
  This dataset is public available for research. The details are described in [Cortez et al., 2009]. 
  Please include this citation if you plan to use this database:

  P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis. 
  Modeling wine preferences by data mining from physicochemical properties.
  In Decision Support Systems, Elsevier, 47(4):547-553. ISSN: 0167-9236.

  Available at: [@Elsevier] http://dx.doi.org/10.1016/j.dss.2009.05.016
                [Pre-press (pdf)] http://www3.dsi.uminho.pt/pcortez/winequality09.pdf
                [bib] http://www3.dsi.uminho.pt/pcortez/dss09.bib

1. Title: Wine Quality 

2. Sources
   Created by: Paulo Cortez (Univ. Minho), Antonio Cerdeira, Fernando Almeida, Telmo Matos and Jose Reis (CVRVV) @ 2009
   
3. Past Usage:

  P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis. 
  Modeling wine preferences by data mining from physicochemical properties.
  In Decision Support Systems, Elsevier, 47(4):547-553. ISSN: 0167-9236.

  In the above reference, two datasets were created, using red and white wine samples.
  The inputs include objective tests (e.g. PH values) and the output is based on sensory data
  (median of at least 3 evaluations made by wine experts). Each expert graded the wine quality 
  between 0 (very bad) and 10 (very excellent). Several data mining methods were applied to model
  these datasets under a regression approach. The support vector machine model achieved the
  best results. Several metrics were computed: MAD, confusion matrix for a fixed error tolerance (T),
  etc. Also, we plot the relative importances of the input variables (as measured by a sensitivity
  analysis procedure).
 
4. Relevant Information:

   The two datasets are related to red and white variants of the Portuguese "Vinho Verde" wine.
   For more details, consult: http://www.vinhoverde.pt/en/ or the reference [Cortez et al., 2009].
   Due to privacy and logistic issues, only physicochemical (inputs) and sensory (the output) variables 
   are available (e.g. there is no data about grape types, wine brand, wine selling price, etc.).

   These datasets can be viewed as classification or regression tasks.
   The classes are ordered and not balanced (e.g. there are munch more normal wines than
   excellent or poor ones). Outlier detection algorithms could be used to detect the few excellent
   or poor wines. Also, we are not sure if all input variables are relevant. So
   it could be interesting to test feature selection methods. 

5. Number of Instances: red wine - 1599; white wine - 4898. 

6. Number of Attributes: 11 + output attribute
  
   Note: several of the attributes may be correlated, thus it makes sense to apply some sort of
   feature selection.

7. Attribute information:

   For more information, read [Cortez et al., 2009].

   Input variables (based on physicochemical tests):
   1 - fixed acidity
   2 - volatile acidity
   3 - citric acid
   4 - residual sugar
   5 - chlorides
   6 - free sulfur dioxide
   7 - total sulfur dioxide
   8 - density
   9 - pH
   10 - sulphates
   11 - alcohol
   Output variable (based on sensory data): 
   12 - quality (score between 0 and 10)

8. Missing Attribute Values: None

2、分析思路

因为这次数据量不大，就不进数据库了，直接使用python进行分析。
由于对葡萄酒不太了解，先去百度一下可以知道以下有用信息：
以下数值标准主要参考自最新国家标准：《葡萄酒》（GB 15037－2006）》，国外标准有别于国内，仅供参考。

葡萄酒的四大基本特征：酸度、单宁、酒精和甜味。优质的葡萄酒的四个基本特征一定都是处于很好的平衡状态。
酸主要可分为固定酸和挥发酸，常说的总酸就是两者的总和。葡萄酒中含有许多种酸，主要是酒石酸、苹果酸、柠檬酸、琥珀酸、乳酸、醋酸，挥发酸是葡萄酒中以游离状态或以盐的形式存在的所有乙酸等脂肪酸的总和，但不包括乳酸、琥珀酸以及CO2和SO2，其中醋酸是主要的挥发酸。挥发酸的含量是葡萄酒健康状态的“体温表”，因为它是发酵、贮藏管理不良留下的标记，通过挥发酸含量的测定可以了解葡萄酒是否生病、病害的严重性以及预测贮藏的困难程度。在国标中对挥发酸和柠檬酸做了明确规定。
PH值是衡量葡萄酒中酸度的程度，一般来说，白葡萄酒的酸度一般在3.1至3.5之间，高于红葡萄酒的3.5至4的区间值。相较而言酸度是衡量葡萄酒中酸含量的多少。
一般来说，酸度对葡萄酒口感的影响要大于PH值，但如果PH值位于一个极端的位置，就会产生较大的影响。总酸度是告诉我们这款酒的浓度，而PH值显示的是这款酒品尝起来口感的浓郁度。例如，在PH值相同的情况下，一款总酸度为6g/L的葡萄酒品尝起来会比总酸度为4g/L的葡萄酒更酸。
残留糖分（简称残糖）是衡量葡萄酒中甜度的标准。通常，残留糖分低于4克/升的葡萄酒为干型葡萄酒，许多干型葡萄酒几乎不含残糖。
酒精度指葡萄酒中所含酒精的百分比，大部分葡萄酒的酒精度都在10-15%之间，但也有些特殊的葡萄酒，如阿斯蒂（Moscato d’Asti）（酒精度非常低），波特酒（Port）（酒精度非常高）。
氯化物和硫酸盐都属于葡萄酒中的矿物盐成分，一般来说含量分别是0.1-0.4g/L和0.25-0.85g/L。值得一提的是，虽然这些矿物质成分存在葡萄酒中且可以增强葡萄酒的风味，但它们并不是某些葡萄酒带有矿物风味的主要原因。一般而言，红葡萄酒所含的矿物质多于白葡萄酒。
并不是所有葡萄酒中都会有二氧化硫，但二氧化硫能起到如杀菌、抗氧化、澄清酒液和提高色素和酚类物质含量等作用，因此一般葡萄酒中或多或少地带有一定的二氧化硫，只是整体而言其含量非常少，多为 80-200mg/L，个别葡萄酒中还含有 10-50mg/L 的游离态二氧化硫。不过，适当的摇杯或者醒酒等可以令其挥发掉，因此几乎可以忽略不计。

在欧盟，干红葡萄酒中二氧化硫的最高含量为 160mg/L，白葡萄酒和桃红葡萄酒为 210mg/L，甜型葡萄酒中的二氧化硫含量可能更高。

根据查到的信息，更新输入变量表格如下：

输入指标	说明	备注
fixed acidity	固定酸（g/L）	总酸组成之一
volatile acidity	挥发性酸（g/L）	总酸组成之一
citric acid	柠檬酸（g/L）	属于固定酸
residual sugar	残留糖（g/L）	基本指标之一
chlorides	氯化物（g/L）	矿物盐成分
free sulfur dioxide	游离二氧化硫（mg/L）	防腐保鲜剂
total sulfur dioxide	二氧化硫总量（mg/L）	防腐保鲜剂
density	密度（g/ml）	略
pH	酸碱值	酸度的另一种测量角度
sulphates	硫酸盐（g/L）	矿物盐成分
alcohol	酒精（%vol）	基本指标之一

由此可知，11种输入变量可以大致划分成三类，第一类是基本指标及其内含的个别具体指标，第二类是附加指标（矿物盐、二氧化硫），第三类是密度这个物理性质。
根据以上信息，拟定分析内容如下图所示：

二、数据分析（Python）

0.数据清洗

使用Jupyter Notebook进行代码工作，首先加载需要用到的库：

%matplotlib inline
#%config InlineBackend.figure_format = 'retina'

import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns

# 颜色
color = sns.color_palette()
# 数据print精度
pd.set_option('precision',3)

这里开局就报错了，good。问题出在seaborn这个库，解决过程详见：Python seaborn库导入报错的解决，简而言之就是在anaconda中创建一个虚拟环境，安装python3.6的环境，再安装这几个库。
安装完毕后，重新输入上述代码，运行完毕。然后读取文件：

dfr = pd.read_csv(r'G:\1数据集\WineQuality\winequality-red.csv',sep = ';') #dfr short for dataframe_red
dfw = pd.read_csv(r'G:\1数据集\WineQuality\winequality-white.csv',sep = ';') #dfw short for dataframe_white

结果如下：

因为总酸作为葡萄酒基本指标值之一，是固定酸和挥发酸的合，所以可以在表中增加一列"total acid"作为总酸，并放置在表格首列：

#增加总酸
dfr['total acid'] = dfr['fixed acidity'] + dfr['volatile acidity']
dfw['total acid'] = dfw['fixed acidity'] + dfw['volatile acidity']
#移动dfr总酸到列首
r = dfr.columns.tolist()
r.insert(0,r.pop())
dfr = dfr.reindex(columns=r)
#移动dfw总酸到列首
r = dfw.columns.tolist()
r.insert(0,r.pop())
dfw = dfw.reindex(columns=r)

然后就可以看到：

因为不存在值必须唯一的变量且需要分析分类数量，故此处不对数据集进行去重（经试验两个数据集都存在一定数量的重复值）。
经检查不存在异常值。
至此分析用的数据准备就算完成了。

1.分类讨论

11种输入变量可以大致划分成三类，第一类是基本指标及其内含的个别具体指标，第二类是附加指标（矿物盐、二氧化硫），第三类是密度这个物理性质。

1-1 描述统计

1-1-1 数值描述
首先对两种葡萄酒作描述统计，这个可以.describe()方法直接得到结果

dfr.describe()
dfw.describe()

由上面结果首先可以知道参与测试的红葡萄酒获得的评分分布在3-8分，白葡萄酒在3-9分，且各分位数数据一致，这说明两种葡萄酒的品质在大体上无明显区别，但具体是否存在细节上的差距还需要进一步分析。另外对于输入变量的各参数，数据表格展示的形式太繁杂不直观，一时看不出什么信息，需要进一步加工成图像便于分析比对。
1-1-2 箱线图
进一步，绘制两种葡萄酒每个变量的箱线图

#红葡单变量箱线图
colnm = dfr.columns.tolist()
plt.figure(figsize = (10, 6))
plt.suptitle('红葡萄酒单变量箱线图', y=1.05) #总标题
"""画第一行的图"""
for i in range(7):
    plt.subplot(2,7,i+1)
    sns.boxplot(dfr[colnm[i]], orient="v", width = 0.4, color = color[0])
    plt.ylabel(colnm[i],fontsize = 12)
plt.tight_layout()
"""画第二行的图"""
for i in range(6):
    plt.subplot(2,6,i+7)
    sns.boxplot(dfr[colnm[i+7]], orient="v", width = 0.4, color = color[0])
    plt.ylabel(colnm[i+7],fontsize = 12)
plt.tight_layout()

结合箱线图和刚才的数据表格可以直观了解到各个变量的分布特征，大致归纳如下

红葡萄酒变量	分布特征
total acidity	整体呈正偏，尾长较为对称，高浓度部分存在一定量离群点
fixed acidity	整体呈正偏，尾长较为对称，高浓度部分存在一定量离群点，整体分布与总酸相近
volatile acidity	整体呈正偏，尾长较为对称，高浓度部分存在一定量离群点，浓度范围低总酸一个数量级
citric acid	整体呈正偏，上尾长较长，最小值取到0，有极个别离群点取到1
residual sugar	整体呈高度正偏，尾长较为对称，存在大量高浓度离群点
chlorides	整体呈高度正偏，尾长较为对称，存在少量低浓度离群点和大量高浓度离群点
free sulfur dioxide	整体呈正偏，上尾长较长，存在一定量高浓度离群点
total sulfur dioxide	整体呈正偏，上尾长较长，存在一定量高浓度离群点且离群点间断大
density	整体几乎呈正态分布，上下各有一定量离群点
pH	整体呈轻度正偏，尾长较为对称，存在少量低值离群点和一定量高值离群点
sulphates	整体呈正偏，尾长较为对称，存在较多高浓度离群点
alcohol	整体呈正偏，上尾长较长，存在少量高浓度离群点
quality	整体几乎呈正太分布，上下各有极少量离群点

可以大致总结知道，对于红葡萄酒而言，除密度和评分这两项数据分布均匀呈正态之外，其他所有变量都呈现出不同程度的正偏分布，这说明大多数变量都存在可控下限却没有明确的上限，由于品质波动都可能出现较高取值的情况。

#白葡单变量箱线图
colnm = dfw.columns.tolist()
plt.figure(figsize = (10, 6))
plt.suptitle('白葡萄酒单变量箱线图', y=1.05) #总标题
"""画第一行的图"""
for i in range(7):
    plt.subplot(2,7,i+1)
    sns.boxplot(dfw[colnm[i]], orient="v", width = 0.4, color = color[0])
    plt.ylabel(colnm[i],fontsize = 12)
plt.tight_layout()
"""画第二行的图"""
for i in range(6):
    plt.subplot(2,6,i+7)
    sns.boxplot(dfw[colnm[i+7]], orient="v", width = 0.4, color = color[0])
    plt.ylabel(colnm[i+7],fontsize = 12)
plt.tight_layout()

类似地，对于白葡萄酒可以分析得到：

白葡萄酒变量	分布特征
total acidity	整体呈正偏，尾长较为对称，存在少量低离群点和一定量高离群点
fixed acidity	整体呈正偏，尾长较为对称，存在少量低离群点和一定量高离群点，整体分布与总酸相近
volatile acidity	整体呈正偏，尾长较为对称，存在大量高离群点，浓度范围低总酸一个数量级
citric acid	整体呈正偏，尾长较为对称，存在少量低离群点和一定量高离群点
residual sugar	整体呈正偏，上尾长较长，存在少量高浓度离群点且离群点间断大
chlorides	整体呈高度正偏，尾长较为对称，存在少量低浓度离群点和大量高浓度离群点
free sulfur dioxide	整体呈正偏，上尾长较长，存在一定量高浓度离群点且离群点间断大
total sulfur dioxide	整体呈正偏，尾长较为对称，存在少量低离群点一定量高浓度离群点
density	整体呈轻度正偏，存在极少量高离群点
pH	整体呈轻度正偏，尾长较为对称，存在少量低离群点和一定量高离群点
sulphates	整体呈正偏，尾长较为对称，存在较多高浓度离群点
alcohol	整体呈正偏，上尾长较长，无离群点
quality	整体几乎呈正太分布，上下各有极少量离群点

可以发现白葡萄酒也是在绝大部分变量上呈现正偏分布，且相比红葡萄酒有更多变量有低离群点，整体上红葡萄酒和白葡萄酒在一些变量上表现不太相同，这些指标可能是造成品类不同的主要因素之一。

至此已经分别对红、白葡萄酒的情况有了初步了解，那二者之间是否有什么区别呢？可以把两种酒的变量箱线图放在一起进行观察：

#红白变量箱线图
colnm_r = dfr.columns.tolist()
colnm_w = dfw.columns.tolist()
plt.figure(figsize = (10, 6))
plt.suptitle('单变量箱线图对比',fontsize=14, y=1.05) #总标题
"""画第一行的图"""
for i in range(7):
    y1 = dfr[colnm_r[i]]
    y2 = dfw[colnm_w[i]]
    data = pd.DataFrame({"红": y1, "白": y2}) 
    plt.subplot(2,7,i+1)
    data.boxplot(widths=0.5,flierprops = {'marker':'o','markersize':2})
    plt.ylabel(colnm_r[i],fontsize = 12)
plt.tight_layout()
"""画第二行的图"""
for i in range(6):
    y1 = dfr[colnm_r[i+7]]
    y2 = dfw[colnm_w[i+7]]
    data = pd.DataFrame({"红": y1, "白": y2})
    plt.subplot(2,6,i+7)
    data.boxplot(widths=0.5,flierprops = {'marker':'o','markersize':2})
    plt.ylabel(colnm_r[i+7],fontsize = 12)
plt.tight_layout()

从上图可以发现：

在酸度上白葡萄酒取值低于红葡萄酒且分布更紧凑；
在残留糖浓度上白葡萄酒分布更广泛，相比之下红葡萄酒的分布就很紧凑；
在氯化物浓度上白葡萄酒取值低于红葡萄酒，二者的分布都比较分散；
在二氧化硫浓度上白葡萄酒取值高于红葡萄酒；
在密度上二者的绝大部分取值均低于水的密度，白葡萄酒整体密度更低但分布范围更大；
在pH上二者整体分布相似，白葡萄酒取值整体低于红葡萄酒；
在硫酸盐酸浓度上白葡萄酒整体取值低于红葡萄酒；
在酒精浓度上二者分布相近且离群点很少；
在品质评分上二者十分相近，除白葡萄酒有9分取值外几乎无异；

1-1-3 直方图
除了箱线图，还可以通过直方图从另一种角度观察每种变量的分布情况。作为对比参考，分析上不做赘述
绘制每个变量的直方图

#红葡单变量直方图
colnm = dfr.columns.tolist()
plt.figure(figsize = (16, 12))
plt.suptitle('红葡萄酒单变量直方图\nY轴：频数', y=1.05, fontsize = 16) #总标题
"""画前三行的图"""
for i in range(9):
    plt.subplot(4,3,i+1)
    dfr[colnm[i]].hist(bins = 100, color = color[0])
    plt.xlabel(colnm[i],fontsize = 14)
plt.tight_layout()
"""画第四行的图"""
for i in range(4):
    plt.subplot(4,4,i+13)
    dfr[colnm[i+9]].hist(bins = 100, color = color[0])
    plt.xlabel(colnm[i+9],fontsize = 14)
plt.tight_layout()

#白葡单变量直方图
colnm = dfw.columns.tolist()
plt.figure(figsize = (16, 12))
plt.suptitle('白葡萄酒单变量直方图\nY轴：频数', y=1.05, fontsize = 16) #总标题
"""画前三行的图"""
for i in range(9):
    plt.subplot(4,3,i+1)
    dfw[colnm[i]].hist(bins = 100, color = color[0])
    plt.xlabel(colnm[i],fontsize = 14)
plt.tight_layout()
"""画第四行的图"""
for i in range(4):
    plt.subplot(4,4,i+13)
    dfw[colnm[i+9]].hist(bins = 100, color = color[0])
    plt.xlabel(colnm[i+9],fontsize = 14)
plt.tight_layout()

当然，也可以将两种葡萄酒的变量直方图放在一张图上进行更为直观的对比分析，结果如下：

#红白变量箱线图
colnm_r = dfr.columns.tolist()
colnm_w = dfw.columns.tolist()
plt.figure(figsize = (10, 6))
plt.suptitle('单变量直方图对比',fontsize=14, y=1.05) #总标题
"""画前三行的图"""
for i in range(9):
    y1 = dfr[colnm_r[i]].tolist()
    y2 = dfw[colnm_w[i]].tolist()
    data = []
    data.append(y1)
    data.append(y2)
    plt.subplot(4,3,i+1)
    plt.hist(data, bins=100, histtype='bar')
    plt.legend(['红','白'],prop={'size': 8})
    plt.xlabel(colnm_r[i],fontsize = 12)
plt.tight_layout()
"""画第四行的图"""
for i in range(4):
    y1 = dfr[colnm_r[i+9]].tolist()
    y2 = dfw[colnm_w[i+9]].tolist()
    data = []
    data.append(y1)
    data.append(y2)
    plt.subplot(4,4,i+13)
    plt.hist(data, bins=100, histtype='bar')
    plt.legend(['红','白'],prop={'size': 8})
    plt.xlabel(colnm_r[i+9],fontsize = 14)
plt.tight_layout()

1-2 第一类（基本指标）

1-2-1 酸度

1-2-1-1、输入变量中有很多跟酸相关的变量，需逐个对其进行分析。首先是固定酸在总酸中的占比，观察占比的分布情况。

#固定酸占总酸比重
plt.figure(figsize = (10,4))
plt.suptitle('固定酸占总酸比分布情况', y=1.02, fontsize = 16) #总标题
"""红"""
plt.subplot(1,2,1)
temp = dfr[{'total acidity','fixed acidity'}]
temp['precent'] = temp.apply(lambda x: x['fixed acidity']/x['total acidity'], axis=1) #计算占比
temp['precent'].hist(bins = 100, color = color[0])
plt.xlabel('红葡萄酒固定酸占比',fontsize = 12)
plt.ylabel('频数',fontsize = 12)
"""白"""
plt.subplot(1,2,2)
temp = dfw[{'total acidity','fixed acidity'}]
temp['precent'] = temp.apply(lambda x: x['fixed acidity']/x['total acidity'], axis=1) #计算占比
temp['precent'].hist(bins = 100, color = color[0])
plt.xlabel('白葡萄酒固定酸占比',fontsize = 12)
plt.ylabel('频数',fontsize = 12)

可以发现红葡萄酒中固定酸的占比比较分散，而白葡萄酒中固定酸的占比则比较集中，形成一个单峰分布。两种葡萄酒的固定酸占比大多数情况下都达到了90%以上。
其次是关于固定酸占总酸比重对评分的影响

#固定酸占比对评分影响
plt.figure(figsize = (10,4))
plt.suptitle('固定酸占总酸比对评分的影响', y=1.02, fontsize = 16) #总标题
"""红"""
plt.subplot(1,2,1)
temp = dfr[{'total acidity','fixed acidity','quality'}]
temp['precent'] = temp.apply(lambda x: x['fixed acidity']/x['total acidity'], axis=1) #计算占比
sns.boxplot(x=temp['quality'], y=temp['precent'])
plt.xlabel('红葡萄酒评分',fontsize = 12)
plt.ylabel('固定酸占比',fontsize = 12)
"""白"""
plt.subplot(1,2,2)
temp = dfw[{'total acidity','fixed acidity','quality'}]
temp['precent'] = temp.apply(lambda x: x['fixed acidity']/x['total acidity'], axis=1) #计算占比
sns.boxplot(x=temp['quality'], y=temp['precent'])
plt.xlabel('白葡萄酒评分',fontsize = 12)
plt.ylabel('固定酸占比',fontsize = 12)

可以发现随着占比的提高，红葡萄酒有更大可能取得较高的评分，而占比的提高对白葡萄酒影响不显著。

1-2-1-2、柠檬酸是固定酸的一种，若观察固定酸和柠檬酸的关系，首先可以观察柠檬酸在固定酸中占比的分布情况。

#柠檬酸占固定酸比重
plt.figure(figsize = (10,4))
plt.suptitle('柠檬酸占固定酸比分布情况', y=1.02, fontsize = 16) #总标题
"""红"""
plt.subplot(1,2,1)
temp = dfr[{'citric acid','fixed acidity'}]
temp['precent'] = temp.apply(lambda x: x['citric acid']/x['fixed acidity'], axis=1) #计算占比
temp['precent'].hist(bins = 100, color = color[0])
plt.xlabel('红葡萄酒柠檬酸占比',fontsize = 12)
plt.ylabel('频数',fontsize = 12)
"""白"""
plt.subplot(1,2,2)
temp = dfw[{'citric acid','fixed acidity'}]
temp['precent'] = temp.apply(lambda x: x['citric acid']/x['fixed acidity'], axis=1) #计算占比
temp['precent'].hist(bins = 100, color = color[0])
plt.xlabel('白葡萄酒柠檬酸占比',fontsize = 12)
plt.ylabel('频数',fontsize = 12)

可以发现，柠檬酸的占比在红葡萄酒中比较分散，大部分分布于0-8%，且有大量0值。白葡萄酒中柠檬酸占比呈明显的单峰分布，大概集中于4.5%附近。
其次是关于柠檬酸占固定酸比重对评分的影响

#柠檬酸占比对评分影响
plt.figure(figsize = (10,4))
plt.suptitle('柠檬酸占固定酸比对评分的影响', y=1.02, fontsize = 16) #总标题
"""红"""
plt.subplot(1,2,1)
temp = dfr[{'citric acid','fixed acidity','quality'}]
temp['precent'] = temp.apply(lambda x: x['citric acid']/x['fixed acidity'], axis=1) #计算占比
sns.boxplot(x=temp['quality'], y=temp['precent'])
plt.xlabel('红葡萄酒评分',fontsize = 12)
plt.ylabel('柠檬酸占比',fontsize = 12)
"""白"""
plt.subplot(1,2,2)
temp = dfw[{'citric acid','fixed acidity','quality'}]
temp['precent'] = temp.apply(lambda x: x['citric acid']/x['fixed acidity'], axis=1) #计算占比
sns.boxplot(x=temp['quality'], y=temp['precent'])
plt.xlabel('白葡萄酒评分',fontsize = 12)
plt.ylabel('柠檬酸占比',fontsize = 12)

可以发现随着柠檬酸占比的提高，红葡萄酒有更大可能取得较高的评分。而占比的提高对白葡萄酒影响不显著，但过高的占比会导致评分处于中间分段。

1-2-1-3、因为挥发酸是不良指标，所以挥发酸含量对评分的影响应该能形成规律。首先观察挥发酸在总酸中的占比的分布情况

#挥发酸占总酸比重
plt.figure(figsize = (10,4))
plt.suptitle('挥发酸占总酸比分布情况', y=1.02, fontsize = 16) #总标题
"""红"""
plt.subplot(1,2,1)
temp = dfr[{'total acidity','volatile acidity'}]
temp['precent'] = temp.apply(lambda x: x['volatile acidity']/x['total acidity'], axis=1) #计算占比
temp['precent'].hist(bins = 100, color = color[0])
plt.xlabel('红葡萄酒挥发酸占比',fontsize = 12)
plt.ylabel('频数',fontsize = 12)
"""白"""
plt.subplot(1,2,2)
temp = dfw[{'total acidity','volatile acidity'}]
temp['precent'] = temp.apply(lambda x: x['volatile acidity']/x['total acidity'], axis=1) #计算占比
temp['precent'].hist(bins = 100, color = color[0])
plt.xlabel('白葡萄酒挥发酸占比',fontsize = 12)
plt.ylabel('频数',fontsize = 12)

可以发现红葡萄酒中挥发酸的占比比较分散，大部分分布在2.5%-10%之间。而白葡萄酒中固定酸的占比则比较集中，形成一个单峰分布，大概集中在3%附近。
其次是关于挥发酸在总酸中的占比对评分的影响

#挥发酸占比对评分影响
plt.figure(figsize = (10,4))
plt.suptitle('挥发酸占总酸比对评分的影响', y=1.02, fontsize = 16) #总标题
"""红"""
plt.subplot(1,2,1)
temp = dfr[{'total acidity','volatile acidity','quality'}]
temp['precent'] = temp.apply(lambda x: x['volatile acidity']/x['total acidity'], axis=1) #计算占比
sns.boxplot(x=temp['quality'], y=temp['precent'])
plt.xlabel('红葡萄酒评分',fontsize = 12)
plt.ylabel('挥发酸占比',fontsize = 12)
"""白"""
plt.subplot(1,2,2)
temp = dfw[{'total acidity','volatile acidity','quality'}]
temp['precent'] = temp.apply(lambda x: x['volatile acidity']/x['total acidity'], axis=1) #计算占比
sns.boxplot(x=temp['quality'], y=temp['precent'])
plt.xlabel('白葡萄酒评分',fontsize = 12)
plt.ylabel('挥发酸占比',fontsize = 12)

可以发现随着挥发酸占比降低，红葡萄酒有更大可能取得较高得分，而占比的降低对白葡萄酒的影响不显著。

1-2-1-4、酸度和pH都是对酸性的度量，只是角度不同，需观察二者对评分结果的影响力是否有差距。
首先是总酸对评分的影响。

#总酸对评分影响
plt.figure(figsize = (10,4))
plt.suptitle('总酸含量对评分的影响', y=1.02, fontsize = 16) #总标题
"""红"""
plt.subplot(1,2,1)
temp = dfr[{'total acidity','quality'}]
sns.boxplot(x=temp['quality'], y=temp['total acidity'])
plt.xlabel('红葡萄酒评分',fontsize = 12)
plt.ylabel('总酸含量',fontsize = 12)
"""白"""
plt.subplot(1,2,2)
temp = dfw[{'total acidity','quality'}]
sns.boxplot(x=temp['quality'], y=temp['total acidity'])
plt.xlabel('白葡萄酒评分',fontsize = 12)
plt.ylabel('总酸含量',fontsize = 12)

其次是pH值对评分的影响。

#pH对评分影响
plt.figure(figsize = (10,4))
plt.suptitle('pH值对评分的影响', y=1.02, fontsize = 16) #总标题
"""红"""
plt.subplot(1,2,1)
temp = dfr[{'pH','quality'}]
sns.boxplot(x=temp['quality'], y=temp['pH'])
plt.xlabel('红葡萄酒评分',fontsize = 12)
plt.ylabel('pH值',fontsize = 12)
"""白"""
plt.subplot(1,2,2)
temp = dfw[{'pH','quality'}]
sns.boxplot(x=temp['quality'], y=temp['pH'])
plt.xlabel('白葡萄酒评分',fontsize = 12)
plt.ylabel('pH值',fontsize = 12)

可以发现，总酸含量的变化对红白葡萄酒均没有显著的影响，而pH值的降低会使红葡萄酒有更大可能获得高分评价，使白葡萄酒有更大可能获得低分评价。pH值对两种葡萄酒的影响是恰好相反的。

1-2-1-8、国标中有根据柠檬酸的浓度对葡萄酒分类的标准，此处按这个标椎看一下分类结果

#按柠檬酸分类
plt.figure(figsize = (10,4))
plt.suptitle('按柠檬酸含量分类', y=1.02, fontsize = 16) #总标题
"""红"""
plt.subplot(1,2,1)
temp = pd.cut(dfr['citric acid'], bins=[-0.1, 1, 2], labels=["干、半干、半甜", "甜"])
temp = pd.DataFrame(temp)
temp['citric acid'].value_counts().plot(kind='bar')
num = temp['citric acid'].value_counts()
for x, y in enumerate(num.values):
    plt.text(x, y, "%s" %y, ha='center', va='bottom') #显示数字
plt.xticks(rotation=360)
"""白"""
plt.subplot(1,2,2)
temp = pd.cut(dfw['citric acid'], bins=[-0.1, 1, 2.1], labels=["干、半干、半甜", "甜"])
temp = pd.DataFrame(temp)
temp['citric acid'].value_counts().plot(kind='bar')
num = temp['citric acid'].value_counts()
for x, y in enumerate(num.values):
    plt.text(x, y, "%s" %y, ha='center', va='bottom') #显示数字
plt.xticks(rotation=360)

按照国标，实验中所有的红葡萄酒都属于（干、半干、半甜）类，没有甜葡萄酒。
实验中99%的白葡萄酒都属于（干、半干、半甜）类，只有2例甜葡萄酒。

1-2-2 残留糖

1-2-2-1、作为基本指标之一，先观察残留糖对评分的影响

#残留糖对评分影响
plt.figure(figsize = (10,4))
plt.suptitle('残留糖含量对评分的影响', y=1.02, fontsize = 16) #总标题
"""红"""
plt.subplot(1,2,1)
sns.boxplot(x=dfr['quality'], y=dfr['residual sugar'])
plt.xlabel('红葡萄酒评分',fontsize = 12)
plt.ylabel('残留糖含量',fontsize = 12)
"""白"""
plt.subplot(1,2,2)
sns.boxplot(x=dfw['quality'], y=dfw['residual sugar'])
plt.xlabel('白葡萄酒评分',fontsize = 12)
plt.ylabel('残留糖含量',fontsize = 12)

除去离群点，各分段的红葡萄酒的残留糖含量都比较相近，可以认为残留糖含量对红葡萄酒的评分影响不大。可以观察到8分红葡和3分红葡的残留糖含量分布区间很相近，而高浓度离群点主要出现在中间分段，不见于高分段和低分段。
类似地，除去离群点，各分段的白葡萄酒的残留糖含量都比较相近，可以认为残留糖含量对白葡萄酒的评分影响不大。可以观察到9分白葡和3分白葡的残留糖含量分布区间很相近，而高浓度离群点主要出现在中间分段，不见于高分段和低分段。

1-2-2-2、国标中有根据糖分的浓度对葡萄酒分类的标准，此处虽不严格复合（应以葡萄糖计），但也可按这个标椎大致看一下分类结果

#按残留糖含量分类
plt.figure(figsize = (10,4))
plt.suptitle('按残留糖含量分类', y=1.02, fontsize = 16) #总标题
"""红"""
plt.subplot(1,2,1)
temp = pd.cut(dfr['residual sugar'], bins=[-0.1, 4, 12, 45,100], labels=["干", "半干", "半甜", "甜"])
temp = pd.DataFrame(temp)
temp['residual sugar'].value_counts().plot(kind='bar')
num = temp['residual sugar'].value_counts()
for x, y in enumerate(num.values):
    plt.text(x, y, "%s" %y, ha='center', va='bottom')
plt.xticks(rotation=360)
"""白"""
plt.subplot(1,2,2)
temp = pd.cut(dfw['residual sugar'], bins=[-0.1, 4, 12, 45,100], labels=["干", "半干", "半甜", "甜"])
temp = pd.DataFrame(temp)
temp['residual sugar'].value_counts().plot(kind='bar')
num = temp['residual sugar'].value_counts()
for x, y in enumerate(num.values):
    plt.text(x, y, "%s" %y, ha='center', va='bottom')
plt.xticks(rotation=360)

按照国标，实验中干红葡萄酒有1474例，占92.2%，半干红葡萄酒有117例，占7.3%，半甜红葡萄酒有8例，占0.5%，无甜红葡萄酒
实验中干白葡萄酒有2097例，占42.82%，半干白葡萄酒有1975例，占40.32%，半甜白葡萄酒有825例，占16.84%，甜白葡萄酒1例，占0.02%

1-2-3 酒精

1-2-3-1、酒精浓度对评分的影响

#酒精浓度对评分影响
plt.figure(figsize = (10,4))
plt.suptitle('酒精浓度对评分的影响', y=1.02, fontsize = 16) #总标题
"""红"""
plt.subplot(1,2,1)
sns.boxplot(x=dfr['quality'], y=dfr['alcohol'])
plt.xlabel('红葡萄酒评分',fontsize = 12)
plt.ylabel('酒精浓度',fontsize = 12)
"""白"""
plt.subplot(1,2,2)
sns.boxplot(x=dfw['quality'], y=dfw['alcohol'])
plt.xlabel('白葡萄酒评分',fontsize = 12)
plt.ylabel('酒精浓度',fontsize = 12)

可以发现，对于红白葡萄酒而言，酒精浓度的上升会带来一定的评分上涨趋势，较高的酒精浓度更有可能带来较高的评分。

1-2-3-2、按国标标准，葡萄酒酒精浓度应不低于7.0，此处按这个标椎做一下检查，可见均没有不符标准的情况。

(dfr[dfr['alcohol'] < 7]).alcohol.count()
(dfw[dfw['alcohol'] < 7]).alcohol.count()

1-3 第二类（附加指标）

1-3-1 矿物盐

1-3-1-1、氯化物含量对评分的影响

#氯化物浓度对评分影响
plt.figure(figsize = (10,4))
plt.suptitle('氯化物浓度对评分的影响', y=1.02, fontsize = 16) #总标题
"""红"""
plt.subplot(1,2,1)
sns.boxplot(x=dfr['quality'], y=dfr['chlorides'])
plt.xlabel('红葡萄酒评分',fontsize = 12)
plt.ylabel('氯化物浓度',fontsize = 12)
"""白"""
plt.subplot(1,2,2)
sns.boxplot(x=dfw['quality'], y=dfw['chlorides'])
plt.xlabel('白葡萄酒评分',fontsize = 12)
plt.ylabel('氯化物浓度',fontsize = 12)

可以发现有一个微弱的随浓度降低评分上升的趋势，总体来说还是不算显著。但若出现较高浓度，则很有可能该评分处于中间分段。

1-3-1-2、硫酸盐含量对评分的影响

#硫酸盐浓度对评分影响
plt.figure(figsize = (10,4))
plt.suptitle('硫酸盐浓度对评分的影响', y=1.02, fontsize = 16) #总标题
"""红"""
plt.subplot(1,2,1)
sns.boxplot(x=dfr['quality'], y=dfr['sulphates'])
plt.xlabel('红葡萄酒评分',fontsize = 12)
plt.ylabel('硫酸盐浓度',fontsize = 12)
"""白"""
plt.subplot(1,2,2)
sns.boxplot(x=dfw['quality'], y=dfw['sulphates'])
plt.xlabel('白葡萄酒评分',fontsize = 12)
plt.ylabel('硫酸盐浓度',fontsize = 12)

可以发现硫酸盐浓度对红葡萄酒的评分有一个较明显影响趋势，随着浓度增加更有可能得到一个较高的评分。

可以发现不能从硫酸盐浓度有效的估计白葡萄酒的评分。但若出现较高浓度，则很有可能该评分处于中间分段。

1-3-2 二氧化硫

1-3-2-1、游离态二氧化硫占二氧化硫总量的比重对评分的影响

#游离二氧化硫占总二氧化硫比重
plt.figure(figsize = (10,4))
plt.suptitle('游离二氧化硫占总二氧化硫比重分布情况', y=1.02, fontsize = 16) #总标题
"""红"""
plt.subplot(1,2,1)
temp = dfr[{'free sulfur dioxide','total sulfur dioxide'}]
temp['precent'] = temp.apply(lambda x: x['free sulfur dioxide']/x['total sulfur dioxide'], axis=1) #计算占比
temp['precent'].hist(bins = 100, color = color[0])
plt.xlabel('红葡萄酒游离二氧化硫占比',fontsize = 12)
plt.ylabel('频数',fontsize = 12)
"""白"""
plt.subplot(1,2,2)
temp = dfw[{'free sulfur dioxide','total sulfur dioxide'}]
temp['precent'] = temp.apply(lambda x: x['free sulfur dioxide']/x['total sulfur dioxide'], axis=1) #计算占比
temp['precent'].hist(bins = 100, color = color[0])
plt.xlabel('白葡萄酒游离二氧化硫占比',fontsize = 12)
plt.ylabel('频数',fontsize = 12)

#游离二氧化硫占比对评分影响
plt.figure(figsize = (10,4))
plt.suptitle('游离二氧化硫占总二氧化硫比重对评分的影响', y=1.02, fontsize = 16) #总标题
"""红"""
plt.subplot(1,2,1)
temp = dfr[{'free sulfur dioxide','total sulfur dioxide','quality'}]
temp['precent'] = temp.apply(lambda x: x['free sulfur dioxide']/x['total sulfur dioxide'], axis=1)
sns.boxplot(x=temp['quality'], y=temp['precent'])
plt.xlabel('红葡萄酒评分',fontsize = 12)
plt.ylabel('游离二氧化硫占比',fontsize = 12)
"""白"""
plt.subplot(1,2,2)
temp = dfw[{'free sulfur dioxide','total sulfur dioxide','quality'}]
temp['precent'] = temp.apply(lambda x: x['free sulfur dioxide']/x['total sulfur dioxide'], axis=1)
sns.boxplot(x=temp['quality'], y=temp['precent'])
plt.xlabel('白葡萄酒评分',fontsize = 12)
plt.ylabel('游离二氧化硫占比',fontsize = 12)

可以发现，仅从游离二氧化硫占总二氧化硫的比重无法有效估计红、白葡萄酒的评分情况。

1-3-2-2、二氧化硫总量对评分的影响

#二氧化硫总量对评分影响
plt.figure(figsize = (10,4))
plt.suptitle('二氧化硫总量对评分的影响', y=1.02, fontsize = 16) #总标题
"""红"""
plt.subplot(1,2,1)
sns.boxplot(x=dfr['quality'], y=dfr['total sulfur dioxide'])
plt.xlabel('红葡萄酒评分',fontsize = 12)
plt.ylabel('二氧化硫总量',fontsize = 12)
"""白"""
plt.subplot(1,2,2)
sns.boxplot(x=dfw['quality'], y=dfw['total sulfur dioxide'])
plt.xlabel('白葡萄酒评分',fontsize = 12)
plt.ylabel('二氧化硫总量',fontsize = 12)

可以发现，仅从二氧化硫的总浓度亦无法有效估计红、白葡萄酒的评分情况，不过若出现高浓度二氧化硫，则有更大可能获得中间段评分。

1-4 第三类（密度）

除了之前在描述统计中看到的密度分布情况，这里可以进一步观察密度对评分的影响

#密度对评分影响
plt.figure(figsize = (10,4))
plt.suptitle('密度对评分影响', y=1.02, fontsize = 16) #总标题
"""红"""
plt.subplot(1,2,1)
sns.boxplot(x=dfr['quality'], y=dfr['density'])
plt.xlabel('红葡萄酒评分',fontsize = 12)
plt.ylabel('密度',fontsize = 12)
"""白"""
plt.subplot(1,2,2)
sns.boxplot(x=dfw['quality'], y=dfw['density'])
plt.xlabel('白葡萄酒评分',fontsize = 12)
plt.ylabel('密度',fontsize = 12)

可以发现，对于红葡萄酒而言，随着密度的降低会有一个轻微的取得高分的趋势，而对于白葡萄酒而言，密度的变化并不会影响其评分情况。

2.综合分析

2-1 各变量间关系

2-1-1、评分和各输入变量箱线图
在上一个章节中选择性的查看了大部分输入变量对评分的影响，此处可以进一步将所有输入变量对评分的影响放在一起，类似于总结，可以有一个更加直观的视角。

#红葡各变量与评分关系
colnm = dfr.columns.tolist()[:12]
plt.figure(figsize = (10, 8))

for i in range(12):
    plt.subplot(4,3,i+1)
    sns.boxplot(x ='quality', y = colnm[i], data = dfr, color = color[1], width = 0.6)    
    plt.ylabel(colnm[i],fontsize = 12)
plt.suptitle('红葡萄酒各变量与评分关系--箱线图', y=1.05, fontsize=14)
plt.tight_layout()

#白葡各变量与评分关系
colnm = dfw.columns.tolist()[:12]
plt.figure(figsize = (10, 8))

for i in range(12):
    plt.subplot(4,3,i+1)
    sns.boxplot(x ='quality', y = colnm[i], data = dfw, color = color[1], width = 0.6)    
    plt.ylabel(colnm[i],fontsize = 12)
plt.suptitle('白葡萄酒各变量与评分关系--箱线图', y=1.05, fontsize=14)
plt.tight_layout()

2-1-2、各变量热力相关图。

#红葡热力相关图
plt.figure(figsize = (10,8))
colnm = dfr.columns.tolist()
mcorr = dfr[colnm].corr()
mask = np.zeros_like(mcorr, dtype=np.bool)
mask[np.triu_indices_from(mask)] = True
cmap = sns.diverging_palette(220, 10, as_cmap=True)
sns.heatmap(mcorr, mask=mask, cmap=cmap, square=True, annot=True, fmt='0.2f')
plt.title('红葡萄酒各变量间热力相关图')

可以发现，就红葡萄酒quality得分与各输入变量的相关关系而言，与之前的读图分析结果基本保持一致，只不过是以数值形式进行了量化，此处不复赘述。
而各输入变量之间，可以发现：

总酸与固定酸、柠檬酸、密度有较强正相关，与pH有较强负相关；
固定酸与柠檬酸、密度有较强正相关，与pH有较强负相关；
挥发酸与柠檬酸有较强负相关；
柠檬酸与pH有较强负相关；
游离二氧化硫与二氧化硫总量有较强正相关；
密度与酒精有较强负相关

各种酸之间的相关、酸与pH的相关以及游离二氧化硫和总二氧化硫的相关关系都易于理解，而密度与酒精浓度的负相关可以进一步作图进行展示：

#红葡密度与酒精
plt.figure(figsize = (6,4))
sns.regplot(x='density', y = 'alcohol', data = dfr, scatter_kws = {'s':10}, color = color[0])
plt.title('红葡萄酒密度与酒精的相关关系')

#白葡热力相关图
plt.figure(figsize = (10,8))
colnm = dfw.columns.tolist()
mcorr = dfw[colnm].corr()
mask = np.zeros_like(mcorr, dtype=np.bool)
mask[np.triu_indices_from(mask)] = True
cmap = sns.diverging_palette(220, 10, as_cmap=True)
sns.heatmap(mcorr, mask=mask, cmap=cmap, square=True, annot=True, fmt='0.2f')
plt.title('白葡萄酒各变量间热力相关图')

对于白葡萄酒类似地，各输入变量之间可以发现：

总酸与固定酸有较强正相关，与pH有较弱负相关；
固定酸与pH有较弱负相关；
残留糖浓度与密度有较强正相关，与酒精浓度有较弱负相关；
游离二氧化硫与二氧化硫总量有较强正相关；
二氧化硫总量与密度有较强正相关，与酒精有较弱负相关；
密度与酒精有较强负相关

可以作图展示一下密度与酒精的负相关和残留糖与酒精的负相关：

#白葡密度与酒精
plt.figure(figsize = (6,4))
sns.regplot(x='density', y = 'alcohol', data = dfw, scatter_kws = {'s':10}, color = color[0])
plt.title('白葡萄酒密度与酒精的相关关系')

#白葡糖与酒精
plt.figure(figsize = (6,4))
sns.regplot(x='residual sugar', y = 'alcohol', data = dfw, scatter_kws = {'s':10}, color = color[0])
plt.title('白葡萄酒残留糖与酒精的相关关系')

2-2 主成分分析

前述分析中已经知道有些变量之间存在较强相关关系，这表示这些变量指代的含义可能出现重复，即存在浓缩变量的可能。
为验证想法，此处选择运用主成分分析（PCA）对输入变量进行降维，尝试找出具有代表性的少数几个新变量。因为各个变量之间度量单位不同且取值范围差异较大，故选择先将数据进行中心标准化处理，再对标准化的数据求解相关阵（也即协方差阵），进而求解特征值和特征向量。为避免高度重合，在计算之前要先将total acidity和quality这两列剔除出数据。
首先写出主题代码，封装成函数的形式。

#输入变量主成分分析
"""
参数：
    - XMat：传入的是一个numpy的矩阵格式，行表示样本数，列表示特征    
    - k：表示取前k个特征值对应的特征向量
函数解释：
    - pca_mat()：获取参与运算的多维数组
    - pca_eig()：返回满足要求的前k个特征值和特征向量
    - pca_coe()：返回主成分系数
    - pca()：返回每个样本的主成分得分
    - pca_draw()：返回前两个主成分得分的散点图
"""
def pca_mat(x):
    temp = x.drop(['quality','total acidity'],axis=1) #获取去除评分项的数据表
    XMat = np.array(temp) #dataframe格式转为多维数组
    average = np.mean(XMat,axis=0) #axis=0表示按照列来求均值
    standard = np.std(XMat,axis=0) #求每列标准差
    data_adjust = (XMat - average)/standard #中心标准化
    return data_adjust

def pca_eig(data_adjust):
    covmat = np.cov(data_adjust, rowvar=0)   #计算协方差矩阵
    eigVals,eigVects = np.linalg.eig(covmat)  #求解协方差矩阵的特征值和特征向量
    eigValInd = np.argsort(-eigVals) #按照eigVals进行从大到小排序（给出序号，不修改原特征值列表）
    """确定前k的主成分，使选取的主成分贡献90%以上的方差"""
    val_sum = 0
    val_total = eigVals.sum()
    for k in eigValInd:
        val_sum += eigVals[k]
        if val_sum/val_total < 0.90:
            continue
        else:
            break
    """分割线"""
    x = int(np.argwhere(eigValInd==k)+1) #定位k所在位置，结果加1
    eigValInd = eigValInd[:x:1] #截取前k个特征值的序号
    """取前k特征值"""
    list = []
    for i in eigValInd:
        list.append(eigVals[i])
    redEigVals = np.array(list)
    """对应前k的特征向量"""
    redEigVects = []
    for i in eigValInd:
        redEigVects.append(eigVects[i])
    redEigVects = np.array(redEigVects).T
    return redEigVals, redEigVects, eigVals, eigVects

def pca_coe(data_adjust):
    return pca_eig(data_adjust)[1]/(pca_eig(data_adjust)[0]**0.5)

def pca(data_adjust):
    lowDDataMat = np.matrix(data_adjust) * pca_eig(data_adjust)[1]
    return lowDDataMat

def pca_draw(data_adjust):
    df = pd.DataFrame(pca(data_adjust))
    plt.scatter(x=df[0], y=df[1])
    if data_adjust.sum() - pca_mat(dfr).sum() == 0:
        i = '红葡萄酒'
    else:
        i = '白葡萄酒' 
    plt.title(f'{i}'+'主成分得分--散点图')
    plt.xlabel('第一主成分', fontsize=12)
    plt.ylabel('第二主成分', fontsize=12)
    plt.show()

"""红、白葡萄酒初始分析数据"""
pr = pca_mat(dfr)
pw = pca_mat(dfw)

在进行主成分分析的时候，有两点需要注意：

变量间不能高度线性相关（故已提前提出明确已知的total acidity），特征值应不要出现十分接近0的情况，若存在则说明变量中存在严重的多重共线性，一定存在某些变量之间高度相关，此时的主成分分析效果将不是很理想。
如果各变量之间相关性不大，主成分分析也不会获得理想的效果

对于第一点，经检查可以认为不存在特征值十分接近0的情况：

对于第二点，则需要看看在主成分覆盖90%以上方差的原则下，选取了多少个主成分，若降维效果理想则少数的2-3个主成分即可满足要求。然而如下图所示，在90%标准下，红葡萄酒选出了7个特征值即对应7个主成分，同理白葡萄酒选出了8个主成分，可见两者的主成分降维效果都不是很理想。

结合之前的热力相关图就可以理解，因为大部分变量之间的相关性都很低，具有较强相关的只有少数几个变量，结合上述主成分分析需注意的第二点就知道效果是肯定不会很理想的。

因为效果不理想，其实分析到这里就可以停止了。下面仅作展示将代码执行完成的结果：

主成分系数
解释为第K个主成分表示为11个输入变量的线性组合。可见很难清晰的描述除各主成分代表的含义。

主成分得分
解释为每个样本点在主成分上投影的坐标。

前两个主成分散点图

3.总结

整体而言，11种输入变量对红葡萄酒的品质评分产生较多的影响，而对白葡萄酒则是在大多情况下无显著趋势，故在此猜测对白葡萄酒评分产生重要影响的另有因素，未在此次实验中被测量。

从实验结果来看，红、白葡萄酒的对输入变量的反应可以总结为以下表格

变量指标	红	白
固定酸占总酸比分布情况	分布分散，多数>=88%	单峰分布，集中在97%附近
固定酸占比对评分影响	高占比易得高分	无显著趋势
柠檬酸占固定酸比分布情况	分散于0-8%，有很多0值	单峰分布，集中在4%附近
柠檬酸占比对评分影响	高占比易得高分	无显著趋势
挥发酸占总酸比分布情况	大多数分散于2.5%-12%	单峰分布，集中在3%附近
挥发酸占比对评分影响	低占比易得高分	无显著趋势
总酸对评分影响	无显著趋势	无显著趋势
pH对评分影响	低pH得高分，趋势微弱	高pH得高分，趋势微弱
按柠檬酸分类	属于（干、半干、半甜）类	99%属于（干、半干、半甜）类，只有2例甜葡萄酒
残留糖对评分影响	无显著趋势，高含量在中间分段	无显著趋势，高含量在中间分段
按残留糖分类	干、半干、半甜	干、半干、半甜、甜
酒精浓度对评分影响	高浓度易得高分	高浓度易得高分
氯化物对评分影响	低浓度得高分，趋势微弱	低浓度得高分，趋势微弱
硫酸盐对评分影响	高浓度易得高分	无显著趋势
游离二氧化硫占总量比分布情况	分布分散大多数在10%-60%	单峰分布，集中在25%附近
游离二氧化硫占比对评分影响	无显著趋势	无显著趋势
二氧化硫总量对评分影响	无显著趋势	无显著趋势
密度对评分影响	低密度易得高分	低密度易得高分

红葡萄酒品质主要与固定酸含量（柠檬酸）、酒精浓度、硫酸盐浓度正相关，与挥发酸含量、pH值、氯化物浓度、密度负相关；
白葡萄酒品质主要与pH值、酒精浓度正相关，与氯化物、密度负相关；
对两种葡萄酒而言，总酸含量、残留糖含量、二氧化硫都是没有什么影响力的变量

从变量样本分布情况来看，两种葡萄酒存在明显区别，故在成分含量上对红、白葡萄酒进行区分较为可行：
11种输入变量之间普遍相关性不大，仅少数具有较高相关性，因此不具备理想的降维条件，无法将11种输入变量整合为少数几个综合变量（对红、白葡萄酒均是如此）。

参考资料

Seaborn 箱型图学习笔记
atplotlib:subplot绘制多个子图
Matplotlib画条形图和柱形图并添加数据标注

更新记录：
数据集取自天池官方，天池平台也有对于该数据集的分析案例，本篇在之基础上做了一定取舍与扩展，算是重头自己做了一遍，如有分析不严谨之处欢迎交流指正。

2020.5.7 初稿完成

你可能感兴趣的:(笔记)

Linux-笔记设备树插件 FU.l 笔记驱动开发 linux
目录前言：设备树插件的书写规范：设备树插件的编译：内核配置:应用背景：举例：前言：设备树插件（DeviceTreeBlobOverlay，简称DTBO）是Linux内核和嵌入式系统中用于动态修改或扩展系统运行时的设备树配置的一种机制。它是对传统设备（DeviceTreeSource，简称DTS）的补充，允许在不重新编译整个内核的情况下，对硬件配置进行更改。本质也是个设备树文件。设备树插件的书写规范
Java web%10 好学且牛逼的马 java 前端 AI编程
%10新路线Javawebai笔记阶段时长内容Web前端基础2天HTML、CSS、JS、Vue3、AjaxWeb后端基础4天Maven、HTTP协议、SpringIOC、DI、MySQL、JDBC、MybatisWeb后端实战6天Tlias案例（基于案例讲解web开发的核心知识）Web后端进阶2天SpringAOP、SpringBoot原理、自定义Starter、Maven高级前端web实战4天V
Java 集合list 手搓底层源码好学且牛逼的马算法
#32Java八股集合基础用法掌握速通小林不是很全老韩详细底层byd课程质量一般八股文听书算法题不会写byd密码的还没开始看双指针技巧秒杀七道链表题目|labuladong的算法笔记等等熬夜看笔记实现底层代码后面非常长但是也只写到了list完map和set明天写collection这段代码展示了Java集合框架的核心接口层次结构。`Collection`是整个集合框架的根接口，定义了集合操作的基本
C++学习笔记.2 Lowjin_ C++c++学习笔记
类和对象封装语法：class关键字{访问权限属性行为}#includeusingnamespacestd;constdoublepi=3.14;//设计一个圆类classcircle{//访问权限//公共权限public://属性intr;//行为doublec(){return2*pi*r;}};intmain(){//通过圆类创建具体的圆（对象）circlec1;c1.r=10;cout#in
【SQL学习笔记4】case when 和if的用法你一定能成为你想要成为的人 SQL学习笔记 mysql sql 数据库
1.case用法--用法一：casewhen条件1then字段取值1when条件2then字段取值2when条件3then字段取值3else字段取值4--如果上述全部不满足，则执行end--用法二：case字段名when取值1then字段取值1when取值2then字段取值2when取值3then字段取值3else字段取值4--如果上述全部不满足，则执行end2.if用法if(条件,取值1,取值2
创建没有 TPM 和安全启动的 Windows 11 可启动 USB 驱动器
创建没有TPM和安全启动的Windows11可启动USB驱动器如果你使用的笔记本电脑或台式机系统不符合Windows11的系统要求，即没有安全启动和TPM2.0；那么这里有一个解决方案，可以创建一个Windows11的可启动USB驱动器，但会移除TPM和安全启动的要求。微软对安装Win11的用户设定了某些限制，这些用户使用的计算机没有TPM和安全启动功能。不过，既然凡事都有解决办法，这个问题也不例
Python个人学习基础笔记-3.爬虫（1）孜宸润泽 python 学习笔记
一.爬虫的定义爬虫（crawler/spider）是模拟浏览器行为，按照编写规则，自动接收网页信息的工具。通常而言爬虫首先从初始URL集选择URL，向目标网页发起请求，获取网页的HTML源码，然后将获取的数据进行解析过滤，保存我们所需要的标题、内容等，最后提取新的URL加入待爬序列。爬虫常见所需要的库包括Request库、BeautifulSoup4库、Scrapy库和Selenium库等。二.R
和李沐老师学深度学习--2.数据操作部分代码实现（学习笔记）
大家对代码有不懂地方都可以上网去查找，最好是有一定的数据分析基础比较容易理解，李沐老师课程视频链接我放在这里了大家有不懂都可以观看课程进行学习04数据操作+数据预处理【动手学深度学习v2】_哔哩哔哩_bilibili深度学习课程电子书：大家可以使用翻译插件观看书的内容Preface—DiveintoDeepLearning1.0.3documentation深度学习github项目：https:/
一文教你学会使用 ts 泛型；ts 泛型常用知识点 GGhhccc javascript 开发语言前端 typescript
文章目录1.泛型是什么？为什么要用泛型？2.泛型如何使用泛型类泛型约束3.泛型部分实用工具类型ExcludeExtractOmitPick4.结语最近回头复习了一下ts泛型的知识，做一些笔记的总结分享~1.泛型是什么？为什么要用泛型？引用官网的例子，此时有一个需求：我们要定义一个函数，他会返回任何传入他的值。这个情况下，我们如果已知他的数据类型（假定是number），就可以写出以下代码：funct
ts学习笔记七：泛型
//泛型的用处在于当我们调用的时候确定类型，而不是一开始就写好类型，类型不确定，只有在执行的时候才能确定//1.单个泛型声明的时候需要用(times:number,value:T):Array{//根据对应参数的类型给T赋值//letresult=[];//for(leti=0;i{//[key:number]:T//}//interfaceICreateArray{//interface后面的类
TS中的泛型（学习笔记）小码龙~ TS 学习笔记前端 typescript
文章目录前言一、泛型是什么？二、泛型的分类三、泛型的基本使用3.1函数中的泛型使用3.2接口中的泛型使用(运用广泛)3.2类型别名中的泛型使用(运用广泛)3.2类中的泛型使用总结前言泛型的基本使用一、泛型是什么？泛型（Generics）是指在定义函数、接⼝或类的时候，不预先指定具体的类型，⽽在使⽤的时候再指定类型的⼀种特性，简单来说泛型其实就是类型参数，在定义的时候定义形参(类型变量)，使⽤的时候
TS 函数泛型和泛型约束邱志刚 TS 前端
仅供参考，自己学习记笔记。//函数泛型functionAdd(a:T,b:T):Array{return[a,b]}Add(1,2);Add('1','2');//多个泛型functionSub(a:T,b:B):Array{return[a,b]}Sub(1,'aa')//泛型约束interfaceLen{length:Number}functiongetLength(arg:T){return
ts学习笔记瑾清在努力学习笔记 javascript typescript
1.介绍ts是js的超集，他融合了其他语言的优势，将js带到了一个新的高度js,es,ts的关系：ECMAScript是JavaScript的标准，TypeScript是JavaScript的超集2.为什么使用ts？1.发现问题js---运行后报错ts---运行之前可检查出错误（静态类型检查）2.非异常故障错别字，未调用函数，基本逻辑错误constuser={name:'小明'，age:26}us
TS泛型笔记红中马喽笔记
1.泛型基础概念定义：泛型是TypeScript中允许创建可复用组件的特性，这些组件可以支持多种数据类型，而非单一特定类型。核心优势：代码复用性：同一组件可处理不同类型数据类型安全：在编译阶段捕获类型错误灵活性：保持代码的灵活性同时提供强类型支持泛型函数//基础泛型函数语法functionidentity(arg:T):T{returnarg;}//使用方式constresult=identity
hmc7044时钟芯片调试笔记 So_shine Linux驱动总结分享 linux内核驱动时钟芯片
目录前言一、依赖文档、工具二、运行linux内核驱动的平台1、代码、文件列表2、适配、编译3、调试三、无os的mcu平台1、代码、文件列表2、适配、编译3、调试前言本笔记基于运行linux操作系统的SOC芯片平台、linux内核版本linux5.10.xxx和无操作系统的mcu平台记录调试；一、依赖文档、工具文档名说明获取方式hmc7044.pdf数据手册adi官网或者国内采芯网GUI配置工具通过
vue的侦听器及怎么侦听数组--笔记小番茄炒鸡蛋 vue.js javascript 前端
作用侦听属性响应数据的变化，当数据发生改变的时候会立即执行对应的函数letvm=newVue({el:"#test",data:{entry:""},watch:{entry(){console.log("侦听到了");}}})这里我同过侦听器和v-model指令一起用可以更直观的体现他的作用（这也是常用搭配）。原理：当input输入内容后，因为v-model指令的绑定，此时entry属性值会随之
鸿蒙开发之埋点方案：高效追踪用户行为 niu某某移动开发鸿蒙开发 HarmonyOS harmonyos 鸿蒙开发移动开发组件化模块化 ArkUI
往期推文全新看点（文中附带最新·鸿蒙全栈学习笔记）✒️鸿蒙应用开发与鸿蒙系统开发哪个更有前景？✒️嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~✒️对于大前端开发来说，转鸿蒙开发究竟是福还是祸？✒️鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？✒️记录一场鸿蒙开发岗位面试经历~✒️持续更新中……概述埋点是指将信息采集程序和原本的功能代码结合起来，针对特定用户行为收集、处理和发送一些
燕山大学软件用户界面设计考题能运行就算成功经验分享
2024年考题，考前完全不知道考什么，趁着现在还记得，造福下后辈。全部是简答。1.描述下实用性和它的三个维度2.写出五个功能可见性的例子3.关键性模型Keystroke-LevelModel(KLM)字母的意思4.undo四个设计原则（笔记和翻译根本没有，看到时已经懵了）5.GUI三种设计方式6.瀑布模型为什么不适合ui设计后面是大题，跟写实验报告差不多，这次是个预定家政服务的题，写信息点描述中心
Microsoft VBA Excel VBA学习笔记——双重筛选+复制数值1.0 偷心伊普西隆 VBA学习和实践 microsoft excel
问题场景CountryProductCLASS1CLASS2CLASS3CLASS4CLASS5CLASS6…USApple0.3641416030.8918210610.0591451990.7320110290.0509636560.222464259…USBanana0.2300833330.4027262180.1548836670.2988904860.7802326210.028592
SQL Server的个人学习笔记萌尛喵 sql 学习数据库
1.基础SQLServer是由Microsoft开发和销售的关系数据库管理系统或RDBMS。SQLServer建立于SOL之上，是一种用于关系数据交互的标准编程语言。2.组件SQLServer主要由数据库引擎和SQLOS两个组件组成。①数据库引擎SQLServer的核心组件是数据库引擎。数据库引擎由处理查询的关系引擎和管理数据库文件、页面、索引等的存储组成。数据库引擎也创建并执行数据库对象，如存储
SQLserver数据库学习笔记溪衡学习
小记1：1.newid()我觉得是一个生成唯一键的好方法，不用自增控制主键，可以用这个试试，注意不做处理的话，需要36位。例如：在数据库中直接使用语句selectnewid()2.nolock按我的理解是“不上锁的”，所谓的脏读，大多用的都是这个东西，据说可以提高查询速度。3.go批处理语句，将前面的代码作为一批处理。4.内连接与简单多表在数据量少的时候查询速度差距并不明显。5.删除和更新数据时，
SQL学习笔记1
1.数据库1、什么是数据库数据库（DB）即用于存放数据的服务器，如MySQL等软件是数据库管理系统（DBMS），用于管理存放在数据库中的数据，SQL是用于操作DBMS的标准语言。2、数据库的类型数据库分为关系型数据库和非关系型数据库；关系型数据库是指用建立在关系模型上互相关联的二维表组成的数据库，MySQL是用于管理关系型数据库的数据库管理系统2.MySQL启动与连接1、MySQL启动安装好MyS
Learning PostgresSQL读书笔记: 第8章 Triggers and Rules dingdingfish PostgresSQL postgresql database architecture tutorial
本章将讨论以下内容：•探索PostgreSQL中的规则•管理PostgreSQL中的触发器•事件触发器探索PostgreSQL中的规则文档中的这段话阐述了rule和trigger的区别：PostgreSQL规则系统允许定义在数据库表中插入、更新或删除时执行的替代操作。粗略地说，当对给定表执行给定命令时，规则会执行其他命令。或者，INSTEAD规则可以用另一个命令替换给定命令，或者导致命令根本不执行
stm32学习笔记——TIM定时中断算法萌新——1 stm32 学习笔记
一、TIM定时中断的基本概念TIM定时中断是嵌入式系统中一种重要的功能，它基于定时器（TIM）实现。定时器可以对内部时钟或外部事件进行计数，当计数值达到预设的阈值时，会触发一个中断信号。这个中断信号会使CPU暂停当前正在执行的主程序，转而执行预先编写好的中断服务程序（ISR），执行完中断服务程序后，CPU再返回到主程序继续执行。TIM定时中断的核心在于“定时”，它可以实现精确的时间控制，为系统提供
我的创作纪念日 BoAiB 其他
机缘起初，只是因为这个平台学习知识很方便，慢慢的有了记录自己“成长”的想法，也很想一直坚持下去。收获获得了100+粉丝的关注获得了6000+正向的反馈，如赞、评论、阅读量等关注了许多榜样大神学习习惯也变得更好了，会很认真仔细的记录自己的收获，也很开心能被大家认可我的分享日常创作已经是我生活的一部分了一边学习，一边实践，一边记录以前总觉得，做笔记太浪费时间了，总觉得实践才是硬道理，现在想想，真是愚昧
大模型RLHF强化学习笔记（一）：强化学习基础梳理Part1 Gravity! 大模型笔记大模型 LLM 算法机器学习强化学习人工智能
【如果笔记对你有帮助，欢迎关注&点赞&收藏，收到正反馈会加快更新！谢谢支持！】一、强化学习基础1.1Intro定义：强化学习是一种机器学习方法，需要智能体通过与环境交互学习最优策略基本要素：状态（State）：智能体在决策过程中需要考虑的所有相关信息（环境描述）动作（Action）：在环境中可以采取的行为策略（Policy）：定义了在给定状态下智能体应该选择哪个动作，目标是最大化智能体的长期累积奖
iphone se 一代不完美越狱 14.6 视频壁纸教程(踩坑笔记) YANG_301 ios iphone
iphonese一代不完美越狱14.6加视频壁纸教程-踩坑笔记越狱流程1.爱思助手制作启动u盘坑点:2.越狱好后视频壁纸软件1.源2.软件安装越狱流程1.爱思助手制作启动u盘https://www.i4.cn/news_detail_42302.html此网址为具体流程,但要注意!!!坑点:下图中最后一排quickmode应被勾选(勾选后是×(´ཀ`」∠))进入options后不禁要勾选allow
Python训练营打卡——DAY16（2025.5.5） cosine2025 Python训练营打卡 python 开发语言机器学习
目录一、NumPy数组基础笔记1.理解数组的维度(Dimensions)2.NumPy数组与深度学习Tensor的关系3.一维数组(1DArray)4.二维数组(2DArray)5.数组的创建5.1数组的简单创建5.2数组的随机化创建5.3数组的遍历5.4数组的运算6.数组的索引6.1一维数组索引6.2二维数组索引6.3三维数组索引二、SHAP值的深入理解三、总结1.NumPy数组基础总结2.SH
API测试(一)：PortSwigger靶场笔记 h4ckb0ss 笔记网络安全 web安全
写在前面这篇文章是关于作者在学习PortSwigger的APITest类型漏洞时的记录和学习笔记使用到的工具为BurpSuitePro漏洞简介什么是apiAPI全称为ApplicationInterface，是应用程序对外提供功能的接口，现在主要有三种api风格，分别是JSON风格的api，RESTful风格的api以及Graphic风格的apiJSON风格请求获取用户信息POST/api/get
《Python数据分析与挖掘实战》Chapter8中医证型关联规则挖掘笔记茫茫大地真干净机器学习 Python 数据挖掘
最近在学习《Python数据分析与挖掘实战》中的案例，写写自己的心得。代码分为两大部分：1.读取数据并进行聚类分析2.应用Apriori关联规则挖掘规律1.聚类部分函数分析：defprogrammer_1():datafile="C:/Users/longming/Desktop/chapter8/data/data.xls"processedfile="C:/Users/longming/Des
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">