python葡萄酒数据集_葡萄酒数据集数据分析

数据集来源:http://archive.ics.uci.edu/ml/datasets/Wine+Quality

引用说明

P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis.

Modeling wine preferences by data mining from physicochemical properties.

In Decision Support Systems, Elsevier, 47(4):547-553. ISSN: 0167-9236.

需要用到的python库:numpy pandas matplotlib seaborn seaborn就是在matplotlib基础上面的封装,方便直接传参数调用

数据集说明

包含红葡萄酒和白葡萄酒两个数据集

winequality-red.csv

winequality-white.csv

实例数: red wine -1599 white wine-4898

属性(特征)数:11+输出属性

输入变量(基于物理化学测试)

1 - fixed acidity 固定酸度

2 - volatile acidity 挥发性酸度

3 - citric acid 柠檬酸

4 - residual sugar 残糖

5 - chlorides 氯化物

6 - free sulfur dioxide 游离二氧化硫

7 - total sulfur dioxide 总二氧化硫

8 - density 密度

9 - pH PH值

10 - sulphates 硫酸盐

11 - alcohol 酒精

输出变量(基于感官数据):

12 - quality (score between 0 and 10)

使用jupyter notebook

`

读取数据

df=pd.read_csv("winequality-red.csv")

查看dataframe前10行

查看数据信息

单变量数据分析

简单的数据统计

df.columns 返回dataframe的列标签

colmn=df.columns.tolist() 将dataframe返回的列标签转换成列表

fig=plt.figure(figsize=(10,6))

for i in range(12):

plt.subplot(2,6,i+1)

sns.boxplot(df[colmn[i]],orient="v", width = 0.5, color = color[0])

plt.ylabel(colmn[i],fontsize=12)

plt.tight_layout()

#print("Figure 1: Univariate Boxplots")

`

你可能感兴趣的:(python葡萄酒数据集)