Seaborn属于Matplotlib的一个高级接口,为我们进行数据的可视化分析提供了极大的方便。
博主是为了入门Kaggle比赛而学习的Seaborn,下面是博主的学习过程,希望可以和大家一起分享。
首先确定你的电脑已安装以下应用
- Python 2.7+ or Python 3
- Pandas
- Matplotlib
- Seaborn
- Jupyter Notebook(可选)
打开Jupyter Notebook, 过几秒钟会弹出网页窗口Home。
点击右侧的New,新建一个Notebook,弹出一个新的网页窗口,点击上方可命名文件。
这里提供了一个数据文件,下载链接为:
Pokemon.csv
Seaborn最大的优点之一在于其种类繁多的绘图功能,下面我们利用lmplot()函数,用一行代码来绘制散点图。
我们希望x轴显示Attack数据,y轴显示Defense数据,则可以编写代码。
事实上seaborn并没有专门用来绘制散点图的功能,实际上我们用它来拟合和绘制回归线。
幸运的是,我们可以通过设置函数的参数来得到我们想要的散点图。用fit_reg = False 移去回归线,用hug参数来用不同颜色显示Pokemon进化阶段的信息。
从散点图可以看出,所有的数据点都分布在数轴的正半轴,然而散点图的数轴从负数开始的,我们可以对它进行改进。
虽然Seaborn是Matplotlib的一个高级接口,但是我们有时候也需要用到Matplotlib。其中包括设置数轴的范围。
我们利用Matplotlib的ylim()和xlim()函数来设置数轴的范围。
尽管这是一个Seaborn教程,pandas依然在实际应用中起到了十分重要的作用。
很好,这是一个良好的开端,但是我们可以移除不需要的几列数据。
Seaborn的另一个好处就是其恰到好处、开箱即用的风格主题。其默认的主题为“darkgrid”
下一步,我们把主题改为“whitegrid”来创建一个小提琴图
可以得到小提琴图,x轴显示的是Pokemon的Type1,y轴显示的是不同Pokemon的攻击数值。
我们很容易就可以看出,Dragon类型常常具备高攻击值,但是不同个体间的差异也很大。
Seaborn可以根据我们的需求,来设置颜色。我们可以创建一个python命令列表,用颜色的十六进制数值来设置。数值可以在Bulbapedia中寻找。
为了能够让数据文件中的151个Pokemon都能够在图中简单展示,我们可以用群集图 swarm plot达到这一目的。
可以得到151个数据点在群集图上的分布,不同点代表不同的Pokemon。
我们已经绘制出了小提琴图和群集图,Seaborn允许我们将这两张图整合在一张图上,步骤如下:
现在我们可以清晰的看到不同Pokemon的攻击值了。那么我们怎么看其他的数值呢?
为了展现其他的数据,我们当然可以重复以上的步骤,绘制多张图。但是我们同样也可以在一张图上表示所有的数据,这时候pandas就派上用场了。
我们可以利用pandas的melt()函数来将一些数据进行融合,这样就可以在不同Pokemon之间直接进行比对,melt()需要导入3个参数,分别为:
显示前五行的数据可以看到,六列数据已经融合成为一列Stat,数值在value一列中显示。而实际上Stat已经包含了原来列表中的六列数据。
就可以得到如下的群集图。x轴为Stat中融合的六个变量,y轴为Stat的值,不同颜色代表不同的Pokemon Type 1。
这张图表有一些细节需要完善:
10.1-Heatmap
Heatmap可以帮助可视化矩阵状的数据。
10.2-Histogram
Histogram能够绘制变量的数值分布。
10.3-Bar Plot
条形图可以帮助分类变量的可视化。
10.4-Factor Plot
Factor plots能够根据类别分离图表。
可以得到根据Stage分离的三个图表,分别用不同颜色的点表示不同的Pokemon。
10.5-Density Plot
密度图显示的是两个变量之间的分布。
曲线越密集的地方说明两个变量的关系越近,越稀疏的地方说明关系越远。
10.6-Joint Distribution Plot
联合分布图将散点图和直方图的信息结合起来,提供双变量分布的详细信息。
这里只是介绍了Seaborn常用的绘图功能,还有更强大的功能Example gallery需要我们去学习,去探索。