使用pandas和seaborn绘图
Series和DataFrame自带的生成图表方法:
import pandas as pd
s = pd.Series(np.random.randn(10).cumsum(), index=np.arange(0, 100, 10))
s.plot()
使用pandas做一张堆积柱状图
展示每天各种聚会规模的数据点的百分比
tips = pd.read_csv('examples/tips.csv')
party_counts = pd.crosstab(tips['day'], tips['size'])
print(party_counts)
size 1 2 3 4 5 6
day
Fri 1 16 1 1 0 0
Sat 2 53 18 13 1 0
Sun 0 39 15 18 3 1
Thur 1 48 4 5 1 3
party_counts = party_counts.loc[:, 2:5]
print(party_counts)
size 2 3 4 5
day
Fri 16 1 1 0
Sat 53 18 13 1
Sun 39 15 18 3
Thur 48 4 5 1
为了方便以百分比的形式展现数据,需要进行规格化使各行的和为1,然后生成图表
party_pcts = party_counts.div(party_counts.sum(1).astype(float), axis=0)
print(party_pcts)
size 2 3 4 5
day
Fri 0.888889 0.055556 0.055556 0.000000
Sat 0.623529 0.211765 0.152941 0.011765
Sun 0.520000 0.200000 0.240000 0.040000
Thur 0.827586 0.068966 0.086207 0.017241
生成图表
party_pcts.plot.bar()
从图表中可以看出,在周日的聚会规模最大。
seaborn这个库非常适合进行合计数据
接下来使用Seaborn来查看每天给的小费比例,Seaborn其实是在matplotlib的基础上进行了更高级的API封装,但应强调的是,应该把Seaborn视为matplotlib的补充,而不是替代物。
import seaborn as sns
tips['tip_pct'] = tips['tip'] / tips['total_bill'] - tips['tip'] # 新增了一项小费占比
tips.head()
sns.barplot(x='tip_pct', y='day', data=tips, orient='h') #orient 表示柱状图的方向,h表示横向
因为seaborn绘制函数需要使用到DataFrame参数。其他的参数都是关于列的名字
修改柱状图颜色
fig8 = plt.figure()
sns.barplot(x='tip_pct',y='day',hue='time',data=tips,orient='h')
把关键词改为time
后,seaborn自动修改了图表的配色。
图形背景和网格线可以手动调整:
sns.set_style("darkgrid")
直方图和密度图
直方图
可以对值的频率进行离散化显示的柱状图。
个人理解:通过直方图和密度图能很直观的分析出一堆数据中那部分的数据最集中。比如厂商做衣服,标准身材的人肯定占大多数,而太瘦小或太胖这种身材都占小部分。这样分析就能知道该大量制作多少尺寸的衣服了。
通过在Series中使用plot.hist
方法来实现:
fig9 = plt.figure()
tips['tip_pct'].plot.hist(bins=50)
密度图
密度图是通过计算“可能会产生观测数据的连续概率分布的估计”而产生的图表。
使用plot.kde
和标准混合正态分布估计即可生成一张密度图
fig10 = plt.figure()
tips['tip_pct'].plot.density()
还有一种更方便的方法能一起绘制直方图和密度图
fig11 = plt.figure()
comp1 = np.random.normal(0, 1, size=200) # 一组标准差为1,以0为中心的正态分布数组
comp2 = np.random.normal(10, 2, size=200) # 一组标准差为2,以10为中心的正态分布数组
values = pd.Series(np.concatenate([comp1, comp2])) # 对两组数据进行合并
sns.distplot(values, bins=100, color='k')
# 把数据分割成了100个区间(割的越细分析越精确)
散布图或点图
点图或散布图是观察两个一维数据序列之间的关系的有效手段。
macro = pd.read_csv('examples/macrodata.csv')
data = macro[['cpi','m1','tbilrate','unemp']]
trans_data = np.log(data).diff().dropna()
# 这里做了三个步骤
# 1.对data中的数据做了对数处理,来获取以自然对数e为底```data```的对数
# 2. 对第一步的结果做了离散差值计算
# 3. 去除NaN
print(trans_data[-5:])
cpi m1 tbilrate unemp
198 -0.007904 0.045361 -0.396881 0.105361
199 -0.021979 0.066753 -2.277267 0.139762
200 0.002340 0.010286 0.606136 0.160343
201 0.008419 0.037461 -0.200671 0.127339
202 0.008894 0.012202 -0.405465 0.042560
Seaborn可以一次性两两组合多个变量做出多个对比图,做出一个N * N的矩阵
sns.pairplot(trans_data,diag_kind='kde',plot_kws={'alpha':0.2})
分面网格和类型数据
sns.factorplot(x='day',y='tip_pct',hue='time',col='smoker',kind='bar',data=tips[tips.tip_pct < 1])
除了可以用不同的颜色按时间分组,也可以通过给每个时间值添加一行来扩展分面网格:
sns.factorplot(x='day',y='tip_pct',row='time',col='smoker',kind='bar',data=tips[tips.tip_pct < 1])