Python数据可视化 | 2、Matplotlib 的基本操作

目录

  • 常用设置
  • 常用图形
  • 常用样式
  • 小结

常用设置

  • 获取当前图表对象
    • fig = matplotlib.pyplot.gcf()
    • (gcf = get current figure)
  • 常用图表对象设置
    例子:有两种设置图像大小的方式,但是有区别!
    • fig.set_size_inches(10,10) # 以英尺为单位
    • matplotlib.pyplot.figure(figsize=(14,7))
  • 保存当前图表对象
    • matplotlib.pyplot.savefig(“figure1.png”)
import matplotlib
from matplotlib import pyplot as plt  # 简写 matplotlib.pyplot 为 plt
import numpy as np
import scipy
# 包含不同的pdf
from scipy import stats
# 让图片显示在notebook中
%matplotlib inline 
# 绘制的图显示在代码框中 

# plt.show(), plt.cla(), plt.clf(), plt.close()
plt.figure(figsize=(10,5))      # 先生成一个10*5的图
x = np.arange(-5,5,0.01)        # 生成数字序列
y = stats.norm.pdf(x,0,1)       # loc = mean, scale = sigma 用统计学包输出均值为0,方差为1的正态分布
plt.plot(x,y)                   # 画图!
plt.savefig("figure1.png")      # 把图保存为figure1(不支持jpg)

Python数据可视化 | 2、Matplotlib 的基本操作_第1张图片

plt.figure(figsize=(5,5))       # 关键:.figure 函数会清空画面
plt.savefig("figure2.png")      # 为什么figure2是空的?因为还没有画,画面成了空白的方形图。
fig = plt.gcf()
fig.set_size_inches(5,8)
plt.savefig("figure3.png")      # 为什么figure3是空的?因为gcf取得的是上一个空白图哦~
plt.plot(x,y)
fig = plt.gcf()
fig.set_size_inches(5,5)
plt.savefig("figure4.png")      # figure4图片终于是5*5的正方形

Python数据可视化 | 2、Matplotlib 的基本操作_第2张图片
两种设置图像大小的方法如何选择?
画之前设置 VS 画之后设置,.figure 是一定要画之前就设置好,一旦画过了之后再想做局部的修改,就只能用当前句柄对象.set_*的方式设置了图像了。(所谓的句柄,就是类似指针的指针!)

常用图形

  • 曲线图:matplotlib.pyplot.plot(data)
  • 灰度图:matplotlib.pyplot.hist(data)
  • 散点图:matplotlib.pyplot.scatter(data)
  • 箱式图:matplotlib.pyplot.boxplot(data)
x = np.arange(-5,5,0.1) # -5到5区间,相隔0.1取点为list
y = x ** 2
plt.plot(x,y)  
# 曲线图演示

Python数据可视化 | 2、Matplotlib 的基本操作_第3张图片

x = np.random.normal(size=1000) # 随机生成正态分布的1000个样本
plt.hist(x, bins=10) 
plt.show()
# 灰度图histogram,其中bins是柱子的数目

Python数据可视化 | 2、Matplotlib 的基本操作_第4张图片

x = np.random.normal(size=1000)
y = np.random.normal(size=1000)
plt.scatter(x,y)    
# 散点图

Python数据可视化 | 2、Matplotlib 的基本操作_第5张图片

plt.boxplot(x)       
# 箱式图  (正态分布)

Python数据可视化 | 2、Matplotlib 的基本操作_第6张图片
箱式图科普
(信息含量很大~有一半的数值都在箱子里面)

  • 上边缘(Q3+1.5IQR)、下边缘(Q1-1.5IQR)(其中 IQR=Q3-Q1 是 interquartile range)

(信息含量很大~有一半的数值都在箱子里面)

  • 上四分位数(Q3)、下四分位数(Q1)(箱子上下蓝色的边框):排序后第25%和第75%处的样本数值
  • 中位数(箱子中间的红色线):排序后第50%处的样本数值,不受异常值影响!
    <注:均值是所有数据的平均值,受异常值影响!>
  • 异常值(上下边缘以外的点被定义为异常值,算是异常值的阈值)
    处理异常值时与3σ标准的异同:统计边界是否受异常值影响、容忍度的大小 btw:σ⇒68.2%,2σ⇒95.4%,3σ⇒99.7% 3σ标准以均值和方差作为度量,异常值对其的影响是非常大的。若按照分位数刻画的箱式图来考察的话,只要异常值不影响排序,那么异常值的大小是怎样都是什么关系的,但对于3σ标准来说,不管异常值是否影响排序,其值的任何变化都会显著影响方差σ。
    所以,如果能估计出数据存在特别特别离谱的异常值时,建议可以通过箱式图来考察,去度量数据的统计特性、集中程度、分布情况等;若数据中没有太可能有太多异常值的时候,就可以用3σ标准来考察。
    例子: 箱子很短,说明数据很集中;箱子很长,说明数据很分散;虚线很长,说明异常值不仅大,还非常多。所以,如果想截取一个干净的数据,就需要把分位数的上下阈值定的足够的窄才行。

常用样式

获取当前图表对象

  • pyplot.plot(x, color=‘g‘) #颜色
  • pyplot.plot(x, linestyle=‘—‘) #线形
  • pyplot.plot(x, marker=‘+‘) #曲线上的点
  • pyplot.plot(x, ‘ro-’)

标题

  • pyplot.title(“xxxx”)

坐标轴标签

  • pyplot.xlabel(“xxxx”)
  • pyplot.ylabel(“xxxx”)

图注

  • pyplot.legend(loc=“best”)
  • pyplot.plot(label=“xxxx”)

网格

  • pyplot.grid(color=“xxx”, linestyle="-", alpha=0.5)
x = np.arange(-5,5.5,0.5)
y = x ** 2
plt.plot(x,y,color='b',linestyle='-.',marker='o')  
# 颜色/线型/标记

Python数据可视化 | 2、Matplotlib 的基本操作_第7张图片

plt.plot(x,y,'yo--') # 可以合在一起写 

Python数据可视化 | 2、Matplotlib 的基本操作_第8张图片

plt.title("style config")   # 标题
plt.xlabel("x range")       # 横坐标
plt.ylabel("y range")       # 纵坐标
plt.plot(x,y) 

Python数据可视化 | 2、Matplotlib 的基本操作_第9张图片

y1 = x ** 2
y2 = x ** 3
plt.plot(x,y1,'r-',label='line 1')  # Label
plt.plot(x,y2,'b-',label='line 2')  # Label
plt.title("style config")
plt.xlabel("x range")
plt.ylabel("y range")
plt.legend(loc=4)              # Legend

Python数据可视化 | 2、Matplotlib 的基本操作_第10张图片

plt.plot(x,y1,'r')
plt.plot(x,y2,'b')
plt.grid(color='g',linestyle=':',alpha=0.8)   # 设置网格 alpha参数表示透明度(%)

Python数据可视化 | 2、Matplotlib 的基本操作_第11张图片

小结

Python数据可视化 | 2、Matplotlib 的基本操作_第12张图片
源码获取:关注微信公众号“AI阅读知识图谱”,回复“Python数据可视化”获取已更新内容全部代码。

你可能感兴趣的:(代码实战,python)