数据可视化是指将数据以图表的形式表示,并利用数据分析和开发工具发现其中未知信息的过程。Python为我们提供了很多数据可视化工具,例如:Matplotlib、Seaborn等,这里我们针对Matplotlib进行演示。
在数据分析过程中我们常见的图表类型包括以下几种:
Matplotlib 是 Python 的绘图库。 它可与 NumPy 一起使用,提供了一种有效的 MatLab 开源替代方案。 它也可以和图形工具包一起使用,如 PyQt 和 wxPython。
import numpy as np
import matplotlib.pyplot as plt
# 使用默认画布绘图
data = np.arange(100, 200)
plt.plot(data)
plt.show()
import matplotlib.pyplot as plt
#创建图形对象
fig = plt.figure()
figsize 指定画布的大小,(宽度,高度),单位为英寸。
dpi 指定绘图对象的分辨率,即每英寸多少个像素,默认值为80。
facecolor 背景颜色。
dgecolor 边框颜色。
frameon 是否显示边框。
import matplotlib.pyplot as plt
import numpy as np
# 创建图形对象
plt.figure(facecolor='gray')
data = np.arange(100, 200)
plt.plot(data)
plt.show()
有些时候我们想在同一个画布绘制多个视图,而不是在多个画布中绘制多个图形。这时候可以把画布进行划分,每个绘图区域都是一个Axes对象,他拥有属于自己的坐标系统,被称为子图。
plt.subplot(nrows, ncols, index)
nrows 与 ncols 表示要划分几行几列的子区域(nrows*nclos表示子图数量),index 的初始值为1,用来选定具体的某个子区域。
data = np.arange(100, 200) # 数据
plt.subplot(121) # 分成1x2的区域,占用编号为1的区域
plt.plot(data)
plt.subplot(122) # 分成1x2的区域,占用编号为2的区域
plt.plot(-data)
plt.show()
subplots() 函数,它的使用方法和 subplot() 函数类似。其不同之处在于,subplots() 既创建了一个包含子图区域的画布,又创建了一个 figure 图形对象,而 subplot() 只是创建一个包含子图区域的画布。
fig , axes = plt.subplots(nrows, ncols)
nrows 与 ncols 表示两个整数参数,它们指定子图所占的行数、列数
data = np.arange(100, 200) # 数据
fig, axes = plt.subplots(2, 2) # 分成2x2矩阵区域,返回子图数组axes
print(axes)
# ans:
[[<AxesSubplot:> <AxesSubplot:>]
[<AxesSubplot:> <AxesSubplot:>]]
Process finished with exit code 0
data = np.arange(100, 200) # 数据
fig, axes = plt.subplots(2, 2) # 分成2x2矩阵区域,返回子图数组axes
ax1 = axes[0, 0] # 取出第一个子视图
ax2 = axes[0, 1]
ax3 = axes[1, 0]
ax4 = axes[1, 1]
ax1.plot(data)
ax2.plot(-data)
ax3.plot(2*data)
ax4.plot(-2*data)
plt.show()
绘图的时候我们为了使绘制的图形更加直观,我们通常会给图像添加横、纵坐标等标签,常用的标签列举如下:
data = np.arange(0, 1.1, 0.01)
plt.title("Title") # 设置标题
plt.xlabel("x") # 添加x轴的名称
plt.ylabel("y") # 添加y轴的名称
# 设置x和y轴的刻度
plt.xticks([0, 0.5, 1])
plt.yticks([0, 0.5, 1.0])
# 绘制y=x^2曲线
plt.plot(data, data ** 2)
# 绘制y=x^3曲线
plt.plot(data, data ** 3)
# 添加图例
plt.legend(["y=x^2", "y=x3"])
# 在本机上显示图形
plt.show()
import matplotlib.pyplot as plt
plt.rcParams["font.sans-serif"]=["SimHei"] #设置字体
plt.rcParams["axes.unicode_minus"]=False #该语句解决图像中的“-”负号的乱码问题
plt.hist(x, bins, range, color) # 常用的参数,其他忽略
x:输入值,可以是单个数组,或者数组序列
bins:绘制条柱的个数,整数值,返回整数值+1个,默认为10
range: bins的上下范围
color:表示条柱的颜色
data = [34, 23, 45, 35, 66, 78, 16, 99]
plt.hist(data, bins=8, color='yellow')
plt.show()
plt.bar(x, height, width, color, edgecolor, align)
x:表示x轴数据
height:表示条形高度
width:表示条形宽度,默认0.8
color:表示条形颜色
edgecolor:表示条形边框颜色
# 创建图形对象
fig = plt.figure()
# 添加子图区域,参数值表示[left, bottom, width, height ]
ax = plt.subplot(1, 1, 1)
# 准备数据1
langs1 = ['C', 'C++', 'Java', 'Python', 'PHP']
students1 = [23, 17, 35, 29, 12]
# 准备数据2
langs2 = ['A', 'B', 'C', 'D', 'E']
students2 = [53, 27, 30, 22, 12]
# 绘制柱状图
ax.bar(langs1, students1, width=0.3, color='red')
# ax.bar(langs2, students2, width=0.3, color='green')
plt.show()
散点图用于在水平轴和垂直轴上绘制数据点,它表示了因变量随自变量变化的趋势。通俗地讲,它反映的是一个变量受另一个变量的影响程度。
plt.scatter(x, y,s, c, marker, alpha)
x、y:表示xy轴对应的数据
s:指定点的大小
c:指定散点的颜色
marker‘:表示绘制的散点类型
alpha:表示点的透明度,0~1
x = [100, 200, 300, 400, 500, 600, 700, 800]
y = [101, 401, 501, 601, 201, 301, 701, 801]
plt.scatter(x, y)
plt.show()
直接展示绘制多条折线
plt.rcParams["font.sans-serif"] = ["SimHei"] # 设置字体
plt.rcParams["axes.unicode_minus"] = False # 该语句解决图像中的“-”负号的乱码问题
# 对比两人6次考试成绩变化
x = [1, 2, 3, 4, 5, 6]
y1 = [88, 81, 79, 81, 86, 94]
y2 = [99, 88, 74, 90, 81, 75]
# 绘制折线图,添加数据点,设置点的大小
# matplotlib会自动为线条添加不同的颜色
plt.plot(x, y1, 'r', marker='.', markersize=10)
plt.plot(x, y2, 'b', marker='.', markersize=10)
plt.title('成绩对比折线图') # 折线图标题
plt.xlabel('次数') # x轴标题
plt.ylabel('分数') # y轴标题
# 给图像添加注释,并设置样式
for a, b in zip(x, y1):
plt.text(a, b, b, ha='center', va='bottom', fontsize=10)
for a, b in zip(x, y2):
plt.text(a, b, b, ha='center', va='bottom', fontsize=10)
# 绘制图例
plt.legend(['小张', '小柯'])
# 显示图像
plt.show()
y = np.array([35, 25, 25, 15])
plt.pie(y,
labels=['A', 'B', 'C', 'D'], # 设置饼图标签
colors=["#d5695d", "#5d8ca8", "#65a479", "#a564c9"], # 设置饼图颜色
explode=(0, 0.2, 0, 0), # 第二部分突出显示,值越大,距离中心越远
autopct='%.2f%%', # 格式化输出百分比
)
plt.title("测试饼状图")
plt.show()
plt.savefig()必须写在plt.show()前面,否则保存为空白图像
savefig(fname,dpi=None,facecolor=“w”,edgecolor=“w”,orientation=“portrait”,papertype=None,format=None,transparent=False,bbox_inches=None,pad_inches=0.1,frameon=None,metadata=None)
plt.rcParams["font.sans-serif"] = ["SimHei"] # 设置字体
plt.rcParams["axes.unicode_minus"] = False # 该语句解决图像中的“-”负号的乱码问题
# 对比两人6次考试成绩变化
x = [1, 2, 3, 4, 5, 6]
y1 = [88, 81, 79, 81, 86, 94]
y2 = [99, 88, 74, 90, 81, 75]
# 绘制折线图,添加数据点,设置点的大小
# matplotlib会自动为线条添加不同的颜色
plt.plot(x, y1, 'r', marker='.', markersize=10)
plt.plot(x, y2, 'b', marker='.', markersize=10)
plt.title('成绩对比折线图') # 折线图标题
plt.xlabel('次数') # x轴标题
plt.ylabel('分数') # y轴标题
# 给图像添加注释,并设置样式
for a, b in zip(x, y1):
plt.text(a, b, b, ha='center', va='bottom', fontsize=10)
for a, b in zip(x, y2):
plt.text(a, b, b, ha='center', va='bottom', fontsize=10)
# 绘制图例
plt.legend(['小张', '小柯'])
plt.savefig(r"../Include/jk.png")
# 显示图像
plt.show()
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
plt.rcParams["font.sans-serif"] = ["SimHei"] # 设置字体
plt.rcParams["axes.unicode_minus"] = False # 该语句解决图像中的“-”负号的乱码问题
# 产品信息, 价格, 付款人数, 店铺名, 产地
df = pd.read_csv(r"E:\python\pythonProject3\venv\Include\月饼.csv") # 读取本地csv文件数据
df_mean = df.drop(["产品信息", "店铺名"], axis=1).groupby("产地").mean().sort_values("价格", False)
fig, axes = plt.subplots(2, 2, figsize=(10, 10))
d = df_mean.价格
d.plot(ax=axes[0][0], kind='line', title='折线')
d.plot(ax=axes[0][1], kind='bar', title='柱形图')
d.plot(ax=axes[1][0], kind='box', title='箱型图')
d.plot(ax=axes[1][1], kind='pie', title='饼状图')
fig.tight_layout() # 使图表自动调整格式
plt.savefig(r"../Include/zong.png")
plt.show()
本期博客我们对经过数据处理后的数据进行了可视化分析,通过我们常用的图表形式展示数据。这样一来我们就可以将枯燥的数据通过可视化的方式展示出来。
博客内容并不复杂,可能存在遗漏,如果你发现有问题或者有遗漏,欢迎指正~~
author: KK
time :2021年12月19日16:21:22
flag:12/30