第五章. 可视化数据分析图
本节主要介绍常用图表的绘制,主要包括散点图,面积图,热力图。
·散点图主要用来查看数据的分布情况或相关性,一般用在线性回归分析中,查看数据点在坐标系上分布情况
·散点图与折线图的区别:散点图的各点之间不会按照前后关系以线条联系起来
matplotlib.pyplot.scatter(x, y, s=None, c=None, marker=None, cmap=None, norm=None, vmin=None, vmax=None, alpha=None, linewidths=None, *, edgecolors=None, plotnonfinite=False, data=None, **kwargs)
参数说明:
x,y:数据位置(x,y轴数据)。
s:标记大小,都一样大就填写一个数,想不同点大小不同,就写成一个向量 例s=[100,5]。
c:标记颜色,默认为blue。
marker:标记样式。
alpha:透明度。
linewidths: 线宽 默认是’face’。
edgecolors: 轮廓颜色(边框颜色)。
import pandas as pd
import matplotlib.pyplot as plt
pd.set_option('display.unicode.east_asian_width', True)
df = pd.read_excel('F:\\Note\\清单.xlsx', sheet_name='Sheet4')
print(df)
# 设置画布
fig = plt.figure(figsize=(6, 4), facecolor='white')
plt.rcParams['font.sans-serif'] = ['SimHei'] # 解决中文乱码
plt.rcParams['axes.unicode_minus'] = False # 解决负号不显示的问题
plt.scatter(df['姓名'], df['语文'], color='r')
# 设置网格线
plt.grid(color='0.5', linestyle='--', linewidth=1)
# 设置x,y轴坐标
plt.xlabel('姓名')
plt.ylabel('分数')
# 设置坐标轴刻度
# plt.xticks(range(0, 150, 25))
plt.yticks(range(0, 150, 10))
# 设置文本标签
for x, y in zip(df['语文'], range(0, 150, 25)):
plt.text(x, y, '%.2f' % y, ha='center', va='center', fontsize=8, color='darkorange')
# 设置标题和图例
plt.title('语文成绩')
# 设置图标图例
plt.legend(df['语文'], title='成绩',loc='upper right') # 手动添加图例时,有时文本会显示不全,在文本后面加一个逗号(,)可解决,例如('图书采购价目',)
# 调整图表与画布边缘间距
plt.subplots_adjust(left=0.15, bottom=0.15, right=0.9, top=0.9)
# 坐标轴的刻度线向内显示还是向外显示
plt.tick_params(left=True, bottom=True, right=False, top=False)
# 显示图像
plt.show()
面积图用于体现数量随着时间变化的程度,也可用于引起人们对总体趋势的注意。
matplotlib.pyplot.stackplot(x,,*args,data=None,**kwags)
参数说明:
x:数据集,最终的直方图将对数据集进行统计
*args:当传入的参数个数未知时,使用 *args,指y轴数据中可以传入多少个y轴
data:如果给定一个数据参数,所有位置和关键字参数将会被替换掉
**kwags:关键字参数,例如color,alpha
import pandas as pd
import matplotlib.pyplot as plt
pd.set_option('display.unicode.east_asian_width', True)
df = pd.read_excel('F:\\Note\\清单.xlsx', sheet_name='Sheet2')
print(df)
# 设置画布
fig = plt.figure(figsize=(6, 4), facecolor='white')
plt.rcParams['font.sans-serif'] = ['SimHei'] # 解决中文乱码
plt.rcParams['axes.unicode_minus'] = False # 解决负号不显示的问题
#标准面积图
plt.stackplot(df['姓名'], df['语文'], color='c')
# # 设置网格线
# plt.grid(color='0.5', linestyle='--', linewidth=1)
# 设置x,y轴坐标
plt.xlabel('姓名')
plt.ylabel('分数')
# 设置坐标轴刻度
# plt.xticks(range(0, 150, 25))
# plt.yticks(range(0, 150, 10))
# 设置文本标签
for x, y in zip(df['语文'], range(0, 150, 25)):
plt.text(x, y, '%.2f' % y, ha='center', va='center', fontsize=8, color='darkorange')
# 设置标题和图例
plt.title('语文成绩')
# 设置图标图例
plt.legend(df['语文'], title='成绩',loc='upper right') # 手动添加图例时,有时文本会显示不全,在文本后面加一个逗号(,)可解决,例如('图书采购价目',)
# 调整图表与画布边缘间距
plt.subplots_adjust(left=0.15, bottom=0.15, right=0.9, top=0.9)
# 坐标轴的刻度线向内显示还是向外显示
plt.tick_params(left=True, bottom=True, right=False, top=False)
# 显示图像
plt.show()
代码:
import pandas as pd
import matplotlib.pyplot as plt
pd.set_option('display.unicode.east_asian_width', True)
df = pd.read_excel('F:\\Note\\清单.xlsx', sheet_name='Sheet2')
print(df)
# 设置画布
fig = plt.figure(figsize=(6, 4), facecolor='white')
plt.rcParams['font.sans-serif'] = ['SimHei'] # 解决中文乱码
plt.rcParams['axes.unicode_minus'] = False # 解决负号不显示的问题
# 堆叠面积图
plt.stackplot(df['姓名'], df['语文'], df['数学'], df['英语'], colors=['c', 'skyblue', 'orange'])
# # 设置网格线
# plt.grid(color='0.5', linestyle='--', linewidth=1)
# 设置x,y轴坐标
plt.xlabel('姓名')
plt.ylabel('分数')
# 设置坐标轴刻度
# plt.xticks(range(0, 150, 25))
# plt.yticks(range(0, 150, 10))
# 设置标题和图例
plt.title('成绩')
# 设置图标图例
plt.legend([['语文'],['数学'],['英语']], title='成绩', loc='upper right') # 手动添加图例时,有时文本会显示不全,在文本后面加一个逗号(,)可解决,例如('图书采购价目',)
# 调整图表与画布边缘间距
plt.subplots_adjust(left=0.15, bottom=0.15, right=0.9, top=0.9)
# 坐标轴的刻度线向内显示还是向外显示
plt.tick_params(left=True, bottom=True, right=False, top=False)
# 显示图像
plt.show()
热力图是通过密度函数进行可视化,用与表示地图中点的密度热图,利用热力图可以看数据表里的多个特征中的两两内容的相似度
import pandas as pd
import matplotlib.pyplot as plt
pd.set_option('display.unicode.east_asian_width', True)
df = pd.read_excel('F:\\Note\\清单.xlsx', sheet_name='Sheet2')
print(df)
# 设置画布
fig = plt.figure(figsize=(6, 4), facecolor='white')
plt.rcParams['font.sans-serif'] = ['SimHei'] # 解决中文乱码
plt.rcParams['axes.unicode_minus'] = False # 解决负号不显示的问题
# 热力图
y = df['姓名']
x = df.loc[:, '语文':'物理'].values
plt.imshow(x) # 负责对图像进行处理,并显示其格式,但是不能显示
# # 设置网格线
# plt.grid(color='0.5', linestyle='--', linewidth=1)
# 设置x,y轴坐标
plt.xlabel('学科')
plt.ylabel('姓名')
# 设置坐标轴刻度
plt.xticks(range(0, 6, 1), ['语文', '数学', '英语', '生物', '化学', '物理'])
plt.yticks(range(0, 6, 1), y)
# 设置标题和图例
plt.title('学生成绩统计热力图')
# 显示颜色条
plt.colorbar()
# 调整图表与画布边缘间距
plt.subplots_adjust(left=0.15, bottom=0.15, right=0.9, top=0.9)
# 坐标轴的刻度线向内显示还是向外显示
plt.tick_params(left=True, bottom=True, right=False, top=False)
# 显示图像
plt.show()