手把手学爬虫第六弹——数据可视化

目录

    • 什么是数据可视化
    • 常见图表类型
    • 认识Matplotlib
    • Matplotlib简答使用
        • 使用默认画布
        • 通过figure()函数创建画布
        • 通过subplot()函数创建单个子图
        • 通过subplots() 函数创建多个子图
        • 添加各类标签
    • 绘制常见图表
        • 绘制直方图
        • 绘制柱形图
        • 绘制散点图
        • 绘制折线图
        • 绘制饼状图
    • 保存图表
    • 综合案例
    • 总结

    上一期我带着大家一起学习了数据分析,分析后的数据已经没有了异常值和空值,这样一来我们就可以使用我们已经处理完成的数据了。本期我们就来试试对我们爬取的数据进行可视化分析吧~

什么是数据可视化

    数据可视化是指将数据以图表的形式表示,并利用数据分析和开发工具发现其中未知信息的过程。Python为我们提供了很多数据可视化工具,例如:Matplotlib、Seaborn等,这里我们针对Matplotlib进行演示。

常见图表类型

    在数据分析过程中我们常见的图表类型包括以下几种:

  • 直方图:适用于比较数据之间的多少
  • 折线图:反映一组数据的变化趋势
  • 条形图:显示各项目之间的比较情况,和直方图类似
  • 散点图:显示若干数据系列中各数值之间的关系,类似于X、Y轴,判断两变量之间是否存在某种联系
  • 箱形图:识别异常值

认识Matplotlib

    Matplotlib 是 Python 的绘图库。 它可与 NumPy 一起使用,提供了一种有效的 MatLab 开源替代方案。 它也可以和图形工具包一起使用,如 PyQt 和 wxPython。

Matplotlib简答使用

使用默认画布

import numpy as np
import matplotlib.pyplot as plt

# 使用默认画布绘图
data = np.arange(100, 200)
plt.plot(data)
plt.show()

手把手学爬虫第六弹——数据可视化_第1张图片

通过figure()函数创建画布

import matplotlib.pyplot as plt
#创建图形对象
fig = plt.figure()

figsize 指定画布的大小,(宽度,高度),单位为英寸。
dpi 指定绘图对象的分辨率,即每英寸多少个像素,默认值为80。
facecolor 背景颜色。
dgecolor 边框颜色。
frameon 是否显示边框。

import matplotlib.pyplot as plt
import numpy as np

# 创建图形对象
plt.figure(facecolor='gray')
data = np.arange(100, 200)
plt.plot(data)
plt.show()

手把手学爬虫第六弹——数据可视化_第2张图片

通过subplot()函数创建单个子图

    有些时候我们想在同一个画布绘制多个视图,而不是在多个画布中绘制多个图形。这时候可以把画布进行划分,每个绘图区域都是一个Axes对象,他拥有属于自己的坐标系统,被称为子图。

plt.subplot(nrows, ncols, index)

nrows 与 ncols 表示要划分几行几列的子区域(nrows*nclos表示子图数量),index 的初始值为1,用来选定具体的某个子区域。

data = np.arange(100, 200)  # 数据
plt.subplot(121)  # 分成1x2的区域,占用编号为1的区域
plt.plot(data)
plt.subplot(122)  # 分成1x2的区域,占用编号为2的区域
plt.plot(-data)
plt.show()

手把手学爬虫第六弹——数据可视化_第3张图片

通过subplots() 函数创建多个子图

    subplots() 函数,它的使用方法和 subplot() 函数类似。其不同之处在于,subplots() 既创建了一个包含子图区域的画布,又创建了一个 figure 图形对象,而 subplot() 只是创建一个包含子图区域的画布。

fig , axes = plt.subplots(nrows, ncols)

nrows 与 ncols 表示两个整数参数,它们指定子图所占的行数、列数

data = np.arange(100, 200)  # 数据
fig, axes = plt.subplots(2, 2)  # 分成2x2矩阵区域,返回子图数组axes
print(axes)


# ans:
[[<AxesSubplot:> <AxesSubplot:>]
 [<AxesSubplot:> <AxesSubplot:>]]

Process finished with exit code 0
data = np.arange(100, 200)  # 数据
fig, axes = plt.subplots(2, 2)  # 分成2x2矩阵区域,返回子图数组axes

ax1 = axes[0, 0]    # 取出第一个子视图
ax2 = axes[0, 1]
ax3 = axes[1, 0]
ax4 = axes[1, 1]

ax1.plot(data)
ax2.plot(-data)
ax3.plot(2*data)
ax4.plot(-2*data)

plt.show()

手把手学爬虫第六弹——数据可视化_第4张图片

添加各类标签

    绘图的时候我们为了使绘制的图形更加直观,我们通常会给图像添加横、纵坐标等标签,常用的标签列举如下:
手把手学爬虫第六弹——数据可视化_第5张图片

data = np.arange(0, 1.1, 0.01)
plt.title("Title")  # 设置标题
plt.xlabel("x")  # 添加x轴的名称
plt.ylabel("y")  # 添加y轴的名称

# 设置x和y轴的刻度
plt.xticks([0, 0.5, 1])
plt.yticks([0, 0.5, 1.0])

# 绘制y=x^2曲线
plt.plot(data, data ** 2)

# 绘制y=x^3曲线
plt.plot(data, data ** 3)

# 添加图例
plt.legend(["y=x^2", "y=x3"])
# 在本机上显示图形
plt.show()

手把手学爬虫第六弹——数据可视化_第6张图片
Tip:中文无法正常显示时添加如下代码即可~

import matplotlib.pyplot as plt
plt.rcParams["font.sans-serif"]=["SimHei"] #设置字体
plt.rcParams["axes.unicode_minus"]=False #该语句解决图像中的“-”负号的乱码问题

绘制常见图表

手把手学爬虫第六弹——数据可视化_第7张图片

绘制直方图

plt.hist(x, bins, range, color) # 常用的参数,其他忽略

x:输入值,可以是单个数组,或者数组序列
bins:绘制条柱的个数,整数值,返回整数值+1个,默认为10
range: bins的上下范围
color:表示条柱的颜色

data = [34, 23, 45, 35, 66, 78, 16, 99]
plt.hist(data, bins=8, color='yellow')
plt.show()

手把手学爬虫第六弹——数据可视化_第8张图片

绘制柱形图

plt.bar(x, height, width, color, edgecolor, align)

x:表示x轴数据
height:表示条形高度
width:表示条形宽度,默认0.8
color:表示条形颜色
edgecolor:表示条形边框颜色

# 创建图形对象
fig = plt.figure()
# 添加子图区域,参数值表示[left, bottom, width, height ]
ax = plt.subplot(1, 1, 1)
# 准备数据1
langs1 = ['C', 'C++', 'Java', 'Python', 'PHP']
students1 = [23, 17, 35, 29, 12]
# 准备数据2
langs2 = ['A', 'B', 'C', 'D', 'E']
students2 = [53, 27, 30, 22, 12]
# 绘制柱状图
ax.bar(langs1, students1, width=0.3, color='red')
# ax.bar(langs2, students2, width=0.3, color='green')
plt.show()

手把手学爬虫第六弹——数据可视化_第9张图片

绘制散点图

散点图用于在水平轴和垂直轴上绘制数据点,它表示了因变量随自变量变化的趋势。通俗地讲,它反映的是一个变量受另一个变量的影响程度。

plt.scatter(x, y,s, c, marker, alpha)

x、y:表示xy轴对应的数据
s:指定点的大小
c:指定散点的颜色
marker‘:表示绘制的散点类型
alpha:表示点的透明度,0~1

x = [100, 200, 300, 400, 500, 600, 700, 800]
y = [101, 401, 501, 601,  201, 301, 701, 801]
plt.scatter(x, y)
plt.show()

手把手学爬虫第六弹——数据可视化_第10张图片

绘制折线图

直接展示绘制多条折线

plt.rcParams["font.sans-serif"] = ["SimHei"]  # 设置字体
plt.rcParams["axes.unicode_minus"] = False  # 该语句解决图像中的“-”负号的乱码问题
# 对比两人6次考试成绩变化
x = [1, 2, 3, 4, 5, 6]
y1 = [88, 81, 79, 81, 86, 94]
y2 = [99, 88, 74, 90, 81, 75]
# 绘制折线图,添加数据点,设置点的大小
# matplotlib会自动为线条添加不同的颜色
plt.plot(x, y1, 'r', marker='.', markersize=10)
plt.plot(x, y2, 'b', marker='.', markersize=10)
plt.title('成绩对比折线图')  # 折线图标题
plt.xlabel('次数')  # x轴标题
plt.ylabel('分数')  # y轴标题
# 给图像添加注释,并设置样式
for a, b in zip(x, y1):
    plt.text(a, b, b, ha='center', va='bottom', fontsize=10)
for a, b in zip(x, y2):
    plt.text(a, b, b, ha='center', va='bottom', fontsize=10)

# 绘制图例
plt.legend(['小张', '小柯'])
# 显示图像
plt.show()

手把手学爬虫第六弹——数据可视化_第11张图片

绘制饼状图


y = np.array([35, 25, 25, 15])

plt.pie(y,
        labels=['A', 'B', 'C', 'D'],  # 设置饼图标签
        colors=["#d5695d", "#5d8ca8", "#65a479", "#a564c9"],  # 设置饼图颜色
        explode=(0, 0.2, 0, 0),  # 第二部分突出显示,值越大,距离中心越远
        autopct='%.2f%%',  # 格式化输出百分比
        )
plt.title("测试饼状图")
plt.show()

手把手学爬虫第六弹——数据可视化_第12张图片

保存图表

plt.savefig()必须写在plt.show()前面,否则保存为空白图像

 savefig(fname,dpi=None,facecolor=“w”,edgecolor=“w”,orientation=“portrait”,papertype=Noneformat=None,transparent=False,bbox_inches=None,pad_inches=0.1,frameon=None,metadata=None)
plt.rcParams["font.sans-serif"] = ["SimHei"]  # 设置字体
plt.rcParams["axes.unicode_minus"] = False  # 该语句解决图像中的“-”负号的乱码问题
# 对比两人6次考试成绩变化
x = [1, 2, 3, 4, 5, 6]
y1 = [88, 81, 79, 81, 86, 94]
y2 = [99, 88, 74, 90, 81, 75]
# 绘制折线图,添加数据点,设置点的大小
# matplotlib会自动为线条添加不同的颜色
plt.plot(x, y1, 'r', marker='.', markersize=10)
plt.plot(x, y2, 'b', marker='.', markersize=10)
plt.title('成绩对比折线图')  # 折线图标题
plt.xlabel('次数')  # x轴标题
plt.ylabel('分数')  # y轴标题
# 给图像添加注释,并设置样式
for a, b in zip(x, y1):
    plt.text(a, b, b, ha='center', va='bottom', fontsize=10)
for a, b in zip(x, y2):
    plt.text(a, b, b, ha='center', va='bottom', fontsize=10)

# 绘制图例
plt.legend(['小张', '小柯'])
plt.savefig(r"../Include/jk.png")
# 显示图像
plt.show()

手把手学爬虫第六弹——数据可视化_第13张图片

综合案例

  • 读取本地保存的淘宝月饼数据进行简单数据处理后进行可视化,分别生成折线图、柱形图、箱型图、饼状图
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
plt.rcParams["font.sans-serif"] = ["SimHei"]  # 设置字体
plt.rcParams["axes.unicode_minus"] = False  # 该语句解决图像中的“-”负号的乱码问题
# 产品信息, 价格, 付款人数, 店铺名, 产地
df = pd.read_csv(r"E:\python\pythonProject3\venv\Include\月饼.csv")  # 读取本地csv文件数据
df_mean = df.drop(["产品信息", "店铺名"], axis=1).groupby("产地").mean().sort_values("价格", False)
fig, axes = plt.subplots(2, 2, figsize=(10, 10))
d = df_mean.价格
d.plot(ax=axes[0][0], kind='line', title='折线')
d.plot(ax=axes[0][1], kind='bar', title='柱形图')
d.plot(ax=axes[1][0], kind='box', title='箱型图')
d.plot(ax=axes[1][1], kind='pie', title='饼状图')
fig.tight_layout()  # 使图表自动调整格式
plt.savefig(r"../Include/zong.png")
plt.show()

  • 数据可视化截图
    手把手学爬虫第六弹——数据可视化_第14张图片

总结

    本期博客我们对经过数据处理后的数据进行了可视化分析,通过我们常用的图表形式展示数据。这样一来我们就可以将枯燥的数据通过可视化的方式展示出来。
    博客内容并不复杂,可能存在遗漏,如果你发现有问题或者有遗漏,欢迎指正~~

author: KK
time :2021年12月19日16:21:22
flag:12/30

你可能感兴趣的:(python笔记,爬虫,python,数据挖掘)