Python编程:从入门到实践之数据可视化( 一)

生成数据

什么是数据可视化?

数据可视化指的是通过可视化表示来探索数据,终极目标是洞悉蕴含在数据中的现象和规律,这里面有多重含义:发现、决策、解释、分析、探索和学习。
它与数据挖掘紧密相关,而数据挖掘指的是使用代码来探索数据集的规律和关联。数据集可以是用一行代码就能表示的小型数字列表,也可以是数以万计的数据。
最流行的可视化工具之一是matplotlib,它是一个数学绘图库,我们将使用它来制作简单的图表,如折线图和散点图。然后,我们将基于随机漫步概念生成一个更有趣的数据集——根据一系列随机决策生成的图表。我们还将使用Pygal包,它专注于生成适合在数字设备上显示的图表。通过使用Pygal,可在用户与图表交互时突出元素以及调整其大小,还可轻松地调整整个图表的尺寸,使其适合在微型智能手表或巨型显示器上显示。我们将使用Pygal以各种方式探索掷骰子的结果。

1.绘制简单的折线图

下面来使用matplotlib绘制一个简单的折线图,再对其进行定制,以实现信息更丰富的数据可视化。我们将使用平方数序列1、4、9、16和25来绘制这个图表。只需向matplotlib提供如下数字,matplotlib就能完成其他的工作:创建一个脚本mpl_squares.py

import matplotlib.pyplot as plt
squares = [1,4,9,16,25]
plt.plot(squares)
plt.show()
# 绘制图表需要了解的matplotlib.pyplot模块,这里起了一个别名plt
# 创建一个列表,用于存储数据
# 并将列表传给函数plot(),此函数表示的是折线图
# matplotlib.pyplot模块通过show()函数打开matplotlib查看器,并显示绘制的图形

Python编程:从入门到实践之数据可视化( 一)_第1张图片
以上使用matplotlib可制作的最简单的图表,其中查看器还能调整画布的大小和保存图形到本地电脑。

1.1.修改标签文字和线条粗细

下面通过一些定制来改善这个图形的可读性,如下所示:

import matplotlib.pyplot as plt

squares = [1,4,9,16,25] # 创建一个列表,用于存储数据
plt.plot(squares,linewidth = 5) # 将列表传给函数plot(),决定了绘制的线条的粗细
# 设置图表标题,并给坐标轴加上标签
plt.title("Square Number",fontsize = 24) # 标题主题标签,并指定文字的大小
plt.xlabel("value", fontsize = 14) # X轴值名称标签及指定文字的大小
plt.ylabel("Square of value",fontsize = 14) # Y轴左标签显示及指定文字的大小
# 设置刻度标记的大小
plt.tick_params(axis='both',labelsize = 14) 
# tick_params()函数 设置刻度的样式,both双方,指定的实参刻度标记为影响X轴和Y轴
# 并指定刻度标记的字号设置为14,具体tick_params()函数参数可查看本章末尾。
plt.show() # 显示绘制的图形

Python编程:从入门到实践之数据可视化( 一)_第2张图片

1.2.校正图形

图形更容易阅读后,我们发现没有正确地绘制数据:折线图的终点指出4.0的平方为25!下面来修复这个问题。
当你向plot()提供一系列数字时,它假设第一个数据点对应的x坐标值为0,但我们的第一个点对应的x值为1。为改变这种默认行为,我们可以给plot()同时提供输入值和输出值:

import matplotlib.pyplot as plt

input_values = [0,1,2,3,4,5]  # X轴列表数值
squares = [0,1,4,9,16,25] # Y轴列表数值
# 决定了绘制的线条的粗细,也可以设置颜色 c='red',默认都是蓝色
plt.plot(input_values,squares,c='red',linewidth = 5) 
# 设置图表标题,并给坐标轴加上标签
plt.title("Square Number",fontsize = 24) # 标题主题标签,并指定文字的大小
plt.xlabel("value", fontsize = 14) # X轴值名称标签,并指定文字的大小
plt.ylabel("Square of value",fontsize = 14) # Y轴左标签显示,并指定文字的大小
# 设置刻度标记的大小,并指定文字的大小
plt.tick_params(axis='both',which = 'major',labelsize = 14)
plt.axis([0,8,0,30]) # 刻度值大小,X轴Y轴的刻度都在此处定义
plt.show() # 显示画布

Python编程:从入门到实践之数据可视化( 一)_第3张图片
使用plot()时可指定各种实参,还可使用众多函数对图形进行定制。本章后面处理更有趣的数据集时,将继续探索这些定制函数。

2.绘制简单的散点图

有时候,需要绘制散点图并设置各个数据点的样式。例如,你可能想以一种颜色显示较小的值,而用另一种颜色显示较大的值。绘制大型数据集时,你还可以对每个点都设置同样的样式,再使用不同的样式选项重新绘制某些点,以突出它们。
要绘制单个点,可使用函数scatter(),并向它传递一对x和y坐标,它将在指定位置绘制一个点:创建一个脚本scatter_squares.py

import matplotlib.pyplot as plt
plt.scatter(2,4)
plt.show()

Python编程:从入门到实践之数据可视化( 一)_第4张图片
下面来设置输出的样式,使其更有趣:添加标题,给轴加上标签,并确保所有文本都大到能够看清:

import matplotlib.pyplot as plt

plt.scatter(2,4,s = 200) # 设置点位置,使用实参s设置了绘制图形时使用的点的尺寸
# 设置图表标题并给坐标轴加上标签,并指定文字的大小
plt.title("Square Number",fontsize = 24) # 标题
plt.xlabel("value", fontsize = 14) # X轴
plt.ylabel("Square of value",fontsize = 14) # Y轴
# 设置刻度标记的大小,并指定文字的大小
plt.tick_params(axis='both',which = 'major',labelsize = 14) # 刻度
plt.show()

Python编程:从入门到实践之数据可视化( 一)_第5张图片

2.1.绘制一系列的散点

要绘制一系列的点,可向scatter()传递两个分别包含x值和y值的列表,如下所示:

import matplotlib.pyplot as plt

x_values = [1,2,3,4,5] # X轴
y_values = [1,4,9,16,25] # Y轴
plt.scatter(x_values,y_values,s = 100) # 使用点的尺寸
# 设置图表标题并给坐标轴加上标签
plt.title("Square Number",fontsize = 24) # 
plt.xlabel("value", fontsize = 14) # X轴
plt.ylabel("Square of value",fontsize = 14) # Y轴
# 设置刻度标记的大小,并指定文字的大小
plt.tick_params(axis='both',which = 'major',labelsize = 14) # 刻度
plt.show()

Python编程:从入门到实践之数据可视化( 一)_第6张图片
以上由多个点组成的散点图。

2.2.自动计算数据

手工计算列表要包含的值可能效率低下,需要绘制的点很多时尤其如此。可以不必手工计算包含点坐标的列表,而让Python循环来替我们完成这种计算。下面是绘制1000个点的代码:

import matplotlib.pyplot as plt

x_values = list(range(1,101))
y_values = [x**2 for x in x_values]
plt.scatter(x_values,y_values,s = 20)
# 设置图表标题并给坐标轴加上标签
plt.title("Square Number",fontsize = 24) # 标题主题标签,并指定文字的大小
plt.xlabel("value", fontsize = 14) # X轴值名称标签,并指定文字的大小
plt.ylabel("Square of value",fontsize = 14) # Y轴左标签显示,并指定文字的大小
# 设置刻度标记的大小
plt.tick_params(axis='both',which = 'major',labelsize = 14) # 刻度标记的大小,并指定文字的大小
plt.axis([0,1100,0,110000]) # 刻度值大小
plt.show()

Python编程:从入门到实践之数据可视化( 一)_第7张图片

2.3.删除数据点的轮廓
import matplotlib.pyplot as plt

x_values = list(range(1,101))
y_values = [x**2 for x in x_values]
plt.scatter(x_values,y_values,edgecolor='none',s = 20) # 删除数据点的轮廓
# 设置图表标题并给坐标轴加上标签
plt.title("Square Number",fontsize = 24) # 标题主题标签,并指定文字的大小
plt.xlabel("value", fontsize = 14) # X轴值名称标签,并指定文字的大小
plt.ylabel("Square of value",fontsize = 14) # Y轴左标签显示,并指定文字的大小
# 设置刻度标记的大小
plt.tick_params(axis='both',which = 'major',labelsize = 14) # 刻度标记的大小,并指定文字的大小
plt.axis([0,110,0,11000]) # 刻度值大小
plt.show()

Python编程:从入门到实践之数据可视化( 一)_第8张图片
将相应调用修改为上述代码后,如果再运行scatter_squares.py,在图表中看到的将是蓝色实心点。

2.4.自定义颜色

要修改数据点的颜色,可向scatter()传递参数c,并将其设置为要使用的颜色的名称,如下所示:

import matplotlib.pyplot as plt

x_values = list(range(1,101))
y_values = [x**2 for x in x_values]
plt.scatter(x_values,y_values,c='red',edgecolor='none',s = 20) # 设置颜色或者c = (0,0,0.8),也可以表示颜色0~1
# 设置图表标题并给坐标轴加上标签
plt.title("Square Number",fontsize = 24) # 标题主题标签,并指定文字的大小
plt.xlabel("value", fontsize = 14) # X轴值名称标签,并指定文字的大小
plt.ylabel("Square of value",fontsize = 14) # Y轴左标签显示,并指定文字的大小
# 设置刻度标记的大小
plt.tick_params(axis='both',which = 'major',labelsize = 14) # 刻度标记的大小,并指定文字的大小
plt.axis([0,110,0,11000])
plt.show()

Python编程:从入门到实践之数据可视化( 一)_第9张图片
你还可以使用RGB颜色模式自定义颜色。要指定自定义颜色,可传递参数c,并将其设置为一个元组,其中包含三个0~1之间的小数值,它们分别表示红色、绿色和蓝色分量。例如,下面的代码行创建一个由淡蓝色点组成的散点图c = (0,0,0.8),值越接近0,指定的颜色越深,值越接近1,指定的颜色越浅。

2.5.使用颜色映射

颜色映射(colormap)是一系列颜色,它们从起始颜色渐变到结束颜色。在可视化中,颜色映射用于突出数据的规律,例如,你可能用较浅的颜色来显示较小的值,并使用较深的颜色来显示较大的值。
模块pyplot内置了一组颜色映射。要使用这些颜色映射,你需要告诉pyplot该如何设置数据集中每个点的颜色。下面演示了如何根据每个点的y值来设置其颜色:

import matplotlib.pyplot as plt

x_values = list(range(1,101))
y_values = [x**2 for x in x_values]

plt.scatter(x_values,y_values,c=y_values,cmap=plt.cm.Blues,edgecolor='none',s = 20) 
# 设置图表标题并给坐标轴加上标签
plt.title("Square Number",fontsize = 24) # 标题主题标签,并指定文字的大小
plt.xlabel("value", fontsize = 14) # X轴值名称标签,并指定文字的大小
plt.ylabel("Square of value",fontsize = 14) # Y轴左标签显示,并指定文字的大小
# 设置刻度标记的大小
plt.tick_params(axis='both',which = 'major',labelsize = 14) # 刻度标记的大小,并指定文字的大小
plt.axis([0,110,0,11000])
plt.show()

Python编程:从入门到实践之数据可视化( 一)_第10张图片
我们将参数c设置成了一个y值列表,并使用参数cmap告诉pyplot使用哪个颜色映射。这些代码将y值较小的点显示为浅蓝色,并将y值较大的点显示为深蓝色,生成的图形。

注意

要了解pyplot中所有的颜色映射,请访问 http://matplotlib.org/,单击Examples,向下滚动到Color Examples,再单击colormaps_reference。

2.6.自动保存图表

要让程序自动将图表保存到文件中,可将对plt.show()的调用替换为对plt.savefig()的调用:

import matplotlib.pyplot as plt

x_values = list(range(1,101))
y_values = [x**2 for x in x_values]
plt.scatter(x_values,y_values,c=y_values,cmap=plt.cm.Blues,edgecolor='none',s = 20) 
# 设置图表标题并给坐标轴加上标签
plt.title("Square Number",fontsize = 24) # 标题
plt.xlabel("value", fontsize = 14) # X轴
plt.ylabel("Square of value",fontsize = 14) # Y轴
# 设置刻度标记的大小
plt.tick_params(axis='both',which = 'major',labelsize = 14) # 刻度,文字大小
plt.axis([0,110,0,11000])
plt.savefig('squares_scatter.png',bbox_inches = 'tight') 
# 指定将图表多余的空白区域裁剪掉。如果要保留图表周围多余的空白区域,可省略这个实参。

plt.savefig()函数,第一个实参指定要以什么样的文件名保存图表,这个文件将存储到scatter_squares.py所在的目录中;第二个实参指定将图表多余的空白区域裁剪掉。如果要保留图表周围多余的空白区域,可省略这个实参。
Python编程:从入门到实践之数据可视化( 一)_第11张图片

动手试一试

练习题一

立方:数字的三次方被称为其立方。请绘制一个图形,显示前5个整数的立方值,再绘制一个图形,显示前5000个整数的立方值。

练习题二

彩色立方:给你前面绘制的立方图指定颜色映射。

答案
import matplotlib.pyplot as plt

x_values = list(range(1,6))
y_values = [x**3 for x in x_values]

plt.scatter(x_values,y_values,c='red',edgecolor='none',s = 20) # 设置颜色或者c = (0,0,0.8),也可以表示颜色0~1
plt.title("Square Number",fontsize = 24) # 标题主题标签,并指定文字的大小
plt.xlabel("value", fontsize = 14) # X轴值名称标签,并指定文字的大小
plt.ylabel("Square of value",fontsize = 14) # Y轴左标签显示,并指定文字的大小
plt.tick_params(axis='both',which = 'major',labelsize = 14) # 刻度标记的大小,并指定文字的大小
plt.axis([0,8,0,140])
plt.show()

Python编程:从入门到实践之数据可视化( 一)_第12张图片

import matplotlib.pyplot as plt

x_values = list(range(1,5001))
y_values = [x**3 for x in x_values]

plt.scatter(x_values,y_values,c='red',edgecolor='none',s = 20)
plt.title("Square Number",fontsize = 24)
plt.xlabel("value", fontsize = 14)
plt.ylabel("Square of value",fontsize = 14) 
plt.tick_params(axis='both',which = 'major',labelsize = 14) 
plt.show()

Python编程:从入门到实践之数据可视化( 一)_第13张图片

import matplotlib.pyplot as plt

x_values = list(range(1,5001))
y_values = [x**3 for x in x_values]

plt.scatter(x_values,y_values,c=y_values,cmap=plt.cm.Reds,edgecolor='none',s = 20) 
plt.title("Square Number",fontsize = 24)
plt.xlabel("value", fontsize = 14)
plt.ylabel("Square of value",fontsize = 14) 
plt.tick_params(axis='both',which = 'major',labelsize = 14) 
plt.show()

Python编程:从入门到实践之数据可视化( 一)_第14张图片

3.随机漫步

我们将使用Python来生成随机漫步数据,再使用matplotlib以引人瞩目的方式将这些数据呈现出来。随机漫步是这样行走得到的路径:每次行走都完全是随机的,没有明确的方向,结果是由一系列随机决策决定的。你可以这样认为,随机漫步就是蚂蚁在晕头转向的情况下,每次都沿随机的方向前行所经过的路径。
为模拟随机漫步,我们将创建一个名为RandomWalk的类,它随机地选择前进方向。
这个类需要三个属性,其中一个是存储随机漫步次数的变量,其他两个是列表,分别存储随机漫步经过的每个点的x和y坐标。
RandomWalk类只包含两个方法:init()和fill_walk(),其中后者计算随机漫步经过的所有点。下面先来看看__init__(),如下所示:创建一个脚本random_walk.py

3.1.创建RandomWalk()类
from random import choice # 需要模块choice
# 为做出随机决策,我们将所有可能的选择都存储在一个列表中,并在每次做决策时都使用choice()来决定使用哪种选择。
class RandomWalk(): # 
    """一个生成随机漫步数据的类"""
    def __init__(self,num_points =5000): # 将随机漫步包含的默认点数设置为5000
        """初始化随机漫步的属性"""
        self.num_points = num_points
        # 所有随机漫步都始于(0,0)
        # 创建了两个用于存储x和y值的列表,并让每次漫步都从点(0, 0)出发。
        self.x_values = [0]
        self.y_values = [0]
3.2.选择方向
    def fill_walk(self): # 使用fill_walk()来生成漫步包含的点,并决定每次漫步的方向
        """计算随机漫步包含的所有点"""
        # 不断漫步,直到列表到达指定的长度
        while len(self.x_values) < self.num_points:
            # 决定前进方向以及沿这个方向前进的距离
            x_direction = choice([1, -1]) # 使用choice([1, -1])给x_direction选择一个值,结果要么是表示向右走的1,要么是表示向左走的-1
            x_distance = choice([0, 1, 2, 3, 4]) # 随机地选择一个0~4之间的整数,告诉Python沿指定的方向走多远(x_distance)。(通过包含0,我们不仅能够沿两个轴移动,还能够沿y轴移动。)
            x_step = x_direction * x_distance # 随机的X轴
            y_direction = choice([1, -1])
            y_distance = choice([0, 1, 2, 3, 4])
            y_step = y_direction * y_distance
            # 拒绝原地踏步
            if x_step == 0 and y_step == 0:
                continue
            # 计算下一个点的x和y值
            next_x = self.x_values[-1] + x_step
            next_y = self.y_values[-1] + y_step
            self.x_values.append(next_x)
            self.y_values.append(next_y)
            # 为获取漫步中下一个点的x值,我们将x_step与x_values中的最后一个值相加,对于y值也做相同的处理。获得下一个点的x值和y值后,我们将它们分别附加到列表x_values和y_values的末尾。
3.3.绘制随机漫步图

下面的代码将随机漫步的所有点都绘制出来:创建一个rw_visual.py

import matplotlib.pyplot as plt
from random_walk import RandomWalk

# 创建一个RandomWalk实例,并将其包含的点都绘制出来
rw = RandomWalk()  # 增加点数
rw.fill_walk()
plt.scatter(rw.x_values,rw.y_values, s=15)
plt.show()

首先导入了模块pyplot和RandomWalk类,然后创建了一个RandomWalk实例,并将其存储到rw中,再调用fill_walk()。在scatter()函数处,我们将随机漫步包含的x和y值传递给scatter(),并选择了合适的点尺寸。显示了包含5000个点的随机漫步图(本节的示意图未包含matplotlib查看器部分,但你运行rw_visual.py时,依然会看到)。
Python编程:从入门到实践之数据可视化( 一)_第15张图片

3.4.模拟多次随机漫步

每次随机漫步都不同,因此探索可能生成的各种模式很有趣。要在不多次运行程序的情况下使用前面的代码模拟多次随机漫步,一种办法是将这些代码放在一个while循环中,如下所示:

import matplotlib.pyplot as plt
from random_walk import RandomWalk

# 只要程序处于活动状态,就不断地模拟随机漫步
while True:
    # 创建一个RandomWalk实例,并将其包含的点都绘制出来
    rw = RandomWalk() # 增加点数
    rw.fill_walk()
    plt.scatter(rw.x_values,rw.y_values,s =15)
    plt.show()
    keep_running = input('make another walk?(y/n):')
    if keep_running == 'n':
        break

这些代码模拟一次随机漫步,在matplotlib查看器中显示结果,再在不关闭查看器的情况下暂停。如果你关闭查看器,程序将询问你是否要再模拟一次随机漫步。如果你输入y,可模拟多次随机漫步:这些随机漫步都在起点附近进行,大多沿特定方向偏离起点,漫步点分布不均匀等。要结束程序,请输入n。
Python编程:从入门到实践之数据可视化( 一)_第16张图片
Python编程:从入门到实践之数据可视化( 一)_第17张图片
Python编程:从入门到实践之数据可视化( 一)_第18张图片

3.5.设置随机漫步图的样式和给点着色
import matplotlib.pyplot as plt
from random_walk import RandomWalk

# 只要程序处于活动状态,就不断地模拟随机漫步
while True:
    # 创建一个RandomWalk实例,并将其包含的点都绘制出来
    rw = RandomWalk() # 增加点数
    rw.fill_walk()
    point_numbers = list(range(rw.num_points))
    plt.scatter(rw.x_values,rw.y_values,c= point_numbers,cmap=plt.cm.Blues,edgecolor= 'none',s =15)
    plt.show()
    keep_running = input('make another walk?(y/n):')
    if keep_running == 'n':
        break

我们使用了range()生成了一个数字列表,其中包含的数字个数与漫步包含的点数相同。接下来,我们将这个列表存储在point_numbers中,以便后面使用它来设置每个漫步点的颜色。我们将参数c设置为point_numbers,指定使用颜色映射Blues,并传递实参edgecolor=none以删除每个点周围的轮廓。最终的随机漫步图从浅蓝色渐变为深蓝色。
Python编程:从入门到实践之数据可视化( 一)_第19张图片

3.6.重新绘制起点和终点

除了给随机漫步的各个点着色,以指出它们的先后顺序外,如果还能呈现随机漫步的起点和终点就更好了。为此,可在绘制随机漫步图后重新绘制起点和终点。我们让起点和终点变得更大,并显示为不同的颜色,以突出它们,如下所示:

import matplotlib.pyplot as plt
from random_walk import RandomWalk

# 只要程序处于活动状态,就不断地模拟随机漫步
while True:
    # 创建一个RandomWalk实例,并将其包含的点都绘制出来
    rw = RandomWalk() # 增加点数
    rw.fill_walk()
    point_numbers = list(range(rw.num_points))
    plt.scatter(rw.x_values,rw.y_values,c= point_numbers,cmap=plt.cm.Blues,edgecolor= 'none',s =15)

    # 突出起点和终点,并按照自己需要的段落,加上颜色
    plt.scatter(0, 0, c='green', edgecolors='none', s=100)
    for i in range(200,301):
        plt.scatter(rw.x_values[i],rw.y_values[i], c='pink', edgecolors='none', s=15)
    plt.scatter(rw.x_values[-1], rw.y_values[-1], c='red', edgecolors='none', s=100)

    plt.show()
    keep_running = input('make another walk?(y/n):')
    if keep_running == 'n':
        break

Python编程:从入门到实践之数据可视化( 一)_第20张图片

3.7.隐藏坐标轴
import matplotlib.pyplot as plt
from random_walk import RandomWalk
import warnings # 告警不提示
warnings.filterwarnings('ignore') # 告警不提示

# 只要程序处于活动状态,就不断地模拟随机漫步
while True:
    # 创建一个RandomWalk实例,并将其包含的点都绘制出来
    rw = RandomWalk() # 增加点数
    rw.fill_walk()
    point_numbers = list(range(rw.num_points))
    plt.scatter(rw.x_values,rw.y_values,c= point_numbers,cmap=plt.cm.Blues,edgecolor= 'none',s =15)

    # 突出起点和终点,并按照自己需要的段落,加上颜色
    plt.scatter(0, 0, c='green', edgecolors='none', s=100)
    for i in range(200,301):
        plt.scatter(rw.x_values[i],rw.y_values[i], c='pink', edgecolors='none', s=15)
    plt.scatter(rw.x_values[-1], rw.y_values[-1], c='red', edgecolors='none', s=100)

    # 隐藏坐标轴
    plt.axes().get_xaxis().set_visible(False)
    plt.axes().get_yaxis().set_visible(False)

    plt.show()
    keep_running = input('make another walk?(y/n):')
    if keep_running == 'n':
        break

为修改坐标轴,使用了函数plt.axes()来将每条坐标轴的可见性都设置为False。随着你越来越多地进行数据可视化,经常会看到这种串接方法的方式。
此处你应该出现警告,我各种百度都没有找到解决办法,只能规避警告,让他不提示,但是并不影响使用。
Python编程:从入门到实践之数据可视化( 一)_第21张图片

3.8.增加点数

下面来增加点数,以提供更多的数据。为此,我们在创建RandomWalk实例时增大num_points的值,并在绘图时调整每个点的大小

import matplotlib.pyplot as plt
from random_walk import RandomWalk
import warnings # 告警不提示
warnings.filterwarnings('ignore') # 告警不提示

# 只要程序处于活动状态,就不断地模拟随机漫步
while True:
    # 创建一个RandomWalk实例,并将其包含的点都绘制出来
    rw = RandomWalk(50000) # 增加点数
    rw.fill_walk()
    point_numbers = list(range(rw.num_points))
    plt.scatter(rw.x_values,rw.y_values,c= point_numbers,cmap=plt.cm.Blues,edgecolor= 'none',s =1)

    # 突出起点和终点,并按照自己需要的段落,加上颜色
    plt.scatter(0, 0, c='green', edgecolors='none', s=100)
    for i in range(200,301):
        plt.scatter(rw.x_values[i],rw.y_values[i], c='pink', edgecolors='none', s=15)
    plt.scatter(rw.x_values[-1], rw.y_values[-1], c='red', edgecolors='none', s=100)

    # 隐藏坐标轴
    plt.axes().get_xaxis().set_visible(False)
    plt.axes().get_yaxis().set_visible(False)

    plt.show()
    keep_running = input('make another walk?(y/n):')
    if keep_running == 'n':
        break

Python编程:从入门到实践之数据可视化( 一)_第22张图片
模拟一次包含50000个点的随机漫步(以模拟现实情况),并将每个点的大小都设置为1。

3.9.调整尺寸以适合屏幕

图表适合屏幕大小时,更能有效地将数据中的规律呈现出来。为让绘图窗口更适合屏幕大小,可像下面这样调整matplotlib输出的尺寸

import matplotlib.pyplot as plt
from random_walk import RandomWalk
import warnings # 告警不提示
warnings.filterwarnings('ignore') # 告警不提示

# 只要程序处于活动状态,就不断地模拟随机漫步
while True:
    # 创建一个RandomWalk实例,并将其包含的点都绘制出来
    rw = RandomWalk(50000) # 增加点数
    rw.fill_walk()
    # 设置绘图窗口的尺寸
    plt.figure(figsize=(10, 6))
    point_numbers = list(range(rw.num_points))
    plt.scatter(rw.x_values,rw.y_values,c= point_numbers,cmap=plt.cm.Blues,edgecolor= 'none',s =1)

    # 突出起点和终点,并按照自己需要的段落,加上颜色
    plt.scatter(0, 0, c='green', edgecolors='none', s=100)
    for i in range(200,301):
        plt.scatter(rw.x_values[i],rw.y_values[i], c='pink', edgecolors='none', s=15)
    plt.scatter(rw.x_values[-1], rw.y_values[-1], c='red', edgecolors='none', s=100)

    # 隐藏坐标轴
    plt.axes().get_xaxis().set_visible(False)
    plt.axes().get_yaxis().set_visible(False)

    plt.show()
    keep_running = input('make another walk?(y/n):')
    if keep_running == 'n':
        break

Python编程:从入门到实践之数据可视化( 一)_第23张图片
函数figure()用于指定图表的宽度、高度、分辨率和背景色。你需要给形参figsize指定一个元组,向matplotlib指出绘图窗口的尺寸,单位为英寸。Python假定屏幕分辨率为80像素/英寸,如果上述代码指定的图表尺寸不合适,可根据需要调整其中的数字。如果你知道自己的系统的分辨率,可使用形参dpi向figure()传递该分辨率,以有效地利用可用的屏幕空间
plt.figure(dpi=128,figsize=(10,6))
Python编程:从入门到实践之数据可视化( 一)_第24张图片

动手试一试

练习题一

分子运动:修改rw_visual.py,将其中的plt.scatter()替换为plt.plot()。为模拟花粉在水滴表面的运动路径,向plt.plot()传递rw.x_values和rw.y_values,并指定实参值linewidth。使用5000个点而不是50000个点。

练习题二

改进的随机漫步:在类RandomWalk中,x_step和y_step是根据相同的条件生成的:从列表[1, -1]中随机地选择方向,并从列表[0, 1, 2, 3, 4]中随机地选择距离。请修改这些列表中的值,看看对随机漫步路径有何影响。尝试使用更长的距离选择列表,如0~8;或者将-1从x或y方向列表中删除。

练习题三

重构:方法fill_walk()很长。请新建一个名为get_step()的方法,用于确定每次漫步的距离和方向,并计算这次漫步将如何移动。然后,在fill_walk()中调用get_step()两次:

答案
import matplotlib.pyplot as plt
from random_walk import RandomWalk
import warnings # 告警不提示
warnings.filterwarnings('ignore') # 告警不提示

# 只要程序处于活动状态,就不断地模拟随机漫步
while True:
    # 创建一个RandomWalk实例,并将其包含的点都绘制出来
    rw = RandomWalk(5000) # 增加点数
    rw.fill_walk()
    # 设置绘图窗口的尺寸
    plt.figure(figsize=(10, 6))

    point_numbers = list(range(rw.num_points))
    plt.plot(rw.x_values,rw.y_values,linewidth =1)

    # 隐藏坐标轴
    plt.axes().get_xaxis().set_visible(False)
    plt.axes().get_yaxis().set_visible(False)

    plt.show()
    keep_running = input('make another walk?(y/n):')
    if keep_running == 'n':
        break

Python编程:从入门到实践之数据可视化( 一)_第25张图片

            x_direction = choice([1]) #
            x_distance = choice([0, 1, 2, 3, 4,5,6,7,8])
            x_step = x_direction * x_distance
            y_direction = choice([1])
            y_distance = choice([0, 1, 2, 3, 4,5,6,7,8])
            y_step = y_direction * y_distance

Python编程:从入门到实践之数据可视化( 一)_第26张图片

4.使用Pygal模拟掷骰子

使用Python可视化包Pygal来生成可缩放的矢量图形文件。对于需要在尺寸不同的屏幕上显示的图表,这很有用,因为它们将自动缩放,以适合观看者的屏幕。如果你打算以在线方式使用图表,请考虑使用Pygal来生成它们,这样它们在任何设备上显示时都会很美观。
我们将对掷骰子的结果进行分析。掷6面的常规骰子时,可能出现的结果为1~6点,且出现每种结果的可能性相同。然而,如果同时掷两个骰子,某些点数出现的可能性将比其他点数大。为确定哪些点数出现的可能性最大,我们将生成一个表示掷骰子结果的数据集,并根据结果绘制出一个图形。

4.1.准备工作,安装Pygal
4.2.创建一个类,模拟掷一个骰子

创建一个脚本die.py

from random import randint
class Die():
    """表示一个骰子的类"""
    # 接受一个可选参数。创建这个类的实例时,如果没有指定任何实参,面数默认为6
    def __init__(self,num_sides =6): 

        """骰子默认为6面"""
        self.num_sides = num_sides
    # 方法roll()使用函数randint()来返回一个1和面数之间的随机数。这个函数可能返回起始值1、终止值num_sides或这两个值之间的任何整数
    def roll(self):
        """返回一个位于1和骰子面数之间的随机值"""
        return randint(1,self.num_sides)
4.3.掷骰子

创建一个脚本die_visual.py 创建图表前,先来掷D6骰子,将结果打印出来,并检查结果是否合理:

from die import Die
# 创建一个D6
die = Die()
# 掷几次骰子,并将结果存储在一个列表中
results = []
for roll_num in range(100):
    result = die.roll()
    results.append(result)
print(results)

我们掷骰子100次,并将每次的结果都存储在列表results中

4.4.分析结果

为分析掷一个D6骰子的结果,我们计算每个点数出现的次数:

from die import Die
# 创建一个D6
die = Die()
# 掷几次骰子,并将结果存储在一个列表中
results = []
for roll_num in range(100):
    result = die.roll()
    results.append(result)
# 分析结果
frequencies = []
for value in range(1,die.num_sides+1):
    frequency = results.count(value)
    frequencies.append(frequency)
print(frequencies)
4.5.绘制直方图

有了频率列表后,我们就可以绘制一个表示结果的直方图。直方图是一种条形图,指出了各种结果出现的频率。创建这种直方图的代码如下:

from die import Die
import pygal
# 创建一个D6
die = Die()
# 掷几次骰子,并将结果存储在一个列表中
results = []
for roll_num in range(100):
    result = die.roll()
    results.append(result)
# 分析结果
frequencies = []
for value in range(1,die.num_sides+1):
    frequency = results.count(value)
    frequencies.append(frequency)
hist = pygal.Bar()
hist.title = "Results of rolling one D6 1000 times."
hist.x_labels = ['1','2','3','4','5','6']
hist.x_title = "Result"
hist.y_title = "Frequency of Result"
hist.add('D6',frequencies)
hist.render_to_file('die_visual.svg')

为创建条形图,我们创建了一个pygal.Bar()实例,并将其存储在hist中。接下来,我们设置hist的属性title(用于标示直方图的字符串),将掷D6骰子的可能结果用作x轴的标签,并给每个轴都添加了标题。我们使用add()将一系列值添加到图表中(向它传递要给添加的值指定的标签,还有一个列表,其中包含将出现在图表中的值)。最后,我们将这个图表渲染为一个SVG文件,这种文件的扩展名必须为.svg。要查看生成的直方图,最简单的方式是使用Web浏览器。为此,在任何Web浏览器中新建一个标签页,再在其中打开文件die_visual.svg(它位于die_visual.py所在的文件夹中)。
Python编程:从入门到实践之数据可视化( 一)_第27张图片
注意,Pygal让这个图表具有交互性:如果你将鼠标指向该图表中的任何条形,将看到与之相关联的数据。在同一个图表中绘制多个数据集时,这项功能显得特别有用。

4.6.同时掷两个骰子

同时掷两个骰子时,得到的点数更多,结果分布情况也不同。下面来修改前面的代码,创建两个D6骰子,以模拟同时掷两个骰子的情况。每次掷两个骰子时,我们都将两个骰子的点数相加,并将结果存储在results中。请复制die_visual.py并将其保存为dice_visual.py,再做如下修改:

from die import Die
import pygal
# 创建一个D6
die_1 = Die()
die_2 = Die()
# 掷几次骰子,并将结果存储在一个列表中
results = []
for roll_num in range(100):
    result = die_1.roll()+die_2.roll()
    results.append(result)
# 分析结果
frequencies = []
max_result = die_1.num_sides+die_2.num_sides
for value in range(2,max_result+1):
    frequency = results.count(value)
    frequencies.append(frequency)
# 可视化结果
hist = pygal.Bar()
hist.title = "Results of rolling one D6 1000 times."
hist.x_labels = ['2','3','4','5','6','7','8','9','10','11','12']
hist.x_title = "Result"
hist.y_title = "Frequency of Result"
hist.add('D6+D6',frequencies)
hist.render_to_file('die_visual.svg')

创建两个Die实例后,我们掷骰子多次,并计算每次的总点数。可能出现的最大点数12为两个骰子的最大可能点数之和,我们将这个值存储在了max_result中。可能出现的最小总点数2为两个骰子的最小可能点数之和。分析结果时,我们计算2到max_result的各种点数出现的次数。我们原本可以使用range(2, 13),但这只适用于两个D6骰子。模拟现实世界的情形时,最好编写可轻松地模拟各种情形的代码。前面的代码让我们能够模拟掷任何两个骰子的情形,而不管这些骰子有多少面。创建图表时,我们修改了标题、x轴标签和数据系列。(如果列表x_labels比这里所示的长得多,那么编写一个循环来自动生成它将更合适。)运行这些代码后,在浏览器中刷新显示图表的标签页,你将看到如图所示的图表。
Python编程:从入门到实践之数据可视化( 一)_第28张图片
这个图表显示了掷两个D6骰子时得到的大致结果。正如你看到的,总点数为2或12的可能性最小,而总点数为7的可能性最大,这是因为在6种情况下得到的总点数都为7。这6种情况如下:1和6、2和5、3和4、4和3、5和2、6和1。

4.7.同时掷两个面数不同的骰子

下面来创建一个6面骰子和一个10面骰子,看看同时掷这两个骰子50000次的结果如何

from die import Die
import pygal
# 创建一个D6
die_1 = Die()
die_2 = Die(10)
# 掷几次骰子,并将结果存储在一个列表中
results = []
for roll_num in range(50000):
    result = die_1.roll()+die_2.roll()
    results.append(result)
# 分析结果
frequencies = []
max_result = die_1.num_sides+die_2.num_sides
for value in range(2,max_result+1):
    frequency = results.count(value)
    frequencies.append(frequency)
# 可视化结果
hist = pygal.Bar()
hist.title = "Results of rolling one D6 1000 times."
hist.x_labels = ['2','3','4','5','6','7','8','9','10','11','12','13','14','15','16']
hist.x_title = "Result"
hist.y_title = "Frequency of Result"
hist.add('D6+D10',frequencies)
hist.render_to_file('die_visual.svg')

为创建D10骰子,我们在创建第二个Die实例时传递了实参10。我们还修改了第一个循环,以模拟掷骰子50000次而不是1000次。可能出现的最小总点数依然是2,但现在可能出现的最大总点数为16,因此我们相应地调整了标题、x轴标签和数据系列标签。显示了最终的图表。可能性最大的点数不是一个,而是5个,这是因为导致出现最小点数和最大点数的组合都只有一种(1和1以及6和10),但面数较小的骰子限制了得到中间点数的组合数:得到总点数7、8、9、10和11的组合数都是6种。因此,这些总点数是最常见的结果,它们出现的可能性相同。
通过使用Pygal来模拟掷骰子的结果,能够非常自由地探索这种现象。只需几分钟,就可以掷各种骰子很多次。
Python编程:从入门到实践之数据可视化( 一)_第29张图片

动手试一试

练习题一:自动生成标签:请修改die.py和dice_visual.py,将用来设置hist.x_labels值的列表替换为一个自动生成这种列表的循环。如果你熟悉列表解析,可尝试将die_visual.py和dice_visual.py中的其他for循环也替换为列表解析。
练习题二:两个D8骰子:请模拟同时掷两个8面骰子1000次的结果。逐渐增加掷骰子的次数,直到系统不堪重负为止。
练习题三:同时掷三个骰子:如果你同时掷三个D6骰子,可能得到的最小点数为3,而最大点数为18。请通过可视化展示同时掷三个D6骰子的结果。
练习题四:将点数相乘:同时掷两个骰子时,通常将它们的点数相加。请通过可视化展示将两个骰子的点数相乘的结果。
练习题五:练习使用本章介绍的两个库:尝试使用matplotlib通过可视化来模拟掷骰子的情况,并尝试使用Pygal通过可视化来模拟随机漫步的情况。

在此篇中,你学习了:如何生成数据集以及如何对其进行可视化;如何使用matplotlib创建简单的图表,以及如何使用散点图来探索随机漫步过程;如何使用Pygal来创建直方图,以及如何使用直方图来探索同时掷两个面数不同的骰子的结果。使用代码生成数据集是一种有趣而强大的方式,可用于模拟和探索现实世界的各种情形。完成后面的数据可视化项目时,请注意可使用代码模拟哪些情形。请研究新闻媒体中的可视化,看看其中是否有图表是以你在这些项目中学到的类似方式生成的。

# matplotlib.pyplot.tick_params参数
# 1.axis——轴:{ ’ x ’ ,’ y ’ ,’ both ’ }
# 参数axis的值分别代表设置X轴、Y轴以及同时设置。默认值为 ’ both ’ 。
# 2.reset——重置:布尔
# 如果为True,则在处理其他关键字参数之前将所有参数设置为默认值。默认值为False。
# 3.which——其中:{ ‘ major ’ ,‘ minor ’ ,‘ both ’ }
# 参数which的值分别代表为“主要”,“次要”,“两者”。默认值为’ major '。
# 4.direction / tickdir——方向: {‘in’,‘out’,‘inout’}
# 将刻度线置于轴内,轴外或两者皆有。
# 5.size / length——长度:浮点
# 刻度线长度(以磅为单位)。
# 6.width——宽度:浮动
# 刻度线宽度(以磅为单位)。
# 7.color——颜色:颜色
# 刻度颜色;接受任何mpl颜色规格。
# 8.pad——垫:浮球
# 刻度和标签之间的距离(以磅为单位)。
# 9.labelsize——标签大小:float 或 str
# 刻度标签字体大小(以磅为单位)或字符串(例如,“大”)。
# 10.labelcolor——标签颜色:颜色
# 刻度标签颜色;mpl颜色规格
# 11.colors——颜色:颜色
# 将刻度颜色和标签颜色更改为相同的值:mpl color spec。
# 12.zorder——zorder:浮动
# 勾选并标记zorder。
# 13.bottom,top,left,right——底部,顶部,左侧,右侧:布尔
# 是否绘制各个刻度。
# 14.labelbottom,labeltop,labelleft,labelright——标签底部,标签顶部,标签左侧,标签右侧:布尔
# 是否绘制各个刻度标签。
# 15.labelrotation:浮动
# 刻度线标签逆时针旋转给定的度数
# 16.gridOn——网格线:布尔
# 是否添加网格线
# 17.grid_color——网格线颜色:颜色
# 将网格线颜色更改为给定的mpl颜色规格。
# 18.grid_alpha——网格线透明度:浮点数
# 网格线的透明度:0(透明)至1(不透明)。
# 19.grid_linewidth——网格线宽度:浮点数
# 网格线的宽度(以磅为单位)。
# 20.grid_linestyle——网格线型:字符串
# 任何有效的Line2D线型规范。

以上内容均由
Python编程:从入门到实践
以上内容还包括:
matplotlib画廊介绍:http://matplotlib.org/
Pygal画廊介绍:http://www.pygal.org/
Python编程:从入门到实践之数据可视化( 一)_第30张图片

你可能感兴趣的:(Matplotlib,Pygal)