数据可视化(pyecharts 1.7.1)学习笔记——系列笔记(3)

三、Python数据分析基础库Numpy

1、数组、Numpy

1)数组

  • 一维的数据称为向量

    • 集合
      • 集合中的元素不要求是相同的类型
    • 元组
      • 元组中的元素也不要求是相同的类型
    • 列表
      • 列表中的元素可以是不同的类型
    • 一维数组
      • 数据会将输入的数据转换为一致的数据类型
      • 数组计算的速度较其他类型都快
  • 二维的数据称为矩阵

    • 矩阵
    • 多组一维数据组合就是二维数据
    • 数据库表格和Excel表格是最常见的二维数据
    • 嵌套的列表
    • 二维数组
    • DataFrame表格形式
  • 三维或者更高维的数据,可用数组来表示

    • 3维数据使用三层嵌套列表
    • 三维数组
  • 数组也可以表示一维数据、二维数据、对应的就是一维数组、二维数组

    • 大数据的开发流程一般包括:数据收集、数据存储、数据分析和数据可视化
    • 结果数据一般都是结构化的二维数据、在对其进行数据可视化展现

2)Numpy

  • 具有一个强大的N维数组对象ndarray
  • 广播函数功能
  • 具有线性代数、博立叶变换、随机数生成等功能
  • 是Scipy、Pandas等数据处理或科学计算库的基础
  • 能够整合C/C++/Fortran的代码

Numpy使用array()提供数组的类型ndarray、Numpy的ndarray类型与python内置的list类型比较

  • 数组对象是一维数据更像单个数据,可以不使用for循环进行元素遍历计算
  • Numpy一堆数据对象做了优化,计算速度更快,效率更高
  • 科学计算中,一维数组中的元素类型往往相同
  • 数组对象采用相同的数据类型,有助于节省运算和存储空间
# 用列表存储数据,并计算这组数据的平方
a = [1,2,3,4]
c = []
for i in a:
    c.append(i**2)
print(c)

# 用ndarray类型来存储,计算显然更加加单
# ndarray具有广播功能
import numpy as np
a = np.array([1,2,3,4])
a**2

image-20200315191300214

# Python原生数据类型与numpy数组性能对比
def add(n):
    a = []
    b = []
    c = []
    for i in range(n):
        a.append(i ** 2)
        b.append(i + 3)
        c.append(a[i] + b[i])
    return c

def np_add(n):
    a = np.arange(n) ** 2
    b = np.arange(n) + 3
    c = a + b
    return c

N = 1000000
# 比较性能,使用“魔法函数” timeit
%timeit add(N)
%timeit np_add(N)
# 使用numpy运行时间是使用列表的70分之一

image-20200315200251218

2、ndarray的创建和操作

ndarray是一个多维数组对象,由两部分构成

  • 实际的数据
  • 描述这些数据的元数据,即数据维度和数据类型等

同构

  • 所有元素的类型一般都是相同的
a = np.array([[1,'a', 3], [4,'v', 6]])
print(type(a))
a

image-20200315201401810

1)ndarray的基本属性

ndarray对象的属性

一对象名称.属性名称()

array([['1', 'a', '3'],
       ['4', 'v', '6']], dtype=')
属性 含义 结果 案例
a.shape 数据维度 (2, 3) 2行3列的二维数组
a.size 元素个数 6 6个元素
a.ndim 数组的维度 2 2维数组
a.dtype 元素的数据类型 dtype(‘int32’) dtype(‘int32’)
a.itemsize 每个元素的大小
以字节为单位
4 int32为四个字节

2)ndarray的元素类型

创建ndarray数组时可指定元素的数据类型

所支持的数据类型包括整数、浮点数、复数、布尔值、字符串或是普通的Python对象(object)

np.array([[1, 2, 3], [4, 5, 6]], dtype = np.float32)

image-20200315202549008

array_01 = np.array([[1, 2, 3], [4, 5, 6]])
array_01.dtype

image-20200315202719460

数据类型 类型说明 说明
int_ 默认整形
intc 等价于long的整形
int8 i1 字节整形,1个字节,范围: [-128, 127]
int16 i2 整形,2个字节,范围:[-32768, 32767]
int32 i3 整形,4个字节,范围:[-2^31, 2^31 - 1]
int64 i4 整形,8个字节,范围:[-2^63, 2^63 - 1]
uint8 u1 无符号整形,1个字节,范围:[0, 255]
uint16 u2 无符号整形,2个字节,范围:[0, 65535]
uint32 u3 无符号整形,1个字节,范围:[0, 2^32 - 1]
uint64 u4 无符号整形,1个字节,范围:[0, 2^64 - 1]
bool_ 以一个字节形成存储的布尔值(True或是False)
float_ float64简写形式
float16 f2 半精度浮点型(2字节): 1符号位 + 5位指数 + 10位的小数部分
float32 f4或f 单精度浮点型(4字节): 1符号位 + 8位指数 + 23位小数部分
float64 f8或d 双精度浮点型(8字节): 1符号位 + 11位指数 + 52位的小数部分
complex_ c16 complex128的简写形式
complex64 c8 复数,由两个32位的浮点数来表示
complex128 c16 复数,由两个64位的浮点数来表示
object O Python对象类型
String_ S 固定长度的字符串类型(每个字符1个字节),比如: 要创建一个长度为8的字符串,应使用S8
Unicode_ U 固定长度的unicode类型的字符串(每个字符占用字节数由平台决定),长度定义类似String_类型

Python内建数据类型仅支持整数、浮点数和复数3种类型

对元素类型进行精确定义,有助于Numpy合理使用存储空间并优化性能。

在科学计算和数据分析领域设计数据类型较多,对存储和性能都有较高要求,并可以应对较大的数据应用场景。

非同质的ndarray对象

  • 非同质ndarray元素为对象类型
  • ndarray数组可以由非同质对象构成
  • 非同质的ndarray对象的元素长度不同
  • 非同质ndarray对象无法有效发挥NumPy优势,应该尽量避免使用

3)ndarray的创建

使用Python的列表、元组等类型创建ndarray数组

# 从列表创建
np.array([[1, 2, 3], [4, 5, 6]], dtype = np.float32)

image-20200315232647710

# 从元组创建
np.array([(1, 2), (2, 3)])

image-20200315233013381

# 从列表和元组创建
np.array([[1, 2, 3, 4], (4, 5, 6, 7)])

image-20200315233046882

使用Numpy中的函数创建ndarray数组

# 类似range()函数,返回ndarray类型,元素从0到n - 1
np.arange(5)

image-20200315233304632

# 根据shape生成一个全1数组,shape是元组类型
np.ones((3, 4))

image-20200315233516796

# 根据shape生成一个全0数组,shape是元组类型
np.zeros((2, 3 ,4))

image-20200315233700645

# 根据shape生成一个数组,每个元素都是val
np.full((2, 3), 99)

image-20200315233900116

# 创建一个正方的n*n单位矩阵,对角线为1,其余为0
np.eye(5)

image-20200315234042018

# 根据已有数组,生成一个维度相同的新数组
print('array_01:\n', array_01)
# 根据数组array_01的形状生成一个全1数组
print('np.ones_like:\n', np.ones_like(array_01))
# 根据数组array_01的形状生成一个全0数组
print('np.zeros_like:\n', np.zeros_like(array_01))
# 根据数组array_01的形状生成一个数组,每个元素值都是val
print('np.full_like:\n', np.full_like(array_01, 99))

image-20200315234929775

# 根据起止数据等间距地填充数据,形成数组
np.linspace(1, 10, 10)

image-20200315235114184

4)ndarray的变换

  • 维度变换

    • # 创建一个新的数组
      a = np.linspace(1, 12, 12, dtype=np.int32)
      # ndarray数组的维度变换
      # 不改变数组元素,返回一个shape形状的数组,原数组a不变
      b = a.reshape(3, 4)
      print('a:\n', a)
      print('b:\n', b)
      

      image-20200316000331729

    • # 改变数组的shape,且修改原数据
      a.resize(3, 4)
      a
      

      image-20200316000520192

    • # 将数组n个维度中两个维度进行调换
      a.swapaxes(1, 0)
      

      image-20200316000700258

    • # 把数组的维度降低,返回折叠后的一维数组,原数组不变
      a.flatten()
      

      image-20200316000832362

  • 元素类型变换

    • # 创建一个新的数组
      b = np.linspace(1, 9, 9)
      b.resize(3, 3)
      print('b:\n', b)
      print('b.dtype:\n', b.dtype)
      d = b.astype(np.int16)
      print('d:\n', d)
      

      image-20200315235805247

  • 数组转换为列表

    • print('b:\n', b)
      # 转换为list类型
      b.tolist()
      

      image-20200316001109269

5)ndarray的操作

索引:获取数组中特定位置的元素

c = np.linspace(1, 24, 24, dtype=np.int)
c.resize(2, 3, 4)
print('c:\n', c)
print('c[0]:\n', c[0])
print('c[0][0]:\n', c[0][0])
# 多维数组索引方式一
print('c[0][0][0]:\n', c[0][0][0])
# 多维数组索引方式二
print('c[0, 0, 0]:\n', c[0, 0, 0])

image-20200316001750032

切片:获取数组元素子集

# 切片获取元素子集
print('c:\n', c)
print('c[0][1:3][1:3]:\n', c[0][1:3][1:3])
print('c[0, 1:3, 1:3]:\n', c[0, 1:3, 1:3])
# 获取步长跳跃切片
print('c[0, 1, ::2]:\n', c[0, 1, ::2])

image-20200316002302987

3、ndarray数组的运算

1)ndarray与标量运算

  • 乘法

    # 乘法
    a = np.arange(1, 10).reshape(3, 3)
    b = [1, 2, 4]
    print('a:\n', a)
    print('a*10:\n', a*10)
    print('b*3:\n', b*3)
    

    image-20200316090608918

  • 平方

    # 平方
    a**2
    

    image-20200316090730722

  • 减法

    # 减法
    a - 9
    

    image-20200316090849332

  • 逻辑运算、比较大小、过滤元素

    # 数组的重要特性,过滤值
    print('a > 5:\n', a > 5)
    # 使用多条条件过滤,注意运算优先级
    print('a[(a > 5) & (a < 8)]:\n', a[(a > 5) & (a < 8)])
    

    image-20200316091413569

2)数组元素运算函数

函数名称 函数功能
np.abs(b) 计算各元素的绝对值
np.sqrt(b) 计算各元素的平方根
np.square(b) 计算各元素的平方
np.log(b)、np.log10(b)、np.log2(b) 计算数组各元素的自然对数、10底对数和2底对数
np.ceil© 计算数组各元素的ceiling值,向上取整
np.floor© 计算数组各元素的floor值,向下取整
np.rint© 计算数组各元素的四舍五入值
np.modf© 将数组个元素的小树和整数部分以两个独立数组形式返回
np.cos© 三角函数

3)数组间的运算

维度相同的数组

  • 加:a + b
  • 减:a - b
  • 乘:a * b
  • 除:a / b
  • 逻辑运算:a > b

4)Numpy统计函数

数组内的所有元素进行统计,通常是返回一个数值

  • np.sum()求和

    # 求每列的和
    print('np.sum(a, axis=0):\n', np.sum(a, axis=0))
    # 求每行的和
    print('np.sum(a, axis=1):\n', np.sum(a, axis=1))
    # 求所有元素的和
    print('np.sum(a):\n', np.sum(a))
    

    image-20200316093528599

函数名称 函数功能
np.min(a) 求取最小值
np.max(a) 求取最大值
np.median(a) 计算中间值
np.average(a) 计算加权平均值
np.mean(a) 计算算术平均值
np.std(a) 计算标准差
np.var(a) 计算方差

4、实验操作

实验环境

python 3.7、pyecharts 1.7.1、jupyter notebook 6.0.3

  • 阶梯图

    from pyecharts.globals import CurrentConfig, NotebookType
    CurrentConfig.NOTEBOOK_TYPE = NotebookType.JUPYTER_NOTEBOOK
    
    import pyecharts.options as opts
    from pyecharts.globals import ThemeType
    from pyecharts.charts import Line
    line = (
        Line(init_opts=opts.InitOpts(theme=ThemeType.DARK))
        .add_xaxis(['1995','1996','1997','1998','1999','2000','2001','2002','2003','2004','2005','2006','2007','2008','2009'])
        .add_yaxis('邮票阶梯', [0.32,0.32,0.32,0.32,0.33,0.33,0.34,0.37,0.37,0.37,0.37,0.39,0.41,0.42,0.44], is_step=True)
        .set_global_opts(title_opts=opts.TitleOpts(title="美国邮票阶梯图"), )
    )
    line.render_notebook()
    

    数据可视化(pyecharts 1.7.1)学习笔记——系列笔记(3)_第1张图片

  • 折线图

    import csv
    import matplotlib.pyplot as plt
    filename = "data/world-population.csv"
    datax = []
    datay = []
    with open(filename) as f:
        reader = csv.reader(f)
        for datarow in reader:
            if reader.line_num != 1:
    #             print(reader.line_num,datarow)
                datax.append(datarow[0])
                datay.append(datarow[1])
    plt.plot(datax,datay)
    plt.show()
    

    数据可视化(pyecharts 1.7.1)学习笔记——系列笔记(3)_第2张图片

  • 拟合曲线

    import numpy as np
    import sys
    filename = "data/unemployment-rate-1948-2010.csv"
    xa = []
    ya = []
    try:
        with open(filename) as f:
            reader = csv.reader(f)
            for datarow in reader:
                if reader.line_num != 1:
                    ya.append(float(datarow[3]))
                    xa.append(int(datarow[1]))
    except csv.Error:
        print("Error reading csv file")
        sys.exit(-1)
    plt.figure(figsize=(15, 9.27))
    plt.scatter(xa[:], ya[:], s=10,c='g',marker='o',alpha=0.5)
    poly = np.polyfit(xa, ya, deg = 3)
    plt.plot(xa, np.polyval(poly, xa))
    plt.show()
    

    数据可视化(pyecharts 1.7.1)学习笔记——系列笔记(3)_第3张图片

  • 散点图

    filename = "data/flowingdata_subscribers.csv"
    datay = []
    with open(filename) as f:
        reader = csv.reader(f)
        for datarow in reader:
            if reader.line_num != 1:
                datay.append(datarow[1])
    xa = list(range(1, len(datay) + 1))
    plt.figure(figsize=(15, 9.27))
    plt.scatter(xa, datay, s=50, c='r', marker='o', alpha=0.5)
    plt.show()
    

    数据可视化(pyecharts 1.7.1)学习笔记——系列笔记(3)_第4张图片

  • 柱状图

    from pyecharts.charts import Bar
    
    filename = "data/hot-dog-contest-winners.csv"
    datax = []
    datay = []
    with open(filename) as f:
        reader = csv.reader(f)
        for datarow in reader:
            if reader.line_num != 1:
                datay.append(datarow[2])
                datax.append(datarow[0])
    bar = (
        Bar(init_opts = opts.InitOpts(theme=ThemeType.DARK))
        .add_xaxis(datax)
        .add_yaxis("Dogs eaten", datay)
        .set_global_opts(title_opts=opts.TitleOpts(title="柱状图示例"))
    )
    bar.render_notebook()
    

    数据可视化(pyecharts 1.7.1)学习笔记——系列笔记(3)_第5张图片

  • 柱状图数据堆叠

    filename = "data/hot-dog-places.csv"
    datax = []
    datay = []
    with open(filename) as f:
        reader = csv.reader(f)
        for datarow in reader:
            datax.append(datarow)
    
    x = datax[0]
    y1 = datax[1]
    y2 = datax[2]
    y3 = datax[3]
    bar = (
        Bar(init_opts = opts.InitOpts(theme = ThemeType.DARK))
        .add_xaxis(x)
        .add_yaxis("A", y1)
        .add_yaxis("B", y2)
        .add_yaxis("C", y3)
        .set_global_opts(title_opts=opts.TitleOpts(title = "柱状图数据堆叠示例"))
    )
    bar.render_notebook()
    

    数据可视化(pyecharts 1.7.1)学习笔记——系列笔记(3)_第6张图片

你可能感兴趣的:(数据可视化(pyecharts 1.7.1)学习笔记——系列笔记(3))