一维的数据称为向量
二维的数据称为矩阵
三维或者更高维的数据,可用数组来表示
数组也可以表示一维数据、二维数据、对应的就是一维数组、二维数组
Numpy使用array()提供数组的类型ndarray、Numpy的ndarray类型与python内置的list类型比较
# 用列表存储数据,并计算这组数据的平方
a = [1,2,3,4]
c = []
for i in a:
c.append(i**2)
print(c)
# 用ndarray类型来存储,计算显然更加加单
# ndarray具有广播功能
import numpy as np
a = np.array([1,2,3,4])
a**2
# Python原生数据类型与numpy数组性能对比
def add(n):
a = []
b = []
c = []
for i in range(n):
a.append(i ** 2)
b.append(i + 3)
c.append(a[i] + b[i])
return c
def np_add(n):
a = np.arange(n) ** 2
b = np.arange(n) + 3
c = a + b
return c
N = 1000000
# 比较性能,使用“魔法函数” timeit
%timeit add(N)
%timeit np_add(N)
# 使用numpy运行时间是使用列表的70分之一
ndarray是一个多维数组对象,由两部分构成
同构
a = np.array([[1,'a', 3], [4,'v', 6]])
print(type(a))
a
ndarray对象的属性
一对象名称.属性名称()
array([['1', 'a', '3'],
['4', 'v', '6']], dtype=')
属性 | 含义 | 结果 | 案例 |
---|---|---|---|
a.shape | 数据维度 | (2, 3) | 2行3列的二维数组 |
a.size | 元素个数 | 6 | 6个元素 |
a.ndim | 数组的维度 | 2 | 2维数组 |
a.dtype | 元素的数据类型 | dtype(‘int32’) | dtype(‘int32’) |
a.itemsize | 每个元素的大小 以字节为单位 |
4 | int32为四个字节 |
创建ndarray数组时可指定元素的数据类型
所支持的数据类型包括整数、浮点数、复数、布尔值、字符串或是普通的Python对象(object)
np.array([[1, 2, 3], [4, 5, 6]], dtype = np.float32)
array_01 = np.array([[1, 2, 3], [4, 5, 6]])
array_01.dtype
数据类型 | 类型说明 | 说明 |
---|---|---|
int_ | 默认整形 | |
intc | 等价于long的整形 | |
int8 | i1 | 字节整形,1个字节,范围: [-128, 127] |
int16 | i2 | 整形,2个字节,范围:[-32768, 32767] |
int32 | i3 | 整形,4个字节,范围:[-2^31, 2^31 - 1] |
int64 | i4 | 整形,8个字节,范围:[-2^63, 2^63 - 1] |
uint8 | u1 | 无符号整形,1个字节,范围:[0, 255] |
uint16 | u2 | 无符号整形,2个字节,范围:[0, 65535] |
uint32 | u3 | 无符号整形,1个字节,范围:[0, 2^32 - 1] |
uint64 | u4 | 无符号整形,1个字节,范围:[0, 2^64 - 1] |
bool_ | 以一个字节形成存储的布尔值(True或是False) | |
float_ | float64简写形式 | |
float16 | f2 | 半精度浮点型(2字节): 1符号位 + 5位指数 + 10位的小数部分 |
float32 | f4或f | 单精度浮点型(4字节): 1符号位 + 8位指数 + 23位小数部分 |
float64 | f8或d | 双精度浮点型(8字节): 1符号位 + 11位指数 + 52位的小数部分 |
complex_ | c16 | complex128的简写形式 |
complex64 | c8 | 复数,由两个32位的浮点数来表示 |
complex128 | c16 | 复数,由两个64位的浮点数来表示 |
object | O | Python对象类型 |
String_ | S | 固定长度的字符串类型(每个字符1个字节),比如: 要创建一个长度为8的字符串,应使用S8 |
Unicode_ | U | 固定长度的unicode类型的字符串(每个字符占用字节数由平台决定),长度定义类似String_类型 |
Python内建数据类型仅支持整数、浮点数和复数3种类型
对元素类型进行精确定义,有助于Numpy合理使用存储空间并优化性能。
在科学计算和数据分析领域设计数据类型较多,对存储和性能都有较高要求,并可以应对较大的数据应用场景。
非同质的ndarray对象
使用Python的列表、元组等类型创建ndarray数组
# 从列表创建
np.array([[1, 2, 3], [4, 5, 6]], dtype = np.float32)
# 从元组创建
np.array([(1, 2), (2, 3)])
# 从列表和元组创建
np.array([[1, 2, 3, 4], (4, 5, 6, 7)])
使用Numpy中的函数创建ndarray数组
# 类似range()函数,返回ndarray类型,元素从0到n - 1
np.arange(5)
# 根据shape生成一个全1数组,shape是元组类型
np.ones((3, 4))
# 根据shape生成一个全0数组,shape是元组类型
np.zeros((2, 3 ,4))
# 根据shape生成一个数组,每个元素都是val
np.full((2, 3), 99)
# 创建一个正方的n*n单位矩阵,对角线为1,其余为0
np.eye(5)
# 根据已有数组,生成一个维度相同的新数组
print('array_01:\n', array_01)
# 根据数组array_01的形状生成一个全1数组
print('np.ones_like:\n', np.ones_like(array_01))
# 根据数组array_01的形状生成一个全0数组
print('np.zeros_like:\n', np.zeros_like(array_01))
# 根据数组array_01的形状生成一个数组,每个元素值都是val
print('np.full_like:\n', np.full_like(array_01, 99))
# 根据起止数据等间距地填充数据,形成数组
np.linspace(1, 10, 10)
维度变换
# 创建一个新的数组
a = np.linspace(1, 12, 12, dtype=np.int32)
# ndarray数组的维度变换
# 不改变数组元素,返回一个shape形状的数组,原数组a不变
b = a.reshape(3, 4)
print('a:\n', a)
print('b:\n', b)
# 改变数组的shape,且修改原数据
a.resize(3, 4)
a
# 将数组n个维度中两个维度进行调换
a.swapaxes(1, 0)
# 把数组的维度降低,返回折叠后的一维数组,原数组不变
a.flatten()
元素类型变换
# 创建一个新的数组
b = np.linspace(1, 9, 9)
b.resize(3, 3)
print('b:\n', b)
print('b.dtype:\n', b.dtype)
d = b.astype(np.int16)
print('d:\n', d)
数组转换为列表
print('b:\n', b)
# 转换为list类型
b.tolist()
索引:获取数组中特定位置的元素
c = np.linspace(1, 24, 24, dtype=np.int)
c.resize(2, 3, 4)
print('c:\n', c)
print('c[0]:\n', c[0])
print('c[0][0]:\n', c[0][0])
# 多维数组索引方式一
print('c[0][0][0]:\n', c[0][0][0])
# 多维数组索引方式二
print('c[0, 0, 0]:\n', c[0, 0, 0])
切片:获取数组元素子集
# 切片获取元素子集
print('c:\n', c)
print('c[0][1:3][1:3]:\n', c[0][1:3][1:3])
print('c[0, 1:3, 1:3]:\n', c[0, 1:3, 1:3])
# 获取步长跳跃切片
print('c[0, 1, ::2]:\n', c[0, 1, ::2])
乘法
# 乘法
a = np.arange(1, 10).reshape(3, 3)
b = [1, 2, 4]
print('a:\n', a)
print('a*10:\n', a*10)
print('b*3:\n', b*3)
平方
# 平方
a**2
减法
# 减法
a - 9
逻辑运算、比较大小、过滤元素
# 数组的重要特性,过滤值
print('a > 5:\n', a > 5)
# 使用多条条件过滤,注意运算优先级
print('a[(a > 5) & (a < 8)]:\n', a[(a > 5) & (a < 8)])
函数名称 | 函数功能 |
---|---|
np.abs(b) | 计算各元素的绝对值 |
np.sqrt(b) | 计算各元素的平方根 |
np.square(b) | 计算各元素的平方 |
np.log(b)、np.log10(b)、np.log2(b) | 计算数组各元素的自然对数、10底对数和2底对数 |
np.ceil© | 计算数组各元素的ceiling值,向上取整 |
np.floor© | 计算数组各元素的floor值,向下取整 |
np.rint© | 计算数组各元素的四舍五入值 |
np.modf© | 将数组个元素的小树和整数部分以两个独立数组形式返回 |
np.cos© | 三角函数 |
维度相同的数组
数组内的所有元素进行统计,通常是返回一个数值
np.sum()求和
# 求每列的和
print('np.sum(a, axis=0):\n', np.sum(a, axis=0))
# 求每行的和
print('np.sum(a, axis=1):\n', np.sum(a, axis=1))
# 求所有元素的和
print('np.sum(a):\n', np.sum(a))
函数名称 | 函数功能 |
---|---|
np.min(a) | 求取最小值 |
np.max(a) | 求取最大值 |
np.median(a) | 计算中间值 |
np.average(a) | 计算加权平均值 |
np.mean(a) | 计算算术平均值 |
np.std(a) | 计算标准差 |
np.var(a) | 计算方差 |
实验环境
python 3.7、pyecharts 1.7.1、jupyter notebook 6.0.3
阶梯图
from pyecharts.globals import CurrentConfig, NotebookType
CurrentConfig.NOTEBOOK_TYPE = NotebookType.JUPYTER_NOTEBOOK
import pyecharts.options as opts
from pyecharts.globals import ThemeType
from pyecharts.charts import Line
line = (
Line(init_opts=opts.InitOpts(theme=ThemeType.DARK))
.add_xaxis(['1995','1996','1997','1998','1999','2000','2001','2002','2003','2004','2005','2006','2007','2008','2009'])
.add_yaxis('邮票阶梯', [0.32,0.32,0.32,0.32,0.33,0.33,0.34,0.37,0.37,0.37,0.37,0.39,0.41,0.42,0.44], is_step=True)
.set_global_opts(title_opts=opts.TitleOpts(title="美国邮票阶梯图"), )
)
line.render_notebook()
折线图
import csv
import matplotlib.pyplot as plt
filename = "data/world-population.csv"
datax = []
datay = []
with open(filename) as f:
reader = csv.reader(f)
for datarow in reader:
if reader.line_num != 1:
# print(reader.line_num,datarow)
datax.append(datarow[0])
datay.append(datarow[1])
plt.plot(datax,datay)
plt.show()
拟合曲线
import numpy as np
import sys
filename = "data/unemployment-rate-1948-2010.csv"
xa = []
ya = []
try:
with open(filename) as f:
reader = csv.reader(f)
for datarow in reader:
if reader.line_num != 1:
ya.append(float(datarow[3]))
xa.append(int(datarow[1]))
except csv.Error:
print("Error reading csv file")
sys.exit(-1)
plt.figure(figsize=(15, 9.27))
plt.scatter(xa[:], ya[:], s=10,c='g',marker='o',alpha=0.5)
poly = np.polyfit(xa, ya, deg = 3)
plt.plot(xa, np.polyval(poly, xa))
plt.show()
散点图
filename = "data/flowingdata_subscribers.csv"
datay = []
with open(filename) as f:
reader = csv.reader(f)
for datarow in reader:
if reader.line_num != 1:
datay.append(datarow[1])
xa = list(range(1, len(datay) + 1))
plt.figure(figsize=(15, 9.27))
plt.scatter(xa, datay, s=50, c='r', marker='o', alpha=0.5)
plt.show()
柱状图
from pyecharts.charts import Bar
filename = "data/hot-dog-contest-winners.csv"
datax = []
datay = []
with open(filename) as f:
reader = csv.reader(f)
for datarow in reader:
if reader.line_num != 1:
datay.append(datarow[2])
datax.append(datarow[0])
bar = (
Bar(init_opts = opts.InitOpts(theme=ThemeType.DARK))
.add_xaxis(datax)
.add_yaxis("Dogs eaten", datay)
.set_global_opts(title_opts=opts.TitleOpts(title="柱状图示例"))
)
bar.render_notebook()
柱状图数据堆叠
filename = "data/hot-dog-places.csv"
datax = []
datay = []
with open(filename) as f:
reader = csv.reader(f)
for datarow in reader:
datax.append(datarow)
x = datax[0]
y1 = datax[1]
y2 = datax[2]
y3 = datax[3]
bar = (
Bar(init_opts = opts.InitOpts(theme = ThemeType.DARK))
.add_xaxis(x)
.add_yaxis("A", y1)
.add_yaxis("B", y2)
.add_yaxis("C", y3)
.set_global_opts(title_opts=opts.TitleOpts(title = "柱状图数据堆叠示例"))
)
bar.render_notebook()