Python数据扩展包之Numpy

官方文档:

  • http://pandas.pydata.org/pandas-docs/stable/io.html
  • Numpy is faster than Pandas​​​​

NumPy是高性能科学计算和数据分析的基础包。部分功能如下:

  • ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。
  • 用于对整组数据进行快速运算的标准数学函数(无需编写循环)。
  • 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。
  • 线性代数、随机数生成以及傅里叶变换功能。
  • 用于集成C、C++、Fortran等语言编写的代码的工具。

Numpy函数库中存在两种不同的数据类型,矩阵matrix以及数组array,都可以用于处理行列表示的数字元素。但是在这两个数据类型上执行相同的数学运算可能得到不同的结果,一般来说如果说需要矩阵之间的一些运算,如求逆,矩阵相乘,转置等,可以先转换为mat矩阵在进行。

numpy中array属性、创建、运算:

import numpy as np
#create array
arr = np.array([[1,3],[4,5]])  #2x2
arr1 = np.array([1,2.4,3,6],dtype=np.int)   #dtype = float,int  1x4
arr2 = np.zeros((3,4))   #0   3x4
arr3 = np.ones((3,4),dtype=np.float)  #1.   3x4
arr4 = np.empty((3,4))  #empty close to zero   3x4                                              np.eye() 对角线为1
arr5 = np.arange(1,20,5)  #1x4   --from 1 to 20 each 5 pad
arr6 = arr5.reshape((2,2))  #2x2   change the shape
arr7 = np.linspace(1,10,20)  #create line segment
print arr.shape   #(3L,3L)  col & row
print arr.size    #9  total number
print arr.ndim    #2 dimention
print "--------------------------------------Cutting line---------------------------------"

arr8 = np.sin(arr1-arr5)  #np.sqrt();np.log(); np.exp();
arr9_1 = np.dot(arr,arr6)  #multi matrix  == arr.dot(arr6)
arr9_2 = arr*arr6   #multi element
print arr9_1
print arr9_2
print "--------------------------------------Cutting line---------------------------------"

arr10 = np.random.random((3,4))  #random number
arr10 = np.sort(arr10)  #low to high
arr10 = np.transpose(arr10)  #transposition ===arr10.T
arr11 = np.clip(arr10,0.1,2)#use 0.1 instead number <0.1,and 2 instead of number>2
sum = np.sum(arr10,axis=0)   #Sum the Column number
min = np.min(arr10,axis=1)  #min the Row number
max = np.max(arr10)  #max
print sum,min,max
print "--------------------------------------Cutting line---------------------------------"

index_min = np.argmin(arr10)  #the index of the min number
index_max = np.argmax(arr10)
print index_max,index_min
print "--------------------------------------Cutting line---------------------------------"

#the operation
mean = np.mean(arr10)
# arr10.mean()
ave = np.average(arr10)
median = np.median(arr10)
print "mean:",mean,"\naverage:",ave,"\nmedian:",median
print "--------------------------------------Cutting line---------------------------------"

cumsum = np.cumsum(arr10)  #accumulation
diff = np.diff(arr10)  #leicha  3x3

print cumsum
print diff
print "--------------------------------------Cutting line---------------------------------"

nonzero = np.nonzero(arr3)  #nonzero array use arr3's col and row title
print nonzero
print "--------------------------------------Cutting line---------------------------------"

#index num [start from 0]
print arr10[2]  #the 3rd row
print arr10[2][2] ,arr10[2,2] #the element in[2][2]
print arr10[1,1:3]  #row,column
print "--------------------------------------Cutting line---------------------------------"

for row in arr10:
    print row   #column
print "--------------------------------------Cutting line---------------------------------"

for column in arr10.T:
    print column  #row
print "--------------------------------------Cutting line---------------------------------"
print arr10.flatten()  #unfold to 1 row
print "--------------------------------------Cutting line---------------------------------"

for item in arr10.flat:  #flat is a a iterator
    print item
print "--------------------------------------Cutting line---------------------------------"

还有诸如:

>>> np.diag(a)   #以一维数组的形式返回方阵对角线元素

>>> np.trace(a)  #计算对角线之和

>>> eigVals,eigVects=np.linalg.eig(np.mat(array)) #Eig:计算方阵的特征值以及特征向量(在进行求解PCA主成分分析的时候,有很大作用)

Svd:计算奇异值分解(SVD)

随机数产生函数:

a. randint: 原型:numpy.random.randint(low, high=None, size=None, dtype='l'),产生随机整数;
b. random_integers: 原型: numpy.random.random_integers(low, high=None, size=None),在闭区间上产生随机整数;
c. random_sample: 原型: numpy.random.random_sample(size=None),在[0.0,1.0)上随机采样;
d. random: 原型: numpy.random.random(size=None),和random_sample一样,是random_sample的别名;
e. rand: 原型: numpy.random.rand(d0, d1, ..., dn),产生d0 - d1 - ... - dn形状的在[0,1)上均匀分布的float型数。
f. randn: 原型:numpy.random.randn(d0,d1,...,dn),产生d0 - d1 - ... - dn形状的标准正态分布的float型数。

g.uniform:原型:numpy.random.uniform(low,high,size),从一个均匀分布[low,high)中随机采样,注意定义域是左闭右开

h.normal:原型:numpy.random.normal(size=(3,4))   normal产生正态(高斯)分布样本;

Numpy 中array的合并、分割、copy:

import numpy as np
print "-------------------------------------cutting line---------------------------------"
A = np.array([1,2,3])[:,np.newaxis]
B = np.array([2,3,4])[:,np.newaxis]
C = np.vstack((A,B))   #Vertical stack
D = np.hstack((A,B))   #Horizon stack
print "A :\n",A
print "B:\n",B
print "C:\n",C
print "C.shape:",C.shape
print "D:\n",D
print "D.shape:",D.shape  #6L
print D[np.newaxis,:].shape   #add 1 dimention  1Lx6L
print D[:,np.newaxis].shape   #add 1 dimention  6Lx1L
E = np.concatenate((A,B,B,A),axis = 0)  #concatenate Column
print "E:\n",E
F = np.concatenate((A,B,B,A),axis=1)  #row: must add newaxis
print "F:\n",F
print "-------------------------------------cutting line---------------------------------"

arr1 = np.arange(12).reshape((3,4))
print arr1
#split must be an equal division column=2x2,1x4,4x1;row = 1x3,3x1
print np.split(arr1,2,axis=1)  #split to 4 part,axis is row
print np.split(arr1,3,axis=0)  #split to 4 part,axis is column
#split in unequal division
print np.array_split(arr1,3,axis=1)

print np.vsplit(arr1,3)  #np.split(arr1,3,axis = 0)
print np.hsplit(arr1,4)  #np.split(arr1,4,axis = 1)
print "-------------------------------------cutting line---------------------------------"

#copy &deep copy
arr2 =np.arange(5,dtype=np.float)
arr3 =arr2
arr4 = arr2.copy()
print arr2,arr3,arr4
arr2[2]=4.5
#"="change at the same time  有关联性
#"copy()" wont change
print arr2,arr3,arr4

 

Mat:

import numpy as np
print "-------------------------------------cutting line---------------------------------"
A = np.array([1,2,3])
B = np.array([[3],[5],[6]])
matrix_A = np.mat(A)
matrix_B = np.mat(B)
print "array:",A,"\nmatrix",matrix_A
C = A*B
matrix_C = matrix_A*matrix_B  #转换为mat之后,两个矩阵可以直接运算
print "C:\n",C,"\nmatrix_C:\n",matrix_C

常规函数用法基本一样;

NumPy常用函数:

NumPy函数和属性:

类型 类型代码 说明
int8、uint8 i1、u1 有符号和无符号8位整型(1字节)
int16、uint16 i2、u2 有符号和无符号16位整型(2字节)
int32、uint32 i4、u4 有符号和无符号32位整型(4字节)
int64、uint64 i8、u8 有符号和无符号64位整型(8字节)
float16 f2 半精度浮点数
float32 f4、f 单精度浮点数
float64 f8、d 双精度浮点数
float128 f16、g 扩展精度浮点数
complex64 c8 分别用两个32位表示的复数
complex128 c16 分别用两个64位表示的复数
complex256 c32 分别用两个128位表示的复数
bool ? 布尔型
object O python对象
string Sn 固定长度字符串,每个字符1字节,如S10
unicode Un 固定长度Unicode,字节数由系统决定,如U10

NumPy类型

生成函数 作用

np.array( x)

np.array( x, dtype)

将输入数据转化为一个ndarray

将输入数据转化为一个类型为type的ndarray

np.asarray( array ) 将输入数据转化为一个新的(copy)ndarray

np.ones( N )

np.ones( N, dtype)

np.ones_like( ndarray )

生成一个N长度的一维全一ndarray

生成一个N长度类型是dtype的一维全一ndarray

生成一个形状与参数相同的全一ndarray

np.zeros( N)

np.zeros( N, dtype)

np.zeros_like(ndarray)

生成一个N长度的一维全零ndarray

生成一个N长度类型位dtype的一维全零ndarray

类似np.ones_like( ndarray )

np.empty( N )

np.empty( N, dtype)

np.empty(ndarray)

生成一个N长度的未初始化一维ndarray

生成一个N长度类型是dtype的未初始化一维ndarray

类似np.ones_like( ndarray )

np.eye( N )

np.identity( N )

创建一个N * N的单位矩阵(对角线为1,其余为0)

np.arange( num)

np.arange( begin, end)

np.arange( begin, end, step)

生成一个从0到num-1步数为1的一维ndarray

生成一个从begin到end-1步数为1的一维ndarray

生成一个从begin到end-step的步数为step的一维ndarray

np.mershgrid(ndarray, ndarray,...)

生成一个ndarray * ndarray * ...的多维ndarray

np.where(cond, ndarray1, ndarray2)

根据条件cond,选取ndarray1或者ndarray2,返回一个新的ndarray

np.in1d(ndarray, [x,y,...])

检查ndarray中的元素是否等于[x,y,...]中的一个,返回bool数组

   
矩阵函数 说明

np.diag( ndarray)

np.diag( [x,y,...])

以一维数组的形式返回方阵的对角线(或非对角线)元素

将一维数组转化为方阵(非对角线元素为0)

np.dot(ndarray, ndarray) 矩阵乘法
np.trace( ndarray) 计算对角线元素的和
   

排序函数

说明

np.sort( ndarray)

排序,返回副本

np.unique(ndarray)

返回ndarray中的元素,排除重复元素之后,并进行排序

np.intersect1d( ndarray1, ndarray2)

np.union1d( ndarray1, ndarray2)

np.setdiff1d( ndarray1, ndarray2)

np.setxor1d( ndarray1, ndarray2)

返回二者的交集并排序。

返回二者的并集并排序。

返回二者的差。

返回二者的对称差

   
一元计算函数 说明

np.abs(ndarray)

np.fabs(ndarray)

计算绝对值

计算绝对值(非复数)

np.mean(ndarray)

求平均值

np.sqrt(ndarray)

计算x^0.5

np.square(ndarray)

计算x^2

np.exp(ndarray)

计算e^x

log、log10、log2、log1p

计算自然对数、底为10的log、底为2的log、底为(1+x)的log

np.sign(ndarray)

计算正负号:1(正)、0(0)、-1(负)

np.ceil(ndarray)

np.floor(ndarray)

np.rint(ndarray)

计算大于等于改值的最小整数

计算小于等于该值的最大整数

四舍五入到最近的整数,保留dtype

np.modf(ndarray)

将数组的小数和整数部分以两个独立的数组方式返回

np.isnan(ndarray)

返回一个判断是否是NaN的bool型数组

np.isfinite(ndarray)

np.isinf(ndarray)

返回一个判断是否是有穷(非inf,非NaN)的bool型数组

返回一个判断是否是无穷的bool型数组

cos、cosh、sin、sinh、tan、tanh

普通型和双曲型三角函数

arccos、arccosh、arcsin、arcsinh、arctan、arctanh

反三角函数和双曲型反三角函数

np.logical_not(ndarray)

计算各元素not x的真值,相当于-ndarray

多元计算函数

说明

np.add(ndarray, ndarray)

np.subtract(ndarray, ndarray)

np.multiply(ndarray, ndarray)

np.divide(ndarray, ndarray)

np.floor_divide(ndarray, ndarray)

np.power(ndarray, ndarray)

np.mod(ndarray, ndarray)

相加

相减

乘法

除法

圆整除法(丢弃余数)

次方

求模

np.maximum(ndarray, ndarray)

np.fmax(ndarray, ndarray)

np.minimun(ndarray, ndarray)

np.fmin(ndarray, ndarray)

求最大值

求最大值(忽略NaN)

求最小值

求最小值(忽略NaN)

np.copysign(ndarray, ndarray)

将参数2中的符号赋予参数1

np.greater(ndarray, ndarray)

np.greater_equal(ndarray, ndarray)

np.less(ndarray, ndarray)

np.less_equal(ndarray, ndarray)

np.equal(ndarray, ndarray)

np.not_equal(ndarray, ndarray)

>

>=

<

<=

==

!=

logical_and(ndarray, ndarray)

logical_or(ndarray, ndarray)

logical_xor(ndarray, ndarray)

&

|

^

np.dot( ndarray, ndarray) 计算两个ndarray的矩阵内积
np.ix_([x,y,m,n],...) 生成一个索引器,用于Fancy indexing(花式索引)
   
文件读写 说明
np.save(string, ndarray) 将ndarray保存到文件名为 [string].npy 的文件中(无压缩)
np.savez(string, ndarray1, ndarray2, ...) 将所有的ndarray压缩保存到文件名为[string].npy的文件中
np.savetxt(sring, ndarray, fmt, newline='\n') 将ndarray写入文件,格式为fmt
np.load(string) 读取文件名string的文件内容并转化为ndarray对象(或字典对象)
np.loadtxt(string, delimiter) 读取文件名string的文件内容,以delimiter为分隔符转化为ndarray

NumPy . ndarray函数和属性:

ndarray.ndim 获取ndarray的维数
ndarray.shape 获取ndarray各个维度的长度
ndarray.dtype 获取ndarray中元素的数据类型
ndarray.T 简单转置矩阵ndarray
函数 说明
ndarray.astype(dtype) 转换类型,若转换失败则会出现TypeError
ndarray.copy() 复制一份ndarray(新的内存空间)
ndarray.reshape((N,M,...)) 将ndarray转化为N*M*...的多维ndarray(非copy)
ndarray.transpose((xIndex,yIndex,...)) 根据维索引xIndex,yIndex...进行矩阵转置,依赖于shape,不能用于一维矩阵(非copy)
ndarray.swapaxes(xIndex,yIndex) 交换维度(非copy)
   
计算函数 说明
ndarray.mean( axis=0 ) 求平均值 
ndarray.sum( axis= 0) 求和 

ndarray.cumsum( axis=0)

ndarray.cumprod( axis=0)

累加 

累乘

ndarray.std()

ndarray.var()

方差

标准差

ndarray.max()

ndarray.min()

最大值

最小值

ndarray.argmax()

ndarray.argmin()

最大值索引

最小值索引

ndarray.any()

ndarray.all()

是否至少有一个True

是否全部为True

ndarray.dot( ndarray)

计算矩阵内积

排序函数

说明

ndarray.sort(axis=0)

排序,返回源数据

ndarray索引/切片方式

ndarray[n] 选取第n+1个元素
ndarray[n:m] 选取第n+1到第m个元素
ndarray[:] 选取全部元素
ndarray[n:] 选取第n+1到最后一个元素
ndarray[:n] 选取第0到第n个元素

ndarray[ bool_ndarray ]

注:bool_ndarray表示bool类型的ndarray

选取为true的元素

ndarray[[x,y,m,n]]...

选取顺序和序列为x、y、m、n的ndarray

ndarray[n,m]

选取第n+1行第m+1个元素

ndarray[n][m]....

选取n行n列....的元素

NumPy . random函数和属性:

函数 说明

seed()

seed(int)

seed(ndarray)

确定随机数生成种子

permutation(int)

permutation(ndarray)

返回一个一维从0~9的序列的随机排列

返回一个序列的随机排列

  shuffle(ndarray) 对一个序列就地随机排列

rand(int)

randint(begin,end,num=1)

产生int个均匀分布的样本值

从给定的begin和end随机选取num个整数

randn(N, M, ...) 生成一个N*M*...的正态分布(平均值为0,标准差为1)的ndarray
normal(size=(N,M,...)) 生成一个N*M*...的正态(高斯)分布的ndarray 
beta(ndarray1,ndarray2) 产生beta分布的样本值,参数必须大于0 
 chisquare() 产生卡方分布的样本值 
 gamma() 产生gamma分布的样本值 
 uniform() 产生在[0,1)中均匀分布的样本值 

NumPy . linalg函数和属性:

函数 说明
det(ndarray) 计算矩阵列式
eig(ndarray) 计算方阵的本征值和本征向量

inv(ndarray)

pinv(ndarray)

计算方阵的逆

计算方阵的Moore-Penrose伪逆

qr(ndarray) 计算qr分解 
svd(ndarray) 计算奇异值分解svd
solve(ndarray) 解线性方程组Ax = b,其中A为方阵 
lstsq(ndarray) 计算Ax=b的最小二乘解 
 

 

你可能感兴趣的:(Python,Python全栈工程师)