基于Python的大数据分析基础(一)---- NumPy

 

1.NumPy简介及其使用

  • NumPy是一个功能强大的Python库,主要用于对多维数组执行计算,允许更高级的数据操作和数学计算。 它包括数学、逻辑、数组形状变换、排序、选择、I/O 、离散傅立叶变换、基本线性代数、基本统计运算、随机模拟等等。
    • 机器学习模型:在编写机器学习算法时,需要对矩阵进行各种数值计算。例如矩阵乘法、换位、加法等。NumPy提供了一个非常好的库,用于简单(在编写代码方面)和快速(在速度方面)计算。NumPy数组用于存储训练数据和机器学习模型的参数。
    • 图像处理和计算机图形学:计算机中的图像表示为多维数字数组。NumPy成为同样情况下最自然的选择。实际上,NumPy提供了一些优秀的库函数来快速处理图像。例如,镜像图像、按特定角度旋转图像等。
    • 数学任务:NumPy对于执行各种数学任务非常有用,如数值积分、微分、内插、外推等。因此,当涉及到数学任务时,它形成了一种基于Python的MATLAB的快速替代。
  • Numpy安装:在shell上使用以下命令:pip install numpy

2.Numpy基础知识

  • NumPy的数组类被称为ndarray。别名为 array。 请注意,numpy.array 与标准Python库类 array.array 不同,后者仅处理一维数组并提供较少的功能。 ndarray 对象则提供更关键的属性:
    • ndarray.ndim:数组的轴(维度)的个数。在Python世界中,维度的数量被称为rank。
    • ndarray.shape:数组的维度。这是一个整数的元组,表示每个维度中数组的大小。对于有n行和m列的矩阵,shape将是(n,m)。因此,shape元组的长度就是rank或维度的个数 ndim
    • ndarray.size:数组元素的总数。这等于shape的元素的乘积。
    • ndarray.dtype:一个描述数组中元素类型的对象。可以使用标准的Python类型创建或指定dtype。另外NumPy提供它自己的类型。例如numpy.int32、numpy.int16和numpy.float64。
    • ndarray.itemsize:数组中每个元素的字节大小。例如,元素为 float64 类型的数组的 itemsize 为8(=64/8),而 complex32 类型的数组的 itemsize 为4(=32/8)。它等于 ndarray.dtype.itemsize 。
    • ndarray.data:该缓冲区包含数组的实际元素。通常,我们不需要使用此属性,因为我们将使用索引访问数组中的元素。

3.NumPy的使用及其方法

# -*- coding: utf-8 -*-
"""
Author :        Jason
"""
__author__ = 'Jason'
'''
NumPy是Python的一个用于科学计算的基础包,属于Python的第三方库。
NumPy包的核心是ndarray对象。它封装了n维同类数组,特别注意这里的数组必须是同类型。
个人理解: 结合现代中的矩阵最好理解了
使用前先安装 pip3 install numpy
'''
import numpy as np 
data1 = [1,2,3,4,5]
array1 = np.array(data1)
print(type(array1),"\n",array1)
'''
 
 [1 2 3 4 5]
'''

data2 = [[1,2,3],[4,5,6]]
array2 = np.array(data2)
print(array2)
'''
[[1 2 3]
 [4 5 6]]
'''

#查询内部元素类型
print(array1.dtype)                 # int32
print(array2.dtype)                 # int32

#转换数据类型
print(array1.astype("str"))       # ['1' '2' '3' '4' '5']
print(array1.astype("str").dtype) # 

参照:《基于Python的大数据分析基础及实战》

 

你可能感兴趣的:(Python,数据分析)