numpy详解

1、数据分析的流程

1、提出问题

2、准备数据

3、分析数据

4、获得结论

5、成果可视化

2、数据分析的定义

1、狭义的数据分析

先提出假设、再验证假设

2、广义的数据分析

即数据挖掘、发现假设

3、numpy的定义

一个在 Python中做科学计算的基础库,重在计算,多用于大型、多维数组上执行数值运算。

4、numpy的特点

1、底层使用 C语言编写,直接访问内存。 静态语言比动态语言运行要快

2、Numpy提供数据结构(array)比python数据结构访问效率高,数组是通过地址偏移获取数据。

3、支持高维数组与矩阵运算

4、封装了很多数据库

6、numpy的存储分为 : 元数据()和实际数据(位置上连续存储),访问数据是通过位偏移量查找。实际数据的存储模式有两种 C 模式和 R 模式,这里默认为 C模式。

C 模式 :

  • C 语言风格

  • 按行优先存储

F模式:

  • fortran 语言风格

  • 按列优先存储

7、Numpy数组是同质数组,即同一数组内,所有元素的数据类型必须相同。

即ndarray(数组)是存储单一数据类型的多维数组。

numpy属性

属性 解析
shape 返回 tuple 。表示数组的形状,对于 n 行 m 列的矩阵,形状为(n,m)(更改数组形状用 reshape())
ndim 返回 int 。表示数组的维数
size 返回 int 。表示数组的元素总数,等于数组形状的乘积
dtype 返回 data-type 。描述数组中元素的类型 (更改数据类型用 astype())
itemsize 返回 int 。表示数组的每个元素的大小(以字节为单位
data 存储数据块()

numpy中的元数据中存储了numpy的属性信息和data的存储地址,当访问属性信息时,可以直接获取,不用去计算。

6、numpy创建的五种方式

1、np.array([1,2,3],dtype="int32")

2、np.arange(start,end,step)

3、np.linspace [start,stop,num,endpoint=True,axis=0]

  • 在指定的间隔[“start”,“stop”]内均匀地返回数字,

  • 返回“num”个等间距的样本

  • endpoint是一个bool类型的值,如果为"Ture",“stop"是最后一个值,如果为"False”,生成的数组不会包含"stop"值

4、np.random.randint(start,end,size) #范围内的随机数,size指形状大小

 np.random.randint(1,10,size(4,5))

5、np.random.normal(start,end,size) #创建 标准差1,均值0 的正态分布数组

 numpy.random.normal(loc=0.0,scale=1.0,size=None)
  • 参数loc(float):正态分布的均值。

  • 参数scale(float):正态分布的标准差。

  • 参数size(int或者整数元组):输出数组的形状,默认为None。

    1)无参数时,返回的是一个标准正态分布(均值为0,标准差为1)下的随机值。

    2)仅输入一个数值,将返回一个均值loc为输入值,标准差为1的正太分布下的随机值。

    3)输入两个数值,将返回一个均值loc为输入值1,标准差scale为输入值2的正态分布下的随机值。

    4)输入两个数值,外加一个数值N,将返回一个均值loc为输入值1,标准差scale为输入值2的正太分布 下的(N,

你可能感兴趣的:(numpy)