python数据分析入门之numpy与pandas库

python数据分析是很有意思的一门技术,实用性较强。接下来我会为大家介绍一下,python数据分析的两个基础库的入门知识。也把自己看的东西做个总结。

首先是安装问题,个人建议windows系统用户的话还是直接下载Anaconda的好,各种库可比较全面,方便使用。

本文主要介绍两库的数据结构和函数用法。

看你安装的库可用conda指令。更新以及加新库可自查。

conda list

Numpy

1.导入库

import numpy as np

2.numpy核心nadarray(即n维数组)的创建(注意:多维嵌套)

a = np.array([[1,2,3],[4,5,6]])#列表创建
b = np.array(((1,2,3),(4,5,6)))#内嵌元组创建

#自带数组创建方法
np.zeros((3,4))#3行4列全为0的数组
np.ones((3,4))#3行4列全为1的数组
np.arange(0,10)#0--9的数
np.arange(0,12).reshape(3,4)#指定行列维数

3.数据类型 dtype指定

a = np.array([[1,2,3],[4,5,6]],dtype=int)

4.基本操作

     1》算数运算符

             加减乘除直接是运算符号。然后对应位数字加减乘除即可。

     2》矩阵积

np.dot(A,B)#按矩阵的运算操作

#切片索引等同python一般数据结构。不再细讲

5.重要点:广播机制适用两条

    1》两数组各维度兼容

    2》其中一数组为1维。

规则:

1》确实维度补1

2》扩展小的数组,使之和大数组大小形同。

举例1.

A = np.arange(16).reshape(4,4)
b = np.arange(4)
print(A,b)
print(A+b)
#A
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]] 
#b
[0 1 2 3]
#A+b
[[ 0  2  4  6]
 [ 4  6  8 10]
 [ 8 10 12 14]
 [12 14 16 18]]

2.

A = np.arange(6).reshape(3,1,2)
b = np.arange(6).reshape(3,2,1)
print(A,b)
print(A+b)
A
[[[0 1]]

 [[2 3]]

 [[4 5]]]
b
[[[0]
  [1]]

 [[2]
  [3]]

 [[4]
  [5]]]
A+b
[[[ 0  1]
  [ 1  2]]

 [[ 4  5]
  [ 5  6]]

 [[ 8  9]
  [ 9 10]]]

6.结构体数组概念了解即可,他包含的不是独立元素而是机构或记录。

7.文件读写函数还是比较推荐pandas的,numpy了解即可。

np.save()#.npy文件名保存二进制文件,
np.load()#读取二进制文件。
np.genfromtxt()#从文本文件中读取数据

pandas

1.导入

import pandas as pd

2.核心:两大数据结构

pd.Series()
pd.DataFrame()

Series

1.定义新的Series对象。

将Numpy 数组或现有的series对象定义新的Series对象。区别Series带索引。

2.方便的删选元素的方法,也是其数据分析的基础。

s[s<8}#输出s数组中所有值大于8的数,带其索引。

3.Series对象中组成元素的操作。

a.unique()#返回一个去重后的数组
a.value_counts()#计算每个元素的出现的次数。
a.isin([0,3])#判断给定的一组书是否在Series列中,返回bool值数组

DataFrame

理解:行列都有索引的矩阵。

1.三个参数

1》数据矩阵2》index列索引3》columns行索引

2.判断所属关系:

b.isin()#熟悉吧,其实各个数据结构中很多的东西都是相同的。

 3.删除

b.drop()

4.缺失值NaN对DataFrame的应用和数据清洗都有很大作用,具体在下边文章介绍。

这篇文章主要介绍有关python数据分析库的简单知识。因为才刚学几天,且还在集训,时间不多,整理匆忙。如有错误望指正。

你可能感兴趣的:(python数据分析入门之numpy与pandas库)