首先是安装问题,个人建议windows系统用户的话还是直接下载Anaconda的好,各种库可比较全面,方便使用。
本文主要介绍两库的数据结构和函数用法。
看你安装的库可用conda指令。更新以及加新库可自查。
conda list
Numpy
1.导入库
import numpy as np
2.numpy核心nadarray(即n维数组)的创建(注意:多维嵌套)
a = np.array([[1,2,3],[4,5,6]])#列表创建
b = np.array(((1,2,3),(4,5,6)))#内嵌元组创建
#自带数组创建方法
np.zeros((3,4))#3行4列全为0的数组
np.ones((3,4))#3行4列全为1的数组
np.arange(0,10)#0--9的数
np.arange(0,12).reshape(3,4)#指定行列维数
3.数据类型 dtype指定
a = np.array([[1,2,3],[4,5,6]],dtype=int)
4.基本操作
1》算数运算符
加减乘除直接是运算符号。然后对应位数字加减乘除即可。
2》矩阵积
np.dot(A,B)#按矩阵的运算操作
#切片索引等同python一般数据结构。不再细讲
5.重要点:广播机制适用两条
1》两数组各维度兼容
2》其中一数组为1维。
规则:
1》确实维度补1
2》扩展小的数组,使之和大数组大小形同。
举例1.
A = np.arange(16).reshape(4,4)
b = np.arange(4)
print(A,b)
print(A+b)
#A
[[ 0 1 2 3]
[ 4 5 6 7]
[ 8 9 10 11]
[12 13 14 15]]
#b
[0 1 2 3]
#A+b
[[ 0 2 4 6]
[ 4 6 8 10]
[ 8 10 12 14]
[12 14 16 18]]
2.
A = np.arange(6).reshape(3,1,2)
b = np.arange(6).reshape(3,2,1)
print(A,b)
print(A+b)
A
[[[0 1]]
[[2 3]]
[[4 5]]]
b
[[[0]
[1]]
[[2]
[3]]
[[4]
[5]]]
A+b
[[[ 0 1]
[ 1 2]]
[[ 4 5]
[ 5 6]]
[[ 8 9]
[ 9 10]]]
6.结构体数组概念了解即可,他包含的不是独立元素而是机构或记录。
7.文件读写函数还是比较推荐pandas的,numpy了解即可。
np.save()#.npy文件名保存二进制文件,
np.load()#读取二进制文件。
np.genfromtxt()#从文本文件中读取数据
1.导入
import pandas as pd
2.核心:两大数据结构
pd.Series()
pd.DataFrame()
Series
1.定义新的Series对象。
将Numpy 数组或现有的series对象定义新的Series对象。区别Series带索引。
2.方便的删选元素的方法,也是其数据分析的基础。
s[s<8}#输出s数组中所有值大于8的数,带其索引。
3.Series对象中组成元素的操作。
a.unique()#返回一个去重后的数组
a.value_counts()#计算每个元素的出现的次数。
a.isin([0,3])#判断给定的一组书是否在Series列中,返回bool值数组
DataFrame
理解:行列都有索引的矩阵。
1.三个参数
1》数据矩阵2》index列索引3》columns行索引
2.判断所属关系:
b.isin()#熟悉吧,其实各个数据结构中很多的东西都是相同的。
3.删除
b.drop()
4.缺失值NaN对DataFrame的应用和数据清洗都有很大作用,具体在下边文章介绍。
这篇文章主要介绍有关python数据分析库的简单知识。因为才刚学几天,且还在集训,时间不多,整理匆忙。如有错误望指正。