Pandas从入门到精通

一、什么是Pandas

Pandas是基于NumPy的一种工具,该工具是为解决数据分析任务而创建的,Pandas提供了大量能使我们快速便捷的处理数据的功能

Pandas与出色的Jupyter 工具包和其他库相结合,Python中用于进行数据分析的环境在性能、生产率和协作能力反面都是卓越的

Pandas的主要数据结构是Series(一维数据)与DataFrame(二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数案例

处理数据一般分为几个阶段:数据整理与清洗、数据分析与建模、数据可视化,Pandas是处理数据的理想工具

二、Pandas数据结构

Pandas从入门到精通_第1张图片

 Series

Series是一种类似于一维数组的对象,由下面两个部分组成:

values:一组数据(ndarray类型)

index:相关的数据索引标签

1)Series的创建

(1)通过列表或NumPy数组创建

        默认索引为0到N-1的整数型索引

Pandas从入门到精通_第2张图片

 值与索引:

Pandas从入门到精通_第3张图片

 修改索引:注意保持索引个数相同

Pandas从入门到精通_第4张图片

通过index获取和修改值:数字索引要使用[]()

(2)由字典创建

Pandas从入门到精通_第5张图片

值values可以是多维数组:

Pandas从入门到精通_第6张图片

Series的参数:

Pandas从入门到精通_第7张图片

2)Series的索引

可以使用中括号取单个索引(此时返回的是元素类型),或者中括号里一个列表区多个索引(此时返回的仍然是一个Series类型)。分为显示索引和隐式索引:

显示索引:

        使用index中的元素作为索引值

        使用.loc[](推荐)

Pandas从入门到精通_第8张图片

 隐式索引:

        使用整数作为索引值

        使用.iloc[](推荐)

Pandas从入门到精通_第9张图片

3)Series的切片

Pandas从入门到精通_第10张图片

切片操作:

Pandas从入门到精通_第11张图片

4)Series的基本属性和方法

shape:形状

size:长度

index:索引

values:值

name:名字

Pandas从入门到精通_第12张图片

head():查看前几条数据,默认为5

tail():查看后几条数据,默认为5

Pandas从入门到精通_第13张图片

检测缺失数据:

pd.isnull()

pd.notnull()

isnull()

notnull()

Pandas从入门到精通_第14张图片

使用bool值索引过滤数据

        ~代表取反

Pandas从入门到精通_第15张图片

5)Series的运算

(1)适用于NumPy的数组运算也适用于Series

Pandas从入门到精通_第16张图片

(2)Series之间的运算

        在运算中自动对齐索引

        如果索引不对应,则补NaN

        Series没有广播机制

Pandas从入门到精通_第17张图片

按索引相加:

Pandas从入门到精通_第18张图片

如果想要保留所有的index,则需要使用.add()函数

Pandas从入门到精通_第19张图片

总结:Series可以看做是一个有序的字典结构

DataFrame

DataFrame是一个【表格型】的数据结构,可以看做是【由Series组成的字典】(共用同一个索引)。DataFrame由按一定顺序排列的多列数据组成。设计的初衷是将Series的使用场景从一维扩展到多维。DataFrame既有行索引,也有列索引

行索引:index

列索引:columns

值:values(NumPy的二维数组)

1)DataFrame的创建

最常用的方法是传递一个字典来创建。DataFrame以字典的键作为每一【列】的名称,以字典的值(一个数组)作为每一列

此外,DataFrame会自动加上每一行的索引(和Series一样)

同Series一样,若传入的列与字典的键不匹配,则相应的值为NaN

Pandas从入门到精通_第20张图片

 Pandas从入门到精通_第21张图片

DataFrame的基本属性和方法:

values:值,二维ndarray数组

columns:列索引

index:行索引

shape:形状

head():查看前几条数据,默认5条

tail():查看后几条数据,默认5条

d={
    'name':['千锋','黑马','尚硅谷'],
    'age':[11,12,20]
}
df=pd.DataFrame(d)
display(df)
display(df.values,df.columns,df.shape,df.head(2),df.tail(2))
#设置index
df.index=list('ABC')
df.columns=['name2','age2']
df

Pandas从入门到精通_第22张图片

可以在创建的时候指定行索引:

Pandas从入门到精通_第23张图片

也可以使用二维数组的方式创建DataFrame:

Pandas从入门到精通_第24张图片

 2)DataFrame的索引

(1)对列进行索引

        通过类似字典的方式

        通过属性的方式

可以将DataFrame的列获取为一个Series。返回的Series拥有原DataFrame相同的索引,且name属性也已经设置好了,就是相应的列名

Pandas从入门到精通_第25张图片

(2) 对行进行索引

Pandas从入门到精通_第26张图片

 取单独一个数据:

        加了loc或iloc都是先取行。默认是先取列,再取行

Pandas从入门到精通_第27张图片

3)DataFrame的切片

行切片:

Pandas从入门到精通_第28张图片

列切片

对列做切片,也必须先对行做切片

 同时对行和列切片:

Pandas从入门到精通_第29张图片

 取不连续的行或列:

Pandas从入门到精通_第30张图片

Pandas从入门到精通_第31张图片

4)DataFrame运算

基本演示数据:

Pandas从入门到精通_第32张图片

DataFrame和标量的运算

Pandas从入门到精通_第33张图片

 DataFrame之间的运算:

DataFrame没有广播机制:

Pandas从入门到精通_第34张图片

可以使用add()默认填充:

Pandas从入门到精通_第35张图片

Series与DataFrame之间的运算

使用Python操作符:以行为单位操作(参数必须是行),对所有行都有效

        类似于NumPy中二维数组与一维数组的运算,但可能出现NaN

Pandas从入门到精通_第36张图片

使用Pandas操作函数:

        axis=0:以列为单位操作(参数必须是列),对所有列都有效

        axis=1:以行为单位操作(参数必须是行),对所有行都有效

注意axis=0和axis='index'等价,axis=1和axis='columns'等价

Pandas从入门到精通_第37张图片

三、Pandas层次化索引

Pandas从入门到精通_第38张图片

 创建层次化索引

1)隐式创建

Pandas从入门到精通_第39张图片

Series也可以创建多层索引

Pandas从入门到精通_第40张图片

2)显式构造 pd.MultiIndex

Pandas从入门到精通_第41张图片

使用tuple

使用product

        笛卡尔积        {a,b} {c,d}===>{a,c},{a,d},{b,c},{b,d}

Pandas从入门到精通_第42张图片

多层索引对象的索引与切片操作

1)Series的操作

        对于Series来说,直接中括号[]和使用loc()是完全一样的

Pandas从入门到精通_第43张图片

隐式索引:

Pandas从入门到精通_第44张图片

切片:

显式切片:

Pandas从入门到精通_第45张图片

隐式切片(建议使用):

Pandas从入门到精通_第46张图片

2)DataFrame的操作

Pandas从入门到精通_第47张图片

 列索引:

Pandas从入门到精通_第48张图片

Pandas从入门到精通_第49张图片

切片:

行切片

Pandas从入门到精通_第50张图片

 列切片

Pandas从入门到精通_第51张图片

索引的堆叠

stack()、unstack()

        使用stack()的时候,level等于哪一个,哪一个就消失,出现在行里

stack():将列索引变成行索引,而且默认是将最里层的列索引变成行索引

基本数据:

Pandas从入门到精通_第52张图片

使用stack():

Pandas从入门到精通_第53张图片

 默认level=-1,想把哪个列索引变成行索引可以自己指定

Pandas从入门到精通_第54张图片

使用unstack()的时候,level等于哪一个,哪一个就消失,出现在列里

Pandas从入门到精通_第55张图片

使用fill_value填充

Pandas从入门到精通_第56张图片

聚合操作

DataFrame聚合函数:

        求和

        平均值

        最大值

        最小值

Pandas从入门到精通_第57张图片

Pandas从入门到精通_第58张图片

求行的最外层和:

Pandas从入门到精通_第59张图片

 求列的最外层:

Pandas从入门到精通_第60张图片

 四、数据合并

Pandas从入门到精通_第61张图片

基础数据和用法:

Pandas从入门到精通_第62张图片

pd.concat()

pandas使用pd.concat函数,与np.concatenate函数类似

1)简单级联

        默认是上下合并(垂直合并)

Pandas从入门到精通_第63张图片

 如果想要列合并,可以指定axis=1

Pandas从入门到精通_第64张图片

忽略行索引 ignore_index(会重置索引)

Pandas从入门到精通_第65张图片

使用多层索引 keys(加一层索引)

Pandas从入门到精通_第66张图片

Pandas从入门到精通_第67张图片

2)不匹配级联

不匹配指的是级联的维度的索引不一致。例如纵向级联时列索引不一致,横向级联时行索引不一致

基础数据:

Pandas从入门到精通_第68张图片

外连接:不匹配的时候默认会用NaN填充

        等价于:pd.concat([df3,df4],join="outer")

类似于并集,显示所有数据

Pandas从入门到精通_第69张图片

内连接:只连接匹配的项

3)使用append()函数添加

        由于在后面级联的使用非常普遍,因此有一个函数append专门用于在后面添加

Pandas从入门到精通_第70张图片

使用pd.merge()合并

类似MySQL中表和表直接的合并

merge与concat的区别在于,merge需要依据某一共同的行或列来进行合并

使用pd.merge()合并时,会自动根据两者相同column名称的那一列,作为key来进行合并

每一列元素的顺序不要求一致

基本数据:

Pandas从入门到精通_第71张图片

1)一对一合并

Pandas从入门到精通_第72张图片

Pandas从入门到精通_第73张图片

 2)多对一合并

修改基础数据的id,使其重复

Pandas从入门到精通_第74张图片

 合并的时候多的一方每个都和一的一方合并一次

Pandas从入门到精通_第75张图片

3)多对多合并

Pandas从入门到精通_第76张图片

 合并的时候类似于笛卡尔积

Pandas从入门到精通_第77张图片

4)key的规范化

使用on=显式指定哪一列为key,当2个DataFrame有多列相同时使用

Pandas从入门到精通_第78张图片

 现在有两列名称相同,但是两列没有值完全等价,所以匹配不到

Pandas从入门到精通_第79张图片

匹配不到:

Pandas从入门到精通_第80张图片

 匹配得到的情况:

Pandas从入门到精通_第81张图片

Pandas从入门到精通_第82张图片

如果有多列名称相同,需要指定一列作为连接的字段

Pandas从入门到精通_第83张图片

如果没有相同的列名,则需要使用left_on,right_on来分别指定2个表中的不同列作为连接的字段

当左边的列和右边的index相同的时候,可以使用right_index=True

Pandas从入门到精通_第84张图片

Pandas从入门到精通_第85张图片

5)内合并与外合并

内合并:只保留两者都有的key(默认就是内连接 inner join)

Pandas从入门到精通_第86张图片

 外合并:how="outer" :补NaN

        外连接会显示2个表的所有数据

Pandas从入门到精通_第87张图片

左合并、右合并:how="left",how="right"

        左连接:显示左边df1表的所有数据和右边表df2的公共数据

Pandas从入门到精通_第88张图片

         右连接:显示右边df2表的所有数据和左边表df1的公共数据

Pandas从入门到精通_第89张图片

6)列冲突的解决

当列冲突时,即有多个列名称相同时,需要使用on=来指定哪一个列作为key,配合suffixes指定冲突列名

可以使用suffixes=自己指定后缀

Pandas从入门到精通_第90张图片

merge合并总结:

合并有三种现象:一对一、多对一、多对多

合并默认会找相同的列名进行合并,如果有多个列名相同,用on来指定

如果没有列名相同,但是数据又相同,可以通过left_on,right_on 来分别指定要合并的列

如果想和index合并,可以使用left_index,right_index来指定

如果多个列相同合并之后可以通过suffixes来区分

还可以通过how来控制合并的结果,默认是内合并,还有外合并outer、左合并left、右合并right

五、Pandas缺失值处理

1)缺失值

None:

None是Python自带的,是Python中的空对象。None不能参与到任何计算中。

object类型的运算要比int类型的运算慢很多

Pandas从入门到精通_第91张图片

np.nan:

np.nan是浮点类型,能参与到计算中。但计算的结果总是NaN

np.nansum()可以自动过滤nan不计算

Pandas从入门到精通_第92张图片

2)Pandas中的None与NaN

(1)Python中None与np.nan都视作np.nan

创建DataFrame

Pandas从入门到精通_第93张图片

使用DataFrame行索引和列索引修改DataFrame数据

Pandas从入门到精通_第94张图片

(2)pandas中None与np.nan的操作

isnull()

notnull()

all()

any()

dropna():过滤丢失数据

fillna():填充丢失数据

a.判断函数

isnull()

notnull()

Pandas从入门到精通_第95张图片

b.

all():必须全为True才为True,类似于and

any():只要有一个为True就为True,类似于or

Pandas从入门到精通_第96张图片

Pandas从入门到精通_第97张图片

 案例:

Pandas从入门到精通_第98张图片

c.使用bool值索引过滤数据

过滤行:

Pandas从入门到精通_第99张图片

 过滤列:

Pandas从入门到精通_第100张图片

d.dropna():过滤丢失数据

Pandas从入门到精通_第101张图片

 也可以选择过滤的方式 how="all"

Pandas从入门到精通_第102张图片

inplace=True 修改原数据,无返回值

Pandas从入门到精通_第103张图片

e.fillna():填充丢失数据

        填充函数 Series/DataFrame

Pandas从入门到精通_第104张图片

Pandas从入门到精通_第105张图片

Pandas从入门到精通_第106张图片 Pandas从入门到精通_第107张图片

 六、Pandas重复值处理

duplicated()函数检测重复的行

drop_duplicates()函数删除重复的行

1)删除重复行

使用duplicated()函数检测重复的行

        返回元素为布尔类型的Series对象

        每个元素对应一行,如果该行不是第一次出现,则元素为True

Pandas从入门到精通_第108张图片

 默认是两行完全一致才判断为重复,但也可以指定子集

删除重复值:

Pandas从入门到精通_第109张图片

七、Pandas数据映射

Pandas从入门到精通_第110张图片

 1)replace()函数:替换元素

Pandas从入门到精通_第111张图片

2)map()函数:适合处理某一单独的列

map()函数中可以使用lambda函数

Pandas从入门到精通_第112张图片

Pandas从入门到精通_第113张图片

Pandas从入门到精通_第114张图片

3)rename()函数:替换索引

Pandas从入门到精通_第115张图片

 也可以使用index={},或columns={}

Pandas从入门到精通_第116张图片

重置索引:

Pandas从入门到精通_第117张图片

设置索引:

4)apply()函数:既支持Series,又支持DataFrame

基础数据:

Pandas从入门到精通_第118张图片

apply应用:lambda

Pandas从入门到精通_第119张图片

 apply应用:普通函数

Pandas从入门到精通_第120张图片

applymap():是DataFrame专有的,其中的x是每个元素

Pandas从入门到精通_第121张图片

5)transform()函数

用于Series:

Pandas从入门到精通_第122张图片

用于DataFrame:默认处理每一列

Pandas从入门到精通_第123张图片

 控制为处理每一行:

Pandas从入门到精通_第124张图片

八、Pandas异常值处理

Pandas从入门到精通_第125张图片

 异常值检测和过滤(一)

describe():

Pandas从入门到精通_第126张图片

也可以自己指定百分数:

Pandas从入门到精通_第127张图片

 如果行数太多不方便查阅,可以使用.T转置

Pandas从入门到精通_第128张图片

df.std():可以求得DataFrame对象每一列的标准差

df.drop():删除特定索引

默认删除行索引,如果想要删除列索引,需要加上axis=1

Pandas从入门到精通_第129张图片

 也可以用index=[],columns=[]

Pandas从入门到精通_第130张图片

异常值检测与过滤(二)

unique():唯一,去重

Pandas从入门到精通_第131张图片

query():query支持 == ,> ,< 等符号

        也支持and &、or | 、in

Pandas从入门到精通_第132张图片

query中也可以使用变量:

        @n 表示使用外部的变量n的值

        不加@,query无法识别为外部的变量

Pandas从入门到精通_第133张图片

 异常值检测与过滤(三)

df.sort_values():根据值排序

df.sort_index():根据索引排序

Pandas从入门到精通_第134张图片

 大部分情况下都使用行索引排序,很少按列排序:

Pandas从入门到精通_第135张图片

按索引名排序(大部分针对索引名为数字的情况):

Pandas从入门到精通_第136张图片

 info():查看数据信息

Pandas从入门到精通_第137张图片

练习

新建一个形状为10000*3的标准正态分布的DataFrame(np.random.randn),去除掉所有满足以下情况的行:

其中任一元素绝对值大于3倍标准差

Pandas从入门到精通_第138张图片

九、数学运算

抽样

使用.take()函数排序

可以借助np.random.permutation()函数随机排序

排列:

Pandas从入门到精通_第139张图片

随机排列:

模拟无放回抽样:依次随机取出,没有重复值

Pandas从入门到精通_第140张图片

模拟有放回抽样:可能会出现重复值

        相当于取了五次,每次的下标都是[0,3)中的一个随机数

Pandas从入门到精通_第141张图片

数学函数

Pandas从入门到精通_第142张图片

 聚合函数:

基础数据:

Pandas从入门到精通_第143张图片

应用:

Pandas从入门到精通_第144张图片

Pandas从入门到精通_第145张图片

方差

方差:

当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大

当数据分布比较集中时,各个数据与平均数的差的平方和较小

因此方差越大,数据的波动越大;方差越小,数据的波动就越小

标准差:

         标准差 = 方差的算术平方根

Pandas从入门到精通_第146张图片

统计数据分布情况:

Pandas从入门到精通_第147张图片

累加运算:

默认是同一列行的累加

Pandas从入门到精通_第148张图片

累乘运算:

Pandas从入门到精通_第149张图片

协方差

两组数值中每队变量的偏差乘积的平均值

协方差>0:表示两组变量正相关

        如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值

协方差<0:表示两组变量负相关

        如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差九十负值

协方差=0:表示两组变量不相关

相关系数r

相关系数 = X与Y的协方差 / (X的标准差 * Y的标准差)

相关系数值的范围在-1和+1之间

r>0为正相关,r<0为负相关,r=0表示不相关

r的绝对值越大,1相关程度越高

Pandas从入门到精通_第150张图片

Pandas分组聚合

groupby()函数

.groups属性查看各行的分组情况

数据聚合时数据处理的最后一步,通常是要使每一个数组生成一个单一的数值

数据分类处理:

        分组:先把数据分为几组

        用函数处理:为不同组的数据应用不同的函数以转换数据

        合并:把不同组得到的结果合并起来

数据分类处理的核心:groupby()函数

Pandas从入门到精通_第151张图片

分组+聚合:

Pandas从入门到精通_第152张图片

练习:

假设菜市场张大妈在买菜,有以下属性:

菜品(item):萝卜、白菜、辣椒、冬瓜

颜色(color):白、青、红

重量(weight)

价格(price)

1.要求以属性作为列索引,新建一个ddd

Pandas从入门到精通_第153张图片

2.对ddd进行聚合操作,求出颜色为白色的价格总和

        注:使用两个中括号返回DataFrame,使用一个中括号返回Series

Pandas从入门到精通_第154张图片

3.对ddd进行聚合操作,分别求出萝卜的所有重量以及平均价格

Pandas从入门到精通_第155张图片

4.使用merge合并总重量及平均价格

Pandas从入门到精通_第156张图片

九、Pandas数据加载

CSV数据加载

to_csv:保存到csv

read_csv:加载csv数据

Pandas从入门到精通_第157张图片

不获取列:header=None

Pandas从入门到精通_第158张图片

pd.read_table():分隔符默认为sep="\t",如果读取csv格式数据,需要手动指定分隔符

Pandas从入门到精通_第159张图片

excel数据加载

df.to_excel():保存到excel文件

        sheet_name:工作表名称

        xlsx是excel的格式类型,xls也是,但未来可能不再支持xls格式

pd.read_excel:读取excel

        如果有多个工作表,需要指定sheet_name

        可以用names替换原来的列名

Pandas从入门到精通_第160张图片

Pandas从入门到精通_第161张图片

十、Pandas分享操作

Pandas从入门到精通_第162张图片

Pandas从入门到精通_第163张图片

 1.等宽分箱

Pandas从入门到精通_第164张图片

 绘图效果:

Pandas从入门到精通_第165张图片

自己指定分箱:

Pandas从入门到精通_第166张图片

2.等频分箱

Pandas从入门到精通_第167张图片

一般来说,等距分箱用的更多,因为可以自己设置断点

十一、Pandas时间序列

创建时间

Pandas从入门到精通_第168张图片

Pandas从入门到精通_第169张图片

 时间转换&索引&切片和属性

时间转换:

Pandas从入门到精通_第170张图片

时间差:DateOffset

常见参数:hours、days

Pandas从入门到精通_第171张图片

时间戳的索引和切片:

基础数据:

Pandas从入门到精通_第172张图片

应用:

Pandas从入门到精通_第173张图片

Pandas从入门到精通_第174张图片

 属性:

Pandas从入门到精通_第175张图片

时间移动和频率转换

对时间做一些移动/滞后、频率转换、采样等相关操作

Pandas从入门到精通_第176张图片

移动:默认后移一位

Pandas从入门到精通_第177张图片

频率转换:

Pandas从入门到精通_第178张图片

 pd.tseries.offset.MonthEnd() 得到一个月的最后一天

pd.tseries.offset.MonthBegin() 得到一个月的第一天

由少变多,fill_value填充

Pandas从入门到精通_第179张图片

resample:根据日期维度进行数据聚合

按照分钟(T),小时(H),日(D),周(W),月(M),年(Y)等来作为日期维度

Pandas从入门到精通_第180张图片

Pandas从入门到精通_第181张图片

Pandas从入门到精通_第182张图片

 需求:对week列进行按月汇总:price求平均值,score求和

Pandas从入门到精通_第183张图片

时区

Pandas从入门到精通_第184张图片

十二、Pandas绘图

Pandas从入门到精通_第185张图片

 折线图

Series图表

画折线图:

Pandas从入门到精通_第186张图片

 画正弦曲线:

Pandas从入门到精通_第187张图片

 

DataFrame图表:

        图例的位置可能会随着数据的不同而不同

Pandas从入门到精通_第188张图片

默认是每一列一根线,也可以转置为每一行一根线

Pandas从入门到精通_第189张图片

 

条形图和柱状图

DataFrame柱状图示例:kind="bar"/"barh"

Pandas从入门到精通_第190张图片

Pandas从入门到精通_第191张图片 

 Series:

Pandas从入门到精通_第192张图片

Pandas从入门到精通_第193张图片 

 

直方图

random生成随机数百分比直方图,调用hist()方法

        柱高表示数据的频数,柱宽表示各组数据的组距

        参数bins可以设置直方图方柱的个数上限,越大柱宽越小,数据分组越细致

        设置density参数为True,可以把频数转换为概率

Pandas从入门到精通_第194张图片

 可以用bins指定分组个数:

Pandas从入门到精通_第195张图片

 使用density将频数转换为概率

Pandas从入门到精通_第196张图片

 

kde图:核密度估计,用于弥补直方图由于参数bins设置的不合理导致的精度缺失的问题

Pandas从入门到精通_第197张图片

 

饼图

Pandas从入门到精通_第198张图片

 

散点图

散点图是观察两个一位数据数列之间的关系的有效方法,DataFrame对象可用

x="A":使用A列作为X轴

y="B":使用B列作为Y轴

Pandas从入门到精通_第199张图片

 

面积图和箱型图

面积图:

Pandas从入门到精通_第200张图片

 

箱型图:

        最上边的短横线是最大值

        75%

        50%

        25%

        最下边的短横线是最小值

        如果有空心的圆点:表示异常值(离群点)

Pandas从入门到精通_第201张图片

 


Pandas完结,祝大家学习顺利~~❀

你可能感兴趣的:(python,pandas,python,数据分析)