Python数据科学手册(3)--- Pandas数据处理

Pandas是数据科学家极喜欢的一个库,因为它集成了很多方便的功能,处理数据高效方便,当然1000多页的文档也令人生畏;一般情况下是掌握基本的操作方法后,之后在工作中需要什么功能再去查找;本文也不再描述其基本用法,只记录自己工作中的一些积累;
有一个非常好的文档介绍入门知识,基本能应对80%以上的数据处理任务:十分钟搞定Pandas: http://python.jobbole.com/84416/

1, pandas的DataFrame与numpy的array的转换

import pandas as pd
# dataframe转化成array
ar = df.values
# array转化成dataframe
df = pd.DataFrame(df)

2,对缺失值的处理
Python数据科学手册(3)--- Pandas数据处理_第1张图片
在数据处理中,对缺失值的处理基本是一个必要步骤;
Pandas 基本上把 None 和 NaN 看成是可以等价交换的缺失值形式。为了完成这种交换过程, Pandas 提供了一些方法来发现、剔除、替换数据结构中的缺失值,主要包括以下几种:
isnull() 创建一个布尔类型的掩码标签缺失值
notnull() 与isnull()相反
dropna() 返回一个剔除缺失值的数据
fillna() 返回一个填充缺失值的数据副本

你可能感兴趣的:(Python,pandas,数据处理,python)