python数据分析-pandas常用方法

python数据分析-pandas常用方法

数据读取和写入:
Pandas 支持常用的文本格式数据(csv,json,html,剪切板)、二进制数据(excel、hdf5、Feather、SQL数据)等
一情况下,读取文件的方法以pd.read_开头,而写入文件的方法以pdto_开头。
数据类型 描述符 读方法 写方法
text CSV read_csv to_csv
text JSON read_json to_json
text 剪切板 read_clipboard to_clipboard
text HTML read_heml to_html
二进制 HDF5 read_hdf to_hdf
二进制 PKL read_pkl to_pkl
二进制 Excel read_excel to_excel
SQL SQL read_sql to_sql

pandas 描述性统计方法

import pandas as pd
d={'a':[45,12,2,5,35,3],'b':[45,3,6,452,5,42]}
df=pd.DataFrame(d)
print(df)
print(df.sum())#列求和
print(df.sum(1))#行求和
print(df.mean())#求均值
print(df.std())#求标准差
print(df.describe())#统计信息摘要
 

pandas 对象的迭代与遍历

DataFrame:
iteritems() - 迭代(key,value)对
iterrows() -将行迭代为(索引,系列)对
itertuples() - 以namedtuples形式迭代行

缺失值处理
缺失值处理包括
缺失值标记
缺失值填充
缺失值插值
pandas 为了更方便检测缺失值,将不同类型数据的缺失均采用NaN表示
pandas 标记主要用两个方法: isnull(),notnull(),返回布尔值判断
缺失值填充df.fillna()

df.fillna(0)#标量填充
df.fillna(method='pad')#向前填充
df.fillna(method='backfill')#向后填充

缺失值处理:

df.dropna()#删除NaN的行
df.dropna(axis=1)#删除NaN的列
df.replace({'a':'b'})#用字典替换缺失值

你可能感兴趣的:(python数据分析-pandas常用方法)