Python 数据分析之pandas

pandas

标签: Python 数据分析


pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数,兼具了NumPy高性能的数组计算功能以及电子表格和关系型数据库(如SQL)灵活的数据处理功能


导入模块

import numpy as np #导入numpy库
import pandas as pd #导入pandas库

基础数据结构

pandas.Series(data, index):Series类似一维数组,由数据和索引组成,data为列表或和index为列表(一维)格式,data是数据,index是索引

s = pd.Series([2*i for i in range(1, 11)]) #基础数据结构series(第一列自动加入序号,从0开始)
print(type(s)) #查看类型
print(s) #查看数据

pandas.date_range(start, end, periods):参数分别为起始时间(字符串或时间格式)、结束时间(字符串或时间格式)、指定个数

dates = pd.date_range('20170801', periods = 8) #生成时间格式数组

pandas.DataFrame(data, index, columns):表格型的数据结构,可看成共享同一个index索引的多个Series集合,参数分别为数据、索引、列名

df = pd.DataFrame(np.random.randn(8, 5), index = dates, columns = list('ABCDE'))
print(type(df))
print(df)

df2 = pd.DataFrame({'A' : 1., 'B' : pd.Timestamp('20170801'), 'C' : pd.Series(1, index = list(range(4)),dtype = 'float32'), 'D' : np.array([3] * 4, dtype = 'int32'), 'E' : pd.Categorical(['test', 'train', 'test', 'train']), 'F' : 'foo' })
print(type(df2))
print(df2)

基础操作

print(df.head(3)) #选择前三行
print(df.tail(3)) #选择后三行
print(df.index) #索引
print(df.values) #数据
print(df.T) #转置
print(df.sort_values(by = 'C')) #按第C列的值排序
print(df.sort_index(axis = 1, ascending = False)) #按索引值排序
print(df.mean()) #每列的平均值
print(df.var()) #每列的方差
print(df.describe()) # 显示信息:每列的个数、平均值、标准差、最小值、最大值

print(df['A']) #按列名选择一列
print(df.A) #按列名选择一列
print(df[: 3, 1 : 3]) # 按切片选择行和列
print(df['20170801' : '20170803']) #按索引值切片选择

pandas.DataFrame.loc:

print(df.loc[dates[0]]) #按索引选择
print(df.loc['20170801':'20170803', ['B', 'D']]) #按索引和列名选择('20170801'、'20170802'行,B、D列)
print(df.at[dates[0], 'C']) #按索引和列名选择某个值(dates[0]行,C列)
print(df.iloc[1 : 3, 2 : 4]) #按切片选择行和列(1、2行,2、3列)
print(df.iloc[1, 4]) #选择某个值(第1行第4列)
print(df.iat[1, 4]) #选择某个值(第1行第4列)
print(df[df > 0])
print(df[df.A < 0][df.B > 0])
print(df[df['E'].isin([1, 2])])

缺失值处理

df4 = df.reindex(index = dates[: 4], columns = list('ABCD') + ['G']) #迁移数据,重建索引
df4.loc[dates[0] : dates[1], 'G'] = 1 #赋值
print(df4)
print(df4.dropna()) #丢弃有空值(NaN)的记录
print(df4.fillna(value = 2)) #用2填充空值(NaN)

统计操作

s = pd.Series([1, 2, 2, np.nan, 5, 7, 9, 10], index = dates)
print(s)
print(s.shift(2)) #值后移两个,用NAN补前两个位置
print(s.diff()) #差分(后一个数减去前一个数的值(有NAN则为NAN))
print(s.value_counts()) #统计每个值出现的次数
print(df.apply(np.cumsum) #累加
print(df.apply(lambda x: x.max() - x.min()))

文件读取

pandas.read_csv():读取csv文件

df5 = pd.read_csv('文件路径')

pandas.read_excel():读取excel文件

df6 = pd.read_excel('文件路径')
df5.to_csv() #输出到csv文件
df6.to_excel() #输出到excel文件

你可能感兴趣的:(数据分析,Python,pandas)