python pandas 数据分析笔记

python pandas 使用笔记

  1. 数据导入
  2. 数据展示
  3. 数据清洗
  4. 数据保存

数据导入
常见的数据保存格式:txt,xlsx,csv

import pandas as pd
#读txt文件
df = pd.read_table('input_file') 
#读csv文件
df = pd.read_csv('input_file')
#读xlsx文件
df = pd.read_excel('input_file','Sheet1') 

分隔符:read_table使用\t分隔符,read_csv使用,分隔符,sep= 参数可以指定以哪种分隔符去处理文件
表头:header=None使用默认的表头,names=[]指定表头
索引列:index_col=指定索引列

数据展示

df.head() #展示前5行数据
df.shape #展示数据的维度 如 n rows x m columns
df.reshape((i,j)) #将DataFrame的形状改变,接受一个元组做参数
df.columns #展示表头,
df['label'].value_counts() #统计一列的频数
df['label'] #展示一列数据
df.loc['row'] #展示一行数据
df['label'] = value #给一列赋值
df[df['three'] > 5]  #按照bool值进行索引
#loc使用行、列标签名选取 obj.loc[['row_label',],['columns_label',]]
df.loc[label]
df.loc['Colorado', ['two', 'three']] 
#iloc使用行、列数字索引选取,obj.iloc[[1,],[1,]]
df.iloc[2, [3, 0, 1]]

数据清洗

df.drop([],axis=1) #按照列标签删除列
df.drop([]) #默认按照行标签删除行
df.isnull().any() #显示一列是否有空值
df[["",""]].fillna() #将列中空值填充,
df[["",""]].fillna(‘NA’) #填充NA
df[["",""]].fillna(0) #填充0
df[["",""]].fillna(method='ffill') #向前填充
df[["",""]].fillna(method='bfill') #向后填充
用均值填充
value_mean = df['able'].mean()
lable = df['lable'].fillna(value_mean)
df['lable'] = lable

数据保存

#不写入行索引,不写入表头,并按`,`分隔
data.to_csv('output_file', index=False, header=False)

你可能感兴趣的:(pandas)