创建
pd.read_csv(r'e:\tmp\test2.csv') cvs转DataFrame read_table() 默认使用\t作为分隔
pd.read_excel('path') excel转DataFrame
mydict = dict(zip(mylist, myarr)) list转dict
ser = pd.Series(mydict) dict转series
df = ser.to_frame() series转换为dataframe 一般不会这么做,一般Series作表表格中的一行
df = pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False) 创建一个DataFrame
df = DataFrame(np.arange(20).reshape(4,5),index=['one','two','three','four'],columns=list('abcde')) ndarray转DataFrame
df=pd.DataFrame(np.random.random([20,5]))
pd.DataFrame(category.str[:3]) 提取前三个字符,并生成数据表
pd.DataFrame((x.split(‘-‘) for x in ds[‘category’]),index=ds.index,columns=[‘category’,’size’])) 对category字段的值依次进行分列,并创建数据表,索引值为ds的索引列,列名称为category和size
user1_df = pd.DataFrame([]) 创建空表
-----------------------------------------------------------------
获取信息
df.info()打印DataFrame对象的信息 维度、列名称、数据格式、所占空间等
df.describe() 查看数据按列的统计信息 ds.describe().round(2).T #round函数设置显示小数位,T表示转置
df.index df.columns df.axes 行索引 列索引 行及列索引
df.shape 维度查看
df.dtypes 每一列数据的格式 df[‘B’].dtype 某一列格式
df.values 返回ndarray类型的对象
df.isnull() 查看某一列空值 ?
df[‘B’].unique() 查看某一列的唯一值
ds[‘city’].isin([‘beijing’]) 判断city列的值是否为北京???
-----------------------------------------------------------------
特殊处理
df.fillna(value=0) 用数字0填充空值
ds.dropna() 丢弃缺损值
df.T index 与 columns 对调
df.loc[:,['B', 'A']] = df[['A', 'B']].values 交换AB两列
df1=df[:] 创建一个新表,但其实数据仍使用同一份,df1增加的列对df不生效
-----------------------------------------------------------------
排序
ds.sort_values(by=[‘age’]) 按照特定列的值排序
ds.sort_index() 按照索引列排序
df.sort_values(['trading_date', 'code'], inplace=True)
DataFrame.sort_values(by=‘##’,axis=0,ascending=True, inplace=False, na_position=‘last’)数据排序
-----------------------------------------------------------------
截取表的一部分--按行筛选(按行号筛选,按索引筛选,按列信息筛选)
df.head(i) 显示前 i 行数据 df.head() #默认前10行数据
df.tail(i) 显示后 i 行数据 df.tail() #默认后10 行数据
df[0] df.loc[0] 第0行,返回序列Series df[:2]#第2行之前的数据 df[0:1]#第0行 df[-1:-3:-1]#倒数第1,2行
df.iloc[0:5] 0到4行
gender_df.query("gender == ['M']") 取性别为男性的行
ds.query(‘city == [“beijing”, “shanghai”]’) 使用query函数进行筛选
ds.query(‘city == [“beijing”, “shanghai”]’).price.sum() 对筛选后的结果按prince进行求和
df.loc[0:3,'a':'c'] 选取多行多列 注意0:3实际上并不是数字,而是行的label df.loc[:,'a':'c']选取多列
df.loc[df.loc[:,'a']>1] 选取a列中值大于1的行
df_cured=df[df['Result_of_Treatment']==1]
ds.loc[ds[‘city’].isin([‘beijing’,’shanghai’])] 判断city列里是否包含beijing和shanghai,然后将符合条件的数据提取出来
ds.loc[(ds[‘age’] > 25) & (ds[‘city’] == ‘beijing’), [‘id’,’city’,’age’,’category’,’gender’]] 使用“与”进行筛选
ds.loc[(ds[‘age’] > 25) | (ds[‘city’] == ‘beijing’), [‘id’,’city’,’age’,’category’,’gender’]].sort([‘age’]) 使用“或”进行筛选
ds.loc[(ds[‘city’] != ‘beijing’), [‘id’,’city’,’age’,’category’,’gender’]].sort([‘id’]) 使用“非”条件进行筛选
ds.loc[(ds[‘city’] != ‘beijing’), [‘id’,’city’,’age’,’category’,’gender’]].sort([‘id’]).city.count() 对筛选后的数据按city列进行计数
ds.ix[:’2013-01-03’,:4] #ix已弃用
iloc索引的开闭区间机制和Python传统的不同,而是与MATLAB类似的双侧闭区间,即只要出现,就会包含该标签
截取表的一部分--按列
df['name'] df[['name','gender']] #选取多列,多列名字要放在list里
df.iloc[1:2, 0:2] 选取多行多列
-----------------------------------------------------------------
修改索引
ds.set_index(‘id’) 设置索引列
ds.reset_index() df.reset_index(inplace=True) 重设索引
per_type.index=per_type.index.map(lambda x: '{}型'.format(int(x)))
-----------------------------------------------------------------
增加列或修改列 根据已有数据创建列或修改原有列
df['id']=df2['id']
df[‘prince’].fillna(df[‘prince’].mean()) 使用列prince的均值对NA进行填充
df[‘city’]=df[‘city’].map(str.strip) 清除city字段的字符空格
df[‘city’]=df[‘city’].str.lower() 大小写转换
df[‘price’].astype(‘int’)更改数据格式
df.rename(columns={‘category’: ‘category-size’}) 更改列名称
df[‘city’].drop_duplicates() 删除后出现的重复值
df[‘city’].drop_duplicates(keep=’last’) 删除先出现的重复值
df[‘city’].replace(‘sh’, ‘shanghai’) 数据替换
ds[‘group’] = np.where(ds[‘price’] > 3000,’high’,’low’) 如果prince列的值>3000,group列显示high,否则显示low
ds.loc[(ds[‘city’] == ‘beijing’) & (ds[‘price’] >= 4000), ‘sign’]=1 对复合多个条件的数据进行分组标记
df1['month']=df1['date'].map(lambda x: x[:x.rindex('/')]) 通过日期获取月份
df['age_period']=pd.cut(df['age'],[1,20,35,100],labels=['1~20岁','20~35岁','35~100岁']) 对数据分段
def add_one(x): return x + 1 df.applymap(add_one) 对DataFrame里的每个值进行处理,然后返回一个新的DataFrame
per_type.apply(lambda x: format(x, '.2%')) 修改series
-----------------------------------------------------------------
数据聚合
np.mean(male_df)[0] 对各列计算均值
ds.groupby(‘city’).count() 对所有的列进行计数汇总
ds.groupby('name').sum() name字段转为索引,其它字符类字段被移除
ds.groupby(‘city’)[‘id’].count() 按城市对id字段进行计数
ds.groupby([‘city’,’size’])[‘id’].count() 对两个字段进行汇总计数
ds.groupby(‘city’)[‘price’].agg([len,np.sum, np.mean]) 对city字段进行汇总,并分别计算prince的合计和均值
df['age_period'].value_counts() 统计列元素出现的次数
df2 = pd.pivot_table(df1,index=['gender', 'user_id'],values='rating') 默认取均值
-----------------------------------------------------------------
两个序列计算
per_type=df_cured['Type'].value_counts()/df['Type'].value_counts()
-----------------------------------------------------------------
移除数据行
df1.drop('month',axis=1).diff()
-----------------------------------------------------------------
两个表纵向合并
result = df1.append(df2)
concat
pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
keys=None, levels=None, names=None, verify_integrity=False,
copy=True)
-----------------------------------------------------------------
两个表横向合并
ds=pd.merge(df,df1,how='inner') 默认取表的交集
ds=pd.merge(ds,split,right_index=True, left_index=True) 将完成分裂后的数据表和原ds数据表进行匹配
df_left=pd.merge(df,df1,how='left')
df_right=pd.merge(df,df1,how='right')
df_outer=pd.merge(df,df1,how='outer') #并集
result = left.join(right, on='key')
-----------------------------------------------------------------
数据输出到文件
ds.to_excel(‘excel_to_python.xlsx’, sheet_name=’bluewhale_cc’) 写入Excel
ds.to_csv(‘excel_to_python.csv’ 写入到CSV
size_data.to_hdf('filename.h5', key='data') 保存成hdfs格式
size_data = pd.read_hdf('filename.h5', key='data')
-----------------------------------------------------------------
其它
ds.sample(n=3) 简单的数据采样
weights = [0, 0, 0, 0, 0.5, 0.5] ds.sample(n=2, weights=weights)手动设置采样权重
ds.sample(n=6, replace=False) 采样后不放回 ds.sample(n=6, replace=True) 采样后放回
ds[‘price’].std() 计算列的标准差 注意算法和numpy有差别
ds[‘price’].cov(ds[‘m-point’]) 计算两个字段间的协方差
ds.cov() 数据表中所有字段间的协方差
ds[‘price’].corr(ds[‘m-point’]) 两个字段的相关性分析相关系数在-1到1之间,接近1为正相关,接近-1为负相关,0为不相关
ds.corr() 数据表的相关性分析