关于pandas

aa

  • 关于提示A value is trying to be set on a copy of a slice from a DataFrame
  • 新列
  • 类型转换
  • 字符串处理
  • 缺失值处理
    • 查看空行
  • 排序
  • 重复行
  • 其它方法
  • map/apply/applymap区别

关于提示A value is trying to be set on a copy of a slice from a DataFrame

由于pandas不建议对df的子集进行操作,要么一步到位,要么另复制一个。

sub_df=df['ymd'].str.startwith('2020-01')
df[sub_df]['col3']=df['c1']-df['c2']
改为:
df.loc[sub_df:'col3']=df['c1']-df['c2']
或者:
df_new=df[sub_df].copy()

新列

df = df.assign(c3=df.c1.map(lambda x: x.split('/')[0]))

类型转换

data = data.assign(c1 = np.round(data.c1.str.replace('元/平','').astype(np.float).map(lambda x:x/100),2))

字符串处理

(df.c1.str.split('/').map(len)!=5).sum()

缺失值处理

查看空行

df[df.c1.isnull()]
df.dropna(inplace=True, how='all')

排序

df.sort_values(by='c1',inplace=True)

重复行

df.drop_duplicates(subset=['c1','c2'],inpace=True)

其它方法

df.c1.unique()
df.c1.max()
df.c1.min()

map/apply/applymap区别

map是Series的函数,针对其中的元素

df['c1']=df['c1'].map(lambda x: '%.2f'%x)

apply用于DataFrame的行或列

df['c1']=df[['d1','d2']].apply(lambda x: x.sum(), axis=1)
d1 d2 c1
3 2 5

applymap用于DataFrame的所有元素

def  addA(x):
    return "Add" + str(x )
df.applymap(addA)
d1 d2 c1
Add3 Add2 Add5

你可能感兴趣的:(工具,Python,python,开发语言,后端)