数据科学pandas库自己常用方法备忘_持续更新

前言

Python的pandas库常用的一些方法,和各种整合说各种pandas的函数、操作的教程不同之处在于,这个备忘更立足于自己遇到的问题,自己高频使用但是还没能用好掌握的方法和解决方案;主要是自己不会或不熟的,所以也不是pandas库的数据科学高频操作方法集合;这个备忘也是希望自己能够更快掌握这些解决方案。

数据操作

更改列的顺序_只输出特定列

s_idx=['a','b','c']
df=df.loc[:,s_idx] #更改列的顺序,只保存特定的列

ncols={'_id':'用户id','nick':'昵称'}
df.rename(columns=ncols, inplace=True) #更改列的名称
#不需要配置所有列的键值,例如df.columns有_id,nick,city三个列名,上面语句不影响city这个列名,city也仍然会保留
df.columns=[c.lower() for c in df.columns]  #列名小写

数据透视表

透视表通常用value_count,Excel的数据透视表没有去重的效果,具体分析可以看本人的另一篇value_countdistinct文章;value_sum效果也在文中有说明;

循环遍历每一行的n种方法

优先使用apply,但在一些情况下,例如要输出增量的json,还是用for循环迭代,i,j更合理些。

for index, row in df.iterrows(): print(row["c1"], row["c2"])

你可能感兴趣的:(数据科学pandas库自己常用方法备忘_持续更新)