python学习心得2

今天写作业的时候有很多语法需要记录一下

  • np.unique()
    去重函数,返回一个list,比如我想知道在一个dataframe里某一列中有多少个分类,通过这个分类计算每一类的个数,如果用set函数返回的是一个元祖,是不可分的,这样画图的时候就不能直接当x,如果用list转换成列表,又会打破原来的顺序,所以直接用np.unique函数非常方便
  • str.split(’,’,expand=True)
    这个相当于excel里的分列,expand的参数让分割出来的数据独立成为一列,非常方便!!
  • lambda x: x.fillna(x.mean().round(2))
    对缺失值以平均值填充,并且保留两位小数
    结合apply函数可以对某一列的缺失值进行填充,另外也可以对不同类中的缺失值用该类的平均值进行填充,比如用groupby(by=‘性别’).apply(lambda x: x.fillna(x.mean().round(2))),这样就是用男的平均值去填充男的缺失值,女的平均值填充女的平均值
  • np.argmax(列名.value_counts())
    这个函数可以求出某一列中出现次数最大的元素
  • pd.cut(列名,bins,labels=group_names)
    可以将某列函数进行分箱,例如bins=[1,18,30,45,60,100],就是将这一列的数字分别分到1-18,19-30,31-45,46-60,61-100的类中,labels是为每一类进行命名,比如1-18是少年组,19-30是青年…
  • pd.get_dummies(列名,prefix=‘Age’)
    one-hot编码,prefix表示在列名前加上‘Age’
  • df_order_data[df_order_data[‘客户地址’].str.contains(‘区’)]
    比如有一列客户地址,格式为XX省XX市XX区,有一些不合格的数据,比如XX省XX市XX路,XX省XX市XX省等,要把这些不规范的记录去掉,利用bool条件去筛选,这里确定是包含‘区’的才行,所以判断内容里是否包含‘区’字,True的话保留,False的话删除

你可能感兴趣的:(学习笔记)