NumPy/Pandas-目前接触到要用的方法

Numpy:

  1. astype:显式转换成其他dtype类型
    arr.array([1,2,3,4,5])
    # int --> float64
    folat_arr = arr.astype(np.float64)  # arr.astype(float64) , numpy会自动映射到等价dtype上  
  2. np.nan : 手动设定NaN



Pandas:

  1. 数据读入:pd.read_csv('目标文件.csv') ;读取指定列数据  data = pd.read_csv('data.csv',usecols=[0,1,2,3])
  2. 看前十条数据:df.head(10)
  3. 维度:df.shape
  4. Series.name = '自定义名字' :Series重命名
  5. # Series --> DataFrame
    average_price,profit_day = average_price.to_frame(name=u'每日均价'),profit_day.to_frame(name=u'每日利润')
  6. 模糊匹配并筛选出相关数据:
    r = r'%s' % sku_name
    data = df[df.index.str.contains(r, na=True)]  # 分别筛选各个系列的详细数据
  7. 统计非NA值的数量:df.count()
  8. 针对Series或各DataFrame列计算汇总统计:df.describe()
  9. print df[(df['PCTL']<0.95) & (df['PCTL']>0.05)]
    
    如果是要对element-wise作判断,考虑用df.map
    
    如果是运算考虑用df.apply + lambda
  10. 比如有一个DF,有三列:姓名,金额,电话。如何把名字相同的金额合计成一行,电话保持不变,  索引不变?
    Df.groupby(姓名,as_index = False)[金额].unique()

你可能感兴趣的:(数据分析)