python 之 data.frame

data.frame 实用方法

  1. pd.read_csv 读入文件作为data.frame
     header:指定是否有标题,None无标题
     sep:指定文件分隔符 超级实用
  2. df.shape 返回df的行数和列数 超级实用
  3. df.columns 返回列名
  4. df.info() 返回df各变量的信息
  5. df["列名"] 选取某列数据
  6. df.describe()返回数值类型列的描述性统计结果,包含均值、标准差、范围等。
  7. df.head()显示数据前5行 超级实用
  8. df.sort_values(by= , ascending=False) 按照by指定列进行排序,默认为升序,使用ascending=False改为降序。 超级实用
  9. df['列名'].mean 对任意一列计算均值
  10. df['列名'].min 对任意一列计算最小值
  11. df['列名'].max 对任意一列计算最大值
  12. df['列名'].sum 对任意一列求和。,此外,可对bool行求和,以获得True的个数
  13. df['列名'] == 1 索引,该列值是否等于1 ,返回True或False
  14. df[df['列名'] == 1] 返回符合索引条件的行,属性依旧是data.frame。超级实用
  15. df[(df['列名a'] == 1) & (df['列名b'] == 1)] 结合逻辑判断使用多个索引条件。超级实用

data.frame 子集提取命令 loc, iloc

loc为名称索引,iloc为数字索引

  1. df.loc['行名'] 按行名提取子集
  2. df.loc['行名','列名'] 提取指定行,列的内容
  3. df.loc['行名','列名'] = 1 修改指定行,列内容。取一行或一列时用列表。
  4. df.iloc[0:2, 0:2] 提取前两行、前两列的内容

使用哈希替换某列的值

  1. map
d = {'No': False, 'Yes': True}
df['列名'] = df['列名'].map(d)
  1. replace
d = {'No': False, 'Yes': True}
df = df.replace({'列名': d})

你可能感兴趣的:(python 之 data.frame)