第二章-第一节(数据清洗)

刚开始先补充一下上一节课拉下的东西 完成的仅有 第一章的第一节 剩下的第二节与第三节 赶紧补上
后续的两节 主要的是理解 pandas的两种数据格式 DataFrame 与 Series 这里的一个简单的认知 D是表格 S是键值对 都是一个二维的数据 简单的学习了对于表格的查询操作 主要的还是要多练练手 多完成几个有意义的项目

整体信息(直观).png

对于缺失值的处理
两种方法 dropna 与 fillna 主要的都是针对 np.nan这个值类型

dropna.png

image.png

删除np.nan 参数的类型 默认按照行进行处理 axis='columns' 按照列进行删除 删除的方式 默认的是任意一个
默认的类型都不在原表上进行操作

fillna 参数类型

fillna.png

替换值 将np.nan进行替换
传播非空值 method=''ffill' '
fillna参数.png

问题
image.png

自己感觉并不是所有的空值 都是np.nan的形式 自己也不知道那个更好一些

cut 与 qcut 对数据进行分箱(离散化)处理
参数有三个 分割的列明 分割的规则 分割后的标签

image.png

查看文本变量及其种类 df.values_counts()
df.unique() 查看名称

替换列名 replace 两个参数 替换谁 替换成什么
map 键值对 方式进行替换

提取特征

利用正则表达式

你可能感兴趣的:(第二章-第一节(数据清洗))