《python数据分析与应用》第五章:使用pandas进行数据预处理

5.1 合并数据

5.1.1 堆叠合并数据

1.横向堆叠:concat函数,axis=1

2.纵向堆叠:concat函数,axis=0 或 append函数

5.1.2 主键合并数据:merge函数 和 join方法

5.1.3 重叠合并数据:combine_first方法

5.1.4 任务实现

5.2 清洗数据

5.2.1 检测与处理重复值

1.记录重复:list、set、drop_duplicates

2.特征重复

(1)求相似度矩阵:corr,方法:pearson(默认),kendall,spearman
(2)先使用DataFrame.equals方法,再通过遍历的方式筛选出完全重复的特诊并删掉

5.2.2 检测与处理缺失值

  1. 检测:isnull 和 notnull
  2. 处理:删除法dropna,替换法fillna,插值法interpolate

5.2.3 检测与处理异常值:3sigma原则、箱线图分析

5.2.4 任务实现

5.3 标准化数据

5.3.1 离差标准化数据

最简单,标准化后的数据限定在[0,1]区间内,受数据分布影响较大
X ∗ = ( X − m i n ) / ( m a x − m i n ) X^* = (X-min)/(max-min) X=(Xmin)/(maxmin)

5.3.2 标准差标准化数据

应用最广泛,受数据分布影响较小,标准化后的数据均值为0,标准差为1
X ∗ = ( X − X ‾ ) / σ X^*=(X-\overline{X})/\sigma X=(XX)/σ

5.3.3 小数定标标准化数据

适用程度适中,受数据分布影响不大
X ∗ = X / 1 0 k X^*=X/10^k X=X/10k

5.3.4

5.4 转换数据

5.4.1 哑变量处理类别型数据:get_dummies

5.4.2 离散化连续型数据

  1. 等宽法:cut函数
  2. 等频法:自定义函数 + cut函数
  3. 聚类分析法:K-means

5.4.3 任务实现

你可能感兴趣的:(《Python数据分析与应用》)