Python数据统计分析之(数据清洗,标准化数据)

Pandas数据清洗

Python数据统计分析之(数据清洗,标准化数据)_第1张图片
引入数据清洗的目的就是为了解决重复值,缺省值和异常值带来的影响,使得得数据的引用更加有效和准确。
Python数据统计分析之(数据清洗,标准化数据)_第2张图片

数据清洗–重复值

重复值主要分为两种:

  • 记录重复:一个或多个特征列的几条记录完全一致
    对于记录重复数据,一般采用直接删除方式:
DataFrame.drop_duplicates(subset=None,Keep='first',inplace=Flase)
subset: 用来指定特定的列,默认所有列

例:
Python数据统计分析之(数据清洗,标准化数据)_第3张图片

  • 特征重复:一个或多个特征名不同,但是数据完全一样
    pandas提供了一个corr函数可以进行相似度的检测,当相似度为1,表示两列数据一模一样。
DataFrame.corr(method='pearson',min_periods=1)

Python数据统计分析之(数据清洗,标准化数据)_第4张图片
例:
Python数据统计分析之(数据清洗,标准化数据)_第5张图片

数据清洗——缺省值

Pandas通过isnull和notnull检查DataFrame中的缺省值和非缺省值。
Python数据统计分析之(数据清洗,标准化数据)_第6张图片

Python数据统计分析之(数据清洗,标准化数据)_第7张图片

数据清洗——缺省值处理

我们一般对缺省值进行三种方式处理:

1、删除法
2、替换法
3、插值法:删除法导致数据量减少,替换法导致数据标准差变化。插值法通过合适的值替换缺省值。

删除法:

Python数据统计分析之(数据清洗,标准化数据)_第8张图片

data.dropna()

替换法

Python数据统计分析之(数据清洗,标准化数据)_第9张图片

data.fillna('Temp':25;'Wet':75;'Fog':100)

Python数据统计分析之(数据清洗,标准化数据)_第10张图片

插值法

Python数据统计分析之(数据清洗,标准化数据)_第11张图片

数据处理——异常值处理

数据处理中,异常值是指偏离明显的数值,有时候也成为离群点,异常值在进行数据分析的时候,分析结果容易产生偏差甚至错误,对于异常值,一般采用删除的方法。
异常值的检测:

  • 3δ原则
    在正要分布中δ代表标准差,μ代表均值。x=μ即为图像的对称轴。
    Python数据统计分析之(数据清洗,标准化数据)_第12张图片

  • 箱线图分析
    Python数据统计分析之(数据清洗,标准化数据)_第13张图片

Pandas标准化数据

数据标准化的目的就是对数据进行差异性的消除,使得数据取值大致相同。
数据标准化的方式很多,主要介绍两种:
1、离差标准化
2、标准差标准化

1、离差标准化

Python数据统计分析之(数据清洗,标准化数据)_第14张图片

## 自定义离差标准化函数
def MinMaxScale(data):
	data = (data-data.min())/(data.max()-data.min())
	return data

2、标准差标准化

Python数据统计分析之(数据清洗,标准化数据)_第15张图片

## 自定义标准差标准化函数
def StandardScaler(data):
	data = (data-data.mean())/data.std()
	return data

Pandas转换数据

  • 数据转换:
    某些数据不是数值型的数据,如性别等,在进行计算的时候,往往需要数值型的数据,此时,需要将这些数据进行数值型的转换。
    Pandas提供函数get_dummies获取并将非数值型的数据(哑数据)并转换成数值型数据。
    pandas.get_dummies(data,prefix,dummy_na,columns)
    

你可能感兴趣的:(Python数据分析)