Python机器学习:数据探索与可视化(一)

什么是数据探索?
在前面我们说到,所谓机器学习,就是用已知的数据通过算法去预测未来未知的数据。但是这个过程进行的前提就是要保证已知数据的完成性。所以数据探索,就是检查数据是否完整,是否有缺失值

什么是可视化?
可视化就是将数据以图像的形式呈现出来,例如散点图、直方图、正态图等等,这些都是将单纯的数据以图像的形式呈现,从而可以起到更清晰有效地传达、沟通并辅助数据分析的作用。

缺失值处理

⭐️数据缺失:指在数据采集、传输和处理等过程中,由于某些原因导致数据不完整的情况。

下面学习一下缺失值的处理方法。

简单的缺失值处理方法

在处理缺失值之前,我们肯定要有缺失值才能处理,所以我们第一步是去检查数据中有没有缺失值。

发现数据中的缺失值

在这里我们要用到一个数据集,通过这个数据集来介绍发现缺失值的方法。

  1. 首先我们读取并查看这个数据集
import pandas as pd
a = pd.read_csv("D:/Pycharm/机器学习数据/program/data/chap2/热带大气海洋数据.csv")
print(a)

Python机器学习:数据探索与可视化(一)_第1张图片

  1. 然后我们再用pd.isna()判断a的每个元素是否为缺失值
import pandas as pd
a = pd.read_csv("D:/Pycharm/机器学习数据/program/data/chap2/热带大气海洋数据.csv")
print(pd.isna(a))

Python机器学习:数据探索与可视化(一)_第2张图片

  1. 然后再用sum()方法对每列求和,计算出每列缺失值的数量
import pandas as pd
a = pd.read_csv("D:/Pycharm/机器学习数据/program/data/chap2/热带大气海洋数据.csv")
print(pd.isna(a).sum())

Python机器学习:数据探索与可视化(一)_第3张图片
从结果中我们可以看到,SeaSurFaceTemp有3个缺失值,AirTemp有81个缺失值,Humidity有93个缺失值。

虽然我们已经知道了数据集中每列缺失值的数量,但是我们还不知道它们具体的分布情况(缺失值在哪一行)。

于是,我们可以使用mano.matrix()可视化出缺失值在数据中的分布情况。

import pandas as pd
from matplotlib import pyplot as plt
import missingno as msno
a = pd.read_csv("D:/Pycharm/机器学习数据/program/data/chap2/热带大气海洋数据.csv")
msno.matrix(a,figsize = (10,6))
plt.show()

Python机器学习:数据探索与可视化(一)_第4张图片
该图左边的1和736表示行数,中间这一大块表示缺失值在数据中的分布,空白的部位表示该处存在缺失值。

右侧的折线表示每个样本缺失值的情况,8表示数据中一共有8个变量(8列),5表示对应的数据集只有5个变量是完整的,存在3个缺失值。

现在,我们已经发现数据中有缺失值,接下来就是根据缺失值的情况进行预处理。

剔除带有缺失值的行或列

通常情况下,如果数据中只有较少的样本带有缺失值,则可以剔除带有缺失值的行。如果某列的数据带有大量的缺失值,进行缺失值填充可能会带来更多的负面影响,则可以直接剔除缺失值所在的列。

其中,dropna()方法就是用来剔除带有缺失值的行或列。可以指定参数axis=0剔除行、axis=1剔除列。

# 剔除带有缺失值的行
import pandas as pd
a = pd.read_csv("D:/Pycharm/机器学习数据/program/data/chap2/热带大气海洋数据.csv")
b = a.dropna(axis = 0)
print(b.info())

Python机器学习:数据探索与可视化(一)_第5张图片

# 剔除带有缺失值的列
import pandas as pd
a = pd.read_csv("D:/Pycharm/机器学习数据/program/data/chap2/热带大气海洋数据.csv")
b = a.dropna(axis = 1)
print(b.info())

Python机器学习:数据探索与可视化(一)_第6张图片

对缺失值进行插补

因为AirTemp和Humidity列的缺失值最多,这里就针对这两个列来进行插补。

首先我们要使用散点图可视化出剔除带有缺失值行后,AirTemp和Humidity变量的数据分布。

import pandas as pd
from matplotlib import pyplot as plt
# 中文显示问题
import matplotlib
matplotlib.rcParams['axes.unicode_minus']=False
import seaborn as sns			 
sns.set(font="Kaiti",style="ticks",font_scale=1.4)


a = pd.read_csv("D:/Pycharm/机器学习数据/program/data/chap2/热带大气海洋数据.csv")
b = a.dropna(axis = 0)

plt.figure(figsize = (10,6))
plt.scatter(b.AirTemp,b.Humidity,c = "blue")
plt.grid()
plt.xlabel("AirTemp")
plt.ylabel("Humidity")
plt.title("剔除带有缺失值的行")
plt.show()

这里直接对原始数据可视化也可以,这是因为plt.scatter()函数会自动地不显示带有缺失值的点。

Python机器学习:数据探索与可视化(一)_第7张图片
对缺失值填充,pandas库提供了数据表的fillna()方法,该方法可通过参数method设置缺失值的填充方式。method=“ffill”,使用缺失值前面的值进行填充;method=“bfill”,使用缺失值后面的值进行填充。

  1. 使用缺失值前面的值进行填充
import pandas as pd
import matplotlib
from matplotlib import pyplot as plt
matplotlib.rcParams['axes.unicode_minus']=False
import seaborn as sns
sns.set(font="Kaiti",style="ticks",font_scale=1.4)


a = pd.read_csv("D:/Pycharm/机器学习数据/program/data/chap2/热带大气海洋数据.csv")
# 找到缺失值所在位置
index = pd.isna(a.AirTemp) | pd.isna(a.Humidity)	# “|”这个符号在这里是并集的意思
b = a.fillna(axis = 0,method = "ffill")

# 画图
plt.figure(figsize = (10,6))
plt.scatter(b.AirTemp[~index],b.Humidity[~index],c = "blue",marker = "o",label = "非缺失值")	# “~”这个符号在这里是取反的意思
plt.scatter(b.AirTemp[index],b.Humidity[index],c = "red",marker = "s",label = "缺失值")
plt.grid()
plt.legend(loc = "upper right",fontsize = 12)
plt.xlabel("AirTemp")
plt.ylabel("Humidity")
plt.title("使用缺失值前面的值填充")
plt.show()

关于~index,我们知道index是缺失值所在的位置,那么~index就是非缺失值所在的位置。
Python机器学习:数据探索与可视化(一)_第8张图片

  1. 使用缺失值后面的值进行填充

我们只需将上面代码中参数“method”的值改成bfill就行了。
Python机器学习:数据探索与可视化(一)_第9张图片
3. 使用均值进行填充

跟上面的代码也差不多,再对这两列求个均值就行了。

import pandas as pd
import matplotlib
from matplotlib import pyplot as plt
matplotlib.rcParams['axes.unicode_minus']=False
import seaborn as sns
sns.set(font="Kaiti",style="ticks",font_scale=1.4)


a = pd.read_csv("D:/Pycharm/机器学习数据/program/data/chap2/热带大气海洋数据.csv")
index = pd.isna(a.AirTemp) | pd.isna(a.Humidity)
# 求均值
AirTempmean = a.AirTemp.mean()
Humiditymean = a.Humidity.mean()
# 填充
AirTemp = a.AirTemp.fillna(value = AirTempmean)
Humidity = a.Humidity.fillna(value = Humiditymean)

plt.figure(figsize = (10,6))
plt.scatter(AirTemp[~index],Humidity[~index],c = "blue",marker = "o",label = "非缺失值")
plt.scatter(AirTemp[index],Humidity[index],c = "red",marker = "s",label = "缺失值")
plt.grid()
plt.legend(loc = "upper right",fontsize = 12)
plt.xlabel("AirTemp")
plt.ylabel("Humidity")
plt.title("使用缺失值后面的值填充")
plt.show()

Python机器学习:数据探索与可视化(一)_第10张图片
从上面三种简单的填充方式的结果图可以看出,红色并没有起到填充的作用(红色分布太规律了,并且很“单独”),这是因为这三种方法只是简单地分析一个变量,没有从整体出发。下面,我们来学习一下比较复杂的填充方法,它们都能考虑到数据的整体情况

复杂的缺失值填充方法

IterativeImputer多变量缺失值填充

IterativeImputer是sklearn库中提供的一种缺失值填充方式。该方法会考虑数据在高维空间中的整体分布情况,然后对缺失值的样本进行填充。

from sklearn.experimental import enable_iterative_imputer	
from sklearn.impute import IterativeImputer	# 导入我们所需的IterativeImputer,同时还要加上上面一句,不然会导入失败
import pandas as pd
from matplotlib import pyplot as plt
# 中文显示问题
import matplotlib
matplotlib.rcParams['axes.unicode_minus']=False
import seaborn as sns
sns.set(font="Kaiti",style="ticks",font_scale=1.4)


a = pd.read_csv("D:/Pycharm/机器学习数据/program/data/chap2/热带大气海洋数据.csv")
index = pd.isna(a.AirTemp) | pd.isna(a.Humidity)
# 填充
iterimp = IterativeImputer(random_state = 123) # random_state相当于随机数种子
a_iter = iterimp.fit_transform(a)
# 获取填充后的变量
AirTemp = a_iter[:,4]	# [:,4]表示第4列的所有行,下同
Humidity = a_iter[:,5]

plt.figure(figsize = (10,6))
plt.scatter(AirTemp[~index],Humidity[~index],c = "blue",marker = "o",label = "非缺失值")
plt.scatter(AirTemp[index],Humidity[index],c = "red",marker = "s",label = "缺失值")
plt.grid()
plt.legend(loc = "upper right",fontsize = 12)
plt.xlabel("AirTemp")
plt.ylabel("Humidity")
plt.title("使用IterativeImputer方式填充")
plt.show()

关于sklearn中的模块导入失败的问题,我自己之前也在网上找到了很多解决办法,都挨个试了一下,还是不行,最后还是在一位大佬的帮助下才成功,具体怎么解决的我也没看懂0.0

Python机器学习:数据探索与可视化(一)_第11张图片
将这个图和上面那三个图一对比,是不是发现这个图填充的结果更符合数据的分布规律?

K-近邻缺失值填充

该方法可以使用sklearn库中的KNNImputer来完成。该方法会利用带有缺失值样本的多个近邻(挨得近的)综合情况,对缺失值样本进行填充。

# 只需改一下上面代码的填充和获取填充后的变量部分即可
knnimp = KNNImputer(n_neighbors = 5)
a_knn = knnimp.fit_transform(a)
AirTemp = a_knn[:,4]
Humidity = a_knn[:,5]

Python机器学习:数据探索与可视化(一)_第12张图片

数据描述与异常值发现

数据描述是通过分析数据的统计特征,增强对数据的理解,从而利用合适的机器学习方法,对数据进行挖掘、分析

数据描述统计

数据描述统计主要有数据的集中位置、离散程度、偏度和峰度等

首先我们导入一个数据集。
这个数据集的部分如下:
Python机器学习:数据探索与可视化(一)_第13张图片
为了方面我们进行数据描述统计,我们需要把Id列和Species列删除,因为Id并不是我们要的数据,Species也不是数字。

import pandas as pd
a = pd.read_csv("D:/Pycharm/机器学习数据/program/data/chap2/Iris.csv")
a = a.drop(["Id","Species"],axis = 1)
print(a)

Python机器学习:数据探索与可视化(一)_第14张图片

数据集中位置

描述数据集中位置的统计量主要有均值、中位数、众数等

print(a.mean())		# 求均值
print(a.median())	# 求中位数
print(a.mode())		# 求众数

Python机器学习:数据探索与可视化(一)_第15张图片

离散程度

描述数据离散程度的统计量主要有方差、标准差、变异系数、分位数和极差等。

⭐️变异系数:度量观测数据的标准差相对于均值的离中程度,计算公式为均值除以标准差。变异系数没有量纲,所以针对不同度量方式的变量可以相互比较,变异系数取值越大说明数据越分散

⭐️分位数:亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,可以使用quantile()方法进行计算。

⭐️极差:指的是数据最大值和最小值之间的差值,极差越小说明数据越集中

print(a.var())							# 方差
print(a.std())							# 标准差
print(a.mean() / a.std())				# 变异系数
print(a.quantile(q=[0.25,0.5,0.75]))	# 分位点,0.25是计算第一四分位数,0.5是第二四分位数(中位数),0.75是第三四分位数
print(a.max() - a.min())				# 极差

Python机器学习:数据探索与可视化(一)_第16张图片

偏度和峰度

⭐️ 偏度:也称偏态系数,是用于衡量对称程度或偏斜程度的指标。可以通过skew()方法进行计算。

⭐️ 峰度:也称峰态系数,是哟过来衡量数据尾部分散度的指标。可以通过kurtosis()方法进行计算。

print(a.skew())
print(a.kurtosis())

Python机器学习:数据探索与可视化(一)_第17张图片

单个数据变量的分布情况

单个连续变量可以使用直方图进行可视化。

import pandas as pd
from matplotlib import pyplot as plt

import matplotlib
matplotlib.rcParams['axes.unicode_minus']=False
import seaborn as sns
sns.set(font="Kaiti",style="ticks",font_scale=1.4)

a = pd.read_csv("D:/Pycharm/机器学习数据/program/data/chap2/Iris.csv")
a = a.drop(["Id","Species"],axis = 1)

plt.figure(figsize = (10,6))
plt.hist(a.PetalLengthCm,bins = 30,color = "blue")
plt.xlabel("PetalLengthCm")
plt.ylabel("频数")
plt.title("直方图")
plt.show()

hist()是绘制直方图的函数,第一个参数是指定要绘制直方图的数据(a.PetalLengthCm),第二个参数是设置长条形的数目(bins=30),第三个参数是长条形的颜色设置。
Python机器学习:数据探索与可视化(一)_第18张图片

发现异常值的基本方法

在前面我们处理了缺失值,当一个数据没有缺失值后,我们就要去分析,去看有没有异常值。要处理异常值,我们首先就要发现异常值。那么怎样的值才被定义为“异常”呢?

3sigma法则

针对单个变量,通常可以使用3sigma法则识别异常值,即超出均值3倍标准差的数据可被认为是异常值(言下之意就是用数据的值减去均值后的绝对值大于标准差的3倍就是异常值)。

下面我们使用前面由IterativeImputer填充缺失值后的数据中的5个变量,来分析每个变量是否存在异常值。

import pandas as pd
from matplotlib import pyplot as plt
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
# 中文显示问题
import matplotlib
matplotlib.rcParams['axes.unicode_minus']=False
import seaborn as sns
sns.set(font="Kaiti",style="ticks",font_scale=1.4)
# 数据准备(前面有)
a = pd.read_csv("D:/Pycharm/机器学习数据/program/data/chap2/热带大气海洋数据.csv")
index = pd.isna(a.AirTemp) | pd.isna(a.Humidity)
iterimp = IterativeImputer(random_state = 123)
a_iter = iterimp.fit_transform(a)
AirTemp = a_iter[:,4]
Humidity = a_iter[:,5]
b = pd.DataFrame(data = a_iter[:,3:8],columns = ["SeaSurfaceTemp","AirTemp","Humidity","UWind","VWind"])
print(b.head(5))	# 输出b的前五行数据
# 找出异常值
bmean = b.mean()	# 均值
bstd = b.std()		# 标准差
result = abs(b - bmean) > 3 * bstd	# 结果
print(result)	# 处理异常值的结果
print(result.sum())	# 异常值数量的统计

Python机器学习:数据探索与可视化(一)_第19张图片

箱线图

同时,针对该数据也可以用箱线图进行可视化分析,箱线图在可视化时会使用点输出异常值的位置,因此可以判断数据中是否存在异常值。

b.plot(kind = "box",figsize = (10,6))
plt.title("数据集箱线图")
plt.grid()
plt.show()

Python机器学习:数据探索与可视化(一)_第20张图片

散点图

前面两种方式都是分析单个变量是否有异常值,对于两个变量,也可以使用散点图直观地分析数据中是否有异常值。

from matplotlib import pyplot as plt

import matplotlib
matplotlib.rcParams['axes.unicode_minus']=False
import seaborn as sns
sns.set(font="Kaiti",style="ticks",font_scale=1.4)

x = [10,8,13,9,11,14,6,4,12,7,5]
y = [7.46,6.77,12.74,7.11,7.81,8.84,6.08,5.39,8.15,6.42,5.73]
plt.figure(figsize = (10,6))
plt.plot(x,y,"ro")
plt.grid()
plt.xlabel("X")
plt.ylabel("Y")
plt.text(12.5,12,"异常值")
plt.show()

Python机器学习:数据探索与可视化(一)_第21张图片

你可能感兴趣的:(机器学习笔记,python,数据分析)