机器学习系列-数据分析-平行坐标图

机器学习系列-数据分析-平行坐标图

文章目录

  • 机器学习系列-数据分析-平行坐标图
    • 1. 平行坐标图简介
    • 2. 平行坐标图的绘制
      • 2.1 iris鸢尾花数据集
      • 2.2 iris平行坐标图图像绘制
    • 结语

1. 平行坐标图简介

平行坐标系是一种常用的数据可视化方法,常用于高维几何多元数据的可视化。其在数据的可视化表示上克服了笛卡尔直角坐标系(平面直角坐标系、空间直角坐标系)很容易耗尽空间维度,最多只能进行三个维度数据可视化的缺陷,将多个维度的数据变量用多个平行的坐标轴进行表示,将来自于同一数据源的不同维度曲线连接成折线,在存在多种不同类别的数据源时,也可以通过不同颜色绘制属于不同类别数据源的折线,最终通过绘制出的图像进行相关的数据分析。

2. 平行坐标图的绘制

2.1 iris鸢尾花数据集

此数据集中包括150个个体数据,其中每条个体数据中包括花萼长度花萼宽度花瓣长度花瓣宽度以及花的所属类别,此数据集在机器学习中的主要意义在于当我们已知花瓣的上述四种参数时可以判断它属于哪一种鸢尾花。

在sklearn的datasets库中同样存在iris的标准数据集,引用方法如下:

from sklearn.datasets import load_iris
iris = load_iris()

此时数据已经被存放在iris变量中

但在我使用pandas库绘制平行坐标图的过程中,发现在sklearn提供的数据集当中,其class数据和data数据被分开存放,使得我们在区分不同类别的鸢尾花时的过程变得较为繁琐(但在该数据集中的确有标注区分不同类别的鸢尾花,但因为不在同一个数据表中,不方便使用pandas),于是改为使用本地的iris.csv数据集。

本地数据集形式如下:

  sepal_length  sepal_width  petal_length  petal_width     target
0             5.1          3.5           1.4          0.2     setosa
1             4.9          3.0           1.4          0.2     setosa
2             4.7          3.2           1.3          0.2     setosa
3             4.6          3.1           1.5          0.2     setosa
4             5.0          3.6           1.4          0.2     setosa
..            ...          ...           ...          ...        ...
145           6.7          3.0           5.2          2.3  virginica
146           6.3          2.5           5.0          1.9  virginica
147           6.5          3.0           5.2          2.0  virginica
148           6.2          3.4           5.4          2.3  virginica
149           5.9          3.0           5.1          1.8  virginica

[150 rows x 5 columns]

2.2 iris平行坐标图图像绘制

在python的很多第三方库中都有绘制平行坐标图的相关方法,在此处我使用的是pandas库中的plotting中自带的平行坐标图绘制方法parallel_coordinates,此方法的使用方式为parallel_coordinates(数据集, '分类依据')

具体实现方法如下:

import pandas as pd
from pandas.plotting import parallel_coordinates
#引用数据
iris = pd.read_csv("在此处添加文件路径")
#检查数据
print(iris)
parallel_coordinates(iris, 'target')

绘制出平行坐标图如下:
机器学习系列-数据分析-平行坐标图_第1张图片
根据绘制出的平行坐标图我们可以对数据集中的数据进行分析筛选,并使用相关的机器学习的算法完成鸢尾花辨识的目的。

结语

本文使用数据集方式为使用本地文件数据,iris数据集可以点击此处链接下载,但也可以通过修改部分代码使用sklearn中提供的数据集实现绘制平行坐标图。
本文仅介绍了iris鸢尾花数据的平行坐标图绘制,其他机器学习相关内容请见后续相关文章。
如果发现文章内容存在错误或对文章内容存在疑惑,欢迎联系作者进行指正探讨,共同进步。

转载请注明出处

你可能感兴趣的:(机器学习,python,可视化,机器学习,数据分析,大数据)