2020-03-21

机器学习步骤

  • 观察数据
    · 如果不用机器学习能不能轻松完成任务;
    · 需要的信息是否包含在数据中。
  • 发现异常值和特殊值(不一致或意料之外的数据):
    · 数据可视化方法,散点图
    【注】散点图方法,只能查看2个特征之间的关系,因为计算机屏幕只有2维,因此我们只能两两查看所有的特征,而无法同时显示所有特征之间的关系,不能展示数据某些有趣的内容。
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris_dataset = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris_dataset.data, iris_dataset.target, test_size=0.2, random_state=0)

import pandas as pd

iris_dataframe = pd.DataFrame(X_train, columns=iris_dataset.feature_names) # 创建鸢尾花数据集,指定特征名称为列名

grr = pd.plotting.scatter_matrix(iris_dataframe,c=y_train,figsize=(15,15),marker='o',hist_kwds={'bins':20},s=60,alpha=.8)
散点图.png

pandas.plotting模块

andrews_curves(frame, class_column[, ax, …]): 生成一个matplotlib画的调和曲线,用于可视化多变量数据集群【Andrews曲线将每个样本的属性值转化为傅里叶序列的系数来创建曲线。通过将每一类曲线标成不同颜色可以可视化聚类数据,属于相同类别的样本的曲线通常更加接近并构成了更大的结构】;
autocorrelation_plot(series[, ax]):时间序列的自相关图;
bootstrap_plot(series[, fig, size, samples]):Bootstrap plot on mean, median and mid-range statistics.
boxplot(data[, column, by, ax, fontsize, …]):对DataFrame列的盒装画图方式;
deregister_matplotlib_converters():去掉pandas的格式和转换;
lag_plot(series[, lag, ax]):为时间序列的Lag plot;
parallel_coordinates(frame, class_column[, …]):平行坐标绘图;
plot_params:存储pandas的绘图方式;
radviz(frame, class_column[, ax, color, …]):在2D上绘制高维数据集;
register_matplotlib_converters():在matplotlib中注册pandas的格式和转换;
scatter_matrix(frame[, alpha, figsize, ax, …]):绘制矩阵型的散点图;
table(ax, data[, rowLabels, colLabels]):转换Dataframe和Series到matplotlibtable的帮助函数。

小知识
Andrews curves:调和曲线,由Andrews于1972年提出,因此又叫Andrews plots或Andrews curve,是将多元数据以二维曲线展现的一种统计图,常用于表示多元数据的结构。
Bootstrap:统计学上一种非常有用的非参数估计方法,实质上是对观测信息进行有放回的再抽样,重复的统计总体的分布情况。
数据可视化:https://www.jianshu.com/p/3bb2cc453df1

你可能感兴趣的:(2020-03-21)