2.1 探索性数据分析【斯坦福21秋季:实用机器学习中文版】

探索性数据分析

本节课以房屋售卖的数据为例,结合代码进行分析。
出处:https://www.bilibili.com/video/BV1Xh411p7M9?spm_id_from=333.999.0.0
参考:https://www.bilibili.com/read/cv13353927?from=note
数据集:https://c.d2l.ai/stanford-cs329p/assignments.html#assignment-1

一、导入相关包
2.1 探索性数据分析【斯坦福21秋季:实用机器学习中文版】_第1张图片

  • numpy:python中做数据分析常用的包;
  • pandas:也是用于数据分析,擅长处理表,数据没那么大要放入内存中,这将是首选;
  • matplotlib.pyplot:源自matlab的画图工具;
  • seaborn:基于matplotlib,提供更多的画法。

二、读取数据
在这里插入图片描述
csv文件存下来相对比较大,可以先压缩成一个zip,主流的读取文件都可以从压缩文件中读取。建议存成压缩文件,这种读取方式在传输存储比较好,甚至还会比直接文本文件效果还要好。
三、数据简单处理
1.运用shape()函数观察数据集的大小
2.1 探索性数据分析【斯坦福21秋季:实用机器学习中文版】_第2张图片
2.运用head()函数打印前几行信息2.1 探索性数据分析【斯坦福21秋季:实用机器学习中文版】_第3张图片
3.计算每一列缺失的数据行数,如果大于总行数的30%,则删去,以此简化数据
2.1 探索性数据分析【斯坦福21秋季:实用机器学习中文版】_第4张图片
4. 函数inplace()的作用是将要去掉的列给改写掉(直接对文件中的列进行修改),节省内存。
(注意,这个操作只能跑一次,第二次的时候列已经被删掉了,不能再次运行了,会报错。)
在这里插入图片描述
5.查看一下数据类型
2.1 探索性数据分析【斯坦福21秋季:实用机器学习中文版】_第5张图片
6.把错误的数据类型纠正一下,然后全部转为float类型
2.1 探索性数据分析【斯坦福21秋季:实用机器学习中文版】_第6张图片
7.函数describe()描述一下这个数据,初步判断一下有没有噪音
2.1 探索性数据分析【斯坦福21秋季:实用机器学习中文版】_第7张图片
8.根据实际情况,对数据简单处理一下,删除掉错误的行
2.1 探索性数据分析【斯坦福21秋季:实用机器学习中文版】_第8张图片
四、数据的可视化
1.不同颜色是不同类别,中间的横线表示均值,boxplot可以比较直观的看到不同分布之间的对比。
2.1 探索性数据分析【斯坦福21秋季:实用机器学习中文版】_第9张图片
2.观察每个特征之间的关系(协方差)
2.1 探索性数据分析【斯坦福21秋季:实用机器学习中文版】_第10张图片

你可能感兴趣的:(【李沐AI课程】机器学习斯坦福,python,算法,数据结构)