python输入年月日输出年月日_Python-机器学习

一、简单线性回归

1、相关系数,衡量数据间的相关性 通过调用pandas函数corr实现

python输入年月日输出年月日_Python-机器学习_第1张图片

python输入年月日输出年月日_Python-机器学习_第2张图片

2、回归方程y=a+bx:x自变量、y因变量、a截距、b回归系数

求出a与b,就可以预测y与x,求出最佳拟合线。通过机器计算,使用最小二乘法计算a与b

python输入年月日输出年月日_Python-机器学习_第3张图片

(1)提取特征和标签,即提取x与y,让机器学习

python输入年月日输出年月日_Python-机器学习_第4张图片

(2)建立测试数据与训练数据

测试数据用来最终测量模型准确度,训练数据用来求得回归方程

python输入年月日输出年月日_Python-机器学习_第5张图片

(3)转化自变量数据格式(因为本次输入的特征(自变量)只有一个)

python输入年月日输出年月日_Python-机器学习_第6张图片

(4)导入线性回归,建立模型,求出截距与相关系数,评估模型准确度(用测试数据求决定系数R平方)

python输入年月日输出年月日_Python-机器学习_第7张图片

二、简单逻辑回归分类

通过输入特征,进行概率判断,最后得出一个二分结果 是或者否 的过程

python输入年月日输出年月日_Python-机器学习_第8张图片

(1)建立数据集

python输入年月日输出年月日_Python-机器学习_第9张图片

(3)逻辑回归函数 概率大于0.5则输出1,概率小于0.5则输出0

python输入年月日输出年月日_Python-机器学习_第10张图片

python输入年月日输出年月日_Python-机器学习_第11张图片

三、模拟练习-泰坦尼克号生存预测

(1)训练及测试数据导入,查看数据缺失情况使用describe和info,发现异常点

python输入年月日输出年月日_Python-机器学习_第12张图片

python输入年月日输出年月日_Python-机器学习_第13张图片

二、数据清洗

(1)数据预处理

选择子集-重命名-补足缺失-数据类型转换-排序-处理异常值

使用fillna填充空值

python输入年月日输出年月日_Python-机器学习_第14张图片

(2)特征提取(特征工程)

1.数据类型 直接使用即可 2.时间序列 转化成年月日 3.分类数据 用one hot编码

on hot 编码:针对一种特征有两种以上的类别使用

python输入年月日输出年月日_Python-机器学习_第15张图片

性别:使用map函数,把字符串对应转化为0或1

python输入年月日输出年月日_Python-机器学习_第16张图片

客舱:客舱特征有多个类型,所以要转化成one hot编码,使用get_dummies

python输入年月日输出年月日_Python-机器学习_第17张图片

头衔:头衔隐藏在姓名内部,先提取后转化成one hot编码

python输入年月日输出年月日_Python-机器学习_第18张图片

船舱号:这里可以用到补充知识,匿名函数,使用def去定义函数比较麻烦,lambda可以快速定义

python输入年月日输出年月日_Python-机器学习_第19张图片

python输入年月日输出年月日_Python-机器学习_第20张图片

将one hot后的数据都加入到新的表中,替换原有数据

python输入年月日输出年月日_Python-机器学习_第21张图片

得到one hot后的相关性数据

python输入年月日输出年月日_Python-机器学习_第22张图片

选择特征

python输入年月日输出年月日_Python-机器学习_第23张图片

提取测试及训练数据

python输入年月日输出年月日_Python-机器学习_第24张图片

导入训练数据和测试数据

python输入年月日输出年月日_Python-机器学习_第25张图片

导入算法

dee2d1f8ead16d37e74f725afa046d7a.png

训练模型

b688774afbbd65672ffbf574a87cf6e9.png

评估模型

python输入年月日输出年月日_Python-机器学习_第26张图片

你可能感兴趣的:(python输入年月日输出年月日_Python-机器学习)