逻辑斯蒂回归在二分类中的应用

逻辑回归简介

逻辑斯蒂回归(logistic regression,又称“对数几率回归”)是经典的分类方法。逻辑斯蒂回归(Logistic Regression) 虽然名字中有回归,但模型最初是为了解决二分类问题。

线性回归模型帮助我们用最简单的线性方程实现了对数据的拟合,但只实现了回归而无法进行分类。因此LR就是在线性回归的基础上,构造的一种分类模型。

下面我们以一个案例的形式来看一下。访问网站:http://ml.memoryone.cn/ 开启零代码玩转机器学习之路。

案例

访问http://ml.memoryone.cn/,选择逻辑斯蒂回归分类模型。

 数据准备

首先准备数据,这里因为要进行使用模型来解决二分类的问题,所以我们可以选择云广告点击数据集进行模拟,该数据集的来源是天池开放数据集,特征为用户唯一标示和16个维度的用户特征,标签列为用户对阿里云推送广告的点击状态记录(0-未点击,1-点击)。

首先选择我们要使用的数据集,当然如果你有自己的数据集,也可以手动上传数据(目前仅支持csv文件格式的数据集,且只支持单文件上传)。

特征空间

在这一步选择我们要使用的数据列,所有数据是我们要使用的数据的所有列,所有特征是所有要使用的特征列,标签就是我们的结果列。

在这个例子中,我们的模型输入数据并不需要用户唯一标示,所以在所有数据和所有特征里面去掉uuid这一列,click列是标签列,所有特征里去掉该列。在标签那里选择click。

数据可视化

为了了解每一维的数据的状态,我们可以通过数据可视化这个模块来进行了解。通过直方图我们可以简单看出数据的分布走势,通过箱型图,我们可以看出数据的最大值最小值,以及中位数、四分位数。

数据清洗

通过数据可视化步骤的查看,我们可以很明显的发现,每一维的特征数据的取值范围并没有差别很大(因为天池在开放数据之前已经做了处理),而对于标签列的查看,我们则可以明显的感觉到正负样本量的差别很大,正样本(click取值为1)的数量为602,而负样本(click取值为0)的数量为39278。因为,我们需要对数据进行重采样,在这里为了节省训练时间,对数据采用欠采样的处理方式。

数据划分

默认获取数据的20%作为测试集,如果需要调整可自行修改,在这里我们维持不变。

模型调参

在这里我们暂时使用模型的默认参数。

提交任务

最后,参数都配置好以后,我们就可以点击按钮开始训练模型了。

你可能感兴趣的:(逻辑斯蒂回归在二分类中的应用)