sklearn-caicai

五. 逻辑回归

1. 概述

1.1 名为“回归”的分类器

=

线性回归的任务就是找出模型参数,著名的最小二乘法就是用来求解线性回归中参数的方法。

面试高危题:Sigmoid函数的公式和性质

g(z) = 

Sigmoid函数是一个S型函数,当自变量z趋近正无穷时,因变量g(z)趋近于1,而当z趋近于负无穷时,g(z)趋近于0,它能够将任何实数映射到(0,1)区间,使其可用于将任意值函数转换为更合适二分类的函数。因为这个性质,Sigmoid函数也被当作是归一化的一种方法,与之前的MinMaxScaler同理,是属于数据预处理中的“缩放”功能,可以将数据压缩到[0,1]之内。区别在于MinMaxScaler归一化之后,是可以取到0和1的,但Sigmoid只是无限趋近。

线性回归中z=,将z代入,就得到了二元逻辑回归模型的一般形式:

g(z) = y(x) = 

二元指的是标签是二分类,x是可以有很多的,g(z)就是逻辑回归返回的标签值。

1.2 为什么需要逻辑回归

优点

1. 逻辑回归对线性关系的拟合效果好到丧心病狂,特征与标签之间的线性关系极强的数据,都是逻辑回归的强项。相对的,逻辑回归在非线性数据的效果很多时候比瞎猜还不如,所以在已知数据之间的联系是非线性的,千万不要迷信逻辑回归。

2. 逻辑回归计算快:对于线性数据,逻辑回归的拟合和计算都非常快,计算效率优于SVM和随机森林

3. 逻辑回归返回的结果不是固定的0,1,而是以小数形式呈现的类概率数字:我们因此可以把逻辑回归返回的结果当成连续型数据来利用。

另外,逻辑回归还有抗噪能力强的有点。

逻辑回归的本质就是一个返回对数几率,在线性数据上表现优异的分类器,主要被应用在金融领域。其数学目的是求解能够让模型对数据拟合程度最高的参数的值,以此构建预测函数y(x),然后将特征矩阵输入预测函数来计算出逻辑回归的结果y。注意,虽然我们熟悉的逻辑回归通常被用于处理二分类问题,但逻辑回归也可以做多分类。

1.3 sklearn中的逻辑回归

2. linear_model.LogisticRegression

2.1 二元逻辑回归的损失函数

2.1.1 损失函数的概念和解惑

使用“损失函数”这个评估指标,来衡量参数的模型拟合训练集时产生的信息损失的大小,并以此衡量参数的优劣。

我们在求解参数时,追求损失函数最小,让模型在训练数据上的拟合效果最优,即预测准确率尽量接近100%。

关键概念:损失函数

衡量参数的优劣的评估指标,用来求解最优参数的工具。

损失函数小,模型在训练集上表现优异,拟合充分,参数优秀。

损失函数大,模型在训练集上表现差劲,拟合不足,参数糟糕。

我们追求,能够让损失函数最小化的参数组合。

注意:没有“求解参数”需要的模型没有损失函数,比如KNN,决策树。

逻辑回归的损失函数使用极大似然估计推到出来的。

对逻辑回归中过拟合的控制通过正则化来实现。

2.2 重要参数penalty&C

2.2.1正则化

2.2.2逻辑回归中的特征工程

主要思想时降维:但是pca这种盲盒型不考虑

统计学方法

高效的嵌入embedding

2.3 梯度下降:重要参数max_iter

2.3.1 梯度下降求解逻辑回归

梯度下降,其实就是在众多[]可能的值中遍历,一次次求解坐标点的梯度向量,不断让损失函数的取值J逐渐逼近最小值,再返回这个最小值对应的参数取值[]的过程。

2.3.2 梯度的概念与解惑

求解梯度,实在损失函数J()上对损失函数自身的自变量和求偏导,而这两个自变量,刚好是逻辑回归的预测函数y(x) = 的参数。(???)

2.3.3 步长的概念与解惑


2.4 二元回归与多元回归:重要参数solver&multi_class

2.5 样本不均衡与参数class_weight

样本不平衡是指在一组数据集中,标签的一类天生占有很大的比例,或误分类的代价很高,即我们想要捕捉某种特定的分类的时候的情况。

使用参数class_weight对样本标签进行一定的均衡,给少量的标签更多的权重,让模型更pain想少数类。像捕获少数类的方向建模。

我们有处理样本不均衡的各种方法,其中主流的是采样法,是通过重复样本的方式来平衡标签,可以进行上采样(增加少数类的样本),比如SMOTE,或者下采样(减少多数类的样本)。对于逻辑回归来说,上采样是最好的办法。

3. 案例:用逻辑回归制作评分卡

你可能感兴趣的:(sklearn-caicai)