Task02

1:逻辑回归与线性回归的联系与区别
答:逻辑回归与线性回归都属于广义线性回归模型。
线性回归中使用的是最小化平方误差损失函数,对偏离真实值越远的数据惩罚越严重;逻辑回归使用对数似然函数进行参数估计,用交叉熵作为损失函数。
逻辑回归首先把样本映射到[0,1]之间的数值,这就归功于sigmoid函数,可以把任何连续的值映射到[0,1]之间,数越大越趋向于0,越小越趋近于1。
2:逻辑回归的原理
答:逻辑回归是适用于分类而不是回归的算法,以二分类为例,将正类设为1,负类设为0,样本x属于属于正类的概率可以用以下的式子来表示:
在这里插入图片描述
这里的sig是sigmod函数,其定义如下:
在这里插入图片描述
通过sigmod函数将输出的值限定在0到1之间。它有一个非常好的性质,即当z趋于正无穷时,g(z)g(z)趋于1,而当z趋于负无穷时,g(z)g(z)趋于0,这非常适合于我们的分类概率模型。输出的值越小,而分类为0的的概率越高,反之,值越大的话分类为1的的概率越高。如果靠近临界点,则分类准确率会下降。
3:逻辑回归损失函数推导及其优化:
Task02_第1张图片

4:正则化与模型评估指标:
答:正则化的目的是为了防止过拟合。正则化就是说给需要训练的目标函数加上一些规则(限制),让他们不要自我膨胀。
正则化通常情况下分为L1正则项和L2正则项,这二者都可以看做是损失函数的“惩罚项”,使用L1正则化的模型建叫做Lasso回归,使用L2正则化的模型叫做Ridge回归(岭回归)。
L1正则化是指权值向量w中各个元素的绝对值之和。
L2正则化是指权值向量w中各个元素的平方和然后再求平方根。
一般都会在正则化项之前添加一个系数,这个系数是由用户自己指定的。
L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择。L2正则化可以防止模型过拟合(overfitting)。
稀疏矩阵指的是很多元素为0,只有少数元素是非零值的矩阵,即得到的线性回归模型的大部分系数都是0。通常机器学习中特征数量很多,但是如果代入这些特征得到的模型是一个稀疏模型,表示只有少数特征对这个模型有贡献,绝大部分特征是没有贡献的,或者贡献微小。此时我们就可以只关注系数是非零值的特征。
在这里插入图片描述
以上所示是带有L1正则化的损失函数,加号后面的一项是L1正则化项,α 是正则化系数。注意到L1正则化是权值的绝对值之和,J是带有绝对值符号的函数,因此 J是不完全可微的。无法通过求导的方法求出最值或者极值,只能通过梯度下降的方法。
当我们在原始损失函数J00​后添加L1正则化项时,相当于对J0做了一个约束。
5:逻辑回归的优缺点:
答:缺点:对模型中自变量多重共线性较为敏感,例如两个高度相关自变量同时放入模型,可能导致较弱的一个自变量回归符号不符合预期,符号被扭转。​
难以拟合复杂的数据
优点:形式简单,可解释性好
6:样本不均衡解决方法
答:搜集更多的数据
改变评判指标
对数据采样针对性地改变数据中样本的比例,采样一般有两种方式:over-sampling和 under-sampling,前者是增加样本数较少的样本,其方式是直接复制原来的样本,而后者是减少样本数较多的样本,其方式是丢弃这些多余的样本。

你可能感兴趣的:(Task02)