sklearn机器学习——day05

逻辑回归

本质是由线性回 归变化而来的,一种广泛使用于分类问题中的广义回归算法

逻辑回归Sigmoid函数方程:

sklearn机器学习——day05_第1张图片

其数学目的是求解能够让模型对数据拟合程度最高的参数 的值,以此构建预测函数 ,然后将 特征矩阵输入预测函数来计算出逻辑回归的结果y

sklearn机器学习——day05_第2张图片 

正则化:重要参数penalty & C 

正则化是用来防止模型过拟合的过程,常用的有L1正则化和L2正则化两种选项,分别通过在损失函数后加上参数向 量 的L1范式和L2范式的倍数来实现

 逻辑回归的特征工程

业务选择

PCA和SVD一般不用

统计方法可以使用,但不是非常必要

高效的嵌入法embedded

from sklearn.linear_model import LogisticRegression as LR
from sklearn.datasets import load_breast_cancer
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import cross_val_score
from sklearn.feature_selection import SelectFromModel

data = load_breast_cancer()
data.data.shape
LR_ = LR(solver="liblinear",C=0.9,random_state=420)
cross_val_score(LR_,data.data,data.target,cv=10).mean()
X_embedded = SelectFromModel(LR_,norm_order=1).fit_transform(data.data,data.target)
X_embedded.shape
cross_val_score(LR_,X_embedded,data.target,cv=10).mean()

梯度下降:重要参数max_iter

梯度下降求解逻辑回归:现在有一个带两个特 征并且没有截距的逻辑回归 ,两个特征所对应的参数分别为 。下面这个华丽的平面就是我们的损 失函数 在以 , 和 为坐标轴的三维立体坐标系上的图像。现在,我们寻求的是损失函数的最小值,也 就是图像的最低点。

sklearn机器学习——day05_第3张图片

样本不均衡与参数class_weight

样本不平衡是指在一组数据集中,标签的一类天生占有很大的比例,或误分类的代价很高,即我们想要捕捉出某种 特定的分类的时候的状况

 

你可能感兴趣的:(机器学习,sklearn,逻辑回归)