LuCh1Monster

【用户指南|监督学习】1.1-线性模型

文章目录

1. 普通最小二乘法
2. 岭回归和分类

2.1 回归
2.2 分类
2.3 岭回归复杂度
2.4 置正则化参数: 广义交叉验证

3. Lasso

3.1 设置正则化参数

3.1.1 使用交叉验证
3.1.2 基于信息标准的模型选择
3.1.3 与 SVM 的正则化参数的比较

4. 多任务 Lasso
5. 弹性网络
6. 多任务弹性网络
7. 最小角回归
8. LARS Lasso

8.1 数学表达式

9. 正交匹配追踪法(OMP)
10. 贝叶斯回归

10.1 贝叶斯岭回归
10.2 主动相关决策理论—ARD

11. Logistic 回归
12. 随机梯度下降—SGD
13. 感知器—Perceptron
14. 被动攻击算法—Passive Aggressive Algorithms
15. 稳健回归(Robustness regression): 处理离群点(outliers)和模型错误

15.1 各种使用场景与相关概念
15.2 RANSAC: 随机抽样一致性算法(RANdom SAmple Consensus)

15.2.1 算法细节

15.3 Theil-Sen 预估器: 广义中值估计器(generalized-median-based estimator)

15.3.1 算法理论细节

15.4 Huber回归
15.5 注意

16. 多项式回归: 用基函数展开线性模型

下面是一组用于回归的方法，其中目标值 $y$ 是输入变量 $x$ 的线性组合。在数学概念中，如果 $\hat y$ 是预测值。
$\hat y (w, x) = w_0 + w_1x_1 + \dots + w_px_p$
在整个模块中，我们定义向量 $w=(w_1,\dots,w_p)$ 作为 coef_，定义 $w_0$ 作为 intercept_。

1. 普通最小二乘法

LinearRegression 拟合一个带有系数 $w=(w_1,\dots,w_p)$ 的线性模型，使得数据集实际观测数据和预测数据(估计值)之间的残差平方和最小。其数学表达式为:
$min_{w} || X w - y||_2^2$

LinearRegression会调用 fit 方法来拟合数组 X 和 y，并且将线性模型的系数 $w$ 存储在其成员变量 coef_ 中:

>>> from sklearn import linear_model
>>> reg = linear_model.LinearRegression()
>>> reg.fit ([[0, 0], [1, 1], [2, 2]], [0, 1, 2])
LinearRegression(copy_X=True, fit_intercept=True, 
				 n_jobs=1, normalize=False)
>>> reg.coef_
array([ 0.5,  0.5])

然而，对于普通最小二乘的系数估计问题，其依赖于模型各项的相互独立性。当各项是相关的，且设计矩阵 $X$ 的各列近似线性相关，那么，设计矩阵会趋向于奇异矩阵，这种特性导致最小二乘估计对于随机误差非常敏感，可能产生很大的方差。例如，在没有实验设计的情况下收集到的数据，这种多重共线性（multicollinearity）的情况可能真的会出现。

示例: 线性回归示例

该方法使用 $X$ 的奇异值分解来计算最小二乘解。如果 $X$ 是一个形状为 (n_samples, n_features) 的矩阵，设 $\ge p$ ，则该方法的复杂度为 $O(np^2)$

2. 岭回归和分类

2.1 回归

Ridge 回归通过对系数的大小施加惩罚来解决普通最小二乘法的一些问题。岭系数最小化的是带罚项的残差平方和，
$\min_{w} \Vert X w - y \Vert_2^2 + \alpha \Vert w \Vert_2^2$
其中， $\alpha \ge 0$ 是控制系数收缩量的复杂性参数： $\alpha $的值越大，收缩量越大，模型对共线性的鲁棒性也更强。

与其他线性模型一样， Ridge 用 fit 方法完成拟合，并将模型系数 $w$ 存储在其 coef_ 成员中:

>>> from sklearn import linear_model
>>> reg = linear_model.Ridge (alpha = .5)
>>> reg.fit ([[0, 0], [0, 0], [1, 1]], [0, .1, 1])
Ridge(alpha=0.5, copy_X=True, fit_intercept=True, max_iter=None,
 normalize=False, random_state=None, solver='auto', tol=0.001)
>>> reg.coef_
array([ 0.34545455,  0.34545455])
>>> reg.intercept_
0.13636...

2.2 分类

示例:

岭系数对回归系数的影响

分类特征稀疏的文本

2.3 岭回归复杂度

这种方法与普通最小二乘法的复杂度是相同的。

2.4 置正则化参数: 广义交叉验证

RidgeCV 通过内置的关于的 alpha 参数的交叉验证来实现岭回归。该对象与 GridSearchCV 的使用方法相同，只是它默认为广义交叉验证(Generalized Cross-Validation, GCV)，这是一种有效的留一验证方法(LOO-CV):

>>> from sklearn import linear_model
>>> reg = linear_model.RidgeCV(alphas=[0.1, 1.0, 10.0])
>>> reg.fit([[0, 0], [0, 0], [1, 1]], [0, .1, 1])       
RidgeCV(alphas=[0.1, 1.0, 10.0], cv=None, 
		fit_intercept=True, scoring=None,
	 	normalize=False)
>>> reg.alpha_                                      
0.1

指定 cv 属性的值将触发(通过GridSearchCV的)交叉验证。例如，cv=10 将触发 10 折的交叉验证，而不是广义交叉验证(GCV)。

参考资料 : “Notes on Regularized Least Squares”, Rifkin & Lippert (technical report, course slides).

3. Lasso

Lasso 是拟合稀疏系数的线性模型。它在一些情况下是有用的，因为它倾向于使用具有较少参数值的情况，有效地减少给定解决方案所依赖变量的数量。因此，Lasso 及其变体是压缩感知领域的基础。在一定条件下，它可以恢复一组非零权重的精确集（见压缩感知_断层重建）。

在数学公式表达上，它由一个带有 $\ell_1$ 先验的正则项的线性模型组成。其最小化的目标函数是:
$\min_{w} { \frac{1}{2n_{\text{samples}}} \Vert X w - y\Vert_2 ^ 2 + \alpha \Vert w \Vert_1}$
lasso 估计解决了加上罚项 $\alpha \Vert w \Vert_1$ 的最小二乘法的最小化，其中， $\alpha$ 是一个常数， $\Vert w \Vert_1$ 是参数向量的 $\ell_1-norm$ 范数。

Lasso 类的实现使用了坐标下降算法(coordinate descent)来拟合系数。查看最小角回归，这是另一种方法:

>>> from sklearn import linear_model
>>> reg = linear_model.Lasso(alpha=0.1)
>>> reg.fit([[0, 0], [1, 1]], [0, 1])
Lasso(alpha=0.1, copy_X=True, fit_intercept=True, max_iter=1000,
      normalize=False, positive=False, precompute=False, 
      random_state=None, selection='cyclic', tol=0.0001, 
      warm_start=False)
>>> reg.predict([[1, 1]])
array([ 0.8])

对于较简单的任务，同样有用的是函数 lasso_path 。它能够通过搜索所有可能的路径上的值来计算系数。

示例:

Lasso和Elastic Net(弹性网络)在稀疏信号上的表现

压缩感知_断层重建

注意: 使用 Lasso 进行特征选择，由于 Lasso 回归产生稀疏模型，因此可以用于执行特征选择，详见基于 L1 的特征选取。

下面两篇参考解释了scikit-learn坐标下降算法中使用的迭代，以及用于收敛控制的对偶间隙计算的理论基础。

参考资料

“Regularization Path For Generalized linear Models by Coordinate Descent”, Friedman, Hastie & Tibshirani, J Stat Softw, 2010 (Paper).

“An Interior-Point Method for Large-Scale L1-Regularized Least Squares,” S. J. Kim, K. Koh, M. Lustig, S. Boyd and D. Gorinevsky, in IEEE Journal of Selected Topics in Signal Processing, 2007 (Paper)

3.1 设置正则化参数

alpha 参数控制估计系数的稀疏度。

3.1.1 使用交叉验证

scikit-learn 通过交叉验证来公开设置 Lasso alpha 参数的对象: LassoCV 和 LassoLarsCV。 LassoLarsCV 是基于下面将要提到的最小角回归算法。

对于具有许多线性回归的高维数据集， LassoCV 最常见。然而，LassoLarsCV 在寻找 alpha参数值上更具有优势，而且如果样本数量比特征数量少得多时，通常 LassoLarsCV 比 LassoCV 要快。

3.1.2 基于信息标准的模型选择

有多种选择时，估计器 LassoLarsIC 建议使用信息判据(Akaike information criterion, AIC) 或贝叶斯信息判据(Bayes Information criterion, BIC)。当使用 k-fold 交叉验证时，正则化路径只计算一次而不是 k + 1 次，所以找到 $\alpha$ 的最优值是一种计算上更经济的替代方法。然而，这样的判据需要对解决方案的自由度进行适当的估计，它会假设模型是正确的，对大样本(渐近结果)进行导出，即数据实际上是由该模型生成的。当问题严重受限(比样本更多的特征)时，它们也容易崩溃。

示例: Lasso模型选择-交叉验证/AIC/BIC

3.1.3 与 SVM 的正则化参数的比较

alpha 和 SVM 的正则化参数 C 之间的等式关系是 alpha = 1 / C 或者 alpha = 1 / (n_samples * C) ，并依赖于估计器和模型优化的确切的目标函数。

4. 多任务 Lasso

MultiTaskLasso 是一个估计多元回归稀疏系数的线性模型: y 是一个形状为(n_samples, n_tasks) 的二维数组，其约束条件和其他回归问题(也称为任务)是一样的，都是所选的特征值。

下图比较了通过使用简单的 Lasso 或 MultiTaskLasso 得到的 W 中非零的位置。Lasso 估计产生分散的非零值，而 MultiTaskLasso 的一整列都是非零的。

拟合 time-series model (时间序列模型)，强制任何活动的功能始终处于活动状态。

示例: 多任务Lasso实现联合特征选择

在数学上，它由一个线性模型组成，以混合的 $\ell_1 \ell_2$ 作为正则化器进行训练。目标函数最小化是:
$\min_{w} { \frac{1}{2n_{\text{samples}}} \Vert X W - Y\Vert_{\text{Fro}} ^ 2 + \alpha \Vert W \Vert_{21}}$
其中 $F r o$ 表示 Frobenius 标准：
$\Vert A \Vert_{\text{Fro}} = \sqrt{\sum_{ij} a_{ij}^2}$
并且 $\ell_1 \ell_2$ 读取为:
$\Vert A \Vert_{2 1} = \sum_i \sqrt{\sum_j a_{ij}^2}.$
MultiTaskLasso 类的实现使用了坐标下降作为拟合系数的算法。

5. 弹性网络

弹性网络 是一种使用 L1 和 L2 范数作为先验正则项训练的线性回归模型。这种组合允许拟合到一个只有少量参数是非零稀疏的模型，就像 Lasso 一样，但是它仍然保持了一些类似于 Ridge 的正则性质。我们可利用 l1_ratio 参数控制 L1 和 L2 的凸组合。

弹性网络在很多特征互相联系的情况下是非常有用的。Lasso 很可能只随机考虑这些特征中的一个，而弹性网络更倾向于选择两个。

在实践中，Lasso 和 Ridge 之间权衡的一个优势是它允许在循环过程(Under rotate)中继承 Ridge 的稳定性。

在这里，最小化的目标函数是:
$\min_{w} { \frac{1}{2n_{\text{samples}}} \Vert X w - y \Vert_2 ^ 2 + \alpha \rho \Vert w \Vert_1 + \frac{\alpha(1-\rho)}{2} \Vert w \Vert_2 ^ 2}$

ElasticNetCV 类可以通过交叉验证来设置参数 alpha( $\alpha$ ) 和 l1_ratio ( $\rho$ ) 。

示例:

Lasso和Elastic Net(弹性网络)在稀疏信号上的表现

Lasso和Elastic Net

下面两篇参考解释了scikit-learn坐标下降算法中使用的迭代，以及用于收敛控制的对偶间隙计算的理论基础。

参考资料

“Regularization Path For Generalized linear Models by Coordinate Descent”, Friedman, Hastie & Tibshirani, J Stat Softw, 2010 (Paper).

“An Interior-Point Method for Large-Scale L1-Regularized Least Squares,” S. J. Kim, K. Koh, M. Lustig, S. Boyd and D. Gorinevsky, in IEEE Journal of Selected Topics in Signal Processing, 2007 (Paper)

6. 多任务弹性网络

MultiTaskElasticNet 是一个对多回归问题估算稀疏参数的弹性网络: Y 是一个二维数组，形状是 (n_samples,n_tasks)。其限制条件是和其他回归问题一样，是选择的特征，也称为 tasks 。

从数学上来说，它包含一个混合的 $\ell_1 \ell_2$ 先验和 $\ell_2$ 先验为正则项训练的线性模型目标函数就是最小化:
$\min_{W} { \frac{1}{2n_{\text{samples}}} \Vert X W - Y \Vert_{\text{Fro}}^2 + \alpha \rho \Vert W \Vert_{2 1} + \frac{\alpha(1-\rho)}{2} \Vert W \Vert_{\text{Fro}}^2}$
在 MultiTaskElasticNet 类中的实现采用了坐标下降法求解参数。在 MultiTaskElasticNetCV 中可以通过交叉验证来设置参数 alpha ( $\alpha$ ) 和 l1_ratio( $\rho$ ) 。

7. 最小角回归

最小角回归(LARS) 是对高维数据的回归算法，由 Bradley Efron, Trevor Hastie, Iain Johnstone 和 Robert Tibshirani 开发完成。 LARS 和逐步回归很像。在每一步，它都寻找与响应最有关联的预测。当有很多预测有相同的关联时，它并不会继续利用相同的预测，而是在这些预测中找出应该等角的方向。

LARS的优点:

当 p >> n，该算法数值运算上非常有效，(例如当维度的数目远超点的个数)
它在计算上和前向选择一样快，和普通最小二乘法有相同的运算复杂度。
它产生了一个完整的分段线性的解决路径，在交叉验证或者其他相似的微调模型的方法上非常有用。
如果两个变量对响应几乎有相等的联系，则它们的系数应该有相似的增长率。因此这个算法和我们直觉上的判断一样，而且还更加稳定。
它很容易修改并为其他估算器生成解，比如 Lasso。

LARS 的缺点:

因为 LARS 是建立在循环拟合剩余变量上的，所以它对噪声非常敏感。这个问题，在 2004 年统计年鉴的文章由 Weisberg 详细讨论。

LARS 模型可以在 Lars ，或者它的底层实现 lars_path或 lars_path_gram中被使用。

8. LARS Lasso

LassoLars是一个使用 LARS 算法的 lasso 模型，不同于基于坐标下降法的实现，它可以得到一个精确解，也就是一个关于自身参数标准化后的一个分段线性解。

>>> from sklearn import linear_model
>>> reg = linear_model.LassoLars(alpha=.1)
>>> reg.fit([[0, 0], [1, 1]], [0, 1])  
LassoLars(alpha=0.1, copy_X=True, eps=..., fit_intercept=True,
     fit_path=True, max_iter=500, normalize=True, positive=False,
     precompute='auto', verbose=False)
>>> reg.coef_    
array([0.717157..., 0.        ])

示例: 使用LARS计算Lasso路径

Lars 算法提供了一个几乎无代价的沿着正则化参数的系数的完整路径，因此常利用函数 lars_path或 lars_path_gram来取回路径。

8.1 数学表达式

该算法和逐步回归非常相似，但是它没有在每一步包含变量，它估计的参数是根据与其他剩余变量的联系来增加的。

在 LARS 的解中，没有给出一个向量的结果，而是给出一条曲线，显示参数向量的 L1 范式的每个值的解。完全的参数路径存在 coef_path_ 下。它的 size 是 (n_features, max_features+1)。其中第一列通常是全 0 列。

参考资料: Original Algorithm is detailed in the paper Least Angle Regression by Hastie et al.

9. 正交匹配追踪法(OMP)

OrthogonalMatchingPursuit (正交匹配追踪法)和 orthogonal_mp使用了 OMP 算法近似拟合了一个带限制的线性模型，该限制影响于模型的非 0 系数(例：L0 范数)。

就像最小角回归一样，作为一个前向特征选择方法，正交匹配追踪法可以近似一个固定非 0 元素的最优向量解:
$nonzero_coefs \underset{\gamma}{\operatorname{arg min }} \Vert y - X\gamma \Vert_2^2 \text{ subject to } \Vert \gamma \Vert_0 \leq n_{\text{nonzero\_coefs}}$
正交匹配追踪法也可以针对一个特殊的误差而不是一个特殊的非零系数的个数。可以表示为:
$\underset{\gamma}{\operatorname{arg min }} \Vert \gamma \Vert_0 \text{ subject to } \Vert y-X\gamma \Vert_2^2 \leq \text{tol}$
OMP 是基于每一步的贪心算法，其每一步元素都是与当前残差高度相关的。它跟较为简单的匹配追踪（MP）很相似，但是相比 MP 更好，在每一次迭代中，可以利用正交投影到之前选择的字典元素重新计算残差。

示例: 正交匹配追踪](https://scikit-learn.org/stable/auto_examples/linear_model/plot_omp.html)

参考资料:

http://www.cs.technion.ac.il/~ronrubin/Publications/KSVD-OMP-v2.pdf

Matching pursuits with time-frequency dictionaries, S. G. Mallat, Z. Zhang,

10. 贝叶斯回归

贝叶斯回归可以用于在预估阶段的参数正则化: 正则化参数的选择不是通过人为的选择，而是通过手动调节数据值来实现。

上述过程可以通过引入无信息先验到模型中的超参数来完成。在岭回归中使用的 $\ell_{2}$ 正则项相当于在 $w$ 为高斯先验条件，且此先验的精确度为 $\lambda^{-1}$ 时，求最大后验估计。在这里，我们没有手工调参数 lambda ，而是让他作为一个变量，通过数据中估计得到。

为了得到一个全概率模型，输出 $y$ 也被认为是关于 $X w$ 的高斯分布。
$p(y|X,w,\alpha) = \mathcal{N}(y|X w,\alpha)$
$\alpha$ 在这里也是作为一个变量，通过数据中估计得到。

贝叶斯回归有如下几个优点:

它能根据已有的数据进行改变。
它能在估计过程中引入正则项。

贝叶斯回归有如下缺点:

它的推断过程是非常耗时的。

参考资料

一个对于贝叶斯方法的很好的介绍 C. Bishop: Pattern Recognition and Machine learning

详细介绍原创算法的一本书 Bayesian learning for neural networks by Radford M. Neal

10.1 贝叶斯岭回归

BayesianRidge利用概率模型估算了上述的回归问题，其先验参数 $w$ 是由以下球面高斯公式得出的：
$p(w|\lambda) = \mathcal{N}(w|0,\lambda^{-1}\mathbf{I}_{p})$
先验参数 $\alpha$ 和 $\lambda$ 一般是服从 $\gamma$ 分布，这个分布与高斯成共轭先验关系。得到的模型一般称为贝叶斯岭回归，并且这个与传统的 Ridge 非常相似。

参数 $w$ ， $\alpha$ 和 $\lambda$ 是在模型拟合的时候一起被估算出来的，其中参数 $\alpha$ 和 $\lambda$ 通过最大似然估计得到。scikit-learn的实现是基于文献(Tipping，2001)的附录A，参数 $\alpha$ 和 $\lambda$ 的更新是基于文献(MacKay，1992)。

剩下的超参数 $\alpha_1$ ， $\alpha_2$ ， $\gamma_1$ 以及 $\gamma_2$ 是关于 $\alpha$ 和 $\lambda$ 的 $\gamma$ 分布的先验。它们通常被选择为无信息先验 。默认 $\alpha_1 = \alpha_2 = \lambda_1 = \lambda_2 = 10^{-6}$ 。

贝叶斯岭回归用来解决回归问题:

>>> from sklearn import linear_model
>>> X = [[0., 0.], [1., 1.], [2., 2.], [3., 3.]]
>>> Y = [0., 1., 2., 3.]
>>> reg = linear_model.BayesianRidge()
>>> reg.fit(X, Y)
BayesianRidge(alpha_1=1e-06, alpha_2=1e-06, compute_score=False, copy_X=True,
 fit_intercept=True, lambda_1=1e-06, lambda_2=1e-06, n_iter=300,
 normalize=False, tol=0.001, verbose=False)

在模型训练完成后，可以用来预测新值:

>>> reg.predict ([[1, 0.]])
array([ 0.50000013])

权值 $w$ 可以被这样访问:

>>> reg.coef_
array([ 0.49999993,  0.49999993])

由于贝叶斯框架的缘故，权值与普通最小二乘法产生的不太一样。但是，贝叶斯岭回归对病态问题（ill-posed）的鲁棒性要更好。

示例: 贝叶斯岭回归

参考资料

Section 3.3 in Christopher M. Bishop: Pattern Recognition and Machine Learning, 2006

David J. C. MacKay, Bayesian Interpolation, 1992.

Michael E. Tipping, Sparse Bayesian Learning and the Relevance Vector Machine, 2001.

10.2 主动相关决策理论—ARD

ARDRegression(主动相关决策理论)和 Bayesian Ridge Regression 非常相似，但是会导致一个更加稀疏的权重 $w$ 。

ARDRegression 提出了一个不同的 $w$ 的先验假设。具体来说，就是弱化了高斯分布为球形的假设。

它采用 $w$ 分布是与轴平行的椭圆高斯分布。也就是说，每个权值 $w_{i} $从一个中心在 0 点，精度为 $\lambda_{i}$ 的高斯分布中采样得到的。

$p(w|\lambda) = \mathcal{N}(w|0,A^{-1})$
并且 $\; (A) = \lambda = \{\lambda_{1},...,\lambda_{p}\}$ .

与 Bayesian Ridge Regression 不同，每个 $w_{i} $都有一个标准差 $\lambda_i$ 。所有 $\lambda_i$ 的先验分布由超参数 $\lambda_1$ 、 $\lambda_2$ 确定的相同的 $\gamma$ 分布确定。

ARD 也被称为稀疏贝叶斯学习或相关向量机。

示例: Automatic Relevance Determination Regression (ARD)

参考资料:

[1] Christopher M. Bishop: Pattern Recognition and Machine Learning, Chapter 7.2.1

[2] David Wipf and Srikantan Nagarajan: A new view of automatic relevance determination

[3] Michael E. Tipping: Sparse Bayesian Learning and the Relevance Vector Machine

[4] Tristan Fletcher: [Relevance Vector Machines explained](http://www.tristanfletcher.co.uk/RVM Explained.pdf)

11. Logistic 回归

Logistic 回归，虽然名字里有“回归”二字，但实际上是解决分类问题的一类线性模型。在某些文献中，logistic回归又被称作 logit 回归，最大熵分类(maximum-entropy classification, MaxEnt)，或对数线性分类器(log-linear classifier)。该模型利用函数 logistic function 将单次试验(single trial) 的可能结果输出为概率。

scikit-learn 中 logistic 回归在 LogisticRegression 类中实现了二分类(binary)、一对多分类(one-vs-rest)及多项式 logistic 回归，并带有可选的 L1 和 L2 正则化。

注意 : scikit-learn 的逻辑回归在默认情况下使用 L2 正则化，这样的方式在机器学习领域是常见的，在统计分析领域是不常见的。正则化的另一优势是提升数值稳定性。scikit-learn通过将 C设置为很大的值实现无正则化。

作为优化问题，带 L2 罚项的二分类 logistic 回归要最小化以下代价函数(cost function):
$\underset{w, c}{min\,} \frac{1}{2}w^T w + C \sum_{i=1}^n \log(\exp(- y_i (X_i^T w + c)) + 1)$
类似地，带 L1 正则的 logistic 回归解决的是如下优化问题:
$\underset{w, c}{min\,} \Vert w \Vert_1 + C \sum_{i=1}^n \log(\exp(- y_i (X_i^T w + c)) + 1)$
Elastic-Net 正则化是 L1 和 L2 的组合，来使如下代价函数最小:
$\min_{w, c} \frac{1 - \rho}{2}w^T w + \rho \Vert w \Vert_1 + C \sum_{i=1}^n \log(\exp(- y_i (X_i^T w + c)) + 1)$
其中 $\rho$ 控制正则化 L1与正则化 L2 的强度(对应于 l1_ratio 参数)。

注意: 在这个表示法中，假定目标 $y_i$ 在测试时应属于集合 [-1,1]。我们可以发现 Elastic-Net 在 $\rho=1$ 时与 L1 罚项等价，在 $r h o = 0$ 时与 L2 罚项等价。

在 LogisticRegression 类中实现了这些优化算法: liblinear，newton-cg，lbfgs，sag 和 saga。

liblinear 应用了坐标下降算法(Coordinate Descent, CD)，并基于 scikit-learn 内附的高性能 C++ 库 LIBLINEAR library 实现。不过 CD 算法训练的模型不是真正意义上的多分类模型，而是基于 one-vs-rest 思想分解了这个优化问题，为每个类别都训练了一个二元分类器。因为实现在底层使用该求解器的 LogisticRegression 实例对象表面上看是一个多元分类器。 sklearn.svm.l1_min_c 可以计算使用 L1 时 C 的下界，以避免模型为空(即全部特征分量的权重为零)。
lbfgs、sag 和 newton-cg 求解器只支持 L2 罚项以及无罚项，对某些高维数据收敛更快。这些求解器的参数 multi_class设为 multinomial 即可训练一个真正的多项式 logistic 回归，其预测的概率比默认的 one-vs-rest 设定更为准确。
sag 求解器基于平均随机梯度下降算法(Stochastic Average Gradient descent)。在大数据集上的表现更快，大数据集指样本量大且特征数多。
saga 求解器是 sag 的一类变体，它支持非平滑(non-smooth)的 L1 正则选项 penalty="l1" 。因此对于稀疏多项式 logistic 回归，往往选用该求解器。saga求解器是唯一支持弹性网络正则选项的求解器。
lbfgs是一种近似于Broyden–Fletcher–Goldfarb–Shanno算法的优化算法，属于准牛顿法。lbfgs求解器推荐用于较小的数据集，对于较大的数据集，它的性能会受到影响。

总的来说，各求解器特点如下:

罚项	`liblinear`	`lbfgs`	`newton-cg`	`sag`	`saga`
多项式损失+L2罚项	×	√	√	√	√
一对剩余（One vs Rest） + L2罚项	√	√	√	√	√
多项式损失 + L1罚项	×	×	×	×	√
一对剩余（One vs Rest） + L1罚项	√	×	×	×	√
弹性网络	×	×	×	×	√
无罚项	×	√	√	√	√
表现
惩罚偏置值(差)	√	×	×	×	×
大数据集上速度快	×	×	×	√	√
未缩放数据集上鲁棒	√	√	√	×	×

默认情况下，lbfgs求解器鲁棒性占优。对于大型数据集，saga求解器通常更快。对于大数据集，还可以用 SGDClassifier ，并使用对数损失(log loss) 这可能更快，但需要更多的调优。

示例：

Logistic回归中的L1罚项和稀疏系数

L1罚项-logistic回归的路径

多项式和OVR的Logistic回归

newgroups20上的多类稀疏Logistic回归

使用多项式Logistic回归和L1进行MNIST数据集的分类

与 liblinear 的区别:

当 fit_intercept=False 拟合得到的 coef_ 或者待预测的数据为零时，用 solver=liblinear 的 LogisticRegression 或 LinearSVC 与直接使用外部 liblinear 库预测得分会有差异。这是因为，对于 decision_function 为零的样本， LogisticRegression 和 LinearSVC 将预测为负类，而 liblinear 预测为正类。注意: 设定了 fit_intercept=False ，又有很多样本使得 decision_function 为零的模型，很可能会欠拟合，其表现往往比较差。建议您设置 fit_intercept=True 并增大 intercept_scaling 。

注意: 利用稀疏 logistic 回归进行特征选择

带 L1 罚项的 logistic 回归将得到稀疏模型(sparse model)，相当于进行了特征选择(feature selection)，详情参见基于 L1 的特征选取。

LogisticRegressionCV 对 logistic 回归的实现内置了交叉验证(cross-validation)，可以找出最优的 C和l1_ratio参数。newton-cg、sag、saga 和 lbfgs 在高维数据上更快，这是因为采用了热启动(warm-starting)。

参考资料：

[5] Christopher M. Bishop: Pattern Recognition and Machine Learning, Chapter 4.3.4

[6] Mark Schmidt, Nicolas Le Roux, and Francis Bach: Minimizing Finite Sums with the Stochastic Average Gradient.

[7] Aaron Defazio, Francis Bach, Simon Lacoste-Julien: SAGA: A Fast Incremental Gradient Method With Support for Non-Strongly Convex Composite Objectives.

[8] https://en.wikipedia.org/wiki/Broyden%E2%80%93Fletcher%E2%80%93Goldfarb%E2%80%93Shanno_algorithm

[9] “Performance Evaluation of Lbfgs vs other solvers”

12. 随机梯度下降—SGD

随机梯度下降是拟合线性模型的一个简单而高效的方法。在样本量(和特征数) 很大时尤为有用。方法 partial_fit 可用于在线学习(online learning) 或基于外存的学习(out-of-core learning)。

SGDClassifier和 SGDRegressor 分别用于拟合分类问题和回归问题的线性模型，可使用不同的(凸)损失函数，支持不同的罚项。例如，设定 loss="log" ，则 SGDClassifier 拟合一个逻辑斯蒂回归模型，而 loss="hinge" 拟合线性支持向量机(SVM)。

参考资料 : 随机梯度下降

13. 感知器—Perceptron

Perceptron 是适用于大规模学习的一种简单算法。默认情况下：

不需要设置学习率(learning rate)。
不需要正则化处理。
仅使用错误样本更新模型。

最后一点表明使用合页损失(hinge loss) 的感知机比 SGD 略快，所得模型更稀疏。

14. 被动攻击算法—Passive Aggressive Algorithms

被动攻击算法是大规模学习的一类算法。和感知机类似，它也不需要设置学习率，不过比感知机多出一个正则化参数 C 。

对于分类问题，PassiveAggressiveClassifier 可设定 loss='hinge'(PA-I)或 loss='squared_hinge' (PA-II)。
对于回归问题，PassiveAggressiveRegressor 可设置 loss='epsilon_insensitive' (PA-I) 或 loss='squared_epsilon_insensitive' (PA-II)。

参考资料 : Online Passive-Aggressive Algorithms K. Crammer, O. Dekel, J. Keshat, S. Shalev-Shwartz, Y. Singer - JMLR 7 (2006)

15. 稳健回归(Robustness regression): 处理离群点(outliers)和模型错误

稳健回归(robust regression) 特别适用于回归模型包含损坏数据(corrupt data)的情况，如离群点或模型中的错误。

15.1 各种使用场景与相关概念

处理包含离群点的数据时牢记以下几点:

1) 离群值在 X 上还是在 y 方向上?

离群值在 y 方向上

离群值在 X 方向上

2) 离群点的比例 VS. 错误的量级(amplitude)

离群点的数量很重要，离群程度也同样重要。

低离群点的数量

高离群点的数量

稳健拟合(robust fitting)的一个重要概念是崩溃点(breakdown point)，即拟合模型(仍准确预测)所能承受的离群值最大比例。

注意: 在高维数据条件下(n_features大)，一般而言很难完成稳健拟合，很可能完全不起作用。

寻找平衡 : 预测器的选择

Scikit-learn提供了三种稳健回归的预测器(estimator): RANSAC ，Theil Sen 和 HuberRegressor

HuberRegressor 一般快于 RANSAC 和 Theil Sen ，除非样本数很大，即 n_samples >> n_features 。这是因为 RANSAC 和 Theil Sen 都是基于数据的较小子集进行拟合。但使用默认参数时，Theil Sen 和 RANSAC 可能不如 HuberRegressor 鲁棒。

RANSAC 比 Theil Sen 更快，在样本数量上的伸缩性（适应性）更好。

RANSAC 能更好地处理 y 方向的大值离群点(通常情况下)。

Theil Sen 能更好地处理x方向中等大小的离群点，但在高维情况下无法保证这一特点。实在决定不了的话，请使用 RANSAC

15.2 RANSAC: 随机抽样一致性算法(RANdom SAmple Consensus)

随机抽样一致性算法(RANdom SAmple Consensus， RANSAC) 利用全体数据中局内点(inliers)的一个随机子集拟合模型。

RANSAC 是一种非确定性算法，以一定概率输出一个可能的合理结果，依赖于迭代次数(参数 max_trials)。这种算法主要解决线性或非线性回归问题，在计算机视觉摄影测绘领域尤为流行。

算法从全体样本输入中分出一个局内点集合，全体样本可能由于测量错误或对数据的假设错误而含有噪点、离群点。最终的模型仅从这个局内点集合中得出。

15.2.1 算法细节

每轮迭代执行以下步骤:

从原始数据中抽样 min_samples 数量的随机样本，检查数据是否合法(见 is_data_valid )。
用一个随机子集拟合模型(base_estimator.fit )。检查模型是否合法(见 is_model_valid )。
计算预测模型的残差(residual)，将全体数据分成局内点和离群点(base_estimator.predict(X) - y)。绝对残差小于 residual_threshold 的全体数据认为是局内点。
若局内点样本数最大，保存当前模型为最佳模型。以免当前模型离群点数量恰好相等（而出现未定义情况），规定仅当数值大于当前最值时认为是最佳模型。

上述步骤或者迭代到最大次数(max_trials)，或者某些终止条件满足时停下(见 stop_n_inliers 和 stop_score )。最终模型由之前确定的最佳模型的局内点样本(一致性集合，consensus set) 预测。

函数 is_data_valid 和 is_model_valid 可以识别出随机样本子集中的退化组合(degenerate combinations) 并予以丢弃(reject)。即便不需要考虑退化情况，也会使用 is_data_valid，因为在拟合模型之前调用它能得到更高的计算性能。

示例:

基于RANSAC的稳健线性模型估计

稳健线性估计拟合

参考资料：

https://en.wikipedia.org/wiki/RANSAC

Random Sample Consensus: A Paradigm for Model Fitting with Applications to Image Analysis and Automated Cartography Martin A. Fischler and Robert C. Bolles - SRI International (1981)

Performance Evaluation of RANSAC Family Sunglok Choi, Taemin Kim and Wonpil Yu - BMVC (2009)

15.3 Theil-Sen 预估器: 广义中值估计器(generalized-median-based estimator)

TheilSenRegressor 估计器：使用中位数在多个维度泛化，对多元异常值更具有鲁棒性，但问题是，随着维数的增加，估计器的准确性在迅速下降。准确性的丢失，导致在高维上的估计值比不上普通的最小二乘法。

示例:

广义中值估计器回归

稳健线性估计拟合

参考资料:

https://en.wikipedia.org/wiki/Theil%E2%80%93Sen_estimator

15.3.1 算法理论细节

TheilSenRegressor (普通最小二乘法，OLS)。与 OLS 不同的是，Theil-Sen 是一种非参数方法，这意味着它没有对底层数据的分布假设。由于 Theil-Sen 是基于中值的估计，它更适合于损坏的数据即离群值。在单变量的设置中，Theil-Sen 在简单的线性回归的情况下，其崩溃点大约 29.3% ，这意味着它可以容忍任意损坏的数据高达 29.3% 。

scikit-learn 中实现的 TheilSenRegressor是多元线性回归模型的推广，利用了空间中值方法，它是多维中值的推广。

关于时间复杂度和空间复杂度，Theil-Sen 的尺度根据:
$\binom{n_{samples}}{n_{subsamples}}$
这使得它不适用于大量样本和特征的问题。因此，可以选择一个亚群的大小来限制时间和空间复杂度，只考虑所有可能组合的随机子集。

示例: 广义中值估计器回归

参考资料:

[10] Xin Dang, Hanxiang Peng, Xueqin Wang and Heping Zhang: Theil-Sen Estimators in a Multiple Linear Regression Model. |

[11] Kärkkäinen and S. Äyrämö: On Computation of Spatial Median for Robust Data Mining.

15.4 Huber回归

HuberRegressor 与 Ridge 不同，因为它对于被分为异常值的样本应用了一个线性损失。如果这个样品的绝对误差小于某一阈值，样品就被分为内围值。它不同于 TheilSenRegressor 和 RANSACRegressor，因为它没有忽略异常值的影响，并分配给它们较小的权重。

这个 HuberRegressor 最小化的损失函数是:
$\underset{w, \sigma}{min\,} {\sum_{i=1}^n\left(\sigma + H_m\left(\frac{X_{i}w - y_{i}}{\sigma}\right)\sigma\right) + \alpha { \Vert w \Vert_2}^2}$
其中:
$H_m(z) = \begin{cases} z^2, & \text {if } \vert z \vert \lt \epsilon \\ 2\epsilon \vert z \vert - \epsilon^2, & \text{otherwise} \end{cases}$
建议设置参数 epsilon 为 1.35 以实现 95% 统计效率。

15.5 注意

HuberRegressor 与将损失设置为 huber的 SGDRegressor 并不相同，体现在以下方面的使用方式上。

HuberRegressor 是标度不变性的. 一旦设置了 epsilon ，通过不同的值向上或向下缩放 X 和 y ，就会跟以前一样对异常值产生同样的鲁棒性。相比 SGDRegressor 其中 epsilon 在 X 和 y 被缩放的时候必须再次设置。
HuberRegressor 应该更有效地使用在小样本数据，同时 SGDRegressor 需要一些训练数据的 passes 来产生一致的鲁棒性。

示例: 强异常数据集上的huberregression与 Ridge

参考资料: Peter J. Huber, Elvezio M. Ronchetti: Robust Statistics, Concomitant scale estimates, pg 172

另外，这个估计是不同于 R 实现的 Robust Regression (http://www.ats.ucla.edu/stat/r/dae/rreg.htm) ，因为 R 实现加权最小二乘，权重考虑到每个样本并基于残差大于某一阈值的量。

16. 多项式回归: 用基函数展开线性模型

机器学习中一种常见的模式，是使用线性模型训练数据的非线性函数。这种方法保持了一般快速的线性方法的性能，同时允许它们适应更广泛的数据范围。

例如，可以通过构造系数的 polynomial features 来扩展一个简单的线性回归。在标准线性回归的情况下，你可能有一个类似于二维数据的模型:
$\hat{y}(w, x) = w_0 + w_1 x_1 + w_2 x_2$
如果我们想把抛物面拟合成数据而不是平面，我们可以结合二阶多项式的特征，使模型看起来像这样:
$\hat{y}(w, x) = w_0 + w_1 x_1 + w_2 x_2 + w_3 x_1 x_2 + w_4 x_1^2 + w_5 x_2^2$
观察到这还是一个线性模型(这有时候是令人惊讶的): 看到这个，想象创造一个新的变量。
$z = [x_1, x_2, x_1 x_2, x_1^2, x_2^2]$
有了这些重新标记的数据，我们可以将问题写成
$\hat{y}(w, x) = w_0 + w_1 z_1 + w_2 z_2 + w_3 z_3 + w_4 z_4 + w_5 z_5$
我们看到，所得的 polynomial regression 与我们上文所述线性模型是同一类（即关于 $w$ 是线性的)，因此可以用同样的方法解决。通过用这些基函数建立的高维空间中的线性拟合，该模型具有灵活性，可以适应更广泛的数据范围。

这里是一个例子，使用不同程度的多项式特征将这个想法应用于一维数据:

这个图是使用 PolynomialFeatures 预创建。该预处理器将输入数据矩阵转换为给定度的新数据矩阵，使用方法如下:

>>> from sklearn.preprocessing import PolynomialFeatures
>>> import numpy as np
>>> X = np.arange(6).reshape(3, 2)
>>> X
array([[0, 1],
 [2, 3],
 [4, 5]])
>>> poly = PolynomialFeatures(degree=2)
>>> poly.fit_transform(X)
array([[  1.,   0.,   1.,   0.,   0.,   1.],
 [  1.,   2.,   3.,   4.,   6.,   9.],
 [  1.,   4.,   5.,  16.,  20.,  25.]])

X 的特征已经从 $x_1, x_2]$ 转换到 $1, x_1, x_2, x_1^2, x_1 x_2, x_2^2]$ , 并且现在可以用在任何线性模型。

这种预处理可以通过 Pipeline 工具进行简化。可以创建一个表示简单多项式回归的单个对象，使用方法如下所示:

>>> from sklearn.preprocessing import PolynomialFeatures
>>> from sklearn.linear_model import LinearRegression
>>> from sklearn.pipeline import Pipeline
>>> import numpy as np
>>> model = Pipeline([('poly', PolynomialFeatures(degree=3)),
...                   ('linear', LinearRegression(fit_intercept=False))])
>>> # fit to an order-3 polynomial data
>>> x = np.arange(5)
>>> y = 3 - 2 * x + x ** 2 - x ** 3
>>> model = model.fit(x[:, np.newaxis], y)
>>> model.named_steps['linear'].coef_
array([ 3., -2.,  1., -1.])

利用多项式特征训练的线性模型能够准确地恢复输入多项式系数。

在某些情况下，没有必要包含任何单个特征的更高的幂，只需要相乘最多 $d$ 个不同的特征即可，所谓 交互特征(interaction features) 。这些可通过设定 PolynomialFeatures 的 interaction_only=True 得到。

例如，当处理布尔属性，对于所有 $x_i^n = x_i$ ，因此是无用的；但 $x_i x_j$ 代表两布尔结合。这样我们就可以用线性分类器解决异或问题:

>>> from sklearn.linear_model import Perceptron
>>> from sklearn.preprocessing import PolynomialFeatures
>>> import numpy as np
>>> X = np.array([[0, 0], [0, 1], [1, 0], [1, 1]])
>>> y = X[:, 0] ^ X[:, 1]
>>> y
array([0, 1, 1, 0])
>>> X = PolynomialFeatures(interaction_only=True).fit_transform(X).astype(int)
>>> X
array([[1, 0, 0, 0],
 [1, 0, 1, 0],
 [1, 1, 0, 0],
 [1, 1, 1, 1]])
>>> clf = Perceptron(fit_intercept=False, max_iter=10, tol=None,
...                  shuffle=False).fit(X, y)

分类器的 predictions 是完美的:

>>> clf.predict(X)
array([0, 1, 1, 0])
>>> clf.score(X, y)
1.0

你可能感兴趣的:(Scikit-Learn)

集成学习中的多样性密码：量化学习器的多样性元楼集成学习学习机器学习人工智能
合集-scikit-learn(69)1.【scikit-learn基础】--概述2023-12-022.【scikit-learn基础】--『数据加载』之玩具数据集2023-12-043.【scikit-learn基础】--『数据加载』之真实数据集2023-12-064.【scikit-learn基础】--『数据加载』之样本生成器2023-12-085.【scikit-learn基础】--『数据
Python 机器学习实战：Scikit-learn 算法宝典，从线性回归到支持向量机清水白石008 python Python题库 python 机器学习算法
Python机器学习实战：Scikit-learn算法宝典，从线性回归到支持向量机引言各位Python工程师，大家好！欢迎来到激动人心的机器学习世界！在这个数据驱动的时代，机器学习已经渗透到我们生活的方方面面，从智能推荐系统到自动驾驶汽车，都离不开机器学习技术的支撑。作为一名Python开发者，掌握机器学习技能，无疑将为您的职业发展注入强大的动力，让您在人工智能浪潮中占据先机。Scikit-lea
【机器学习|学习笔记】随机森林（Random Forest, RF）详解，附代码。努力毕业的小土博^_^ 机器学习基础算法优质笔记1 机器学习学习笔记随机森林人工智能
【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。文章目录【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。前言起源随机子空间法与Bagging的萌芽原理算法机制理论保障发展应用优缺点优点缺点Python实现示例（Scikit-learn）欢迎铁子们点赞、关注、收藏
Python scikit-learn 【机器学习库】全面讲解
让AI成为我们的得力助手：《用Cursor玩转AI辅助编程——不写代码也能做软件开发》scikit-learn（简称sklearn）是Python最流行的机器学习库之一，提供简单高效的数据挖掘和数据分析工具。它基于NumPy、SciPy和Matplotlib构建，广泛应用于工业界和学术界。核心优势统一API设计：所有模型使用一致的接口（fit()、predict()、score()）丰富的算法：覆
pythonflow_MLflow系列1：MLflow入门教程（Python） weixin_39872334 pythonflow
这篇教程展示了如何：训练一个线性回归模型将训练代码打包成一个可复用可复现的模型格式将模型部署成一个简单的HTTP服务用于进行预测这篇教程使用的数据来自UCI的红酒质量数据集，主要用于根据红酒的PH值，酸度，残糖量等指标来评估红酒的质量。我们会用到什么？安装MLflow和scikit-learn，推荐两种安装方式：安装MLflow及其依赖：pipinstallmlflow[extras]分别安装ML
Python 数据分析与机器学习入门 (一)：环境搭建与核心库概览程序员阿超的博客 Python python 数据分析机器学习入门教程环境搭建 Anaconda JupyterNotebook
Python数据分析与机器学习入门(一)：环境搭建与核心库概览本文摘要本文是Python数据分析与机器学习入门系列的第一篇，专为初学者设计。文章首先阐明了Python在数据科学领域的优势，然后手把手指导读者如何使用Anaconda搭建一个无痛、专业的开发环境，并介绍了强大的交互式工具JupyterNotebook的基本操作。最后，简要概览了NumPy、Pandas、Scikit-learn等核心库
【零基础学AI】第9讲：机器学习概述 1989 0基础学AI 人工智能机器学习 python numpy devops 开源
本节课你将学到理解什么是机器学习，以及它与传统编程的区别掌握监督学习、无监督学习的基本概念使用scikit-learn完成你的第一个机器学习项目构建一个完整的iris花朵分类器开始之前环境要求Python3.8+JupyterNotebook或任何PythonIDE需要安装的包pipinstallscikit-learnpandasmatplotlibseaborn前置知识基本的Python语法（
Scikit-learn：机器学习的「万能工具箱」科技林总 DeepSeek学AI 人工智能
——三行代码构建AI模型的全栈指南**###**一、诞生背景：让机器学习从实验室走向大众****2010年前的AI困境**：-学术界模型难以工程化-算法实现碎片化（MATLAB/C++主导）-企业应用门槛极高>**破局者**：DavidCournapeau发起*Scikit-learn*项目，**统一算法接口**+**Python简易语法**=机器学习民主化革命---###**二、设计哲学：一致性
python-拆解sklearn中决策树 weixin_41177022 scikit-learn 决策树 python 机器学习编程
获取树结构实体对scikit-learn中DecisionTreeClassifier/Regressor的实例调用.tree_属性可以得到树结构。参考sklearn的决策树的官方说明sklearn.tree.DecisionTreeClassifier（不过里面说的help(sklearn.tree._tree.Tree)似乎不管用）获取决策树基本信息node总数可以用model.tree_.n
第三课：大白话中的scikit-learn安装顽强卖力 scikit-learn python 机器学习
史上最欢乐的scikit-learn安装指南：从零开始到成功装逼大家好！这节课我们要干一件大事——安装scikit-learn（机器学习界的瑞士军刀）。别担心，就算你是电脑小白，看完这篇也能轻松搞定！我会手把手教你用pip安装、在Windows和Mac上折腾、以及用Anaconda偷懒大法，最后还会教你如何验证是否安装成功（避免装了个寂寞）。废话不多说，Let’sgo！1.什么是scikit-le
决策树算法雨巷码行人机器学习算法决策树机器学习
文章目录基本概念与原理决策树定义两种理解视角模型构建三要素1.特征选择(1)信息增益(ID3算法)(2)信息增益比(C4.5算法)(3)基尼指数(CART算法)2.决策树生成3.决策树剪枝(1)预剪枝(Pre-pruning)(2)后剪枝(Post-pruning)决策树算法对比CART回归树生成Scikit-learn实现分类树CART决策树-回归树决策树优劣势总结基本概念与原理决策树定义树形结
机器学习数据预处理：标签编码LabelEncoder 数字化与智能化人工智能机器学习机器学习标签编码 LabelEncoder
一、什么是标签编码LabelEncoderLabelEncoder是scikit-learn库中的一个预处理工具，用于将分类变量转换为整数标签。它主要用于处理目标变量（也称为标签）或特征变量中的分类数据。假设我们有一组学生的成绩数据，其中一个特征是学生的等级（A、B、C、D、E）。我们可以使用LabelEncoder将这些等级转换为整数标签。LabelEncoder主要用于将分类变量转换为整数标签
Python 人工智能与数据科学实战 gohacker python 人工智能开发语言
#Python人工智能与数据科学实战![PythonAI与数据科学](https://www.python.org/static/community_logos/python-powered-h-140x182.png)##机器学习入门###Scikit-learn基础```pythonfromsklearn.datasetsimportload_irisfromsklearn.model_sel
机器学习库scikit-learn的安装热河路就像捞大黑色信封 Python scikit-learn python 机器学习
bg：Windows环境下的，其它的应该也差不多都是通过pip1、打开终端2、输入pipinstallscikit-learn3、验证安装完成：终端输入：python-c"importsklearn;print(sklearn.__version__)"也可以运行代码：importsklearnprint("scikit-learn版本:",sklearn.__version__)
Python基础应用于电影数据分析实战项目 Lemaden
本文还有配套的精品资源，点击获取简介：本项目“analysis-movie-dataset”旨在使用Python基础技能对电影数据集进行分析。项目通过导入Pandas和Numpy等核心数据处理库，加载和初步了解数据集，进行数据清洗，以及计算统计量和进行可视化分析。此外，将探讨如何利用Matplotlib和Seaborn库创建图表，以及运用Pandas和Scikit-learn库进行更复杂的数据分析
python中Scikit-learn模块介绍不会仰游的河马君 python python scikit-learn 开发语言
Scikit-learn是Python中一个开源的机器学习库，它提供了简单高效的工具，用于数据挖掘和数据分析。该库包含了各种分类、回归、聚类算法，以及数据预处理、模型选择、模型评估等功能。Scikit-learn的特点是接口统一、使用简单、运行高效，并且有一个活跃的社区不断维护和更新。它广泛应用于数据科学、机器学习、人工智能等领域。应用和发展趋势Scikit-learn在机器学习和数据科学领域的应
图像处理与机器学习项目：特征提取、PCA与分类器评估 pk_xz123456 深度学习仿真模型算法图像处理机器学习人工智能
图像处理与机器学习项目：特征提取、PCA与分类器评估项目概述本项目将完成一个完整的图像处理与机器学习流程，包括数据探索、特征提取、主成分分析(PCA)、分类器实现和评估五个关键步骤。我们将使用Python的OpenCV、scikit-learn和scikit-image库来处理图像数据并实现机器学习算法。importnumpyasnpimportmatplotlib.pyplotaspltimpo
【Python】机器学习：Scikit-learn、Statsmodels
机器学习：Scikit-learn、Statsmodels文章目录机器学习：Scikit-learn、Statsmodels1.**Scikit-learn****主要功能****核心模块****常用功能及代码示例**1.**数据预处理**2.**分类算法**3.**回归算法**4.**聚类算法**5.**模型选择**6.**Pipeline**2.**Statsmodels****主要功能***
利用 Python 和 scikit - learn 进行分层抽样 Python编程之道 python 开发语言 ai
利用Python和scikit-learn进行分层抽样关键词：分层抽样、scikit-learn、Python、数据采样、机器学习、数据预处理、统计学摘要：本文深入探讨了分层抽样在数据科学和机器学习中的应用。我们将从统计学基础出发，详细讲解分层抽样的原理、优势以及实现方法。通过Python和scikit-learn库的实际代码示例，展示如何在不同场景下应用分层抽样技术。文章还涵盖了分层抽样的数学模
NumPy 的入门指南，专为 Python 新手设计，帮助你快速掌握 NumPy 的核心概念和常用函数：晨曦543210 numpy python 开发语言
一、NumPy是什么？NumPy（NumericalPython）是Python中用于科学计算的核心库，专注于高效的多维数组（ndarray）操作。核心优势：提供高性能的数组对象（比Python原生列表快50倍以上）。支持向量化运算（无需编写循环即可批量处理数据）。是众多科学库（如Pandas、Matplotlib、Scikit-learn）的基础。二、为什么需要NumPy？假设要计算两个长度为1
《打造你的第一个数据挖掘工具：用 scikit-learn 快速原型开发与高效特征工程指南》清水白石008 python Python题库数据挖掘 scikit-learn 人工智能 python
《打造你的第一个数据挖掘工具：用scikit-learn快速原型开发与高效特征工程指南》一、引言：当Python遇上数据挖掘从电商推荐、医疗预测，到工业预警与用户画像，数据挖掘已成为现代智能系统的核心。Python作为数据科学领域的通用语言，其简洁优雅的语法与丰富的库生态让从原型构想到落地部署变得前所未有地高效。在众多库中，scikit-learn是构建数据挖掘系统不可或缺的基石——它让你专注于逻
Python 数据分析：NumPy 库的使用小张在编程 python 数据分析 numpy
引言：为什么说NumPy是Python数据分析的“基石”？在Python数据分析领域，有这样一句话：“没有NumPy，就没有Pandas、Matplotlib和Scikit-learn”。作为Python科学计算的核心库，NumPy（NumericalPython）凭借高效的多维数组（ndarray）和向量化运算能力，成为了所有数据分析工具的底层支撑。无论是处理百万级别的销售数据，还是实现复杂的机
突然无法调用scikit-learn、xgboost RockyRich python scikit-learn python 机器学习
遇到的错误包含：File"",line3,inFile"/usr/anaconda3/envs/py37/lib/python3.7/site-packages/sklearn/__init__.py",line81,infrom.import__check_build#noqa:F401File"/usr/anaconda3/envs/py37/lib/python3.7/site-packag
Scikit-learn：开启量化价值投资的新征程量化价值投资入门到精通 scikit-learn python 机器学习 ai
Scikit-learn：开启量化价值投资的新征程关键词：Scikit-learn、量化投资、价值投资、机器学习、特征工程、投资组合优化、金融数据分析摘要：本文深入探讨了如何利用Scikit-learn这一强大的Python机器学习库来构建量化价值投资系统。文章从基础概念出发，详细介绍了价值投资的量化实现方法，包括数据获取与处理、特征工程、模型构建与优化等关键环节。通过实际案例展示了如何使用机器学
AI 十三、Python中，项目实战：企业知识库构建二十方来财 ai 人工智能 python 开发语言
进一步优化和扩展企业知识库系统，可以通过以下几个方面来提升系统的功能和性能：1.文本分类与标签生成文本分类和标签生成是提高文档检索效率的重要手段。通过机器学习模型（如scikit-learn或spaCy）对文档进行分类，我们可以自动为文档生成相关标签，并为后续的检索提供支持。1.1使用scikit-learn进行文本分类我们可以使用scikit-learn库中的TfidfVectorizer和Lo
使用Python和Scikit-Learn实现机器学习模型调优 Blossom.118 机器学习与人工智能机器学习人工智能 scikit-learn 开发语言目标检测 python 深度学习
在机器学习项目中，模型的性能往往取决于多个因素，其中模型的超参数（hyperparameters）起着关键作用。超参数是模型在训练之前需要设置的参数，例如决策树的深度、KNN的邻居数等。合理地选择超参数可以显著提升模型的性能。Scikit-Learn是一个功能强大的机器学习库，它提供了多种工具来帮助我们进行模型调优。本文将通过一个具体的例子，介绍如何使用Scikit-Learn进行模型调优。一、环
sklearn 和 pytorch tensorflow什么关系 MYH516 sklearn pytorch tensorflow
Scikit-learn、PyTorch和TensorFlow是Python生态中互补的机器学习库，但它们的定位和应用场景有明显区别：核心定位对比库主要定位抽象层级核心优势典型场景Scikit-learn传统机器学习（浅层模型）高简单易用、丰富的工具链数据预处理、分类/回归、特征工程PyTorch深度学习（动态计算图）中低灵活、易于调试、学术友好研究原型、自然语言处理、计算机视觉TensorFlo
scikit-learn机器学习 kaka_R-Py 机器学习 scikit-learn python
#同时添加如下代码,这样每次环境(kernel)启动的时候只要运行下方代码即可:#Alsoaddthefollowingcode,#sothateverytimetheenvironment(kernel)starts,#justrunthefollowingcode:importsyssys.path.append('/home/aistudio/external-libraries')机器学习
08_预处理与缩放白杆杆红伞伞 machine learning 机器学习支持向量机人工智能
描述机器学习的一些算法（如神经网络、SVM）对数据缩放非常敏感。通常的做法是对特征进行调节，使数据表示更适合与这些算法。scikit-learn中提供了4中数据缩放方法：StandardScaler：确保每个特征平均值为0，方差为1，使所有特征都位于同一量级RobusScaler：工作原理与StandardScaler类似，确保每个特性的统计属性都位于同一范围MinMaxScaler：移动数据，使
python怎么训练模型_python svm 怎么训练模型 weixin_39529903 python怎么训练模型
展开全部支持2113向量机SVM(SupportVectorMachine)是有监督的分类预测模型，本篇文章5261使用机器学习库scikit-learn中的手写数字数4102据集介绍使用Python对SVM模型进行1653训练并对手写数字进行识别的过程。准备工作手写数字识别的原理是将数字的图片分割为8X8的灰度值矩阵，将这64个灰度值作为每个数字的训练集对模型进行训练。手写数字所对应的真实数字作
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s