一些算法笔记(XGboost、梯度下降法、L1与L2正则化、Logistic回归)

1.Xgboost是一种串行的算法,如何实现并行操作

XGboost算法: 树和树之间是串行的,下一棵树生成与上一棵树有关;并行主要体现在对特征的选择,分裂点计算上是可以并行的(单棵树生长上特征是可以并行的)

2. XGboost最后的score如何使用

XGboost是有CART回归树构成的,每棵树输出的是一个值score;汇总求和多棵树得到每个样本的score
回归问题:直接使用
分类问题:将多棵树加总求和,得到每个样本的score;送入到sigmoid函数中,得到分 类的概率;
每增加一棵树,用来调整score, 使得每增加一棵树,正样本的概率往类别1那边靠,负样本的概率往类别0那边靠。
不关注每增加一棵树的得分直接修正最后的结果,我们关注每增加一棵树,希望最终的得分能让损失函数往下降。

3. 梯度下降法

凸函数
沿着梯度方向,函数值是变大的方向
沿着负梯度方向,函数值是逐步变小的方向
逐步迭代

4. L1、L2正则化

L1: ||x|| --> 产生稀疏解
L2 : ||x||2 —> 压缩效应,权重参数k变得很小,变得很光滑
从贝叶斯角度(先验角度)理解L1,L2 :
L1正则化: 相当于对数据加了一个先验 Laplace(拉普拉斯)先验
L2正则化: 相当于对数据加了一个先验 高斯先验(Gaussian分布)

5.Logistic回归中极大似然估计的理解

一些算法笔记(XGboost、梯度下降法、L1与L2正则化、Logistic回归)_第1张图片

6. 朴素贝叶斯

p(B) 先验概率
P(B|A) 后验概率
P(AB)联合概率

7. 交叉验证

交叉验证是用来评估的手段;当样本类别分布不均衡时,不能使用简单随机交叉验证去;而是使用分层抽样交叉验证(Stratified cross-validation) 用于抽样非均衡样本, 用于保证每一折中不同样本比例一致。

时间序列数据不能使用简单的随机交叉验证去切分(不能用后面发生的数据与预测之前的)

类别不均衡时,不能使用准确率这样的指标,而是是用 f1-score\AUC

你可能感兴趣的:(一些算法笔记(XGboost、梯度下降法、L1与L2正则化、Logistic回归))