来源:投稿 作者:LSC
编辑:学姐
XGBoost是对GBDT的改进和扩展,它提供了更高的效率、更好的性能、正则化技术、内置特征选择等功能。
(1)正则化:
GBDT使用基本的树模型,并在每一轮迭代中逐渐增加树的复杂性。它使用简单的正则化技术,如叶子节点的最小样本数限制,来防止过拟合。
XGBoost引入了正则化技术,包括L1和L2正则化,以减少过拟合风险。它还使用了二阶导数信息来提高训练的稳定性。
(2)高效性:
XGBoost通过多线程和分布式计算提供了更高的训练效率。它实现了高度优化的数据存储和计算,以减少内存使用和加速训练过程。
GBDT通常以串行方式训练,训练时间可能较长,特别是在处理大规模数据时。
(3)缺失值处理:
XGBoost能够自动处理缺失值,无需手动进行处理。
在GBDT中,需要在数据预处理阶段手动处理缺失值,通常通过填充或删除缺失值。
(4)内置特征选择:
XGBoost具有内置的特征选择功能,它可以估计每个特征的重要性,并根据其重要性进行特征选择。GBDT通常需要手动进行特征选择或依赖其他特征选择方法。
(5)求导优化:
GBDT只需要对目标函数求一阶导,xgboost要求二阶导。
(1)门控机制:
LSTM引入了门控机制,包括遗忘门、输入门和输出门,这些门控制着信息的流动和保存。遗忘门决定哪些信息应该被遗忘,输入门控制哪些信息应该被添加到记忆单元,输出门控制什么信息应该传递到下一个时间步。这种机制有助于控制信息的流动,提高了模型的训练效率。
(2)长期记忆:
LSTM的主要特点是能够捕捉和维护长期依赖关系,它在处理序列数据中表现出色。传统的RNN存在梯度消失问题,导致难以学习长序列的依赖关系,而LSTM通过设计具有记忆单元的结构来解决这个问题,允许信息在长时间内保持不变。
(3)平行化训练:
LSTM具有良好的并行性,可以加速训练过程,特别是在GPU上进行训练。这有助于处理大规模数据和加速深度学习模型的训练。
最重要的特点是自注意力机制。
对比CNN,transformer更注重全局特征,特征之间能并行计算,CNN更注重局部特征,图像分类领域中,在图像数量充足的情况下,tranformer的效果通常比CNN好。
优点:
(1) 当特征值大于0时,可以避免梯度消失
(2)计算简单
缺点:
(1) 非零均值
(2)当特征值大量小于0时,可能引起梯度消失
(3)当特征值大于0时,非线性拟合能力可能下降
改进:改用Leaky ReLU函数
# file.txt
# int int string
1 2 str1
1 1 str2
2 2 str3
# 按第一列的倒序,第二列的正序排序输出
2 2 str3
1 1 str2
1 2 str1
答案:
sort -r 1 -k 2 file.txt
6.Coding 斐波那契数列
# 1 1 2 3 5 ...
# input : n
# output: 第n位的值
# n = 3, => 3
def func(n):
if n == 0 or n == 1:
return 1
a, b = 1, 1
for i in range(2, n+1):
tmp = b
b = a + b
a = tmp
return b
它用于处理海量数据,其核心思想是将大规模数据集分为多个小的子集,然后并行处理这些子集,最后将结果进行合并。
(1)引用访问一个变量是直接访问,而指针是间接访问。
(2)引用是一个变量的别名,不额外占用内存空间,而指针是一个变量,有自己的内存空间。
(3)引用定义的时候必须赋值,并且赋值之后不可以改变,指针定义的时候可以不赋值,赋值后可以改变其所指的值。
(4)引用不可以为空,但是指针可以指向空值。
(5)引用是类型安全的,一般不会引起内存泄露的问题,指针可能会,一般尽可能用引用代替指针。
我介绍了resnet,inceptionnet, yolo模型等
(1)欠采样
(2)过采样
(3)平衡读取数据
(4)设置权重,对样本较少的数据设置较高的训练权重
(5)使用平衡损失函数,比如focal loss等
(6)数据增强
Focal Loss 最初由物体检测领域的研究者提出,其主要目标是减轻模型在训练过程中对大多数背景类别的关注,从而更好地处理少数类别的样本。这种损失函数有助于提高模型对罕见类别的检测性能。
Focal Loss 的主要特点如下:
**关注难分样本: **Focal Loss 通过调整样本的权重,更加关注难以分类的样本。通常情况下,容易分类的样本(大多数属于背景类别)会降低其权重,而难分类的样本(属于少数类别)会增加其权重。
**降低易分类样本的权重: **通过调整损失函数,Focal Loss 能够有效地降低容易分类的样本(背景类别、样本数量多的类别)的权重,这样模型将更加关注罕见类别,从而提高了模型在罕见类别的检测能力。
Focal Loss 的引入有助于提高目标检测模型对于罕见目标的检测性能,减轻了类别不平衡问题对模型训练的影响。
二叉搜索树的左子树的结点的值都比根结点小,右子树结点的值都比根结点大。一般情况下,插入删除搜索的时间复杂度是O(logn),最坏情况下是O(n)。
二叉堆分为最大堆、最小堆。如果是最大堆,只要保证根结点的值大于左右子树的结点的值。插入删除排序的时间复杂度是O(nlogn)
关注下方《学姐带你玩AI》
算法工程师万能简历公式+200多个简历模板(中英文)
回复“简历”轻松获取!
码字不易,欢迎大家点赞评论收藏!