Julie Y

保研面试之机器学习

保研面试机器学习

CNN

卷积层：提取特征

池化层：减少图片特征，避免全连接参数过多

=>得到feature map

全连接：按权值分类

sigmoid函数：单一分类
Softmax（交叉熵损失）多分类，求出概率

SVM与神经网络的联系与区别

1、SVM得到的解是全局最优解，神经网络是得到局部最优解。

2、SVM与神经网络可以认为都源自于感知机，但是SVM是通过升维将非线性问题在核空间里映射成为一个线性问题，而神经网络则是通过多个感知机的组合叠加来解决分类问题。

3、SVM基于最大边缘的思想，因而依赖的参数较少，但是神经网络非常依赖参数（如学习率、隐含层的结构、节点的个数等），参数的好坏对神经网络的影响很大。

目标检测算法

1. 目的

识别物体及其位置。bounding box(x,y:中心坐标，w,h:框的宽高)(xmin,ymin:左上角坐标，xmax,ymax:右下角坐标)

2. 分类

两步走目标检测：选出候选的一些区域->对区域进行调整和分类
端对端：一个网络一步到位，输入图片输出物体及其位置

3. 算法模型

overfeat：暴力穷举，计算量过大
R-CNN：训练模型多，耗时长
- 找出2000个候选区域，调整为一样的大小。
- 2000张图片卷积提取特征向量
- 对不同类别用SVM进行(二)分类。
- 2000个进行非极大抑制（NMS）,只保留一个最优的框，删去重叠特征。对2000个区域的得分以0.5为界进行筛选。剩余候选框找到自己真实框位置，每个候选框互相IOU(交集/并集)，淘汰大的，最终最好一个物体剩余一个候选框。
- 修正候选框，bbox回归微调
  
  [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nq9El5LR-1668769102311)(C:\Users\ThinkPad\AppData\Roaming\Typora\typora-user-images\image-20220915105734882.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2VmKvY0e-1668769102312)(C:\Users\ThinkPad\AppData\Roaming\Typora\typora-user-images\image-20220915112549919.png)]
SPP-net:整个图像卷积->SPP池化提取特征向量->SVM分类->bbox调整
Fast R-CNN：提出rol pooling+softmax

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3kPgmYzK-1668769102313)(C:\Users\ThinkPad\AppData\Roaming\Typora\typora-user-images\image-20220915114415145.png)]
- 整个图像卷积得到feature Map
- SS算法让候选区直接映射在特征向量中
- 每个候选区提取一个固定长度特征向量，为减少计算选用单尺度

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8Sq6xbx2-1668769102313)(C:\Users\ThinkPad\AppData\Roaming\Typora\typora-user-images\image-20220915114059004.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hF8uQ9IQ-1668769102313)(C:\Users\ThinkPad\Desktop\专业课\image-20220915114733731.png)]

faster R-CNN：端到端模型，用区域生成网络(RPN)代替SS(选择搜索算法)
- RPN：通过softmax判断anchors属于foreground还是background->bounding box regression修正anchors获得精确的候选区
YOLO：GooleNet+4个卷积+2个全连接层
- 图片分成grid cell，一个网格预测两个bbox，预测物体类别与概率，直接由网络输出。由中心点是否在网格中判断网格里面是否有物体。没有物体，confidence=0，有confidence score=预测的box 和GT的IOU乘积。
- 最大抑制，过滤掉概率低的bbox
- 训练：反向输出，位置与目标位置损失计算，概率与目标概率损失计算
  
  缺点：两个物体中心点落到一个网格内，小物体检测准确率低
SSD：保留不同尺度形成的中间特征值，不同尺度的特征图上采用卷积核来预测一系列Default Bounding Boxes的类型、坐标偏移

什么是梯度爆炸和梯度消失？如何解决梯度消失、梯度爆炸？

在反向传播过程中需要对激活函数进行求导，如果导数大于 1 11，那么随着网络层数的增加梯度更新将会朝着指数爆炸的方式增加这就是梯度爆炸。同样如果导数小于 1 11，那么随着网络层数的增加梯度更新信息会朝着指数衰减的方式减少这就是梯度消失。因此，梯度消失、爆炸，其根本原因在于反向传播训练法则，属于先天不足。

解决方法：
[1] 对于RNN，可以通过梯度截断，避免梯度爆炸。
[2] 可以通过添加正则项，避免梯度爆炸。
[3] 使用LSTM等自循环和门控制机制，避免梯度消失。
[4] 优化激活函数，譬如将 sigmoid 改为 relu，避免梯度消失。
你对什么方向感兴趣？那个是干什么的？

数据挖掘：数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程，包含了机器学习、统计学、数学等多个学科的知识。

数据挖掘三大常见的任务：
♣ 回归任务：回归任务是一种对连续型随机变量进行预测和建模的监督学习算法，使用案例包括房价预测、股票走势等。
♣ 分类任务：分类是一种对离散型变量建模或预测的监督学习算法，使用案例包括邮件过滤、金融欺诈等。
♣ 聚类任务：聚类是一种无监督学习，它是基于数据的内部结构寻找观察样本的自然族群（集群），使用案例包括新闻聚类、文章推荐等。

♢ 监督学习：数据集中每个样本都有相应的标签。
♢ 无监督学习：数据集中的样本没有相应的标签。

无监督学习算法（Unsupervised Learning）使用无标记数据（输入变量没有对应输出结果），试图识别数据本身的内部结构。无监督学习算法主要有两类：降维算法（降低数据维度）如主成分分析等，聚类算法如K均值聚类、层次聚类等。
简述PCA的计算过程/介绍下PCA算法过程

PCA (Principal Component Analysis)是最常用的线性降维方法，它的目标是通过某种线性投影，将高维的数据映射到低维的空间中表示，并期望在所投影的维度上数据的方差最大，以此使用较少的数据维度，同时保留住较多的原数据点的特性。

线性回归模型和随机森林模型

（1）关于回归
从大量的函数结果和自变量反推回函数表达式的过程就是回归。

回归算法是一种有监督学习算法，用来建立自变量 X和观测变量 Y之间的映射关系，如果观测变量是离散的，则称其为分类Classification；如果观测变量是连续的，则称其为回归Regression。
回归算法的目的是寻找假设函数hypothesis来最好的拟合给定的数据集。常用的回归算法有：线性回归（Linear Regression）、逻辑回归（Logistic Regression）、多项式回归（Polynomial Regression）、岭回归（Ridge Regression）、LASSO回归（Least Absolute Shrinkage and Selection Operator）、弹性网络（Elastic Net estimators）、逐步回归（Stepwise Regression）等。

（2）线性回归模型

线性回归模型试图学得一个线性模型以尽可能准确地预测实值 X XX 的输出标记 Y YY。在这个模型中，因变量 Y 是连续的，自变量 X可以是连续或离散的。（线性回归的定义是：目标值预期是输入变量的线性组合。）
在回归分析中，如果只包括一个自变量和一个因变量，且二者关系可用一条直线近似表示，称为一元线性回归分析；如果回归分析中包括两个或两个以上的自变量，且因变量和自变量是线性关系，则称为多元线性回归分析。对于二维空间线性是一条直线，对于三维空间线性是一个平面，对于多维空间线性是一个超平面。

（3）随机森林（Random Forest，简称RF）算法

a) 集成学习
集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型，各自独立地学习和做出预测。这些预测最后结合成单预测，因此优于任何一个单分类的做出预测。随机森林是集成学习的一个子类，它依靠于决策树的投票选择来决定最后的分类结果。

集成学习分两种：

[1] 模型之间彼此存在依赖关系，按一定的次序搭建多个分类模型，一般后一个模型的加入都需要对现有的集成模型有一定贡献，进而不断提高更新过后的集成模型性能，并借助多个弱分类器搭建出强分类器。代表有Boosting（AdaBoost）算法。该算法与第一种的随机森林主要区别在于每一颗决策树在生成的过程中都会尽可能降低模型在训练集上的拟合或训练误差

[2] 模型之间彼此不存在依赖关系，彼此独立。利用相同的训练数据同时搭建多个独立的分类模型，然后通过投票的方式，以少数服从多数的原则做出最终的分类决策。例如：Bagging和随机森林（Random Forest）.
b) 概述
严格来说，随机森林其实算是一种集成算法。它首先随机选取不同的特征(feature)和训练样本(training sample)，生成大量的决策树，然后综合这些决策树的结果来进行最终的分类。

随机森林算法是最常用也是最强大的监督学习算法之一，它兼顾了解决回归问题和分类问题的能力。随机森林是通过集成学习的思想，将多棵决策树进行集成的算法。对于分类问题，其输出的类别是由个别树输出的众数所决定的。在回归问题中，把每一棵决策树的输出进行平均得到最终的回归结果。

tips：决策树的数量越大，随机森林算法的鲁棒性越强，精确度越高。

随机森林在现实分析中被大量使用，它相对于决策树，在准确性上有了很大的提升，同时一定程度上改善了决策树容易被攻击的特点。

c) 随机森林算法的步骤

首先，对样本数据进行有放回的抽样，得到多个样本集。具体来讲就是每次从原来的N个训练样本中有放回地随机抽取 N个样本(包括可能重复样本)。
然后，从候选的特征中随机抽取 m mm 个特征，作为当前节点下决策的备选特征，从这些特征中选择最好的划分训练样本的特征。用每个样本集作为训练样本构造决策树。单个决策树在产生样本集和确定特征后，使用CART算法计算，不剪枝。
最后，得到所需数目的决策树后，随机森林方法对这些树的输出进行投票，以得票最多的类作为随机森林的决策。
或：
随机森林是基于bagging框架下的决策树模型，随机森林包含了很多树，每棵树给出分类结果，每棵树的生成规则如下：

如果训练集大小为 N，对于每棵树而言，随机且有放回地从训练中抽取 N个训练样本，作为该树的训练集，重复 K次，生成 K组训练样本集。
如果每个特征的样本维度为 M ，指定一个常数 m ≪ M ，随机地从 M 个特征中选取 m 个特征。
利用 m mm 个特征对每棵树尽最大程度的生长，并且没有剪枝过程。

随机森林中有两个可控制参数：
♠ 森林中树的数量（一般选取值较大）。
♠ 抽取的属性值 m的大小。
d) 随机森林的特点

在当前所有算法中，具有极好的准确率
能够有效地运行在大数据集上
能够处理具有高维特征的输入样本，而且不需要降维
能够评估各个特征在分类问题上的重要性
在生成过程中，能够获取到内部生成误差的一种无偏估计
对于缺省值问题也能够获得很好的结果

e) 随机森林算法的缺点
随机森林在解决回归问题时，并没有像它在分类中表现的那么好，这是因为它并不能给出一个连续的输出。当进行回归时，随机森林不能够做出超越训练集数据范围的预测，这可能导致在某些特定噪声的数据进行建模时出现过度拟合。（随机森林已经被证明在某些噪音较大的分类或者回归问题上回过拟合）。
对于小数据或者低维数据（特征较少的数据），可能不能产生很好的分类。（处理高维数据，处理特征遗失数据，处理不平衡数据是随机森林的长处）。
f) 适用情景
（随机森林既可以用于分类，也可以用于回归。一般适用于数据维度较低，同时对准确性要求较高的场景中。）数据维度相对低（几十维），同时对准确性有较高要求时。
因为不需要很多参数调整就可以达到不错的效果，基本上不知道用什么方法时都可以先试一下随机森林。

常见的数据挖掘算法
1. k-means算法（k均值算法）
  聚类算法，事先确定常数 k kk，k kk 代表着聚类类别数。首先随机选取 k kk 个初始点为质心，并通过计算每一个样本与质心之间的相似度（可以采用欧式距离），将样本点归到最相似的类中，接着重新计算每个类的质心（该类中所有点的平均值），重复这样的过程直到质心不再改变，最终就确定了每个样本所属的类别以及每个类的质心。

优点：原理简单、容易实现。

缺点：收敛太慢、算法复杂度高、需先确定K的个数、结果不一定是全局最优，只能保证局部最优。

由于每次都要计算所有样本与每一个质心之间的相似度，故在大规模的数据集上，K-Means算法的收敛速度比较慢。

改进收敛速度：第一次迭代正常进行，选取 K KK 个初始点为质心，然后计算所有节点到这些质心的距离，后续的迭代中，不再计算每个点到所有 K KK 个质心的距离，仅仅计算上一次迭代中离这个节点最近的某几个质心的距离，对于其他的质心，因为距离太远，归属到那些组的可能性非常小，所以不用再重复计算距离了。

kNN （k近邻）学习
思路：对于待判断的点，找到离它最近的几个数据点，根据它们的类型决定待判断点的类型。k 近邻学习是一种常用的监督学习方法，其工作机制非常简单：给定测试样本，基于某种距离度量找出训练集中与其最靠近的 k个训练样本，然后基于这 k个“邻居”的信息来进行预测。通常，在分类任务中可使用“投票法”，即选择这 k 个样本中出现最多的类别标记作为预测结果；在回归任务中可使用“平均法”，即将这 k 个样本的实值输出标记的平均值作为预测结果；还可基于距离远近进行加权平均或加权投票，距离越近的样本权重越大。

（k最邻近分类算法，每个样本都可以用它最接近的 k 个邻居中大多数样本所属的类别来代表，其中近邻距离的度量方法有余弦值，在实际中 k 值一般取一个比较小的数值，通常采用交叉验证法（就是利用一部分样本做训练集，一部分样本做测试集），通过观察 k 值不同时模型的分类效果来选取最优的 k值。）

决策树（ID3算法和C4.5算法）
a) 概述
决策树是一种简单高效并且具有强解释性的模型，广泛应用于数据分析领域。其本质是一颗由多个判断节点组成的树。在使用模型进行预测时，根据输入参数依次在各个判断节点进行判断游走，最后到叶子节点即为预测结果。
决策树学习通常包括 3个步骤：特征选择、决策树的生成和决策树的修剪。
决策树算法的核心是通过对数据的学习，选定判断节点，构造一颗合适的决策树。
b)构造决策树的主要步骤
遍历每个决策条件，对结果集进行拆分。
计算在该决策条件下，所有可能的拆分情况的信息增益，信息增益最大的拆分为本次最优拆分。
递归执行1、2两步，直至信息增益<=0。
决策树既可以作为分类算法，也可以作为回归算法，同时也特别适合集成学习比如随机森林。
c) 决策树的剪枝方式
剪枝(pruning)是决策树学习算法对付“过拟合”的主要手段。
决策树剪枝的基本策略有“预剪枝”和“后剪枝”。预剪枝是指在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点；后剪枝则是先从训练集生成一棵完整的决策树，然后自底向上地对非叶节点进行考察，若将该结点对应的子树替换为叶节点能带来决策树泛化性能提升，则将该子树替换为叶结点。

d) 优缺点
优点：

计算量较小
清晰表达属性的重要程度
可增量学习对模型进行部分重构
不需要任何领域知识和参数假设
适合高维数据
随机森林是基于决策树的集成学习策略，随机森林鲜有短板
缺点：
1、没有考虑属性间依赖
2、容易过拟合，通过剪枝缓解
3、不可用于推测属性缺失的样本

e) ID3算法
熵是信息论中的概念，熵度量了事物的不确定性，越不确定的事物，它的熵就越大。当每件事物发生的概率相同时，它们发生的随机性最大，所以它们的熵也就越大。ID3算法就是用信息增益来判别当前节点应该用什么特征来构建决策树。某个特征的信息增益越大表示该特征对数据集的分类的不确定性减少的程度越高，越适合用来分类。

ID3算法的核心是在决策树各个节点上应用信息增益准则选择特征，递归地构建决策树。具体方法是：从根节点开始，对节点计算所有可能的特征的信息增益，选择信息增益最大的特征作为节点的特征，由该特征的不同取值建立子节点；再对子节点递归的调用以上方法，构建决策树；直到所有特征的信息增益均很小或没有特征可以选择为止。最后得到一个决策树。ID3相当于用极大似然估计法进行概率模型的选择。

ID3算法的不足：

f) C4.5算法
以信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题。使用信息增益比可以对这一问题进行校正。C4.5算法与ID3算法相似，C4.5算法对ID3算法进行了改进，C4.5在生成的过程中，用信息增益比来选择特征。

C4.5算法的不足：

朴素贝叶斯(naive Bayes)
a) 概述
逻辑回归通过拟合曲线（或者学习超平面）实现分类，决策树通过寻找最佳划分特征进而学习样本路径实现分类，支持向量机通过寻找分类超平面进而最大化类别间隔实现分类。相比之下，朴素贝叶斯独辟蹊径，通过特征概率来预测分类。

朴素贝叶斯（naive Bayes）法是一种基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入输出的联合概率分布；然后基于此模型，对给定的输入 x xx，利用贝叶斯定理求出后验概率最大的输出 y yy。

朴素贝叶斯是经典的机器学习算法之一，也是为数不多的基于概率论的分类算法。朴素贝叶斯原理简单，也很容易实现，学习与预测的效率都很高，多用于文本分类，比如垃圾邮件过滤。

b) QA：朴素贝叶斯朴素在哪里呢？
—— 两个假设：

一个特征出现的概率与其他特征（条件）独立。
每个特征同等重要。
或：假设各特征之间相互独立。

c) 优缺点
优点：
1、计算量较小
2、支持懒惰学习、增量学习
3、对缺失数据不太敏感
4、推断即查表，速度极快

缺点：
1、没有考虑属性间依赖
2、通过类先验概率产生模型

逻辑回归(logistic回归)
logistic回归虽然带着回归两字却和线性回归有很大的区别，线性回归主要用于预测问题，其输出值为连续变量，而logistic回归主要用于分类问题，其输出值为离散值。logistic回归可以用于多元分类问题，也可以用于二元分类问题，但二元分类更为常用。

逻辑回归是应用非常广泛的一个分类机器学习算法，它将数据拟合到一个logit函数(或者叫做logistic函数)中，从而能够完成对事件发生的概率进行预测。

逻辑回归是一个使用逻辑函数将线性回归的结果归一化的分类模型，这里的归一化指将值约束在 0 00 和 1 11 之间。

缺点：容易欠拟合，分类精度可能不高。

SVM（支持向量机）
SVM的全称是Support Vector Machine，即支持向量机，主要用于解决模式识别领域中的数据分类问题，属于有监督学习算法的一种。

通俗来讲，SVM是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。

SVM分类，就是找到一个超平面，让两个分类集合的支持向量或者所有的数据（LSSVM）离分类平面最远；SVR回归，就是找到一个回归平面，让一个集合的所有数据到该平面的距离最近。SVR是支持向量回归(support vector regression)的英文缩写，是支持向量机(SVM)的重要的应用分支。

a) 目标
SVM是一个二类分类器，它的目标是找到一个超平面，使用两类数据离超平面越远越好，从而对新的数据分类更准确，即使分类器更加健壮。

支持向量（Support Vetor）：就是离分隔超平面最近的那些点。
寻找最大间隔：就是寻找最大化支持向量到分隔超平面的距离，在此条件下求出分隔超平面。
b) 支持向量机的基本原理
【硬间隔】支持向量机的基本原理是在（不同的）类间找到合适的最宽的‘街道’（street）。换句话说，目标是在划分两类训练样本的决策边界之间找到最大的间隔。

【软间隔】当用软间隔（soft-margin）进行分类时，SVM在‘完美划分两类’和‘找到最宽街道’之间做一个折中（亦即少数样本会落到‘街道’上）。

【核】另外一个关键思想是当在非线性数据集上用核（kernel）。核函数（kernel function）将特征从低维到高维进行转换，但是它是先在低维上进行计算，实际的分类效果表现在高维上。这样就避免了在高维上复杂的计算，仍得到相同的结果。

♡ \heartsuit♡一些常用的核函数：多项式核、高斯核、线性核。

c) SVM特点
非线性映射是SVM方法的理论基础，SVM利用内积核函数代替向高维空间的非线性映射；
对特征空间划分的最优超平面是SVM的目标，最大化分类边际的思想是SVM方法的核心；
支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。因此，模型需要存储空间小，算法鲁棒性强；
无任何前提假设，不涉及概率测度；
SVM算法对大规模训练样本难以实施
由于SVM是借助二次规划来求解支持向量，而求解二次规划将涉及N阶矩阵的计算（N NN 为样本的个数），当 N NN 数目很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间。针对以上问题的主要改进有有J.Platt的SMO算法、T.Joachims的SVM、C.J.C.Burges等的PCGC、张学工的CSVM以及O.L.Mangasarian等的SOR算法。
用SVM解决多分类问题存在困难
经典的支持向量机算法只给出了二类分类的算法，而在数据挖掘的实际应用中，一般要解决多类的分类问题。可以通过多个二类支持向量机的组合来解决。主要有一对多组合模式、一对一组合模式和SVM决策树；再就是通过构造多个分类器的组合来解决。主要原理是克服SVM固有的缺点，结合其他算法的优势，解决多类问题的分类精度。如：与粗集理论结合，形成一种优势互补的多类问题的组合分类器。
d) 解释SVM为什么要化对偶形？百万样本量可以用SVM吗？
对偶问题将原始问题中的约束转为了对偶问题中的等式约束。

方便核函数的引入。

改变了问题的复杂度。由求特征向量 w ww 转化为求比例系数 a aa，在原始问题下，求解的复杂度与样本的维度有关，即 w ww 的维度。在对偶问题下，只与样本数量有关。

在一个有百万量级的样本和数以百计的特征的训练集上，该用原始形式还是对偶形式的SVM****来训练模型？
这个问题只能是对线性SVM来说有意义，因为核-SVM只能用对偶形式。SVM的原始形式的计算复杂度与样本数 m mm 成比例 ( O ( m ) ) (O(m))(O(m))，对偶形式的计算复杂度在 m 2 m^2m
2
和 m 3 m^3m
3
之间 ( O ( m 2 ) ∼ O ( m 3 ) ) (O(m^2)\sim O(m^3))(O(m
2
)∼O(m
3
))。因此如果有百万量级的样本，肯定需要用原始形式，因为对偶形式慢得多。
e) 优缺点
优点：
1、可解决小样本的机器学习任务
2、可解决高维问题
3、可通过核方法解决非线性问题

缺点：
1、对缺失数据敏感
2、对于非线性问题，核函数方法选择一直是个未决问题

遗传算法GA（GeneTIc Algorithms）
基于进化理论，并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。主要思想是：根据适者生存的原则，形成由当前群体中最适合的规则组成新的群体，以及这些规则的后代。典型情况下，规则的适合度（Fitness）用它对训练样本集的分类准确率评估。
神经网络算法
在结构上，可以把一个神经网络划分为输入层、输出层和隐含层。输入层的每个节点对应—个个的预测变量。输出层的节点对应目标变量，可有多个。在输入层和输出层之间是隐含层（对神经网络使用者来说不可见），隐含层的层数和每层节点的个数决定了神经网络的复杂度。

除了输入层的节点，神经网络的每个节点都与很多它前面的节点（称为此节点的输入节点）连接在一起，每个连接对应一个权重 W x y W_{xy}W
xy

，此节点的值就是通过它所有输入节点的值与对应连接权重乘积的和作为—个函数的输入而得到，我们把这个函数称为活动函数或挤压函数。

使用神经网络有 4 44 个步骤：
[1] 提取问题中实体的特征向量作为神经网络的输入，不同实体可以提取不同的特征向量。
[2] 定义神经网络的结构，并定义如何从神经网络中的输入得到输出，这个过程就是神经网络的前向传播算法。
[3] 通过训练数据来调整神经网络参数的取值，这就是训练神经网络的过程。
[4] 使用训练的神经网络来预测未知的数据。
a) 优缺点
优点：
1、分类的准确度极高
2、可解决复杂的非线性问题
3、对噪声神经有较强的鲁棒性和容错能力
4、并行分布处理能力强,分布存储及学习能力强
5、常用于图像识别
6、数据量越大，表现越好

缺点：
1、黑箱模型，难以解释
2、需要初始化以及训练大量参数，如网络结构、权值、阈值，计算复杂
3、误差逆传播的损失
4、容易陷入局部最小

b) 深度学习原理
使用足够多的参数就可以以任意精度逼近任何函数，而深度学习很容易就把参数加多（层数加深+加宽），这是传统的机器学习方法无法轻易做到的。

对神经网络的权重随机赋值，由于是对输入数据进行随机的变换，因此跟预期值可能差距很大，相应地，损失值也很高；
根据损失值，利用反向传播算法来微调神经网络每层的参数，从而较低损失值；
根据调整的参数继续计算预测值，并计算预测值和预期值的差距，即损失值；
重复步骤 2,3，直到整个网络的损失值达到最小，即算法收敛。
c) 深度学习的优点
机器学习技术（浅层学习）仅将输入数据变换到一两个连续的表示空间，通常使用简单的变换，这通常无法得到复杂问题所需要的精确表示。因此，人们必须竭尽全力让输入数据更适合这些方法来处理，也必须手动为数据设计好表示层，这个过程叫做特征工程。

深度学习的优点在于它在很多问题上都变现出更好的性能，并且简化了问题的解决步骤，因为它将特征工程完全自动化。利用深度学习，你可以一次性学习所有特征，而无须自己手动设计。这极大地简化了机器学习工作流程，通常将复杂的多阶段流程替换为一个简单的、端到端的深度学习模型。

深度学习的变革性在于，模型可以在同一时间共同学习所有表示层，而不是依次连续学习（这被称为贪婪学习）。通过共同的特征学习，一旦模型修改某个内部特征，所有依赖于该特征的其他特征都会相应地自动调节适应，无须人为干预。

深度学习从数据中进行学习时有两个基本特征：第一，通过渐进的、逐层的方式形成越来越复杂的表示；第二，对中间这些渐进的表示共同进行学习，每一层的变化都需要同时考虑上下两层的需要。

SVD奇异值分解
奇异值分解（Singular Value Decomposition）是线性代数中一种重要的矩阵分解，是特征分解（矩阵必须为方阵）在任意矩阵上的推广。奇异值分解是一个适用于任意矩阵的一种分解的方法。

奇异值分解在统计中的主要应用为主成分分析（PCA），一种数据分析方法，用来找出大量数据中所隐含的“模式”，它可以用在模式识别，数据压缩等方面。PCA算法的作用是把数据集映射到低维空间中去。数据集的特征值（在SVD中用奇异值表征）按照重要性排列，降维的过程就是舍弃不重要的特征向量的过程，而剩下的特征向量组成的空间即为降维后的空间。

特征值分解(EVD)

■ \blacksquare■ 矩阵分解的物理意义
特征值分解可以得到特征值与特征向量，特征值表示的是这个特征到底有多重要，而特征向量表示这个特征是什么，可以将每一个特征向量理解为一个线性的子空间，我们可以利用这些线性的子空间干很多的事情。不过，特征值分解也有很多的局限，比如说变换的矩阵必须是方阵。

奇异值分解(SVD)

最小二乘法
最小二乘法，就是最小化平方和的优化方法；这里的平方和指的是误差（真实目标对象与拟合目标对象的差）的平方；其目的/核心思想就是通过最小化误差的平方和，使得拟合对象最大限度逼近目标对象。

基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。在线性回归中，最小二乘法就是试图找到一条直线，使所有样本到直线上的欧氏距离之和最小。 ——《机器学习》

定义
最小二乘法（又称最小平方法）是一种优化方法。它通过最小化误差的平方和寻找数据的最佳函数进行匹配。最小二乘法可以用于求得目标函数的最优值，也可以用于曲线拟合，来解决回归问题。（利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合，其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。）
几何意义
最小二乘法的几何意义是高维空间中的一个向量在低维子空间的投影。

在线性回归中，最小二乘法就是试图找到一条直线，使所有样本到直线的欧氏距离之和最小。

分类
最小二乘法分为两种：线性或普通的最小二乘法(Ordinary Least Squares, OLS)和非线性的最小二乘法，取决于在所有未知数中的残差是否为线性。线性的最小二乘问题发生在统计回归分析中；它有一个封闭形式的解决方案。非线性的问题通常经由迭代细致化来解决；在每次迭代中，系统由线性近似，因此在这两种情况下核心演算是相同的。梯度下降法是迭代法的一种，可以用于求解最小二乘问题(线性和非线性都可以)。高斯-牛顿法是另一种经常用于求解非线性最小二乘的迭代法。

梯度下降法
所谓梯度下降法，是迭代法计算最值的一种形式，是通过不断求导改变待求参数的值，来达到不断求得最值的过程。

梯度
在微积分里面，对多元函数的参数求 ∂ ∂∂ 偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。比如函数 f ( x , y ) f(x,y)f(x,y), 分别对 x , y x,yx,y 求偏导数，求得的梯度向量就是 ( ∂ f ∂ x , ∂ f ∂ y ) T (\frac{∂f}{∂x}, \frac{∂f}{∂y})^T(
∂x
∂f

,
∂y
∂f

)
T
,简称 g r a d f ( x , y ) grad f(x,y)gradf(x,y) 或者 ▽ f ( x , y ) ▽f(x,y)▽f(x,y)。对于在点 ( x 0 , y 0 ) (x_0,y_0)(x
0

,y
0

) 的具体梯度向量就是 ( ∂ f ∂ x 0 , ∂ f ∂ y 0 ) T (\frac{∂f}{∂x_0}, \frac{∂f}{∂{y_0}})^T(
∂x
0

∂f

,
∂y
0

∂f

)
T
, 或者 ▽ f ( x 0 , y 0 ) ▽f(x0,y0)▽f(x0,y0)，如果是 3 33 个参数的向量梯度，就是 ( ∂ f ∂ x , ∂ f ∂ y , ∂ f ∂ z ) T (\frac{∂f}{∂x}, \frac{∂f}{∂y}, \frac{∂f}{∂z})^T(
∂x
∂f

,
∂y
∂f

,
∂z
∂f

)
T
,以此类推。

那么这个梯度向量求出来有什么意义呢？它的意义从几何意义上讲，就是函数变化增加最快的地方。具体来说，对于函数 f ( x , y ) f(x,y)f(x,y)，在点 ( x 0 , y 0 ) (x_0,y_0)(x
0

,y
0

)，沿着梯度向量的方向就是 ( ∂ f ∂ x 0 , ∂ f ∂ y 0 ) T (\frac{∂f}{∂x_0}, \frac{∂f}{∂{y_0}})^T(
∂x
0

∂f

,
∂y
0

∂f

)
T
的方向是 f ( x , y ) f(x,y)f(x,y) 增加最快的地方。或者说，沿着梯度向量的方向，更加容易找到函数的最大值。反过来说，沿着梯度向量相反的方向，也就是 − ( ∂ f ∂ x 0 , ∂ f ∂ y 0 ) T -(\frac{∂f}{∂x_0}, \frac{∂f}{∂{y_0}})^T−(
∂x
0

∂f

,
∂y
0

∂f

)
T
的方向，梯度减少最快，也就是更加容易找到函数的最小值。

梯度下降法
梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向，因为该方向为当前位置的最快下降方向，所以也被称为是”最速下降法“。最速下降法越接近目标值，步长越小，前进越慢。

梯度下降算法（Gradient Descent Optimization）是神经网络模型训练最常用的优化算法。对于深度学习模型，基本都是采用梯度下降算法来进行优化训练的。梯度下降算法背后的原理：目标函数 J ( θ ) J(θ)J(θ) 关于参数 θ \thetaθ 的梯度将是损失函数（loss function）上升最快的方向。而我们要最小化 l o s s lossloss，只需要将参数沿着梯度相反的方向前进一个步长，就可以实现目标函数（loss function）的下降。

梯度下降法是最常用的最优算法之一。当目标函数是凸函数时，梯度下降法的解是全局解。一般情况下，其解不保证是全局最优解，梯度下降法的速度也未必是最快的。我们还需要假设函数是可微的，否则无法获得封闭解（即给出任意的自变量就可以求出其因变量）。

梯度下降法是一阶优化算法（因为只利用到了函数的一阶导数信息），其思想是用当前位置负梯度方向作为搜索方向，移动与当前位置负梯度成比例的一段步长。因为该方向为当前位置的最快下降方向，所以也被称为是最速下降法。

梯度下降与梯度上升
在机器学习算法中，在最小化损失函数时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数，和模型参数值。反过来，如果我们需要求解损失函数的最大值，这时就需要用梯度上升法来迭代了。

梯度下降法和梯度上升法是可以互相转化的。比如我们需要求解损失函数 f ( θ ) f(θ)f(θ) 的最小值，这时我们需要用梯度下降法来迭代求解。但是实际上，我们可以反过来求解损失函数 − f ( θ ) -f(θ)−f(θ) 的最大值，这时梯度上升法就派上用场了。

梯度下降法的缺点
梯度下降法有两个缺点，一是靠近最优解的区域收敛速度明显变慢，二是固定学习率的情况下，可能在某点附近出现震荡：如果学习率（步长）太小，随着迭代的增加，每次移动的距离越来越小，甚至难以逼近最优值；学习率太大，移动的轨迹在某值附近开始震荡，类似“之”形移动。

对于这些缺点，可以通过使用可变学习率的方法优化，例如线性搜索等方法，每次迭代前寻找最优的学习率，再进行迭代。

几种梯度下降法
[1] 批量梯度下降法（Batch Gradient Descent，BGD）
批量梯度下降法是梯度下降法最原始的形式，它的具体思路是在更新每一参数时都使用所有的样本来进行更新。

优点：全局最优解；易于并行实现；缺点：当样本数目很多时，训练过程会很慢。

[2] 随机梯度下降（Stochastic Gradient Descent，SGD）
随机梯度下降的思路是在每次迭代时，只使用一个样本，当样本个数很大的时候，随机梯度下降迭代一次的速度要远高于批量梯度下降方法。两者的关系可以这样理解：随机梯度下降方法以损失一部分精确度和增加一定数量的迭代次数为代价，换取了总体的优化效率的提升。增加的迭代次数远远小于样本的数量。如果样本量很大的情况（例如几十万），那么可能只用其中几万条或者几千条的样本，就已经迭代到最优解了。

优点：训练速度快；缺点：准确度下降，并不是全局最优。

对批量梯度下降法和随机梯度下降法的总结：

批量梯度下降—最小化所有训练样本的损失函数，使得最终求解的是全局的最优解，即求解的参数是使得风险函数最小，但是对于大规模样本问题效率低下。
随机梯度下降—最小化每条样本的损失函数，虽然不是每次迭代得到的损失函数都向着全局最优方向，但是大的整体的方向是向全局最优解的，最终的结果往往是在全局最优解附近，适用于大规模训练样本情况。
[3] 小批量梯度下降法（Mini-batch Gradient Descent，MBGD）
它的具体思路是在更新每一参数时都使用一部分样本（b a t c h batchbatch）来进行更新，可以选择对每个 b a t c h batchbatch 的梯度进行累加，或者取平均值。取平均值可以减少梯度的方差。可以看出该方法克服了上面两种方法的缺点，又同时兼顾两种方法的优点，是如今深度学习领域最常见的实现方式。

最小二乘法与梯度下降法的比较
在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一，另一种常用的方法是最小二乘法。

首先它们都是机器学习中，计算问题最优解的优化方法，但它们采用的方式不同，前者采用暴力的解方程组方式，直接，简单，粗暴，在条件允许下，求得最优解；而后者采用步进迭代的方式，一步一步的逼近最优解。实际应用中，大多问题是不能直接解方程求得最优解的，所以梯度下降法应用广泛。

KNN
Kmeans

你可能感兴趣的:(经验分享)

2022.11.17天使赋能学院会议彭婕聊健康养老金融风险管理
会议主题：面对搭档合不来，我们该如何沟通回应？主持：心如记录：彭婕计时：淽清参会人员：孙姐，淽清，心如，李莉，华蓉，镇梅，枫木，巧克力，嗨皮淽清：之前有遇到过搭档没有回应，会语音然后留言！如果搭档有回应可能就是双方观点不一样，会先聆听对方，更重要的是状态，结果可能也需要但是需要有良好的状态！之前没做过可以听下其他天使的经验分享！彭婕：跟搭档的关系就像生活中夫妻的关系，战队的小伙伴就像孩子，用成长性
想认真跟你们聊一件很俗的事儿，2022年该如何赚钱? 唐夕
因为今年我给自己制定了赚钱目标，以前真的从来没想过给自己制定这个目标，今年我给自己定了。一直以来，我都很少跟你们聊赚钱的话题。一方面是我自己并没有赚到太多钱，又很多赚钱的经验分享，所以积累不足，也就无法多写。另一方面是我自己一直以来对钱都没有多么大的渴求，也没有很大的欲望。当然，并不是我不缺钱哈，农村家庭出身的孩子，不说多缺，但是也没有多有。你们想想我小学六年级毕业的那个暑假就开始自己打工赚钱了，
某网安公司护网红队面试经验分享掌控安全官号面试经验分享职场和发展
所在城市：成都面试职位：2025年护网红队面试过程：线下1V2面试，大概40分钟吧。上次侥幸过了一面，这次记录下二面经过。技术问题问得都比较深入，要求对原理系统掌握，其次综合性要求也比一面要高不少，好几个问题我都被追问的没啥思路了，汗。当前环境下，网安圈也越来越卷，希望给最近找工作的小伙伴们提供参考，祝愿大家早日找到“薪”满意足的好工作。面试官的问题：问题1、如何绕过CDN获取目标网站真实IP？查
面试经验分享 | 成都某安全厂商渗透测试工程师
更多大厂面试题看我的主页或者专栏找我免费领取目录：所面试的公司：某安全厂商所在城市：成都面试职位：渗透测试工程师岗位面试过程：面试官的问题：1.平常在学校打CTF嘛，获奖情况讲下，以及你自己的贡献如何？2.内网渗透主要思路说一下吧？3.web打点过程中有没有遇到过waf？怎么绕过的4.现在给你一个站你会怎么做信息搜集？5.如何快速检测定位网站目录下的webshell呢？6.简单讲下反弹shell的
在ARM46+KylinOS下安装配置Docker的详细步骤 Q_Daniooi docker 容器运维
目录一、安装前准备（一）环境检查（二）依赖准备二、Docker安装步骤（一）添加Docker官方源（以Debian分支银河麒麟为例，RPM系类似调整）（二）安装Docker引擎（三）启动与基础配置三、Docker优化配置（可选但推荐）（一）镜像加速（二）存储驱动优化四、注意事项（一）系统兼容性（二）网络与镜像源（三）权限与安全（四）ARM架构特殊点五、经常遇见的问题及解决方法六、学习经验分享一、前
微服务架构下的自动化测试策略调优经验分享
微服务架构下，自动化测试策略需针对分布式特性、服务自治性和高耦合风险进行针对性调整的关键调整方向及实施方法：一、测试策略重构：分层与契约驱动1.测试金字塔升级为钻石模型调整逻辑：传统金字塔中UI测试占比过高，而微服务需强化契约测试与组件测试，形成“钻石形”结构（契约测试占比20%-30%）。实施要点：契约测试层：通过消费者驱动契约（CDC）验证服务间API兼容性，使用Pact框架自动生成测试用例，
深度解析：SUSE Harvester私有云平台建设指南
关键词:SUSEHarvester,私有云,HCI,超融合,Kubernetes,KubeVirt,Longhorn,云原生,虚拟化,容器目录导航一、初识SUSEHarvester-私有云的新选择二、核心架构解析-揭开HCI的神秘面纱三、部署实战-从零到一搭建你的私有云四、存储与网络配置-数据的安全港湾五、虚拟机管理-让资源调度更智能六、监控与运维-保驾护航的守护者七、最佳实践-踩坑经验分享八、总
【2025B卷首发】华为OD机试真题+全流程解析+备考攻略+经验分享+Java最佳实现
专栏导读本专栏收录于《华为OD机试（JAVA）真题（E卷+D卷+A卷+B卷+C卷）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新，全天CSDN在线答疑。2025年5月12日，华为官方已经将华为OD机试（A卷）切换为B卷。目前正在考的是B卷，按照华
LeetCode 刷题：数据结构与算法的实战经验分享
LeetCode刷题：数据结构与算法的实战经验分享关键词：LeetCode、数据结构、算法、刷题经验、实战摘要：本文将围绕LeetCode刷题展开，深入探讨数据结构与算法在实际刷题过程中的应用。通过分享实战经验，帮助读者更好地理解和掌握数据结构与算法知识，提升解题能力。文章将从背景介绍入手，阐述刷题的目的和意义，接着详细解释核心概念，分析它们之间的关系，然后介绍核心算法原理和具体操作步骤，结合数学
深入解读 Qwen3 技术报告（一）：引言小爷毛毛（卓寿杰）大模型AIGC 深度学习基础/原理人工智能自然语言处理 python 语言模型深度学习
重磅推荐专栏：《大模型AIGC》《课程大纲》《知识星球》本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域，包括但不限于ChatGPT和StableDiffusion等。我们将深入研究大型模型的开发和应用，以及与之相关的人工智能生成内容（AIGC）技术。通过深入的技术解析和实践经验分享，旨在帮助读者更好地理解和应用这些领域的最新进展1.引言：迎接大型语言模型的新纪元我们正处在一个由人工智能（AI
大一新生第一次参加蓝桥杯(C/C++组)，只学C够吗？怎么备赛？个人经验分享老虎0627 蓝桥杯
个人感受（唠叨唠叨）我是2023级的物联网工程专业的一名大一新生，在大一的下半学期有幸通过校赛，参加了第十五届蓝桥杯软件赛，其实我自己都没想到大一就能参加蓝桥杯，因为当时只会C语言，也很迷茫，到底该怎么备赛？剩的时间比较少到底要不要学习C++。到底要不要学C++？我在蓝桥杯正式比赛前特别纠结要不要学c++，因为当时省的时间比较少，而且会有担心学c++的一些语法会不会把它跟c语言搞混，到时候在考场忘
十分钟聊明白DDD领域驱动设计 roykingw java java 架构 DDD 领域驱动
文章目录一、什么是领域？二、领域如何驱动设计？三、如何发挥DDD的价值最后十分钟聊明白DDD领域驱动设计--楼兰关于DDD，大部分朋友应该都听说过。全称DomainDrivenDesign，翻译过来就是领域驱动设计。这个神秘的架构思想，虽然远没有SpringBoot这类框架这么名声在外，但是却经常时不时冒出来，牵动一下大家的神经。美团、阿里每年的技术年会都会有关于DDD的经验分享，而另一方面，又有
【经验分享】分布式爬虫的优势与劣势分析电商数据girl 跨境电商API接口电商项目API接口测试电商ERP项目接口经验分享分布式爬虫 java 数据库大数据 python
分布式爬虫通过多节点协同工作实现数据采集，其设计初衷是解决单节点爬虫在大规模数据抓取场景中的性能瓶颈，但同时也因架构复杂度带来了新的挑战。以下从技术特性、应用场景适配性两个维度，系统分析其优势与劣势：一、分布式爬虫的核心优势高效突破大规模数据采集瓶颈并行处理能力：通过将任务拆分到多个节点并行执行，大幅提升数据抓取效率。例如，采集100万条电商商品数据时，单节点爬虫可能需要数天，而由10个节点组成的
华为OD机试真题——版本管理（2025B卷：100分）Java/python/JavaScript/C++最佳实现纪元A梦华为OD 华为od java python javascript c++
2025B卷100分题型本专栏内全部题目均提供Java、python、JavaScript、C++等多种语言的最佳实现方式；并且每种语言均涵盖详细的问题分析、解题思路、代码实现、代码详解、3个测试用例以及综合分析；本文收录于专栏：《2025华为OD真题目录+全流程解析+备考攻略+经验分享》华为OD机试真题《版本管理》：文章快捷目录题目描述及说明JavapythonJavaScriptC++题目名称
Python指南：必备技巧与经验分享 master_chenchengg python python 办公效率 python开发 IT
Python指南：必备技巧与经验分享一开场白：与Python共舞欢迎词：向Python爱好者们问好Python的魅力：为什么Python如此受欢迎个人经历：分享自己与Python的不解之缘二数据准备：磨刀不误砍柴工数据清洗：如何让数据焕然一新缺失值处理：填补或删除缺失数据的策略异常值检测：识别并处理异常值的方法数据转换：如何调整数据类型和格式类型转换：转换数据类型以适应需求标准化：使数据在同一尺度
浅谈 Vue2 的 Mixin 混入和 Vue3 的 Hooks（组合式 API）一个水瓶座程序猿. Vue.js 系列文章 Vue vue.js javascript ecmascript
嘿，各位前端小伙伴！今天咱来好好唠唠Vue2里的Mixin混入和Vue3的Hooks（组合式API），这里面的门道可不少，我把自己的经验分享出来，希望能帮大家避避坑。一、Vue2的Mixin混入1.啥是Mixin混入Mixin混入就像是一个魔法口袋，你可以把一些通用的代码逻辑装进去，然后在多个组件里使用。简单来说，它就是一种代码复用的方式。比如说，你有多个组件都需要处理用户登录状态，那你就可以把这
40 岁想学中医怎么开始？过来人的经验分享问止精一书院 2501_92067291 问止中医
零基础学中医学中医如何入门免费学中医！问止精一书院链接：https://tool.nineya.com/qrcode/1iv54b4ts不少人到了40岁，对中医产生浓厚兴趣，却不知该如何起步。作为一名从40岁开始学中医的过来人，我想分享一些实用经验，尤其推荐以问止中医的免费课程作为入门跳板。40岁学中医，最大的顾虑往往是“零基础怕跟不上”。问止中医的免费报名课程恰好解决了这个痛点，课程专为中医小白
新品|暴雨信创服务器震撼亮相2025 AI算力产业峰会 BAOYUCompany 人工智能服务器运维
4月9日，被誉为“中国AI算力风向标”的2025AI算力产业峰会在深圳会展中心盛大启幕。作为中国领先的服务器解决方案供应商，暴雨携信创新品亮相峰会，与行业伙伴展开深度交流与经验分享，旨在携手构建AI时代算力产业新范式，为数字未来的蓬勃发展贡献磅礴力量。步入2025年，AIGC技术呈爆发式增长，算力需求随之迎来深刻变革。在此关键节点，暴雨凭借其在软硬件协同研发领域长期深耕积累的雄厚实力，抢滩布局，率
大厂数分面试题
临近假期，又是一个找实习的时候，给大家分享一下最近找实习的一些面经，祝大家都能顺利找到满意的实习~目录面经分享1-游戏公司-乐信圣文-游戏数据分析实习生一面-技术面二面-HR面2-美团销售运营（数据分析方向）3-作业帮数据分析4-美团用户运营5-脉脉数据科学实习生反问环节反问环节很重要。为什么？技术面/业务面面试经验分享工具安利面经分享1-游戏公司-乐信圣文-游戏数据分析实习生一面-技术面1.自我
自学黑客技术多长时间能达到挖漏洞的水平？～小羊没烦恼～网络安全黑客技术黑客网络安全 web安全人工智能学习
作为一名白帽黑客，自学黑客技术是一种既刺激又实用的技能。然而，很多初学者都好奇，自学这门技术需要多长时间才能达到挖掘漏洞的水平。本文将从黑客的角度详细探讨这个问题，包括学习路径、实践方法和一些个人经验分享。自学路径概览黑客技术的自学可以分为几个阶段：基础知识学习、工具与技术掌握、实战演练和专业深造。每个阶段的时间长度可以根据个人的学习速度和投入时间的多少而有所不同。1.基础知识学习（1-3个月）初
DolphinScheduler 6 个高频 SQL 操作技巧数据库
摘要：ApacheDolphinScheduler系列4-后台SQL经验分享关键词：大数据、数据质量、数据调度整体说明在调研了DolphinScheduler之后，在项目上实际使用了一段时间，有了一些后台SQL实际经验，分享如下。进入DolphinScheduler后台数据库，我这里使用的是MySQL数据库。以任务名称包含“ods_xf_act”的任务为例。一、修改任务组操作UPDATEt_ds_
鸿蒙认证全攻略：流程与大纲深度剖析
目录一、鸿蒙认证，开启未来的科技密钥二、认证流程全解析（一）前期准备（二）报名步骤详解（三）备考阶段（四）考试当天（五）成绩查询与证书领取三、大纲深度解读（一）认证考试大纲的重要性（二）各部分知识点详细分析四、过来人经验分享（一）成功案例分析（二）常见问题与解决方案五、结语一、鸿蒙认证，开启未来的科技密钥在科技飞速发展的当下，鸿蒙系统已然成为全球科技领域的焦点之一。自问世以来，鸿蒙系统凭借其独特的
目标跟踪领域经典论文解析 ♢.＊目标跟踪人工智能计算机视觉
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！目标跟踪是计算机视觉领域的一个
Python爬虫实战：全方位爬取知乎学习板块问答数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫学习开发语言 scrapy 游戏
1.项目背景与爬取目标知乎是中国最大的知识问答社区，聚集了大量高质量的学习资源和经验分享。爬取知乎“学习”板块的问答数据，可以为学习资料整理、舆情分析、推荐系统开发等提供数据支持。本项目目标：爬取“学习”话题下的热门问答列表抓取每个问答的标题、作者、回答内容、点赞数、评论数等详细信息实现动态加载内容的抓取，包含图片和富文本避免被反爬机制限制，保证数据采集稳定结合数据分析，为后续应用打基础2.知乎“
如何“调优”我们自身的人体系统？ SugarPPig 笔记养生
文章主题本文主要围绕如何通过科学方法优化人体系统，提升健康、学习和工作效率，延缓衰老等展开，内容涉及睡眠、饮食、心态、学习、大脑健康和长寿等多个方面，基于斯坦福神经科学教授AndrewHuberman等人的研究成果和实践经验分享。核心内容一、睡眠原理生物钟控制：生物钟影响体内化学物质变化和体温变化，进而影响内在状态和外在行为。皮质醇和肾上腺素让人早上醒来，同时设定松果体释放褪黑素的倒计时，让人在十
特斯拉及新能源车企笔试面试题型解析下启芯硬件笔记经验分享硬件工程嵌入式硬件技术提升面试职场和发展
特斯拉及新能源车企笔试面试题型解析下本专栏预计更新90期左右。当前第22期-特斯拉硬件.由于特斯拉的招聘信息保密，本文根据公开的特斯拉硬件工程师面试经验、招聘需求以及行业通用技术领域，并提供详细的题目解析思路和方法，以期为准备特斯拉硬件工程师职位的候选人提供有价值的参考、总结、和经验分享，结合特斯拉的电动汽车和自动驾驶技术特点，给出可能涉及的题目，并提供详细解析。随着技术的飞速发展和特斯拉业务的不
鸿蒙应用分发与运营实战：AppGallery Connect深度集成经验分享码农小峰峰 harmonyos 华为
作为鸿蒙生态的开发者，应用开发只是第一步，如何高效分发和运营同样至关重要。华为AppGalleryConnect（AGC）为鸿蒙应用提供了全生命周期的服务平台，下面我将分享在实际项目中集成AGC的实践经验。AGC的核心价值解析AppGalleryConnect不仅仅是应用商店的后台，它提供从开发、测试、发布到运营的全套解决方案。相比其他平台，AGC与鸿蒙系统的深度整合是其最大优势，特别是在分布式能
【钱包】WEB3钱包APP框架的设计 ZFJ_张福杰区块链 web3 钱包区块链
【钱包】WEB3钱包APP框架的设计一、前言前段时间，自己做了一款WEB3钱包APP，从产品设计到框架搭建都是我一个人搞的，更多的参考了其他公司的钱包APP。在此，想把自己的钱包经验分享出来，帮助没有做过钱包APP的同学开阔自己的思路。还有一些需要非常注意的安全方面的经验。二、整体架构图三、功能模块详解这里我会主要讲解重要模块，一个UI和基础配置常量等等，我都不会说了。状态管理和路由我是通过Get
华为OD机试真题——人气最高的店铺（2025B卷：200分）Java/python/JavaScript/C/C++/GO最佳实现纪元A梦华为OD 华为od java python javascript c语言 c++GO
2025B卷200分题型本专栏内全部题目均提供Java、python、JavaScript、C、C++、GO六种语言的最佳实现方式；并且每种语言均涵盖详细的问题分析、解题思路、代码实现、代码详解、3个测试用例以及综合分析；本文收录于专栏：《2025华为OD真题目录+全流程解析+备考攻略+经验分享》华为OD机试真题《人气最高的店铺》：文章快捷目录题目描述及说明JavapythonJavaScript
华为OD机试真题——字符串加密（2025B卷：100分）Java/python/JavaScript/C/C++/GO最佳实现纪元A梦华为OD 华为od java python javascript c语言 c++go
2025B卷100分题型本专栏内全部题目均提供Java、python、JavaScript、C、C++、GO六种语言的最佳实现方式；并且每种语言均涵盖详细的问题分析、解题思路、代码实现、代码详解、3个测试用例以及综合分析；本文收录于专栏：《2025华为OD真题目录+全流程解析+备考攻略+经验分享》华为OD机试真题《字符串加密》：文章快捷目录题目描述及说明JavapythonJavaScriptC+
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

保研面试之机器学习

保研面试机器学习

CNN

SVM与神经网络的联系与区别

目标检测算法

1. 目的

2. 分类

3. 算法模型

什么是梯度爆炸和梯度消失？如何解决梯度消失、梯度爆炸？

你对什么方向感兴趣？那个是干什么的？

简述PCA的计算过程/介绍下PCA算法过程

线性回归模型和随机森林模型

你可能感兴趣的:(经验分享)