Tsehooo

图像算法岗面试指南

最近都在忙面试的事，总结一些图像算法岗常见问题跟大家分享。有些是附上大佬帖子链接，整理难免有些许错误，请及时与本人联系，不胜感激！

0.最大似然和最小二乘区别？
看似最小二乘估计与最大似然估计在推导得到的结果很相似，但是其前提条件必须引起大家的注意！！！
对于最小二乘估计，最合理的参数估计量应该使得模型能最好地拟合样本数据，也就是估计值和观测值之差的平方和最小，其推导过程如下所示。其中Q表示误差，Yi表示估计值，Yi’表示观测值。

对于最大似然法，最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大，也就是概率分布函数或者说是似然函数最大。显然，这是从不同原理出发的两种参数估计方法。因此最大似然法需要已知这个概率分布函数，一般假设其满足正态分布函数的特性，在这种情况下，最大似然估计和最小二乘估计是等价的，也就是说估计结果是相同的，但是原理和出发点完全不同。其推导过程如下所示

最小二乘法以估计值与观测值的差的平方和作为损失函数，极大似然法则是以最大化目标值的似然概率函数为目标函数，从概率统计的角度处理线性回归并在似然概率函数为高斯函数的假设下同最小二乘建立了的联系。

1.xboosting如何处理缺失值？

很多的机器学习算法都无法提供缺失值的自动处理，都需要人为地去处理，但是xgboost模型却能够处理缺失值，也就是说模型允许缺失值存在。
关于缺失值的处理将其看与稀疏矩阵的处理看作一样。在寻找split point的时候，不会对该特征为missing的样本进行遍历统计，只对该列特征值为non-missing的样本上对应的特征值进行遍历，通过这个技巧来减少了为稀疏离散特征寻找split point的时间开销。在逻辑实现上，为了保证完备性，会分别处理将missing该特征值的样本分配到左叶子结点和右叶子结点的两种情形，计算增益后选择增益大的方向进行分裂即可。可以为缺失值或者指定的值指定分支的默认方向，这能大大提升算法的效率。如果在训练中没有缺失值而在预测中出现缺失，那么会自动将缺失值的划分方向放到右子树。

2.生成模型和判别模型区别？

判别式模型举例：要确定一个羊是山羊还是绵羊，用判别模型的方法是从历史数据中学习到模型，然后通过提取这只羊的特征来预测出这只羊是山羊的概率，是绵羊的概率。
生成式模型举例：利用生成模型是根据山羊的特征首先学习出一个山羊的模型，然后根据绵羊的特征学习出一个绵羊的模型，然后从这只羊中提取特征，放到山羊模型中看概率是多少，在放到绵羊模型中看概率是多少，哪个大就是哪个。
细细品味上面的例子，判别式模型是根据一只羊的特征可以直接给出这只羊的概率（比如logistic regression，这概率大于0.5时则为正例，否则为反例），而生成式模型是要都试一试，最大的概率的那个就是最后结果~补充20180524：在机器学习中任务是从属性X预测标记Y，判别模型求的是P(Y|X)，即后验概率；而生成模型最后求的是P(X,Y)，即联合概率。从本质上来说：判别模型之所以称为“判别”模型，是因为其根据X“判别”Y；而生成模型之所以称为“生成”模型，是因为其预测的根据是联合概率P(X,Y)，而联合概率可以理解为“生成”(X,Y)样本的概率分布（或称为依据）；具体来说，机器学习已知X，从Y的候选集合中选出一个来，可能的样本有(X,Y_1), (X,Y_2), (X,Y_3),……，(X,Y_n),实际数据是如何“生成”的依赖于P(X,Y)，那么最后的预测结果选哪一个Y呢？那就选“生成”概率最大的那个吧~
概率图分为有向图（bayesian network）与无向图（markov random filed）。在概率图上可以建立生成模型或判别模型。有向图多为生成模型，无向图多为判别模型。

判别模型（Discriminative Model），又可以称为条件模型，或条件概率模型。估计的是条件概率分布(conditional distribution)，p(class|context)。利用正负例和分类标签，主要关心判别模型的边缘分布。其目标函数直接对应于分类准确率。（判别模型多数放在分类）

主要特点：寻找不同类别之间的最优分类面，反映的是异类数据之间的差异。
优点：
（1）分类边界更灵活，比使用纯概率方法或生产模型得到的更高级；
（2）能清晰的分辨出多类或某一类与其他类之间的差异特征；
（3）在聚类、视角变化、部分遮挡、尺度改变等方面效果较好；
（4）适用于较多类别的识别；
（5）判别模型的性能比生成模型要简单，比较容易学习。
缺点：
（1）不能反映训练数据本身的特性，即能力有限，可以告诉你的是1还是2，但没有办法把整个场景描述出来；
（2）缺少生成模型的优点，即先验结构的不确定性；
（3）黑盒操作，即变量间的关系不清楚，不可视。
常见的主要有：logistic regression、SVMs、traditional neural networks、Nearest neighbor、Conditional random fields。
主要应用：Image and document classification、Biosequence analysis、Time series prediction。

生成模型（Generative Model），又叫产生式模型。估计的是联合概率分布（joint probability distribution），p(class, context)=p(class|context)*p(context)。用于随机生成的观察值建模，特别是在给定某些隐藏参数情况下。在机器学习中，或用于直接对数据建模（用概率密度函数对观察到的样本数据建模），或作为生成条件概率密度函数的中间步骤。通过使用贝叶斯规则可以从生成模型中得到条件分布。如果观察到的数据是完全由生成模型所生成的，那么就可以拟合生成模型的参数，从而仅可能的增加数据相似度。但数据很少能由生成模型完全得到，所以比较准确的方式是直接对条件密度函数建模，即使用分类或回归分析。与描述模型的不同是，描述模型中所有变量都是直接测量得到。

所以生成模型和判别模型的主要区别在于：添加了先验概率
即：生成模型：p(class, context)=p(class|context)*p(context)
判别模型： p(class|context)
主要特点：（1）一般主要是对后验概率建模，从统计的角度表示数据的分布情况，能够反映同类数据本身的相似度；（2）只关注自己的类本身（即点左下角区域内的概率），不关心到底决策边界在哪。
优点：
（1）实际上带的信息要比判别模型丰富；
（2）研究单类问题比判别模型灵活性强；
（3）模型可以通过增量学习得到；
（4）能用于数据不完整（missing data）情况；
（5）很容易将先验知识考虑进去。
缺点：
（1）容易会产生错误分类；
（2）学习和计算过程比较复杂。
常见的主要有：Gaussians、Naive Bayes、Mixtures of multinomials、Mixtures of Gaussians、Mixtures of experts、HMMs、Sigmoidal belief networks、Bayesian networks、Markov random fields。
主要应用：
（1）传统基于规则的或布尔逻辑系统正被统计方法所代替；
（2）医学诊断。
注：所列举的生成模型也可以用判决模型的方法来训练，比如GMM或HMM，训练的方法有EBW(Extended Baum Welch)，或最近Fei Sha提出的Large Margin方法。过去的报告认为判别模型在分类问题上比生成表现更加好（比如Logistic Regression与Naive Bayesian的比较，再比如HMM与Linear Chain CRF的比较）。当然，生成模型的图模型也有一些难以代替的地方，比如更容易结合无标注数据做semi-or-un-supervised learning。

3.svm种类？
-s svm类型：SVM设置类型(默认0)
0 – C-SVC：C-支持向量分类机；参数C为惩罚系数，C越大表示对错误分类的惩罚越大，适当的参数C对分类Accuracy很关键。
1 --v-SVC：v-支持向量分类机；由于C的选取比较困难，用另一个参数v代替C。C是“无意义”的，v是有意义的。（与C_SVC其实采用的模型相同，但是它们的参数C的范围不同,C_SVC采用的是0到正无穷，该类型是[0,1]。）
2 – 一类SVM：单类别-支持向量机，不需要类标号,用于支持向量的密度估计和聚类。
3 – e -SVR：ε-支持向量回归机，不敏感损失函数，对样本点来说，存在着一个不为目标函数提供任何损失值的区域。
4 – v-SVR：n-支持向量回归机，由于EPSILON_SVR需要事先确定参数，然而在某些情况下选择合适的参数却不是一件容易的事情。而NU_SVR能够自动计算参数。

SVM叫做支持向量机，它的目标是为确定一个分类超平面，从而将不同的数据分隔开

支持向量机分类：

支持向量机分为三种，线性可分支持向量机，线性支持向量机以及非线性支持向量机。
当训练数据线性可分时，通过最大化硬间隔，学习一个线性分类器，这种称之为线性可分支持向量机（硬间隔支持向量机）；（所谓硬间隔就是线性可分）
当训练数据近似线性可分时，通过最大化软间隔，也学习一个线性分类器，即线性支持向量机；
当训练数据线性不可分时，通过使用核技巧及软间隔最大化，学习非线性支持向量机
4.L1、L2正则化区别？
L范数（L1 norm）是指向量中各个元素绝对值之和，也有个美称叫“稀疏规则算子”（Lasso regularization）。比如向量A=[1，-1，3]，那么A的L1范数为 |1|+|-1|+|3|.简单总结一下就是： L1范数: 为x向量各个元素绝对值之和。 L2范数:为x向量各个元素平方和的1/2次方，L2范数又称Euclidean范数或者Frobenius范数Lp范数:为x向量各个元素绝对值p次方和的1/p次方.在支持向量机学习过程中，L1范数实际是一种对于成本函数求解最优的过程，因此，L1范数正则化通过向成本函数中添加L1范数，使得学习得到的结果满足稀疏化，从而方便人类提取特征，即L1范数可以使权值稀疏，方便特征提取。 L2范数可以防止过拟合，提升模型的泛化能力。L1和L2的差别，为什么一个让绝对值最小，一个让平方最小，会有那么大的差别呢？看导数一个是1一个是w便知, 在靠进零附近, L1以匀速下降到零, 而L2则完全停下来了. 这说明L1是将不重要的特征(或者说, 重要性不在一个数量级上)尽快剔除, L2则是把特征贡献尽量压缩最小但不至于为零. 两者一起作用, 就是把重要性在一个数量级(重要性最高的)的那些特征一起平等共事(简言之, 不养闲人也不要超人)。

5.谈谈你的项目经历？
自由发挥
6.GBDT和XGBoosts的区别是什么？
首先介绍一下boosting思想，每次训练单个弱分类器时，都将上一次分错的数据权重提高一点再进行当前单个弱分类器的学习，这样往后执行，训练出来的单个弱分类器就会越在意那些容易分错的点，最终通过加权求和的方式组合成一个最终的学习器

gradent boosting 是boosting的一种，每一次构建单个学习器时，是在之前建立的模型的损失函数的梯度下降方向， GB与Adaboost的区别在于：

AdaBoost是通过提升错分数据点的权重来定位模型的不足。

Gradient Boosting是通过算梯度（gradient）来定位模型的不足。

主要思想是，每一次建立单个学习器时，是在之前建立的模型的损失函数的梯度下降方向，损失函数越大，说明模型越容易出错，如果我们的模型能够让损失函数持续的下降，则说明我们的模型在不停的改进，而最好的方式就是让损失函数在其梯度方向上下降。

GBDT=GB+DT(decision tree),即基分类器为决策树时，这里的决策树是回归树

Xgboost 是GB算法的高效实现，其中基分类器除了可以使CART也可以是线性分类器

几大区别：
传统GBDT以CART作为基分类器，xgboost还支持线性分类器，这个时候xgboost相当于带L1和L2正则化项的逻辑斯帝回归或者线性回归传统GBDT在优化时只用到了一阶导数，而xgboost对代价函数进行了二阶泰勒展开，用到了一阶和二阶导数 xgboost加入了正则项，防止过拟合 shrinkage，相当于学习率，在每完成一次迭代后，会乘上这个系数，削减每棵树的影响列抽样，借鉴随机森林的做法，支持列抽样，不仅能降低过拟合，还能减少计算。

7.在k-means与kNN,我们用的是欧氏距离来计算最近的邻居之间的距离。为什么不用曼哈顿距离？

曼哈顿距离只计算水平或者垂直距离，有维度的限制，而欧氏距离可用于任何空间的距离计算问题，因为，数据点可以存在于任何空间，如国际象棋棋盘，象和车所做的移动是由曼哈顿距离计算的，因为他们是在各自的水平和垂直方向做的运动
8.简单说说特征工程？
特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程，从数学的角度来讲，特征工程就是人工地去设计输入变量X

9.简要说说一个完整机器学习项目的流程？

a.抽象成数学问题（确定是一个分类问题、回归问题还是聚类问题，明确可以获得什么样的数据）
b.获取数据（数据要具有代表性，对数据的量级也要有一个评估，多少样本，多少特征，对内存的消耗，考虑内存是否能放得下，如果放不下考虑降维或者改进算法，如果数据量太大，考虑分布式）
c.特征预处理和特征选择（数据清洗，归一化、缺失值处理、去除共线性等，另外筛选出显著特征、反复理解业务，有时候数据特征选择的好，依靠简单的算法也能得出良好稳定的结果，需要进行特征有效性分析，如相关系数、卡方检验、平均互信息、条件熵、后验概率、逻辑回归权重等方法）
d.训练模型与调优（现在很多算法都已经封装成黑箱供人使用，正则考察的是调参的技术，需要对算法额原理深入理解，能发现问题的症结，来提出良好的调优方案）
e.模型诊断（确定调优的方向，如欠拟合过拟合这种情况，一般过拟合是增加数据量和降低模型复杂度的思路，欠拟合是增加特征，增加模型复杂度）
f.模型融合（一般提升模型主要在前期的数据清洗和预处理部分，以及后面的模型融合下功夫，有时候会通过在已有预训练模型上进行再融合和调参节省时间，并能取得不错的效果）
g.上线运行（模型在线上运行效果直接决定模型的成败，运行的速度、资源消耗成都、稳定性等是否可以接受）

10.哪些机器学习算法不需要做归一化处理?

概率模型不需要归一化，因为他们不关心变量的值，而是关心变量的分布和变量之间的条件概率，如决策树、RF。而像Adaboost、GBDT、SVM、LR、KNN、KMeans之类的最优化问题就需要归一化

11.如何解决梯度消失和梯度膨胀？
梯度消失：根据链式法则，当每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话，那么即使这个结果是0.99，经过多层传播之后，误差的输入层的偏导会趋于0，可以用relu激活函数来解决，因为relu=max（0，X），偏导数为1，不会造成梯度消失，而弊端是有可能会产生死神经元

梯度膨胀：每一层神经元对上一层的输出偏导乘上权重结果都大于1的话，经过多层传播之后，误差对输入层的偏导会无穷大，也可以通过激活函数来解决
12.为什么朴素贝叶斯如此朴素？

因为朴素贝叶斯有个重要的假设前提，也就是假设样本的所有特征之间是相互独立的，而这个在现实世界中是不真实的，因此说其很朴素

13.在机器学习中，为何要经常对数据归一化？

归一化后加快了梯度下降求最优解的速度（两个特征量纲不同，差距较大时，等高线较尖，根据梯度下降可能走之字形，而归一化后比较圆走直线）归一化有可能提高精度（一些分类器需要计算样本之间的距离，如果一个特征值域范围非常大，那么距离计算就主要取决于这个特征，这是不合理的）

14.协方差与相关性的区别？

相关性是协方差的标准化格式，协方差本身很难做比较，例如，如果我们计算工资和年龄的协方差，因为这两个变量有不同的度量，所以我们会得到不能做比较的不同的协方差，为了解决这个问题，我们计算相关性来得到一个介于-1和1之间的值，就可以忽略它们各自不同的度量

15.如何解决数据不平衡问题？
采样，对小样本进行加噪声采样，对大样本进行下采样进行特殊的加权，如在Adaboost中或者SVM 采用对不平衡数据集不敏感的算法改变评价标准：用AUC|ROC来进行评价考虑数据的先验分布

16.什么是卷积？

对图像和滤波矩阵做内积的操作就是所谓的卷积操作，也是卷积神经网络的名字来源

17.什么是CNN的池化pool层？
池化指的是在区域内取平均或者最大

18.什么是生成对抗网络？

GAN网络有两个重要的概念，一个是generator，主要作用是生成图片，尽量使其看上去来自于训练样本，一个是discriminator，主要作用是判断输入图片是否属于训练样本，所以这就是被称为对抗的网络，举例赝品家和鉴赏家

19.梯度下降法找到的一定是下降最快的方向么？

并不是，它只是目标函数在当前的点的切平面上下降最快的方向，牛顿方向才一般被认为是下降最快的方向

20.特征工程的问题

特征工程包括数据与特征处理、特征选择和降维三部分。数据与特征处理包括：

1.数据选择、清洗、采样

数据格式化；

数据清洗，填充缺失值、去掉脏数据，将不可信的样本丢掉，缺省值极多的字段考虑不用；

采样：针对正负样本不平衡的情况，当正样本远大于负样本时，且量都很大时，使用下采样，量不大时，可采集更多的数据或oversampling或修改损失函数；采样过程中可利用分层抽样保持不同类别数据的比例。

2.不同类型数据的特征处理

数值型：幅度调整/归一化、log等变化、统计值（例如max、min、mean、std）、离散化、分桶等

类别型：one-hot编码等

时间型：提取出连续值的持续时间和间隔时间；提取出离散值的“年”、“月”、“日”、“一年中哪个星期/季度”、“一周中的星期几”、“工作日/周末”等信息

文本型：使用If-idf特征

统计型：加减平均、分位线、次序、比例

意义：

对数据进行预处理，可提高数据质量，提高挖掘质量。对数据进行清洗可填充缺失值、光滑噪声数据，识别和删除离群点数据，保证数据的一致性；

使用正确的采样方法可解决因数据不平衡带来的预测偏差；

对不同的数据类型进行不同的特征处理有助于提高特征的可用性，例如对数值型数据进行归一化可将数据转化到统一量纲下；对类别型数据，可用one-hot编码方法将类别数据数字化，数字化特征之后可更用来计算距离、相似性等；可从时间型数据当中提取中更多的时间特征，例如年、月和日等，这些特征对于业务场景以及模型的预测往往有很大的帮助。统计型特征处理有助于从业务场景中挖掘更丰富的信息。

特征选择包括：

1.Filter：使用方差、Pearson相关系数、互信息等方法过滤特征，评估单个特征和结果值之间的相关程度，留下Top相关的特征部分。

2.Wrapper：可利用“递归特征删除算法”，把特征选择看做一个特征子集搜索问题，筛选各种特征子集，用模型评估效果。

3.Embedded：可利用正则化方式选择特征，使用带惩罚项的基模型，除了选择出特征外，同时也进行了降纬。

意义：

-剔除对结果预测不大的特征，减小冗余，选择有意义的特征输入模型，提高计算性能。

降维：

方法：主成分分析法（PCA）和线性判别分析（LDA）

意义：通过PCA或LDA方法，将较高纬度样本空间映射到较低维度的样本空间，从而达到降纬的目的，减少模型的训练时间，提高模型的计算性能。

21.过拟合的解决方法

正则化(L1正则化,L2正则化),
扩增数据集,
特征的筛选,
earlyimgstopping，
dropout

22.SVM中什么时候用线性核什么时候用高斯核?
当数据的特征提取的较好,所包含的信息量足够大,很多问题是线性可分的那么可以采用线性核。若特征数较少,样本数适中,对于时间不敏感,遇到的问题是线性不可分的时候可以使用高斯核来达到更好的效果。
23.inception模块的作用？
通过堆叠多种不同尺度的卷积核，加宽网络宽度，在保证参数量的前提下提升了性能，使得网络能够适应多尺度的特征

24.Resnet之后还有什么网络？
出现了新的网络结构DenseNet, SENet，先简单介绍一下densenet，任意两层之间都有连接，将每一层学到的特征传送给之后的所有层，除去深度和宽度，在feature上做到极致化，实现特征的重复利用，并且将每一层设计的很窄，每层只学习很少的特征图，在保证精度的情况下减少了计算量
25.决策树处理缺失值？
缺失值问题可以从三个方面来考虑

a.在选择分裂属性的时候，训练样本存在缺失值，如何处理？（计算分裂损失减少值时，忽略特征缺失的样本，最终计算的值乘以比例（实际参与计算的样本数除以总的样本数））
假如你使用ID3算法，那么选择分类属性时，就要计算所有属性的熵增(信息增益，Gain)。假设10个样本，属性是a,b,c。在计算a属性熵时发现，第10个样本的a属性缺失，那么就把第10个样本去掉，前9个样本组成新的样本集，在新样本集上按正常方法计算a属性的熵增。然后结果乘0.9（新样本占raw样本的比例），就是a属性最终的熵。

b.分类属性选择完成，对训练样本分类，发现样本属性缺失怎么办？（将该样本分配到所有子节点中，权重由1变为具有属性a的样本被划分成的子集样本个数的相对比率，计算错误率的时候，需要考虑到样本权重）
比如该节点是根据a属性划分，但是待分类样本a属性缺失，怎么办呢？假设a属性离散，有1,2两种取值，那么就把该样本分配到两个子节点中去，但是权重由1变为相应离散值个数占样本的比例。然后计算错误率的时候，注意，不是每个样本都是权重为1，存在分数。

c.训练完成，给测试集样本分类，有缺失值怎么办？（分类时，如果待分类样本有缺失变量，而决策树决策过程中没有用到这些变量，则决策过程和没有缺失的数据一样；否则，如果决策要用到缺失变量，决策树也可以在当前节点做多数投票来决定（选择样本数最多的特征值方向）。）
(U)如果有单独的缺失分支，使用此分支。©把待分类的样本的属性a值分配一个最常出现的a的属性值，然后进行分支预测。(S)根据其他属性为该待分类样本填充一个属性a值，然后进行分支处理。(F)在决策树中属性a节点的分支上，遍历属性a节点的所有分支，探索可能所有的分类结果，然后把这些分类结果结合起来一起考虑，按照概率决定一个分类。(H)待分类样本在到达属性a节点时就终止分类，然后根据此时a节点所覆盖的叶子节点类别状况为其分配一个发生概率最高的类。

26.基础的图像处理知识
a.腐蚀与膨胀、开闭运算
对于二值图像，使用合适大小、形状结构元素（Structure Element）对图像中的每一个元素进行操作；
腐蚀：将图像中每一个点与结构元素进行比对，如果完全一致，则保留该点；如果不一致，将该点去除；
膨胀：将图像中每一个点与结构元素进行比对，如果完全一致，则保留该点；如果不一致，以该点为中心点，利用结构元素为模板对该点进行扩充。
开运算：先腐蚀后膨胀，目的是去除图像中的一些孤立块，减少噪声；
闭运算：先膨胀后腐蚀，目的是减少空洞、合并同类。
b.图像的缩放算法
最近邻算法、双线性插值、双三次插值
c.图像特征提取方法
HOG、LBP、SIFT、SURF

27.第一类误差和第二类误差有什么区别？
第一类误差指的是假正率，第二类指的是假负率。简单来说，第一类误差意味着假设为真的情况下，作出了拒绝原假设的一种错误推断。第二类误差意味着假设为假的情况下，做出了接受原假设的一种错误判断。

举个例子：第一类误差，你误判一个男的他怀孕了。第二类误差，你误判了一位其实已经怀孕的女子没怀孕。
28.什么是傅立叶变换？
傅立叶变换是将一般函数分解成对称函数叠加的一般方法。
29.概率和似然有什么区别？
该链接较为通俗
30.深度学习中Dropout原理解析
点这里，很详细
31.为什么用 smooth-L1 loss?
损失函数：L1 loss, L2 loss, smooth L1 loss
接着点

32.了解多线程吗？

1.单进程单线程：一个人在一个桌子上吃菜。
2.单进程多线程：多个人在同一个桌子上一起吃菜。
3.多进程单线程：多个人每个人在自己的桌子上吃菜。

多线程的问题是多个人同时吃一道菜的时候容易发生争抢，例如两个人同时夹一个菜，一个人刚伸出筷子，结果伸到的时候已经被夹走菜了。。。此时就必须等一个人夹一口之后，在还给另外一个人夹菜，也就是说资源共享就会发生冲突争抢。
a.对于 Windows 系统来说，【开桌子】的开销很大，因此 Windows 鼓励大家在一个桌子上吃菜。因此 Windows 多线程学习重点是要大量面对资源争抢与同步方面的问题。
b.对于 Linux 系统来说，【开桌子】的开销很小，因此 Linux 鼓励大家尽量每个人都开自己的桌子吃菜。这带来新的问题是：坐在两张不同的桌子上，说话不方便。因此，Linux 下的学习重点大家要学习进程间通讯的方法。

–补充：

有人对这个开桌子的开销很有兴趣。
开桌子的意思是指创建进程。开销这里主要指的是时间开销。可以做个实验：创建一个进程，在进程中往内存写若干数据，然后读出该数据，然后退出。此过程重复 1000 次，相当于创建/销毁进程 1000 次。在我机器上的测试结果是： UbuntuLinux：耗时 0.8 秒 Windows7：耗时 79.8 秒两者开销大约相差一百倍。
这意味着，在 Windows 中，进程创建的开销不容忽视。换句话说就是，Windows 编程中不建议你创建进程，如果你的程序架构需要大量创建进程，那么最好是切换到 Linux 系统。大量创建进程的典型例子有两个，一个是 gnu autotools 工具链，用于编译很多开源代码的，他们在 Windows 下编译速度会很慢，因此软件开发人员最好是避免使用 Windows。另一个是服务器，某些服务器框架依靠大量创建进程来干活，甚至是对每个用户请求就创建一个进程，这些服务器在 Windows 下运行的效率就会很差。这"可能"也是放眼全世界范围，Linux 服务器远远多于 Windows 服务器的原因。
–再次补充：
如果你是写服务器端应用的，其实在现在的网络服务模型下，开桌子的开销是可以忽略不计的，因为现在一般流行的是按照 CPU 核心数量开进程或者线程，开完之后在数量上一直保持，进程与线程内部使用协程或者异步通信来处理多个并发连接，因而开进程与开线程的开销可以忽略了。另外一种新的开销被提上日程：核心切换开销。
现代的体系，一般 CPU 会有多个核心，而多个核心可以同时运行多个不同的线程或者进程。当每个 CPU 核心运行一个进程的时候，由于每个进程的资源都独立，所以 CPU 核心之间切换的时候无需考虑上下文。当每个 CPU 核心运行一个线程的时候，由于每个线程需要共享资源，所以这些资源必须从 CPU 的一个核心被复制到另外一个核心，才能继续运算，这占用了额外的开销。换句话说，在 CPU 为多核的情况下，多线程在性能上不如多进程。因而，当前面向多核的服务器端编程中，需要习惯多进程而非多线程。
33.训练时的方差和偏差有什么区别?
偏差：描述的是预测值（估计值）的期望与真实值之间的差距。偏差越大，越偏离真实数据，如下图第二行所示。

方差：描述的是预测值的变化范围，离散程度，也就是离其期望值的距离。方差越大，数据的分布越分散，如下图右列所示。

34.深度学习难分样本挖掘（Hard Mining）
概念：对于分类来说：

正样本：我们想要正确分类出的类别所对应的样本，例如，我们需要对一张图片分类，确定是否属于猫，那么在训练的时候，猫的图片就是正样本。
负样本：根据上面的例子，不是猫的其他所有的图片都是负样本
难分正样本(hard positives)：错分成负样本的正样本，也可以是训练过程中损失最高的正样本
难分负样本(hard negatives)：错分成正样本的负样本，也可以是训练过程中损失最高的负样本
易分正样本(easy positive)：容易正确分类的正样本，该类的概率最高。也可以是训练过程中损失最低的正样本
易分负样本(easy negatives)：容易正确分类的负样本，该类的概率最高。也可以是训练过程中损失最低的负样本。

再参看这篇文章

35.Triplet Loss 损失函数
Triplet Loss是深度学习中的一种损失函数，用于训练差异性较小的样本，如人脸等， Feed数据包括锚（Anchor）示例、正（Positive）示例、负（Negative）示例，通过优化锚示例与正示例的距离小于锚示例与负示例的距离，实现样本的相似性计算。

先看此博文

再看此博文

36.Embedding 的理解
近年来，从计算机视觉到自然语言处理再到时间序列预测，神经网络、深度学习的应用越来越广泛。在深度学习的应用过程中，Embedding 这样一种将离散变量转变为连续向量的方式为神经网络在各方面的应用带来了极大的扩展。该技术目前主要有两种应用，NLP 中常用的 word embedding 以及用于类别数据的 entity embedding。
可以总结一下，embedding 有以下 3 个主要目的：

在 embedding 空间中查找最近邻，这可以很好的用于根据用户的兴趣来进行推荐。
作为监督性学习任务的输入。
用于可视化不同离散变量之间的关系。

详细参看知乎大佬文章

37.检测评价函数 intersection-over-union （ IOU ）

在目标检测的评价体系中，有一个参数叫做 IoU ，简单来讲就是模型产生的目标窗口和原来标记窗口的交叠率。具体我们可以简单的理解为：即检测结果(DetectionResult)与 Ground Truth 的交集比上它们的并集，即为检测的准确率 IoU :
生成图：

原图：

38.图像的下采样Subsampling 与上采样Upsampling

缩小图像（或称为下采样（subsampled）或降采样（downsampled））的主要目的：

1、使得图像符合显示区域的大小；

2、生成对应图像的缩略图。

放大图像（或称为上采样（upsampling）或图像插值（interpolating））的主要目的是放大原图像,从而可以显示在更高分辨率的显示设备上。

对图像的缩放操作并不能带来更多关于该图像的信息, 因此图像的质量将不可避免地受到影响。然而，确实有一些缩放方法能够增加图像的信息，从而使得缩放后的图像质量超过原图质量的。
39.样本不均衡的分类问题怎么解决？

对数据进行采用的过程中通过相似性同时生成并插样“少数类别数据”，叫做SMOTE算法
对数据先进行聚类，再将大的簇进行随机欠采样或者小的簇进行数据生成
把监督学习变为无监督学习，舍弃掉标签把问题转化为一个无监督问题，如异常检测
先对多数类别进行随机的欠采样，并结合boosting算法进行集成学习

除了以上提到的一些看起来略微复杂的算法，最简单的算法无外乎三种，在大部分教材中都有涉猎：

对较多的那个类别进行欠采样(under-sampling)，舍弃一部分数据，使其与较少类别的数据相当
对较少的类别进行过采样(over-sampling)，重复使用一部分数据，使其与较多类别的数据相当
阈值调整（threshold moving），将原本默认为0.5的阈值调整到较少类别/（较少类别+较多类别）即可
当然很明显我们可以看出，第一种和第二种方法都会明显的改变数据分布，我们的训练数据假设不再是真实数据的无偏表述。在第一种方法中，我们浪费了很多数据。而第二类方法中有无中生有或者重复使用了数据，会导致过拟合的发生。

因此欠采样的逻辑中往往会结合集成学习来有效的使用数据，假设正例数据n，而反例数据m个。我们可以通过欠采样，随机无重复的生成（k=n/m）个反例子集，并将每个子集都与相同正例数据合并生成k个新的训练样本。我们在k个训练样本上分别训练一个分类器，最终将k个分类器的结果结合起来，比如求平均值。这就是一个简单的思路，也就是Easy Ensemble。

但不难看出，其实这样的过程是需要花时间处理数据和编程的，对于很多知识和能力有限的人来说难度比较大。特此推荐两个简单易行且效果中上的做法：

简单的调整阈值，不对数据进行任何处理。此处特指将分类阈值从0.5调整到正例比例
使用现有的集成学习分类器，如随机森林或者xgboost，并调整分类阈值

提出这样建议的原因有很多。首先，简单的阈值调整从经验上看往往比过采样和欠采样有效 [6]。其次，如果你对统计学知识掌握有限，而且编程能力一般，在集成过程中更容易出错，还不如使用现有的集成学习并调整分类阈值。
40.怎么做数据增强?
我们常常会遇到数据不足的情况。比如，你遇到的一个任务，目前只有小几百的数据，然而，你知道目前现在流行的最先进的神经网络都是成千上万的图片数据。你知道有人提及大的数据集是效果好的保证。对自己数据集小感到失望，你怀疑在我的小数据集上能使我的“最先进的”神经网络能表现好吗？

答案是：是！在我们开始是这件事发生之前，我们需要先反思几个问题。
具体看人家怎么总结的，好好看
41.有从 loss 层面考虑过吗？
看看人家热乎的论文是怎么在loss上做数据增强的
42.了解 focalloss 吗？
何恺明大神文章，您细品
43.优化器一般用什么？adam 的原理是？
优化器种类
adam的原理
44.一般怎么训练？为什么开始学习率要大一点，batchsize 为啥开始也要小一点？
自由发挥
45.PyTorch中的nn.Conv1d与nn.Conv2d
1.nn.Conv1d用于一维向量（词向量）
2.nn.Conv2d用于二维向量（图片）
46.模型融合
一般来说，通过融合多个不同的模型，可能提升机器学习的性能，这一方法在各种机器学习比赛中广泛应用，比如在kaggle上的otto产品分类挑战赛中取得冠军和亚军成绩的模型都是融合了1000+模型的“庞然大物”。

常见的集成学习&模型融合方法包括：简单的Voting/Averaging（分别对于分类和回归问题）、Stacking、Boosting和Bagging。
47.LR
与其他算法区别：

与 SVM
相同点：
都是分类算法，本质上都是在找最佳分类超平面；
都是监督学习算法；
都是判别式模型，判别模型不关心数据是怎么生成的，它只关心数据之间的差别，然后用差别来简单对给定的一个数据进行分类；
都可以增加不同的正则项。
不同点：
LR 是一个统计的方法，SVM 是一个几何的方法；
SVM 的处理方法是只考虑 Support Vectors，也就是和分类最相关的少数点去学习分类器。而逻辑回归通过非线性映射减小了离分类平面较远的点的权重，相对提升了与分类最相关的数据点的权重；
损失函数不同：LR 的损失函数是交叉熵，SVM 的损失函数是 HingeLoss，这两个损失函数的目的都是增加对分类影响较大的数据点的权重，减少与分类关系较小的数据点的权重。对 HingeLoss 来说，其零区域对应的正是非支持向量的普通样本，从而所有的普通样本都不参与最终超平面的决定，这是支持向量机最大的优势所在，对训练样本数目的依赖大减少，而且提高了训练效率；
LR 是参数模型，SVM 是非参数模型，参数模型的前提是假设数据服从某一分布，该分布由一些参数确定（比如正太分布由均值和方差确定），在此基础上构建的模型称为参数模型；非参数模型对于总体的分布不做任何假设，只是知道总体是一个随机变量，其分布是存在的（分布中也可能存在参数），但是无法知道其分布的形式，更不知道分布的相关参数，只有在给定一些样本的条件下，能够依据非参数统计的方法进行推断。所以 LR 受数据分布影响，尤其是样本不均衡时影响很大，需要先做平衡，而 SVM 不直接依赖于分布；
LR 可以产生概率，SVM 不能；
LR 不依赖样本之间的距离，SVM 是基于距离的；
LR 相对来说模型更简单好理解，特别是大规模线性分类时并行计算比较方便。而 SVM 的理解和优化相对来说复杂一些，SVM 转化为对偶问题后，分类只需要计算与少数几个支持向量的距离，这个在进行复杂核函数计算时优势很明显，能够大大简化模型和计算。
与朴素贝叶斯
朴素贝叶斯和逻辑回归都属于分类模型，当朴素贝叶斯的条件概率 [公式] 服从高斯分布时，它计算出来的 P(Y=1|X) 形式跟逻辑回归是一样的。
两个模型不同的地方在于：
逻辑回归是判别式模型 p(y|x)，朴素贝叶斯是生成式模型 p(x,y)：判别式模型估计的是条件概率分布，给定观测变量 x 和目标变量 y 的条件模型，由数据直接学习决策函数 y=f(x) 或者条件概率分布 P(y|x) 作为预测的模型。判别方法关心的是对于给定的输入 x，应该预测什么样的输出 y；而生成式模型估计的是联合概率分布，基本思想是首先建立样本的联合概率概率密度模型 P(x,y)，然后再得到后验概率 P(y|x)，再利用它进行分类，生成式更关心的是对于给定输入 x 和输出 y 的生成关系；
朴素贝叶斯的前提是条件独立，每个特征权重独立，所以如果数据不符合这个情况，朴素贝叶斯的分类表现就没逻辑会好了。
LR范围非常大，面试不要轻易说自己了解LR，除非真的了解。。。
看吧

48.牛顿法和梯度下降法
牛顿法简介
下图是两种方法的图示表示，红色为牛顿下降法，绿色为梯度下降法，从图中直观的感觉是，红色线短，下降速度快。因为牛顿下降法是用二次曲面去拟合当前的局部曲面，而梯度下降法是用平面去拟合当前的局部曲面，一般用二次曲面拟合的更好，所以一般牛顿算法收敛快。

49.矩阵论，泛函分析学过没？概率论学过没？
50.vgg16 和 resnet50 哪个网络计算次数更多？
51.double 和 float 哪种显卡计算能力更强？哪种单位时间吞吐量大？
52.常用的激活函数有哪些，优缺点是什么？
这里详解

53.从参数数量角度防止过拟合的手段是？

54.为什么开始学习率要大一点，batchsize 为啥开始也要小一点？
55.为什么样本方差（sample variance）的分母是 n-1？
56.字节飞书数据分析实习面试：
1）自我介绍
2）介绍一个简历里奖项的：题目、你负责什么部分、产生什么样的结果
3）使用的模型是？XGboost相比于其他模型的优势以及调参
4）业务题：如果飞书的会议功能的DAU突然下降分析原因？
5）硬要你再憋一个原因呢？
6）如何建立指标评价一个云文档在传播过程中的重要性？
7）技术题：求每个用户前三次访问时间；求每日新增用户数。
57.中心化和标准化
这里先介绍下数据的中心化和标准化，在回归问题和一些机器学习算法中通常要对原始数据进行中心化和标准化处理，也就是需要将数据的均值调整到0，标准差调整为1, 计算过程很简单就是将所有数据减去平均值后再除以标准差:

这样调整后的均值:

调整后的标准差:

之所以需要进行中心化其实就是个平移过程，将所有数据的中心平移到原点。而标准化则是使得所有数据的不同特征都有相同的尺度Scale, 这样在使用梯度下降法以及其他方法优化的时候不同特征参数的影响程度就会一致了。

未完待续！不定期更新！

你可能感兴趣的:(算法,面试)

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
Shader面试题100道之（81-100）还是大剑师兰特 #Shader 综合教程100+大剑师 shader面试题 shader教程
Shader面试题（第81-100题）以下是第81到第100道Shader相关的面试题及答案：81.Unity中如何实现屏幕空间的热扭曲效果（HeatDistortion）？热扭曲效果可以通过GrabPass抓取当前屏幕图像，然后在片段着色器中使用噪声或动态UV偏移模拟空气扰动，再结合一个透明通道控制扭曲强度来实现。82.Shader中如何实现物体轮廓高亮（OutlineHighlight）？轮廓
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
无面试无offer? 你需要AI 求职co-pilot的帮助!
大家好啊，我写的开源免费求职AIco-pilot工具发布了v3.0.0，欢迎大家参与、使用!https://github.com/weicanie/prisma-ai一、项目介绍开源免费的求职co-pilot，自动化简历准备至offer到手的整个流程。优化您的项目、定制您的简历、为您匹配工作，并帮助您做好面试准备。二、核心价值prisma-ai旨在解决求职者在准备简历和寻找工作时最头疼的3个问题:
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
OkHttp3源码解析--设计模式，android开发实习面试题
this.cache=builder.cache;}//构造者publicstaticfinalclassBuilder{Cachecache;…//构造cache属性值publicBuildercache(@NullableCachecache){this.cache=cache;returnthis;}//在build方法中真正创建OkHttpClient对象，并传入前面构造的属性值publi
【GESP】C++三级真题 luogu-B4359 [GESP202506 三级] 分糖果 CoderCodingNo GESP c++java 开发语言
GESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较简单。题目题解详见：【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoder【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoderGESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较
自动化运维工程师面试题解析【真题】
ZabbixAgent默认监听的端口是A.10050。以下是关键分析：选项排除：C.80是HTTP默认端口，与ZabbixAgent无关。D.5432是PostgreSQL数据库的默认端口，不涉及ZabbixAgent。B.10051是ZabbixServer的默认监听端口，用于接收Agent发送的数据，而非Agent自身的监听端口。ZabbixAgent的配置：根据官方文档，ZabbixAgen
javaSE面试题---语法基础、面向对象、常用类、集合、多线程、文件和IO yang_xiao_wu_ java 面试开发语言 javase java基础多线程文件和IO
目录语法基础1.jdkjrejvm区别2.基本数据类型3.引用数据类型4.自动类型转换、强制类型转换5.常见的运算符6.&和&&区别7.++--在前和在后的区别8.+=有什么作用9.switch..case中switch支持哪些数据类型10.break和continue区别11.while和dowhile区别12.如何生成一个取值范围在[min,max]之间的随机数13.数组的长度如何获取？数组下
【华为机试】HJ61 放苹果不爱熬夜的Coder 算法华为机试 golang 华为 golang 算法面试
文章目录HJ61放苹果描述输入描述输出描述示例1示例2解题思路算法分析问题本质分析状态定义与转移递推关系详解动态规划表构建算法流程图示例推导过程代码实现思路时间复杂度分析关键优化点边界情况处理递归解法对比实际应用场景测试用例分析算法特点数学原理完整题解代码HJ61放苹果描述我们需要将m个相同的苹果放入n个相同的盘子中，允许有的盘子空着不放。求解有多少种不同的分法。输入描述输入两个整数m,n(0B[
.NET中的安全性之数字签名、数字证书、强签名程序集、反编译 hezudao25 NET .net assembly 加密算法 reference header
本文将探讨数字签名、数字证书、强签名程序集、反编译等以及它们在.NET中的运用（一些概念并不局限于.NET在其它技术、平台中也存在）。1.数字签名数字签名又称为公钥数字签名，或者电子签章等，它借助公钥加密技术实现。数字签名技术主要涉及公钥、私钥、非对称加密算法。1.1公钥与私钥公钥是公开的钥匙，私钥则是与公钥匹配的严格保护的私有密钥；私钥加密的信息只有公钥可以解开，反之亦然。在VisualStud
vue3面试题(个人笔记) 武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js java 学习
vue3比vue2有什么优势？性能更好，打包体积更小，更好的ts支持，更好的代码组织，更好的逻辑抽离，更多的新功能。描述Vue3生命周期CompositionAPI的生命周期：onMounted()onUpdated()onUnmounted()onBeforeMount()onBeforeUpdate()onBeforeUnmount()onErrorCaptured()onRenderTrac
flutter知识点 ZhDan91 flutter
#时隔4年了#4年前用flutter开发海外项目和医疗项目。绘制界面的语法与html还是较类似的。把这些封印的记忆和技术回顾一下，最开始是开发Android出身的，所以开发起flutter来依旧是用的androidstudio开发工具。整理下用到的知识点：整理来源：flutter面试题——基础篇（1）-CSDN博客1、Dart是单线程的。在单线程中以消息循环来运行的。其中敖汉两个任务队列。一个是微
2025年渗透测试面试题总结-2025年HW(护网面试) 43（题目+回答）独行soc 2025年护网面试职场和发展 linux 科技渗透测试安全护网
安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录2025年HW(护网面试)431.自我介绍与职业规划2.Webshell源码级检测方案3.2025年新型Web漏洞TOP54.渗透中的高价值攻击点5.智能Fuzz平台架构设计6.堆栈溢出攻防演进7.插桩技术实战应用8.二进制安全能力矩阵9.C语言内存管理精要10.Pyth
python相关内容二湫默 python 开发语言
1.技术面试题（1）详细描述单调栈的工作原理和应用场景答：工作原理：维护一个栈结构，栈中元素保持单调递增或单调递减的顺序。遍历数据时，新元素入栈前，弹出栈顶所有不满足单调关系的元素，再将新元素入栈，确保栈的单调性。应用场景：解决下一个元素更大的问题，如数组中后面一个元素比前面一个入栈的元素大，则需要上一个元素出栈，然后大的那个元素入栈。（2）详细描述单调队列的工作原理和应用场景答：工作原理：维护队
面试官：Spring 如何控制 Bean 的加载顺序？
在大多数情况下，我们不需要手动控制Bean的加载顺序，因为Spring的IoC容器足够智能。核心原则：依赖驱动加载SpringIoC容器会构建一个依赖关系图（DependencyGraph）。如果BeanA依赖于BeanB（例如，A的构造函数需要一个B类型的参数），Spring会保证在创建BeanA之前，BeanB已经被完全创建和初始化好了。@ServicepublicclassServiceA{
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h

图像算法岗面试指南

最近都在忙面试的事，总结一些图像算法岗常见问题跟大家分享。有些是附上大佬帖子链接，整理难免有些许错误，请及时与本人联系，不胜感激！

方差：描述的是预测值的变化范围，离散程度，也就是离其期望值的距离。方差越大，数据的分布越分散，如下图右列所示。 34.深度学习难分样本挖掘（Hard Mining） 概念：对于分类来说：

未完待续！不定期更新！

你可能感兴趣的:(算法,面试)

方差：描述的是预测值的变化范围，离散程度，也就是离其期望值的距离。方差越大，数据的分布越分散，如下图右列所示。

34.深度学习难分样本挖掘（Hard Mining）
概念：对于分类来说：