一匹好人呀

保研面试/考研复试机器学习问题整理

1. 什么是梯度爆炸和梯度消失？如何解决梯度消失、梯度爆炸？

在反向传播过程中需要对激活函数进行求导，如果导数大于 $1$ ，那么随着网络层数的增加梯度更新将会朝着指数爆炸的方式增加这就是梯度爆炸。同样如果导数小于 $1$ ，那么随着网络层数的增加梯度更新信息会朝着指数衰减的方式减少这就是梯度消失。因此，梯度消失、爆炸，其根本原因在于反向传播训练法则，属于先天不足。

解决方法：
[1] 对于RNN，可以通过梯度截断，避免梯度爆炸。
[2] 可以通过添加正则项，避免梯度爆炸。
[3] 使用LSTM等自循环和门控制机制，避免梯度消失。
[4] 优化激活函数，譬如将 $s i g m o l d$ 改为 $r e l u$ ，避免梯度消失。

2. 你对什么方向感兴趣？那个是干什么的？

数据挖掘：数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程，包含了机器学习、统计学、数学等多个学科的知识。
数据挖掘三大常见的任务：
$\clubsuit$ 回归任务：回归任务是一种对连续型随机变量进行预测和建模的监督学习算法，使用案例包括房价预测、股票走势等。
$\clubsuit$ 分类任务：分类是一种对离散型变量建模或预测的监督学习算法，使用案例包括邮件过滤、金融欺诈等。
$\clubsuit$ 聚类任务：聚类是一种无监督学习，它是基于数据的内部结构寻找观察样本的自然族群（集群），使用案例包括新闻聚类、文章推荐等。

$\diamondsuit$ 监督学习：数据集中每个样本都有相应的标签。
$\diamondsuit$ 无监督学习：数据集中的样本没有相应的标签。

无监督学习算法（Unsupervised Learning）使用无标记数据（输入变量没有对应输出结果），试图识别数据本身的内部结构。无监督学习算法主要有两类：降维算法（降低数据维度）如主成分分析等，聚类算法如K均值聚类、层次聚类等。

3. 简述PCA的计算过程/介绍下PCA算法过程

PCA (Principal Component Analysis)是最常用的线性降维方法，它的目标是通过某种线性投影，将高维的数据映射到低维的空间中表示，并期望在所投影的维度上数据的方差最大，以此使用较少的数据维度，同时保留住较多的原数据点的特性。

4. 线性回归模型和随机森林模型

（1）关于回归

从大量的函数结果和自变量反推回函数表达式的过程就是回归。

回归算法是一种有监督学习算法，用来建立自变量 $X$ 和观测变量 $Y$ 之间的映射关系，如果观测变量是离散的，则称其为分类Classification；如果观测变量是连续的，则称其为回归Regression。

回归算法的目的是寻找假设函数hypothesis来最好的拟合给定的数据集。常用的回归算法有：线性回归（Linear Regression）、逻辑回归（Logistic Regression）、多项式回归（Polynomial Regression）、岭回归（Ridge Regression）、LASSO回归（Least Absolute Shrinkage and Selection Operator）、弹性网络（Elastic Net estimators）、逐步回归（Stepwise Regression）等。

（2）线性回归模型

线性回归模型试图学得一个线性模型以尽可能准确地预测实值 $X$ 的输出标记 $Y$ 。在这个模型中，因变量 $Y$ 是连续的，自变量 $X$ 可以是连续或离散的。

（线性回归的定义是：目标值预期是输入变量的线性组合。）

在回归分析中，如果只包括一个自变量和一个因变量，且二者关系可用一条直线近似表示，称为一元线性回归分析；如果回归分析中包括两个或两个以上的自变量，且因变量和自变量是线性关系，则称为多元线性回归分析。对于二维空间线性是一条直线，对于三维空间线性是一个平面，对于多维空间线性是一个超平面。

（3）随机森林（Random Forest，简称RF）算法

a) 集成学习

集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型，各自独立地学习和做出预测。这些预测最后结合成单预测，因此优于任何一个单分类的做出预测。随机森林是集成学习的一个子类，它依靠于决策树的投票选择来决定最后的分类结果。

集成学习分两种：
[1] 模型之间彼此存在依赖关系，按一定的次序搭建多个分类模型，一般后一个模型的加入都需要对现有的集成模型有一定贡献，进而不断提高更新过后的集成模型性能，并借助多个弱分类器搭建出强分类器。代表有Boosting（AdaBoost）算法。该算法与第一种的随机森林主要区别在于每一颗决策树在生成的过程中都会尽可能降低模型在训练集上的拟合或训练误差
[2] 模型之间彼此不存在依赖关系，彼此独立。利用相同的训练数据同时搭建多个独立的分类模型，然后通过投票的方式，以少数服从多数的原则做出最终的分类决策。例如：Bagging和随机森林（Random Forest）.

b) 概述

严格来说，随机森林其实算是一种集成算法。它首先随机选取不同的特征(feature)和训练样本(training sample)，生成大量的决策树，然后综合这些决策树的结果来进行最终的分类。

随机森林算法是最常用也是最强大的监督学习算法之一，它兼顾了解决回归问题和分类问题的能力。随机森林是通过集成学习的思想，将多棵决策树进行集成的算法。对于分类问题，其输出的类别是由个别树输出的众数所决定的。在回归问题中，把每一棵决策树的输出进行平均得到最终的回归结果。

tips：决策树的数量越大，随机森林算法的鲁棒性越强，精确度越高。

随机森林在现实分析中被大量使用，它相对于决策树，在准确性上有了很大的提升，同时一定程度上改善了决策树容易被攻击的特点。

c) 随机森林算法的步骤

首先，对样本数据进行有放回的抽样，得到多个样本集。 具体来讲就是每次从原来的N个训练样本中有放回地随机抽取 $N$ 个样本(包括可能重复样本)。
然后，从候选的特征中随机抽取 $m$ 个特征，作为当前节点下决策的备选特征，从这些特征中选择最好的划分训练样本的特征。用每个样本集作为训练样本构造决策树。单个决策树在产生样本集和确定特征后，使用CART算法计算，不剪枝。
最后，得到所需数目的决策树后，随机森林方法对这些树的输出进行投票，以得票最多的类作为随机森林的决策。

或：
随机森林是基于bagging框架下的决策树模型，随机森林包含了很多树，每棵树给出分类结果，每棵树的生成规则如下：

如果训练集大小为 $N$ ，对于每棵树而言，随机且有放回地从训练中抽取 $N$ 个训练样本，作为该树的训练集，重复 $K$ 次，生成 $K$ 组训练样本集。
如果每个特征的样本维度为 $M$ ，指定一个常数 $m\ll M$ ，随机地从 $M$ 个特征中选取 $m$ 个特征。
利用 $m$ 个特征对每棵树尽最大程度的生长，并且没有剪枝过程。

随机森林中有两个可控制参数：
$\spadesuit$ 森林中树的数量（一般选取值较大）。
$\spadesuit$ 抽取的属性值 $m$ 的大小。

d) 随机森林的特点

在当前所有算法中，具有极好的准确率
能够有效地运行在大数据集上
能够处理具有高维特征的输入样本，而且不需要降维
能够评估各个特征在分类问题上的重要性
在生成过程中，能够获取到内部生成误差的一种无偏估计
对于缺省值问题也能够获得很好的结果

e) 随机森林算法的缺点

随机森林在解决回归问题时，并没有像它在分类中表现的那么好，这是因为它并不能给出一个连续的输出。当进行回归时，随机森林不能够做出超越训练集数据范围的预测，这可能导致在某些特定噪声的数据进行建模时出现过度拟合。（PS：随机森林已经被证明在某些噪音较大的分类或者回归问题上回过拟合）。
对于小数据或者低维数据（特征较少的数据），可能不能产生很好的分类。（处理高维数据，处理特征遗失数据，处理不平衡数据是随机森林的长处）。

f) 适用情景

（随机森林既可以用于分类，也可以用于回归。一般适用于数据维度较低，同时对准确性要求较高的场景中。）

数据维度相对低（几十维），同时对准确性有较高要求时。
因为不需要很多参数调整就可以达到不错的效果，基本上不知道用什么方法时都可以先试一下随机森林。

5. 常见的数据挖掘算法

1) k-means算法（k均值算法）

聚类算法，事先确定常数 $k$ ， $k$ 代表着聚类类别数。首先随机选取 $k$ 个初始点为质心，并通过计算每一个样本与质心之间的相似度（可以采用欧式距离），将样本点归到最相似的类中，接着重新计算每个类的质心（该类中所有点的平均值），重复这样的过程直到质心不再改变，最终就确定了每个样本所属的类别以及每个类的质心。

优点：原理简单、容易实现。
缺点：收敛太慢、算法复杂度高、需先确定K的个数、结果不一定是全局最优，只能保证局部最优。

由于每次都要计算所有样本与每一个质心之间的相似度，故在大规模的数据集上，K-Means算法的收敛速度比较慢。

改进收敛速度：第一次迭代正常进行，选取 $K$ 个初始点为质心，然后计算所有节点到这些质心的距离，后续的迭代中，不再计算每个点到所有 $K$ 个质心的距离，仅仅计算上一次迭代中离这个节点最近的某几个质心的距离，对于其他的质心，因为距离太远，归属到那些组的可能性非常小，所以不用再重复计算距离了。

2) kNN （k近邻）学习

思路：对于待判断的点，找到离它最近的几个数据点，根据它们的类型决定待判断点的类型。

$k$ 近邻学习是一种常用的监督学习方法，其工作机制非常简单：给定测试样本，基于某种距离度量找出训练集中与其最靠近的 $k$ 个训练样本，然后基于这 $k$ 个“邻居”的信息来进行预测。通常，在分类任务中可使用“投票法”，即选择这 $k$ 个样本中出现最多的类别标记作为预测结果；在回归任务中可使用“平均法”，即将这 $k$ 个样本的实值输出标记的平均值作为预测结果；还可基于距离远近进行加权平均或加权投票，距离越近的样本权重越大。

（ $k$ 最邻近分类算法，每个样本都可以用它最接近的 $k$ 个邻居中大多数样本所属的类别来代表，其中近邻距离的度量方法有余弦值，在实际中 $k$ 值一般取一个比较小的数值，通常采用交叉验证法（就是利用一部分样本做训练集，一部分样本做测试集），通过观察 $k$ 值不同时模型的分类效果来选取最优的 $k$ 值。）

3) 决策树（ID3算法和C4.5算法）

a) 概述

决策树是一种简单高效并且具有强解释性的模型，广泛应用于数据分析领域。其本质是一颗由多个判断节点组成的树。在使用模型进行预测时，根据输入参数依次在各个判断节点进行判断游走，最后到叶子节点即为预测结果。

决策树学习通常包括 $3$ 个步骤：特征选择、决策树的生成和决策树的修剪。

决策树算法的核心是通过对数据的学习，选定判断节点，构造一颗合适的决策树。

b)构造决策树的主要步骤

遍历每个决策条件，对结果集进行拆分。
计算在该决策条件下，所有可能的拆分情况的信息增益，信息增益最大的拆分为本次最优拆分。
递归执行1、2两步，直至信息增益 $< = 0$ 。

决策树既可以作为分类算法，也可以作为回归算法，同时也特别适合集成学习比如随机森林。

c) 决策树的剪枝方式

剪枝(pruning)是决策树学习算法对付“过拟合”的主要手段。

决策树剪枝的基本策略有“预剪枝”和“后剪枝”。预剪枝是指在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点；后剪枝则是先从训练集生成一棵完整的决策树，然后自底向上地对非叶节点进行考察，若将该结点对应的子树替换为叶节点能带来决策树泛化性能提升，则将该子树替换为叶结点。

d) 优缺点

优点：
1、计算量较小
2、清晰表达属性的重要程度
3、可增量学习对模型进行部分重构
4、不需要任何领域知识和参数假设
5、适合高维数据
6、随机森林是基于决策树的集成学习策略，随机森林鲜有短板
缺点：
1、没有考虑属性间依赖
2、容易过拟合，通过剪枝缓解
3、不可用于推测属性缺失的样本

e) ID3算法

熵是信息论中的概念，熵度量了事物的不确定性，越不确定的事物，它的熵就越大。当每件事物发生的概率相同时，它们发生的随机性最大，所以它们的熵也就越大。ID3算法就是用信息增益来判别当前节点应该用什么特征来构建决策树。某个特征的信息增益越大表示该特征对数据集的分类的不确定性减少的程度越高，越适合用来分类。

ID3算法的核心是在决策树各个节点上应用信息增益准则选择特征，递归地构建决策树。 具体方法是：从根节点开始，对节点计算所有可能的特征的信息增益，选择信息增益最大的特征作为节点的特征，由该特征的不同取值建立子节点；再对子节点递归的调用以上方法，构建决策树；直到所有特征的信息增益均很小或没有特征可以选择为止。最后得到一个决策树。ID3相当于用极大似然估计法进行概率模型的选择。

ID3算法的不足：

f) C4.5算法

以信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题。使用信息增益比可以对这一问题进行校正。C4.5算法与ID3算法相似，C4.5算法对ID3算法进行了改进，C4.5在生成的过程中，用信息增益比来选择特征。

C4.5算法的不足：

4) 朴素贝叶斯(naive Bayes)

a) 概述

逻辑回归通过拟合曲线（或者学习超平面）实现分类，决策树通过寻找最佳划分特征进而学习样本路径实现分类，支持向量机通过寻找分类超平面进而最大化类别间隔实现分类。相比之下，朴素贝叶斯独辟蹊径，通过特征概率来预测分类。

朴素贝叶斯（naive Bayes）法是一种基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入输出的联合概率分布；然后基于此模型，对给定的输入 $x$ ，利用贝叶斯定理求出后验概率最大的输出 $y$ 。

朴素贝叶斯是经典的机器学习算法之一，也是为数不多的基于概率论的分类算法。朴素贝叶斯原理简单，也很容易实现，学习与预测的效率都很高，多用于文本分类，比如垃圾邮件过滤。

b) QA：朴素贝叶斯朴素在哪里呢？

—— 两个假设：

一个特征出现的概率与其他特征（条件）独立。
每个特征同等重要。

或：假设各特征之间相互独立。

c) 优缺点

优点：
1、计算量较小
2、支持懒惰学习、增量学习
3、对缺失数据不太敏感
4、推断即查表，速度极快
缺点：
1、没有考虑属性间依赖
2、通过类先验概率产生模型

5) 逻辑回归(logistic回归)

logistic回归虽然带着回归两字却和线性回归有很大的区别，线性回归主要用于预测问题，其输出值为连续变量，而logistic回归主要用于分类问题，其输出值为离散值。logistic回归可以用于多元分类问题，也可以用于二元分类问题，但二元分类更为常用。

逻辑回归是应用非常广泛的一个分类机器学习算法，它将数据拟合到一个logit函数(或者叫做logistic函数)中，从而能够完成对事件发生的概率进行预测。

逻辑回归是一个使用逻辑函数将线性回归的结果归一化的分类模型，这里的归一化指将值约束在 $0$ 和 $1$ 之间。

缺点：容易欠拟合，分类精度可能不高。

6) SVM（支持向量机）

SVM的全称是Support Vector Machine，即支持向量机，主要用于解决模式识别领域中的数据分类问题，属于有监督学习算法的一种。

通俗来讲，SVM是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。

SVM分类，就是找到一个超平面，让两个分类集合的支持向量或者所有的数据（LSSVM）离分类平面最远；SVR回归，就是找到一个回归平面，让一个集合的所有数据到该平面的距离最近。SVR是支持向量回归(support vector regression)的英文缩写，是支持向量机(SVM)的重要的应用分支。

a) 目标

SVM是一个二类分类器，它的目标是找到一个超平面，使用两类数据离超平面越远越好，从而对新的数据分类更准确，即使分类器更加健壮。

支持向量（Support Vetor）：就是离分隔超平面最近的那些点。
寻找最大间隔：就是寻找最大化支持向量到分隔超平面的距离，在此条件下求出分隔超平面。

b) 支持向量机的基本原理

【硬间隔】支持向量机的基本原理是在（不同的）类间找到合适的最宽的‘街道’（street）。换句话说，目标是在划分两类训练样本的决策边界之间找到最大的间隔。
【软间隔】当用软间隔（soft-margin）进行分类时，SVM在‘完美划分两类’和‘找到最宽街道’之间做一个折中（亦即少数样本会落到‘街道’上）。
【核】另外一个关键思想是当在非线性数据集上用核（kernel）。核函数（kernel function）将特征从低维到高维进行转换，但是它是先在低维上进行计算，实际的分类效果表现在高维上。这样就避免了在高维上复杂的计算，仍得到相同的结果。

$\heartsuit$ 一些常用的核函数：多项式核、高斯核、线性核。

c) SVM特点

非线性映射是SVM方法的理论基础，SVM利用内积核函数代替向高维空间的非线性映射；
对特征空间划分的最优超平面是SVM的目标，最大化分类边际的思想是SVM方法的核心；
支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。因此，模型需要存储空间小，算法鲁棒性强；
无任何前提假设，不涉及概率测度；
SVM算法对大规模训练样本难以实施
由于SVM是借助二次规划来求解支持向量，而求解二次规划将涉及N阶矩阵的计算（ $N$ 为样本的个数），当 $N$ 数目很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间。针对以上问题的主要改进有有J.Platt的SMO算法、T.Joachims的SVM、C.J.C.Burges等的PCGC、张学工的CSVM以及O.L.Mangasarian等的SOR算法。
用SVM解决多分类问题存在困难
经典的支持向量机算法只给出了二类分类的算法，而在数据挖掘的实际应用中，一般要解决多类的分类问题。可以通过多个二类支持向量机的组合来解决。主要有一对多组合模式、一对一组合模式和SVM决策树；再就是通过构造多个分类器的组合来解决。主要原理是克服SVM固有的缺点，结合其他算法的优势，解决多类问题的分类精度。如：与粗集理论结合，形成一种优势互补的多类问题的组合分类器。

d) 解释SVM为什么要化对偶形？百万样本量可以用SVM吗？

对偶问题将原始问题中的约束转为了对偶问题中的等式约束。
方便核函数的引入。
改变了问题的复杂度。由求特征向量 $w$ 转化为求比例系数 $a$ ，在原始问题下，求解的复杂度与样本的维度有关，即 $w$ 的维度。在对偶问题下，只与样本数量有关。

在一个有百万量级的样本和数以百计的特征的训练集上，该用原始形式还是对偶形式的SVM****来训练模型？
这个问题只能是对线性SVM来说有意义，因为核-SVM只能用对偶形式。SVM的原始形式的计算复杂度与样本数 $m$ 成比例 $(O (m))$ ，对偶形式的计算复杂度在 $m^2$ 和 $m^3$ 之间 $(O(m^2)\sim O(m^3))$ 。因此如果有百万量级的样本，肯定需要用原始形式，因为对偶形式慢得多。

e) 优缺点

优点：
1、可解决小样本的机器学习任务
2、可解决高维问题
3、可通过核方法解决非线性问题
缺点：
1、对缺失数据敏感
2、对于非线性问题，核函数方法选择一直是个未决问题

7) 遗传算法GA（GeneTIc Algorithms）

基于进化理论，并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。主要思想是：根据适者生存的原则，形成由当前群体中最适合的规则组成新的群体，以及这些规则的后代。典型情况下，规则的适合度（Fitness）用它对训练样本集的分类准确率评估。

8) 神经网络算法

在结构上，可以把一个神经网络划分为输入层、输出层和隐含层。输入层的每个节点对应—个个的预测变量。输出层的节点对应目标变量，可有多个。在输入层和输出层之间是隐含层（对神经网络使用者来说不可见），隐含层的层数和每层节点的个数决定了神经网络的复杂度。

除了输入层的节点，神经网络的每个节点都与很多它前面的节点（称为此节点的输入节点）连接在一起，每个连接对应一个权重 $W_{xy}$ ，此节点的值就是通过它所有输入节点的值与对应连接权重乘积的和作为—个函数的输入而得到，我们把这个函数称为活动函数或挤压函数。

使用神经网络有 $4$ 个步骤：
[1] 提取问题中实体的特征向量作为神经网络的输入，不同实体可以提取不同的特征向量。
[2] 定义神经网络的结构，并定义如何从神经网络中的输入得到输出，这个过程就是神经网络的前向传播算法。
[3] 通过训练数据来调整神经网络参数的取值，这就是训练神经网络的过程。
[4] 使用训练的神经网络来预测未知的数据。

a) 优缺点

优点：
1、分类的准确度极高
2、可解决复杂的非线性问题
3、对噪声神经有较强的鲁棒性和容错能力
4、并行分布处理能力强,分布存储及学习能力强
5、常用于图像识别
6、数据量越大，表现越好
缺点：
1、黑箱模型，难以解释
2、需要初始化以及训练大量参数，如网络结构、权值、阈值，计算复杂
3、误差逆传播的损失
4、容易陷入局部最小

b) 深度学习原理

使用足够多的参数就可以以任意精度逼近任何函数，而深度学习很容易就把参数加多（层数加深+加宽），这是传统的机器学习方法无法轻易做到的。

对神经网络的权重随机赋值，由于是对输入数据进行随机的变换，因此跟预期值可能差距很大，相应地，损失值也很高；
根据损失值，利用反向传播算法来微调神经网络每层的参数，从而较低损失值；
根据调整的参数继续计算预测值，并计算预测值和预期值的差距，即损失值；
重复步骤 2,3，直到整个网络的损失值达到最小，即算法收敛。

c) 深度学习的优点

机器学习技术（浅层学习）仅将输入数据变换到一两个连续的表示空间，通常使用简单的变换，这通常无法得到复杂问题所需要的精确表示。因此，人们必须竭尽全力让输入数据更适合这些方法来处理，也必须手动为数据设计好表示层，这个过程叫做特征工程。

深度学习的优点在于它在很多问题上都变现出更好的性能，并且简化了问题的解决步骤，因为它将特征工程完全自动化。利用深度学习，你可以一次性学习所有特征，而无须自己手动设计。这极大地简化了机器学习工作流程，通常将复杂的多阶段流程替换为一个简单的、端到端的深度学习模型。

深度学习的变革性在于，模型可以在同一时间共同学习所有表示层，而不是依次连续学习（这被称为贪婪学习）。通过共同的特征学习，一旦模型修改某个内部特征，所有依赖于该特征的其他特征都会相应地自动调节适应，无须人为干预。

深度学习从数据中进行学习时有两个基本特征：第一，通过渐进的、逐层的方式形成越来越复杂的表示；第二，对中间这些渐进的表示共同进行学习，每一层的变化都需要同时考虑上下两层的需要。

6. SVD奇异值分解

奇异值分解（Singular Value Decomposition）是线性代数中一种重要的矩阵分解，是特征分解（矩阵必须为方阵）在任意矩阵上的推广。奇异值分解是一个适用于任意矩阵的一种分解的方法。

奇异值分解在统计中的主要应用为主成分分析（PCA），一种数据分析方法，用来找出大量数据中所隐含的“模式”，它可以用在模式识别，数据压缩等方面。PCA算法的作用是把数据集映射到低维空间中去。数据集的特征值（在SVD中用奇异值表征）按照重要性排列，降维的过程就是舍弃不重要的特征向量的过程，而剩下的特征向量组成的空间即为降维后的空间。

1) 特征值分解(EVD)

$\blacksquare$ 矩阵分解的物理意义

特征值分解可以得到特征值与特征向量，特征值表示的是这个特征到底有多重要，而特征向量表示这个特征是什么，可以将每一个特征向量理解为一个线性的子空间，我们可以利用这些线性的子空间干很多的事情。不过，特征值分解也有很多的局限，比如说变换的矩阵必须是方阵。

2) 奇异值分解(SVD)

7. 最小二乘法

最小二乘法，就是最小化平方和的优化方法；这里的平方和指的是误差（真实目标对象与拟合目标对象的差）的平方；其目的/核心思想就是通过最小化误差的平方和，使得拟合对象最大限度逼近目标对象。

基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。在线性回归中，最小二乘法就是试图找到一条直线，使所有样本到直线上的欧氏距离之和最小。 ——《机器学习》

1) 定义

最小二乘法（又称最小平方法）是一种优化方法。它通过最小化误差的平方和寻找数据的最佳函数进行匹配。最小二乘法可以用于求得目标函数的最优值，也可以用于曲线拟合，来解决回归问题。（利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合，其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。）

2) 几何意义

最小二乘法的几何意义是高维空间中的一个向量在低维子空间的投影。

在线性回归中，最小二乘法就是试图找到一条直线，使所有样本到直线的欧氏距离之和最小。

3) 分类

最小二乘法分为两种：线性或普通的最小二乘法(Ordinary Least Squares, OLS)和非线性的最小二乘法，取决于在所有未知数中的残差是否为线性。线性的最小二乘问题发生在统计回归分析中；它有一个封闭形式的解决方案。非线性的问题通常经由迭代细致化来解决；在每次迭代中，系统由线性近似，因此在这两种情况下核心演算是相同的。梯度下降法是迭代法的一种，可以用于求解最小二乘问题(线性和非线性都可以)。高斯-牛顿法是另一种经常用于求解非线性最小二乘的迭代法。

8. 梯度下降法

所谓梯度下降法，是迭代法计算最值的一种形式，是通过不断求导改变待求参数的值，来达到不断求得最值的过程。

1) 梯度

在微积分里面，对多元函数的参数求 $\partial$ 偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。比如函数 $f (x, y)$ , 分别对 $x, y$ 求偏导数，求得的梯度向量就是 $(\frac{∂f}{∂x}, \frac{∂f}{∂y})^T$ ,简称 $g r a d f (x, y)$ 或者 $▽ f (x, y)$ 。对于在点 $x_0,y_0)$ 的具体梯度向量就是 $(\frac{∂f}{∂x_0}, \frac{∂f}{∂{y_0}})^T$ , 或者 $▽ f (x 0, y 0)$ ，如果是 $3$ 个参数的向量梯度，就是 $(\frac{∂f}{∂x}, \frac{∂f}{∂y}, \frac{∂f}{∂z})^T$ ,以此类推。

那么这个梯度向量求出来有什么意义呢？它的意义从几何意义上讲，就是函数变化增加最快的地方。具体来说，对于函数 $f (x, y)$ ，在点 $x_0,y_0)$ ，沿着梯度向量的方向就是 $(\frac{∂f}{∂x_0}, \frac{∂f}{∂{y_0}})^T$ 的方向是 $f (x, y)$ 增加最快的地方。或者说，沿着梯度向量的方向，更加容易找到函数的最大值。反过来说，沿着梯度向量相反的方向，也就是 $-(\frac{∂f}{∂x_0}, \frac{∂f}{∂{y_0}})^T$ 的方向，梯度减少最快，也就是更加容易找到函数的最小值。

2) 梯度下降法

梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向，因为该方向为当前位置的最快下降方向，所以也被称为是”最速下降法“。最速下降法越接近目标值，步长越小，前进越慢。

梯度下降算法（Gradient Descent Optimization）是神经网络模型训练最常用的优化算法。对于深度学习模型，基本都是采用梯度下降算法来进行优化训练的。梯度下降算法背后的原理：目标函数 $J (θ)$ 关于参数 $\theta$ 的梯度将是损失函数（loss function）上升最快的方向。而我们要最小化 $l o s s$ ，只需要将参数沿着梯度相反的方向前进一个步长，就可以实现目标函数（loss function）的下降。

梯度下降法是最常用的最优算法之一。当目标函数是凸函数时，梯度下降法的解是全局解。一般情况下，其解不保证是全局最优解，梯度下降法的速度也未必是最快的。我们还需要假设函数是可微的，否则无法获得封闭解（即给出任意的自变量就可以求出其因变量）。

梯度下降法是一阶优化算法（因为只利用到了函数的一阶导数信息），其思想是用当前位置负梯度方向作为搜索方向，移动与当前位置负梯度成比例的一段步长。因为该方向为当前位置的最快下降方向，所以也被称为是最速下降法。

3) 梯度下降与梯度上升

在机器学习算法中，在最小化损失函数时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数，和模型参数值。反过来，如果我们需要求解损失函数的最大值，这时就需要用梯度上升法来迭代了。

梯度下降法和梯度上升法是可以互相转化的。比如我们需要求解损失函数 $f (θ)$ 的最小值，这时我们需要用梯度下降法来迭代求解。但是实际上，我们可以反过来求解损失函数 $- f (θ)$ 的最大值，这时梯度上升法就派上用场了。

4) 梯度下降法的缺点

梯度下降法有两个缺点，一是靠近最优解的区域收敛速度明显变慢，二是固定学习率的情况下，可能在某点附近出现震荡：如果学习率（步长）太小，随着迭代的增加，每次移动的距离越来越小，甚至难以逼近最优值；学习率太大，移动的轨迹在某值附近开始震荡，类似“之”形移动。

对于这些缺点，可以通过使用可变学习率的方法优化，例如线性搜索等方法，每次迭代前寻找最优的学习率，再进行迭代。

5) 几种梯度下降法

[1] 批量梯度下降法（Batch Gradient Descent，BGD）

批量梯度下降法是梯度下降法最原始的形式，它的具体思路是在更新每一参数时都使用所有的样本来进行更新。

优点：全局最优解；易于并行实现；缺点：当样本数目很多时，训练过程会很慢。

[2] 随机梯度下降（Stochastic Gradient Descent，SGD）

随机梯度下降的思路是在每次迭代时，只使用一个样本，当样本个数很大的时候，随机梯度下降迭代一次的速度要远高于批量梯度下降方法。两者的关系可以这样理解：随机梯度下降方法以损失一部分精确度和增加一定数量的迭代次数为代价，换取了总体的优化效率的提升。增加的迭代次数远远小于样本的数量。如果样本量很大的情况（例如几十万），那么可能只用其中几万条或者几千条的样本，就已经迭代到最优解了。

优点：训练速度快；缺点：准确度下降，并不是全局最优。

对批量梯度下降法和随机梯度下降法的总结：

批量梯度下降—最小化所有训练样本的损失函数，使得最终求解的是全局的最优解，即求解的参数是使得风险函数最小，但是对于大规模样本问题效率低下。

随机梯度下降—最小化每条样本的损失函数，虽然不是每次迭代得到的损失函数都向着全局最优方向，但是大的整体的方向是向全局最优解的，最终的结果往往是在全局最优解附近，适用于大规模训练样本情况。

[3] 小批量梯度下降法（Mini-batch Gradient Descent，MBGD）

它的具体思路是在更新每一参数时都使用一部分样本（ $b a t c h$ ）来进行更新，可以选择对每个 $b a t c h$ 的梯度进行累加，或者取平均值。取平均值可以减少梯度的方差。可以看出该方法克服了上面两种方法的缺点，又同时兼顾两种方法的优点，是如今深度学习领域最常见的实现方式。

9. 最小二乘法与梯度下降法的比较

在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一，另一种常用的方法是最小二乘法。

首先它们都是机器学习中，计算问题最优解的优化方法，但它们采用的方式不同，前者采用暴力的解方程组方式，直接，简单，粗暴，在条件允许下，求得最优解；而后者采用步进迭代的方式，一步一步的逼近最优解。实际应用中，大多问题是不能直接解方程求得最优解的，所以梯度下降法应用广泛。

10. 牛顿法和拟牛顿法

1) 牛顿法

梯度下降法只用到了目标函数的一阶导数，牛顿法是一种二阶优化算法，其核心思想是对函数进行泰勒展开。

[1] 用于方程求解

求解方程 $f (x) = 0$ 的解：

选择一个接近函数 $f (x) = 0$ 处的 $x_0$ ，计算相应的 $f(x_0)$ 和切线斜率 $f′(x_0)$
计算过点 $x_0,f(x_0))$ 并且斜率为 $f′(x_0)$ 的直线和 $X$ 轴的交点的 $x$ 坐标，也就是求如下方程的解： $f(x_0)+f′(x_0)∗(x−x_0)=0$
将新求得的点的 $x$ 坐标命名为 $x_1$ ，通常 $x_1$ 会比 $x_0$ 更接近方程 $f (x) = 0$ 的解。因此我们现在可以利用 $x_1$ 开始下一轮迭代。迭代公式可化简为如下所示：

由于牛顿法是基于当前位置的切线来确定下一次的位置，所以牛顿法又被很形象地称为是”切线法”。

或者这张图，更好理解：

已经证明，如果 $f^{'}$ 是连续的，并且待求的零点 $x$ 是孤立的，那么在零点 $x$ 周围存在一个区域，只要初始值 $x_0$ 位于这个邻近区域内，那么牛顿法必定收敛。并且，如果 $f^{'} (x)$ 不为 $0$ , 那么牛顿法将具有平方收敛的性能，这意味着每迭代一次，牛顿法结果的有效数字将增加一倍。

[2] 用于最优化

对于求模板书极大极小值的问题，可以转化为求函数 $f$ 的导数为 $0$ 的问题，这样问题就可以看成和方程求解一样的问题( $f^{'} = 0$ )，与用牛顿法求解很相似了。

先对 $f (x)$ 进行二阶泰勒公式展开
然后对 $f (x)$ 求导，得到：

注意，所有的 $x_k$ 和其导数都是已知的，视为常数项。
令 $f^{'} (x) = 0$ 得到

[3] 关于牛顿法和梯度下降法的效率对比

从本质上去看，牛顿法是二阶收敛，梯度下降是一阶收敛，所以牛顿法就更快。更通俗地说，比如你想找一条最短的路径走到一个盆地的最底部，梯度下降法每次只从你当前所处位置选一个坡度最大的方向走一步，牛顿法在选择方向时，不仅会考虑坡度是否够大，还会考虑你走了一步之后，坡度是否会变得更大（二阶导数信息）。所以，可以说牛顿法比梯度下降法看得更远一点，能更快地走到最底部。（牛顿法目光更加长远，所以少走弯路；相对而言，梯度下降法只考虑了局部的最优，没有全局思想。）

从几何上说，牛顿法就是用一个二次曲面去拟合你当前所处位置的局部曲面，而梯度下降法是用一个平面去拟合当前的局部曲面，通常情况下，二次曲面的拟合会比平面更好，所以牛顿法选择的下降路径会更符合真实的最优下降路径。

[4] 牛顿法的优缺点总结

优点：二阶收敛，收敛速度快。
缺点：牛顿法是一种迭代算法，每一步都需要求解目标函数的Hessian矩阵的逆矩阵，计算比较复杂。

因此，如果在目标函数的梯度和Hessian矩阵比较好求的时候应使用Newton法。当模型的参数很多时Hessian矩阵的计算成本将会很大，导致收敛速度变慢，所以在深度学习中也很少使用牛顿法。

2) 拟牛顿法

拟牛顿法是求解非线性优化问题最有效的方法之一。

拟牛顿法的本质思想是改善牛顿法每次需要求解复杂的Hessian矩阵的逆矩阵的缺陷，它使用正定矩阵来近似Hessian矩阵的逆，从而简化了运算的复杂度。拟牛顿法和最速下降法一样只要求每一步迭代时知道目标函数的梯度。通过测量梯度的变化，构造一个目标函数的模型使之足以产生超线性收敛性。这类方法大大优于最速下降法，尤其对于困难的问题。另外，因为拟牛顿法不需要二阶导数的信息，所以有时比牛顿法更为有效。如今，优化软件中包含了大量的拟牛顿算法用来解决无约束，约束，和大规模的优化问题。

牛顿法在基础机器学习中有用到，但在深度学习中很少用。

你可能感兴趣的:(#,机器学习,保研面试,考研复试)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
MYSQL面试系列-04 king01299 面试 mysql 面试
MYSQL面试系列-0417.关于redolog和binlog的刷盘机制、redolog、undolog作用、GTID是做什么的？innodb_flush_log_at_trx_commit及sync_binlog参数意义双117.1innodb_flush_log_at_trx_commit该变量定义了InnoDB在每次事务提交时，如何处理未刷入（flush）的重做日志信息（redolog）。它
Kafka 消息丢失如何处理？架构文摘JGWZ 学习
今天给大家分享一个在面试中经常遇到的问题：Kafka消息丢失该如何处理？这个问题啊，看似简单，其实里面藏着很多“套路”。来，咱们先讲一个面试的“真实”案例。面试官问：“Kafka消息丢失如何处理？”小明一听，反问：“你是怎么发现消息丢失了？”面试官顿时一愣，沉默了片刻后，可能有点不耐烦，说道：“这个你不用管，反正现在发现消息丢失了，你就说如何处理。”小明一头雾水：“问题是都不知道怎么丢的，处理起来
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
【华为OD技术面试真题精选 - 非技术题】 -HR面，综合面_华为od hr面一个射手座的程序媛程序员华为od 面试职场和发展
最后的话最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！资料预览给大家整理的视频资料：给大家整理的电子书资料：如果本文对你有帮助，欢迎点赞、收藏、转发给朋友，让我有持续创作的动力！网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以点击这里获
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
2019考研 | 西交大软件工程笔者阿蓉
本科背景：某北京211学校电子信息工程互联网开发工作两年录取结果：全日制软件工程学院分数：初试350+复试笔试80+面试85+总排名：100+从五月份开始脱产学习，我主要说一下专业课和复试还有我对非全的一些看法。【数学100+】张宇，张宇，张宇。跟着张宇学习，入门视频刷一遍，真题刷两遍，错题刷三遍。书刷N多遍。从视频开始学习，是最快的学习方法。5-7月份把主要是数学学好，8-9月份开始给自己每个周
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
Day_11 ROC_bird.. 算法
面试题16.15.珠玑妙算-力扣（LeetCode）/***Note:Thereturnedarraymustbemalloced,assumecallercallsfree().*///下标和对应位置的值都一样，answer[0]+1,对应位置的值猜对了，但是下标不对，answer[1]+1int*masterMind(char*solution,char*guess,int*returnSiz
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
字节二面 Redstone Monstrosity 前端面试
1.假设你是正在面试前端开发工程师的候选人，面试官让你详细说出你上一段实习过程的收获和感悟。在上一段实习过程中，我获得了宝贵的实践经验和深刻的行业洞察，以下是我的主要收获和感悟：一、专业技能提升框架应用熟练度：通过实际项目，我深入掌握了React、Vue等前端框架的使用，不仅提升了编码效率，还学会了如何根据项目需求选择合适的框架。问题解决能力：在实习期间，我遇到了许多预料之外的技术难题。通过查阅文
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（二十八）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
Java -jar 如何在后台运行项目 vincent_hahaha
撸了今年阿里、头条和美团的面试，我有一个重要发现.......>>>说到运行jar包通常我们都会以下面的方式运行:java-jarspringboot-0.0.1-SNAPSHOT.jar这样运行的话会有一个问题，就是我们一关闭当前窗口就会停止运行项目，要想解决这个问题，就需要在后台运行。nohupjava-jarbabyshark-0.0.1-SNAPSHOT.jar >log.file 2>&
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
【Death Note】网吧战神之7天爆肝渗透测试死亡笔记_sqlmap在默认情况下除了使用 char() 函数防止出现单引号 2401_84561374 程序员笔记
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！特殊服务端口2181zookeeper服务未授权访问
【Kubernetes】常见面试题汇总（十一） summer.335 Kubernetes kubernetes 容器云原生
目录33.简述Kubernetes外部如何访问集群内的服务？34.简述Kubernetesingress？35.简述Kubernetes镜像的下载策略？33.简述Kubernetes外部如何访问集群内的服务？（1）对于Kubernetes，集群外的客户端默认情况，无法通过Pod的IP地址或者Service的虚拟IP地址：虚拟端口号进行访问。（2）通常可以通过以下方式进行访问Kubernetes集群
华雁智科前端面试题因为奋斗超太帅啦前端笔试面试问题整理 javascript 开发语言 ecmascript
1.var变量的提升题目：vara=1functionfun(){console.log(b)varb=2}fun()console.log(a)正确输出结果：undefined、1答错了，给一个大嘴巴子，错误答案输出结果为：2,1此题主要考察var定义的变量，作用域提升的问题，相当于varaa=1functionfun(){varbconsole.log(b)b=2}fun()console.l
保研日记--哈工大威海计算机学院 faaarii 保研
传送门保研日记--中国海洋大学计算机系保研日记--中国人民大学信息学院（人大信院）保研日记--北京交通大学计算机学院保研材料模板（自我介绍，个人简历，个人陈述，推荐信）哈工大威海计算机学院这次夏令营给我的感觉非常的朴素，哈哈哈哈营员就有四个群，985/211、双一流、双非、四非？？没有宣讲会、见面会，在面试开始之前放了一个简短的宣传片。（傲娇，绝对不整那些花里胡哨的哈哈哈）面试有三组老师，分别问你
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息

保研面试/考研复试机器学习问题整理

1. 什么是梯度爆炸和梯度消失？如何解决梯度消失、梯度爆炸？

2. 你对什么方向感兴趣？那个是干什么的？

3. 简述PCA的计算过程/介绍下PCA算法过程

4. 线性回归模型和随机森林模型

（1）关于回归

（2）线性回归模型

（3）随机森林（Random Forest，简称RF）算法

a) 集成学习

b) 概述

c) 随机森林算法的步骤

d) 随机森林的特点

e) 随机森林算法的缺点

f) 适用情景

5. 常见的数据挖掘算法

1) k-means算法（k均值算法）

2) kNN （k近邻）学习

3) 决策树（ID3算法和C4.5算法）

a) 概述

b)构造决策树的主要步骤

c) 决策树的剪枝方式

d) 优缺点

e) ID3算法

f) C4.5算法

4) 朴素贝叶斯(naive Bayes)

a) 概述

b) QA：朴素贝叶斯朴素在哪里呢？

c) 优缺点

5) 逻辑回归(logistic回归)

6) SVM（支持向量机）

a) 目标

b) 支持向量机的基本原理

c) SVM特点

d) 解释SVM为什么要化对偶形？百万样本量可以用SVM吗？

e) 优缺点

7) 遗传算法GA（GeneTIc Algorithms）

8) 神经网络算法

a) 优缺点

b) 深度学习原理

c) 深度学习的优点

6. SVD奇异值分解

1) 特征值分解(EVD)

■ \blacksquare ■ 矩阵分解的物理意义

2) 奇异值分解(SVD)

7. 最小二乘法

1) 定义

2) 几何意义

3) 分类

8. 梯度下降法

1) 梯度

2) 梯度下降法

3) 梯度下降与梯度上升

4) 梯度下降法的缺点

5) 几种梯度下降法

[1] 批量梯度下降法（Batch Gradient Descent，BGD）

[2] 随机梯度下降（Stochastic Gradient Descent，SGD）

[3] 小批量梯度下降法（Mini-batch Gradient Descent，MBGD）

9. 最小二乘法与梯度下降法的比较

10. 牛顿法和拟牛顿法

1) 牛顿法

[1] 用于方程求解

[2] 用于最优化

[3] 关于牛顿法和梯度下降法的效率对比

[4] 牛顿法的优缺点总结

2) 拟牛顿法

你可能感兴趣的:(#,机器学习,保研面试,考研复试)

$\blacksquare$ 矩阵分解的物理意义