Icevivina

总结机器学习面试题---按照算法分类（更新整理中）

文章目录

机器学习的整体逻辑
LR逻辑回归

1. 损失函数
2. 梯度更新公式的推导
3. 正则化
4. 为什么不用平方损失函数而采用log损失函数？
5. 优化方法
6. LR与softmax
7. 交叉熵与相对熵

1. 支持向量
2. 推导过程，原理
3. 合页损失函数
4. 常用核函数
5. SVM如何处理样本倾斜的问题？
6. 核函数如何解决非线性支持向量机问题
7. LR与SVM算法的区别与联系？
8. SVM和LR是如何处理多分类的？
9. SVM的优缺点

DT 决策树

1. 讲一下决策树的生成过程
2. 特征选择
3. ID3,C4.5,CART树的特征选择的标准分别是什么？
4.树模型的优缺点

集成学习Ensemble：bagging和boosting

1. 集成学习的类别
2. 集成的作用都有利于分类吗？

bagging之RF随机森林
boosting

boosting之adaboost
boosting之GBDT

1. GBDT
2. GBDT与adaboost的区别

XGBoost

1. Xgboost的推导过程
2. xgboost与GBDT的差别？
3.xgboost为什么要用二阶导
4. xgboost的参数调节

KNN(k-nearest neighbor, k-NN)

1. 方法
2. 三要素
3. 实现结构

NB(naive bayes)

1. 朴素贝叶斯算法
2. 何为朴素
3. LR与NB的异同

1. PCA旋转
2. PCA是如何去除相关变量的
3. 已知数据高度相关就应该使用PCA吗？

聚类算法
EM
FM、FFM

感知机

1. 模型，学习策略，学习算法
2. 对偶形式

模型度量和选择

1. 特征归一化
2. F1，ROC与AUC
1. 生成模型和判别模型
2. 线性分类器与非线性分类器的区别和优劣。
3. 考虑到机器学习有这么多算法，给定一个数据集，你如何决定使用哪一个算法？
4. 对于不平衡（不均衡）分类应该怎么做？
5. CV的好处
6. 偏差与方差
7. 过拟合的原因（方差大）
8. 改善过拟合的方法？
9.似然的概念

从逻辑回归到神经网络

简历：一份好的简历中的项目描写应该要精准的描述出项目技术难点，并且包含准确的评价数字。
面试时如何交流？
你要保持和面试官的不断的交流，不要把他当成面试官，而要把他当成未来团队成员，先和未来的团队成员一起想办法讨论问题，解决问题，然后临时给出一个基本的可运行版本。即使算法和运行效率看起来特别差，但是先给出一个基本的可运行的版本，然后再和面试官讨论。这也是我们工作过程中的基本的工作模式，先给一个基本的运行版本，然后再慢慢迭代改进。

面试中，面试官常会问：你熟悉的分类模型有哪些？这时需要掌握类似：LR（逻辑回归），SVM，KNN，NB，决策树（包括随机森林，gbdt，xgboost）这些基本算法。面试官有时会挑出一些算法，需要做具体推导。

本博客中记录了李航老师《统计学习方法》一书中关于各算法的推导过程及重点知识。
也有吴恩达老师的机器学习视频的教学大纲和知识点总结。

机器学习的整体逻辑

第一步：找到一组函数
第二步：衡量一组函数的拟合度：损失函数loss function
第三步：找到一个最好的函数：gredient descent 梯度下降

LR逻辑回归

1. 损失函数

逻辑回归的推导公式：由最大似然推导
$P(y=1|x)=\pi(x)$
$P(y=0|x)=1-\pi(x)$
因此有似然函数:
$\prod_{i=1}^N\pi(x_i)^{y_i}(1-\pi(x_i))^{1-y_i}$
转换为对数似然：
$\sum_{i=1}^N[y_i\log(\pi(x_i))+(1-y_i)log(1-\pi(x_i))]$
损失函数为负的似然函数，也是交叉熵损失函数。

2. 梯度更新公式的推导

损失函数为： $L(w)=-\sum_{i=1}^N[ y_i\log (\pi(x_i))+(1-y_i)\log(1-\pi(x_i))]$
$\frac{L(w)}{\partial w^j}=-y_i\cdot\frac{1}{\pi(x_i)}\cdot\frac{ \partial \pi(x_i)}{ \partial w^j}+(1-y_i)\frac{1}{1-\pi(x_i)}\cdot\frac{ \partial \pi(x_i)}{ \partial w^j}\\= (-y_i\cdot\frac{1}{\pi(x_i)}+(1-y_i)\frac{1}{1-\pi(x_i)})\cdot\frac{ \partial \pi(x_i)}{ \partial w^j}\\=\frac{\pi(x_i)-y}{\pi(x_i)(1-\pi(x_i))}\cdot \pi(x_i)(1-\pi(x_i))\cdot x_i^j\\=\sum_{i=1}^N(\pi(x_i)-y_i)x_i^j$
从公式可以看出，每次迭代都使用了全部的数据。
这里因为 $f(z)=\frac{1}{1+e^{-z}}$
$\frac{\partial f(z)}{\partial z}=\frac{-1}{(1+e^{-z})^2}$
而 $z = w x + b$ ，所以 $\frac{\partial f(w)}{\partial w}=\frac{-1}{(1+e^{-z})^2}e^{-z}\times(-1)*x=f(1-f)x$

3. 正则化

越复杂的函数会使训练误差更小（原因：越复杂函数包含简单的函数），但不一定会在测试集上误差更小。 overfitting 过拟合
bias大：
函数集简单 $\Rightarrow$ 可能原本要寻找的函数不包含在函数集中 $\Rightarrow$ 找不到我们想要的函数。
variance大：
函数集复杂 $\Rightarrow$ 可寻找的函数集太大以至于很难找到那个想要的函数。

正则化是为了解决过拟合的问题。因为参数也就是拟合曲线在某一点的导数，参数越大说明在较小的区间内有较大的曲率，所以参数越小说明波动越小，模型越简单。

奥卡姆剃刀(Occam’s razor)原理：在所有可能选择的模型中，能够很好的解释数据并且足够简单的才是最好的模型。

一般使用的正则化方法有L1（Lasso）和L2正则（Ridge/岭回归），L1会产生稀疏的特征，用于特征选择；L2会选择更多的特征，但特征参数都会接近于0.
L1范数：Laplace先验和L2范数：Gaussian先验

4. 为什么不用平方损失函数而采用log损失函数？

若使用平方损失函数，某一个样本点的 $\theta_j$ 的梯度更新为 $2(y_i-\hat y_i)\frac{\partial \hat y_i}{\partial \theta_j}$ ，其中的 $\frac{\partial \hat y_i}{\partial \theta_j}$ 是sigmoid函数的导数，在达到饱和状态时，导数值会接近于0，会使得梯度下降的速度很慢：
而使用log损失函数则对某一个样本点的 $\theta_j$ 的梯度更新为： $(y_i-\hat y_i)x_j$ ，与sigmoid函数的导数无关。

为什么分类问题不能用回归方法来解？
回归问题和分类问题的差别就在于：回归是为了去拟合具体的数据值，而分类只是寻找一个分界线而已。[例如这张图片中，如果用回归问题来解，红色的label=-1，蓝色的label=1，那么>>1的蓝色点反而会干扰训练模型。]

5. 优化方法

一阶方法：梯度下降，随机梯度下降
二阶方法：牛顿法，拟牛顿法。
牛顿法是通过切线与x轴的交点不断更新切线的位置，直到达到曲线与x轴的交点，得到方程解。
牛顿法收敛速度更快，但仍为局部算法，梯度法仅考虑梯度的方向，牛顿法不仅考虑了方向还兼顾了步子的大小，其对步长的估计使用的是二阶逼近。
缺点：牛顿法是一种迭代算法，每一步都需要求解目标函数的Hessian矩阵的逆矩阵，计算比较复杂。拟牛顿法就是就是考虑用一个n阶矩阵来近似替代这个Hessian矩阵的逆矩阵。

6. LR与softmax

softmax的损失函数就是交叉熵损失函数，LR是softmax的一个二分类特例。softmax的决策公式：
$S_j=\frac{e^{a_j}}{\sum_1^Te^{a_k}}$
$a_j$ 表示输出向量的第j个数值, $S_j$ 表示该输入属于第 $j$ 个类别的概率。
softmax的损失函数：
$L=-\sum_{j=1}^Ty_j\log S_j$
$y_j$ 是真实输出的one-hot编码形式。

7. 交叉熵与相对熵

交叉熵衡量的是当我们已知系统的真实分布，而使用非真实分布来消除系统的不确定性所付出的“努力”的大小。
信息熵衡量了系统的不确定性，为了消除这个不确定所付出的“最小努力”（如编码等）的大小就是信息熵。
如果我们使用的非真实分布与真实分布一致，那么交叉熵等于信息熵，否则交叉熵大于信息熵。

相对熵用来衡量两个策略之间的差异。例如要衡量某个策略（非真实分布）与最优策略（真实分布）之间的差异就可以使用： $相对熵 = 交叉熵 - 信息熵$
因此很多情况下最小化相对熵也就是最小化交叉熵。

为什么损失函数经常要最小化交叉熵？
因为交叉熵越低，就证明由算法所产生的策略最接近最优策略，也间接证明我们算法所算出的非真实分布越接近真实分布。

SVM

支持向量机包含构建由简至繁的模型：线性可分支持向量机、线性支持向量机及非线性支持向量机。

数据类型	学习方法	分类器名称	输入空间与特征空间的对应关系
训练数据线性可分	硬间隔最大化	线性可分支持向量机（硬间隔支持向量机）	假设这两个空间的元素一一对应，直接映射
训练数据近似线性可分	软间隔最大化	线性支持向量机（软间隔支持向量机）	假设这两个空间的元素一一对应，直接映射
训练数据线性不可分时	核技巧 + 软间隔最大化	非线性支持向量机	从输入空间到特征空间的非线性映射

支持向量机的学习是在特征空间上进行的。
学习的目标是在特征空间中找到一个分离超平面，能将实例分到不同的类。分离超平面对应于方程 $w x + b = 0$ ，它是由法向量w和截距b决定。分离超平面将特征空间分为两部分，一部分是正类， $y_i=+1$ ，一部分是负类， $y_i=-1$ 。法向量指向的一侧为正类。
PS: 这里的负类定义为-1，而不是0。

SVM是一个二类分类模型，其分类决策函数为：
$(w\cdot x+b)$ ¹

其学习策略为间隔最大化，可以转换为一个凸二次规划问题来求解，也可以表示为最小化正则后的合页损失函数。它也可以使用核技巧转换为非线性分类器。

1. 支持向量

间隔边界：满足 $w\cdot x+b=\pm1$ 的超平面

训练数据集的样本中与分离超平面距离最近的样本点实例称为支持向量，在线性可分支持向量机中是指在间隔边界上的向量；
在线性不可分支持向量中指在间隔边界及间隔边界以外的点；
它们对应的都是拉格朗日乘子 $\alpha_i^*>0$ 的样本点 $x_i,y_i）$ 。
在决定分离超平面时只有支持向量起作用，而其他实例点并不起作用。支持向量的个数一般很少，所以支持向量机由很少的“重要的”训练样本确定。

2. 推导过程，原理

通俗的来讲，如果是在数据线性可分的情况下，将数据点距离超平面的最小几何间隔¹ $\gamma$ 最大化：

即
$\begin{aligned} \max _{w,b} \ \ &\gamma \\ \rm {s.t.}\ \ \ &y_i(\frac{w}{||w||}\cdot x_i+\frac{b}{||w||})\geq\gamma, i=1,2,..,N \end{aligned}$
考虑几何距离 $\gamma$ 和函数距离 $\hat \gamma$ 的关系，可将问题改写为：
$\begin{aligned} \max _{w,b} \ \ &\frac{\hat \gamma}{||w||} \\ \rm {s.t.}\ \ \ &y_i(w\cdot x_i+b)\geq \hat \gamma,i=1,2,..,N \end{aligned}$
将函数距离固定为1，并将最大化改为最小化，则有
$\begin{aligned} \min \ &\frac{1}{2}|| w||^2\\ \text {s.t.} \ & y_i( {w} {x_i}+ b)-1\geq 0，\quad i=1,2,...,N \end{aligned}$
为了求解这个最优化问题，将它作为原始最优化问题，应用拉格朗日对称性，通过求解对偶问题得到原始问题的最优解，这就是线性可分支持向量机的对偶算法。转换到对偶问题有两个好处：1.对偶问题更容易计算；2.引入核函数，可以推广到非线性问题。
引入拉格朗日乘子 $\alpha_i\geq0$ ，定义拉格朗日函数 $L(w,b,\alpha)=\frac{1}{2}|| w||^2-\sum_{i=1}^N\alpha_i[y_i( {w} {x_i}+ b)-1],$ 其原始问题为²

$\min_{w,b}\max_{\alpha_i\geq0}L(w,b,\alpha)$
由于满足KKT条件（KKT条件中最重要的一条就是 $\alpha_ic_i(x^*)=0$ ,即存在一个解x使得所有的 $c_i(x^*)\le 0$ ），在这里就是存在一组 $(w, b)$ 参数，能够使得对于所有的 $x_i$ 都满足 $y_i( {w} {x_i}+ b)-1\geq 0$ ，因此可以等价于最大最小问题： $\max_{\alpha_i\geq0}\min_{w,b}L(w,b,\alpha)$

$L(w,b,\alpha)$ 对参数 $w, b$ 分别取导可得：
$\begin{aligned} w-\sum_{i=1}^N\alpha_iy_ix_i=0 \\ -\sum_{i=1}^N\alpha_iy_i=0 \end{aligned}$
将 $w$ 带入公式 $\max_{\alpha_i\geq0}\min_{w,b}L(w,b,\alpha)$ 中，则有：
$\begin{aligned} \min_{\alpha_i\ge0}&\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i \\ \rm{s.t.} &\sum_{i=1}^N\alpha_iy_i=0\\ &\alpha_i\ge0, i=1,2,...,N \end{aligned}$
求出满足条件拉格朗日乘子之后，再计算出w,b，
$\begin{aligned} w^*&=\sum_{i=1}^N\alpha_i^*y_ix_i \\ b^*&=y_j-\sum_{i=1}^N\alpha_i^*y_i(x_i\cdot x_j) \ \ （备注：y_j是对应\alpha_j^*>0的点） \end{aligned}$
此时的超平面存在且唯一。
此时的分类决策函数为 $sign(\sum_{i=1}^N\alpha_i^*y_i(x_i\cdot x)+b^*)$
也就是说，分类决策函数只依赖于输入x和训练样本输入的内积。

在线性不可分的情况下，线性支持向量机的学习问题变为：
$\begin{aligned} \max \ &\frac{1}{2}|| w||^2+C\sum_{i=1}^N\xi_i\\ \text {s.t.} \ & y_i( {w} {x_i}+ b)\geq 1-\xi_i，&\quad i=1,2,...,N\\ &\xi_i\geq0, &i=1,2,...,N \end{aligned}$

松弛变量 $\xi_i\geq0$ ，含义是函数间隔加上松弛变量大于等于1.

转化为对偶问题的形式为：
$\begin{aligned} \min_{\alpha_i\ge0}&\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i \\ \rm{s.t.} &\sum_{i=1}^N\alpha_iy_i=0\\ &0\le \alpha_i\le C, i=1,2,...,N \end{aligned}$
计算 $w, b$ 参数的方程式与线性可分支持向量机相同，但b的解不唯一，b的解存在于一个区间。

3. 合页损失函数

线性支持向量机也可以看做最小化以下目标函数：
$\sum_{i=1}^{N}[1-y_i(w\cdot x_i+b)]_++\lambda||w||^2$
第一项为合页损失函数，下标+表示取正值的函数： $[z]_+=\begin{cases} z,z>0 \\ 0,z\leq0\end{cases}$
$\lambda$ 越大（C越小），说明泛化能力越好。

4. 常用核函数

线性核函数
多项式核函数： $(x\cdot z+1)^p$
高斯径向基核函数RBF

在实际应用中，往往依赖领域知识直接选择核函数，核函数选择的有效性需要通过实验验证。

5. SVM如何处理样本倾斜的问题？

对于正负样本用不同的惩罚因子C，类别数量较少的样本用较大的C，表示重视程度，数量较多的用较小的C。其大小比例可参考数量之比。

6. 核函数如何解决非线性支持向量机问题

核函数的本质是两个函数的内积，而这个函数在SVM中可以表示为对于输入值的高维映射，将线性不可分的数据在高维下变得线性可分来进行分类。注意核函数并不是直接对应映射，核不过是一个内积。

7. LR与SVM算法的区别与联系？

1.如果这里的SVM单指linear svm的话，那它们同是线性分类器，即分离决策面都是线性的；
2.两种算法都可以加上不同的正则化项，如L1,L2等。
而不同点主要在于：
1)LR是参数模型，SVM是非参数模型。（参数模型对数据的分布有理想的假设，如LR就假设数据服从伯努利分布；非参数模型对数据分布假设自由。)
2）从目标函数来看，区别在于逻辑回归采用的是logistical loss，SVM采用的是hinge loss，这两个损失函数的目的都是增加对分类影响较大的数据点的权重，减少与分类关系较小的数据点的权重；
3）SVM的分离超平面求解只取决于支持向量，并不依赖于整个数据集，而逻辑回归通过非线性映射，大大减小了离分类平面较远的点的权重，相对提升了与分类最相关的数据点的权重。
4）在解决非线性问题时，SVM一般采用核技巧，而LR一般不采用核技巧。事实上，LR也是可以结合核技巧来求解的，但因为它的每个样本点都参与决策面的计算因此带来的核函数计算量过高，而SVM在使用核函数时解的系数是稀疏的；
5）Linear SVM依赖数据表达的距离测度，所以需要对数据先做归一化；LR不受其影响。我们之所以对LR做归一化只是为了求解优化模型过程中更容易选择初始值。
另外：在小数据集上线性SVM略好于LR，但在海量数据下，LR使用更加广泛。

8. SVM和LR是如何处理多分类的？

LR处理多分类的基本思想是：将多分类任务拆分成若干个二分类任务，然后对每个二分类任务训练一个模型，最后将多个模型的结果进行集成以获得最终的分类结果。
SVM处理多分类有两种方法：直接法和间接法。
（1）直接法，直接在目标函数上进行修改，将多个分类面的参数求解合并到一个最优化问题中，通过求解该最优化问题“一次性”实现多类分类。这种方法看似简单，但其计算复杂度比较高，实现起来比较困难，只适合用于小型问题中；
（2）间接法，主要是通过组合多个二分类器来实现多分类器的构造，常见的方法有one-against-one和one-against-all两种。

将一个多分类问题拆分为多个二分类问题的方法主要有两种：
一对一，一对多。
假设一共有4 类，A，B，C，D
那么一对一的方式就是训练6个分类器，分别训练
A，B
A，C
A，D
B，C
B，D
C，D
在决策的时候，将预测样本分别放入这6个训练器中，将得到的结果投票表决；
一对多的方式是训练4个分类器，分别训练
A VS B,C,D
B VS A,C,D
C VS A,B,D
D VS A,B,C
决策的时候，将预测样本分别放入四个训练器中，在哪个训练器中该训练样本为正样本则将该样本分为这个训练器对应的正样本，例如在第三个训练器中该样本为正样本，则认为该样本属于类别C。若产生了多个正例，则判断分类器的置信度，选择置信度大的分类别标记作为最终分类结果。

9. SVM的优缺点

优点在与其它算法的对比可以凸显出来，比如泛化能力好，使用核技巧工作效果好因此可以解决非线性问题等；
缺点主要在于训练过程中空间和时间上的代价，空间上的消耗在于存储训练样本与核函数，时间消耗在于计算复杂度较高，在样本数量较多的情况下训练时间会比较长。

DT 决策树

分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型：内部结点和叶结点。内部结点表示一个特征或属性，叶结点表示一个类。

1. 讲一下决策树的生成过程

决策树是定义在特征空间和类空间上的条件概率分布，学习本质是从训练数据集中归纳出一组分类规则，使它与训练数据矛盾较小的同时具有较强的泛化能力。因为从所有可能的决策树中选取最优决策树是NP完全问题，所有现实中决策树学习算法通常采用启发式方法。

决策树的生成三要素：特征选择，模型生成，决策树的剪枝。

学习方法：递归地选择最优特征，对训练数据集进行分割，如果这些子集已经能够被基本正确分类，那么构建叶结点，将这些子集归到叶结点（类别）中；如果有子集不能被基本正确分类，那么就对这些子集选择新的最优特征，继续对其进行分割，直至所有训练数据子集被基本正确分类或者没有合适的特征为止。
决策树的剪枝可分为前剪枝和后剪枝：
前剪枝是在树的生成过程中停止迭代的条件，例如叶结点中均为同类，没有多余的特征，叶节点中样本个数小于阈值；
后剪枝实际上是全局损失函数最小化，即正则化的极大似然函数： $C_\alpha(T)=C(T)+\alpha|T|，$ C(T)一般有两种衡量方法，一种用熵，一种用基尼指数。剪枝，就是当 $\alpha$ 确定时，选择损失函数最小的模型。
决策树的生成对应于模型的局部最优，决策树的剪枝则对应全局最优。

2. 特征选择

准则：信息增益或者信息增益比。
信息增益 $g (D, A) = H (D) - H (D ∣ A)$ 表示由于特征A而使得对数据集D的分类的不确定性减少的程度。
$H(D)=-\sum_{i=1}^np_i\log p_i\\ H(D|A)=\sum_{i=1}^np_iH(Y|X=x_i)$
其中 $p_i=P(X=x_i),i=1,2,...,n$ 。

但是以信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题。使用信息增益比可以对这一问题进行矫正。
信息增益比：特征A对训练数据集D的信息增益比 $g_R(D,A)$ 定义为其信息增益 $g (D, A)$ 与训练数据集D关于特征A的值的熵 $H_A(D)$ 之比，即 $g_R(D,A)=\frac{g(D,A)}{H_A(D)}$
其中， $H_A(D)=-\sum_{i=1}^{n}\frac{|D_i|}{|D|}\log\frac{|D_i|}{|D|},$ n是特征A取值的个数。

3. ID3,C4.5,CART树的特征选择的标准分别是什么？

ID3:信息增益：表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。
C4.5：信息增益比：以信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题。使用信息增益比可以对这一问题进行校正。
基尼指数：衡量了样本集合的不确定性。基尼指数Gini(D,A)表示经A=a分割后集合D的不确定性，基尼指数值越大，样本集合的不确定就越大。 $Gini(p)=\sum_{k=1}^Kp_k(1-p_k)=1-\sum_{k=1}^Kp_k^2\\ Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)$
CART树的回归树用平方误差最小准则，对分类树用基尼指数最小准则。注意它与普通决策树不同的一点在于它是二叉树。分类树停止的条件是：样本的基尼指数小于预定阈值，或结点中的样本个数小于预定阈值，或者没有更多的特征。

CART与ID3,C4.5的区别：
1.ID3,C4.5是分类树，CART即可用于分类也可用于回归；
2.CART树是二叉树；
3.ID3,C4.5的特征都只用到一次，而CART的连续特征可用多次，取值>=3的离散特征也可使用多次，这是因为每次使用特征时仅用于二分；
4.剪枝方法不同。ID3,C4.5是固定 $\alpha$ ，判断剪枝前和剪枝后的损失函数大小来进行剪枝，而CART是选取不同的 $\alpha$ 来嵌套剪枝，然后通过交叉验证来选取最优子树 $T_\alpha$ .

4.树模型的优缺点

优点：
1.可解释性强；
2.可处理混合类型特征；
3.具有伸缩不变性，即特征不需要进行归一化；
4.有特征组合的作用；
5.可自然地处理缺失值；
6.对异常点鲁棒；
7.有特征选择作用；
8.可扩展性强，容易并行
9.决策快

缺点：
1.不适合处理高维稀疏特征；【树模型在处理这种情况下的分类时，比LR更容易过拟合，因为LR的正则化会对参数起作用，而树的正则只规定叶子结点的个数。】

高维稀疏特征的时候，线性模型会比非线性模型好的原因：带正则化的线性模型比较不容易对稀疏特征过拟合

2.缺乏平滑性（回归预测时输出值只能输出有限的若干种数值）

集成学习Ensemble：bagging和boosting

1. 集成学习的类别

集成分为两大类：个体集成器之间存在强依赖关系、必须串行生成的序列化方法(boosting)；个体学习器之间不存在强依赖关系、可同时生成的并行化方法(Bagging)。
bagging和stacking中的基模型为强模型（偏差低方差高），boosting中的基模型为弱模型。
Bagging主要关注方差，在每一轮估计中采用自助采样，因此剩下的未被采集的36.8%的带外数据（OOB）可以用来对泛化能力进行包外估计，包外样本还可以用来辅助剪枝。随机森林RF的基学习器的多样性不仅来自样本扰动，还来自属性扰动，这就使得最终集成的泛化能力可通过个体学习器之间的差异度的增加而进一步提升。

可以看到bagging得到的期望与基模型的期望值相同，但整体模型的方差小于等于基模型的方差，只在模型相关性为1时相等。因此bagging的基模型需要具有低偏差，也就是必须为强模型，否则整体的准确率低。也就是说只要各模型之间相互独立bagging的效果才能达到更好。
boosting主要在于降低偏差，能基于泛化性能较弱的学习器构建出很强的集成。

随着基模型数量的增多，准确率逐渐提高，但因为子模型之间是强相关的，因此方差可能会增大。

2. 集成的作用都有利于分类吗？

答：集成不一定都是好的！
要获得好的集成，个体学习器应该好而不同，即个体学习器要有一定的准确性，并且要有多样性。（当个体集成器效果不好时集成起负作用，当个体集成器没有不同时，集成不起作用）。

bagging之RF随机森林

随机森林是基于bagging的基础上扩展的一个变体，它希望的是根据每一组尽量不同的数据集来训练出一个基学习器，因此在训练过程中引入了随机属性选择。
首先在总数据集中随机选取一部分样本，共选取T（基学习器的总数）次，选取目的是希望这T次的样本集尽量不同，一般选取的是自助采样法。
根据每一个样本集，在训练决策树的时候，先随机选取k个属性（不是全部的属性），然后在这k个属性中选择一个最优属性用于划分。
最后将训练出来的多个基学习器并行组合起来。

随机森林改善了树模型容易过拟合的问题，主要从两个方面：1.有放回地从数据集中抽取样本值；2.每次随机抽取一定数量的特征；
随机森林特性：
1）可做重要性排序，利用袋外数据计算第j棵树的校验误差 $E_j$ ，随机打乱袋外数据的第i个待评估特征并再次计算第j棵决策树的校验误差 ${E}'_{i,j}$ ，两者相减求平方和得 $f_i=\sum_j^N(E_j-{E}'_{i,j})^2$ ,n为决策树个数, $f_i$ 可用来度量特征 $i$ 的重要性。即值越大打乱特征的影响越大，该特征越重要。
2）可并行化处理；
3）可处理缺省值，如果是数值型特征就用中位数填充，如果是描述型变量用所对应类别中出现最多的数值替代；
4）不需要测试数据；
5）不需要特征选择

boosting

boosting之adaboost

adaboost：加法模型+指数损失函数+前向分布算法。
adaboost是通过不断改变训练样本的权重（不断提高前一轮被弱分类器误分的样本的权值）来学习多个分类器，再将多个分类器进行线性组合。

boosting之GBDT

提升树是以分类树或回归树为基本分类器的提升方法。提升树被认为是统计学习中性能最好的方法之一。
针对不同问题的提升树学习算法，其主要区别在于使用的损失函数不同，包括使用平方损失函数的回归问题，用指数损失函数的分类问题，以及用一般损失函数的一般决策问题。

1. GBDT

gradient boosting decision tree,梯度提升树
提升树利用加法模型与前向分布算法实现学习的优化过程。当损失函数是平方损失和指数损失函数时，每一步优化是很简单的。但对一般损失函数而言，往往每一步优化并不那么容易。GBDT的核心就是利用损失函数的负梯度在当前模型的值 $-[\frac{\partial L(y,f(x_i))}{\partial f(x_i)}]_{f(x)=f_{m-1}(x)}$ 作为回归问题提升树算法中的残差的近似值，拟合一个回归树。

2. GBDT与adaboost的区别

GBDT：加法模型+选择一个损失函数+前向分步算法。
和AdaBoost一样，Gradient Boosting也是重复选择一个表现一般的模型并且每次基于先前模型的表现进行调整。不同的是，AdaBoost是通过提升错分数据点的权重来定位模型的不足而Gradient Boosting是通过算梯度（gradient）来定位模型的不足。因此相比AdaBoost, Gradient Boosting可以使用更多种类的目标函数,而当目标函数是均方误差时，计算损失函数的负梯度值在当前模型的值即为残差。当损失函数为指数损失函数时，退化为adaboost，可用于解决分类问题。

XGBoost

1. Xgboost的推导过程

模型函数形式
给定数据集 $D={(x_i,y_i)}$ , XGBoost进行additive training，学习 K棵树，采用以下函数对样本进行预测:
$\hat y_i=\sum_{k=1}^K f_k(x_i), f_k\in F$
这里 $F$ 是假设空间， $f (x)$ 是回归树（CART）， $k$ 是树的棵数:
$F=\{f(x)=w_{q(x)}\}(q:\mathbb{R}^m\rightarrow T,w\in \mathbb{R}^T)$
$q (x)$ 表示将样本x分到了某个叶子节点上，w是叶子节点的分数，所以 $w_{q(x)}$ 表示回归树对样本x的预测值。
回归树的预测输出是实数分数，可以用于回归、分类、排序等任务中。对于回归问题，可以直接作为目标值，对于分类问题，需要映射成概率，比如采用逻辑函数 $\sigma(z)=\frac{1}{1+e^{-z}}$ 。

目标函数
$L(\phi)=\sum_il(\hat y_i,y_i)+\sum_k\Omega(f_k)$
正则项的衡量方法：叶子结点的个数（T），叶结点分数（w），XGBoost采用的： $\Omega(f)=\gamma T+\frac{1}{2}\lambda||w||^2$
对叶子节点个数进行惩罚，相当于在训练过程中做了剪枝。【前剪枝】

误差函数的二次展开
目标函数的第t次迭代： $L^{(t)}=\sum_il(\hat y_i^{(t)},y_i)+\sum_k\Omega(f_k)\\ =\sum_il(\hat y_i^{(t-1)}+f_t(x_i),y_i)+\sum_k\Omega(f_k)\\ \approx \sum_i[l(\hat y_i^{(t-1)},y_i)+g_if_t(x_i)+\frac{1}{2}h_if_t^2(x _i)]+\sum_k\Omega(f_k)$
其中 $g_i=\frac{\partial l(\hat y_i^{(t-1)},y_i)}{\partial \hat y_i^{(t-1)}}$ , $h_i=\partial^2_{\hat y_i^{(t-1)}}l(\hat y_i^{(t-1)},y_i)$ 。
把函数中的常数项去掉，则得到： $\widetilde{L}^{(t)}=\sum_i[g_if_t(x_i)+\frac{1}{2}h_if_t^2(x _i)]+\Omega(f_t)$
把 $f_t,\Omega(f_t)$ 写成树结构的形式，则有：
$\widetilde{L}^{(t)}={\color{Red}\sum_i[g_iw_{q(x)}+\frac{1}{2}h_iw^2_{q(x)}]}+\gamma T+\frac{1}{2}\lambda{\color{Blue}\sum_jw_j^2}$
红色部分是对样本点累加，蓝色部分是对叶子结点求累加。
定义在一个叶子结点j上的样本组合为 $I_j=\{i|q(x_i)\in j\}$
则有
$\widetilde{L}^{(t)}={\color{Red}\sum_{j=1}^T[(\sum_{i \in I_j} g_i)w_{j}+\frac{1}{2}w^2_{j}(\sum_{i\in I_j}h_i)]}+\gamma T+\frac{1}{2}\lambda{\color{Blue}\sum_jw_j^2}\\ =\sum_{j=1}^T[G_jw_j+\frac{1}{2}(H_j+\lambda)w_j^2]+\gamma T$
如果确定了树的结构，即 $q (x)$ 确定，为了使目标函数最小，我们使它的导数为0，解得每个叶子结点的最优预测分数为：
$w_j^*=-\frac{G_j}{H_j+\lambda}$
代入目标函数，得到最小损失为：
$L^*=-\frac{1}{2}\sum_{j=1}^{T}\frac{G_j^2}{H_j+\lambda}+\gamma T$
那么如何确定树的结构呢？
贪心法，每次尝试分裂一个叶节点，计算分裂前后的增益，选择增益最大的。增益计算公式为 $Gain=\frac{G_L^2}{H_L+\lambda}+\frac{G_R^2}{H_R+\lambda}-\frac{(G_L+G_R)^2}{H_L+H_R+\lambda}-\gamma$
选择使Gain值最大的点作为分裂点。

2. xgboost与GBDT的差别？

1）传统GBDT在优化时只用到一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。
2） xgboost在代价函数里加入了正则项，用于控制模型的复杂度。正则项里包含了树的叶子节点个数、每个叶子节点上输出的score的L2模的平方和。从Bias-variance tradeoff角度来讲，正则项降低了模型的variance，使学习出来的模型更加简单，防止过拟合，这也是xgboost优于传统GBDT的一个特性。
3）Shrinkage（缩减），相当于学习速率（xgboost中的eta）。xgboost在进行完一次迭代后，会将叶子节点的权重乘上该系数，主要是为了削弱每棵树的影响，让后面有更大的学习空间。实际应用中，一般把eta设置得小一点，然后迭代次数设置得大一点。也是为了防止过拟合。
4）可自定义损失函数（需二阶可导）
5）支持并行：这里的并行指的是特征的并行，XGBoost预先将每个特征按特征值排好序，存储为块结构，分裂结点时可以采用多线程并行查找每个特征的最佳分割点，极大提升训练速度。
6）列抽样：XGBoost支持列采样，与随机森林类似，用于防止过拟合。
7）缺失值的处理：在逻辑实现上，为了保证完备性，会将该特征值missing的样本分别分配到左叶子结点和右叶子结点，两种情形都计算一遍后，选择分裂后增益最大的那个方向（左分支或是右分支），作为预测时特征值缺失样本的默认分支方向。如果在训练中没有缺失值而在预测中出现缺失，那么会自动将缺失值的划分方向放到右子结点。
8）传统GBDT以CART作为基分类器，xgboost还支持线性分类器，这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。
9）给出了节点分裂的具体公式表达，使用贪婪学习的方法去寻找一个最优的切分点。

3.xgboost为什么要用二阶导

二阶导更加逼近损失函数的真实值。

4. xgboost的参数调节

戳
要想让模型的表现有一个质的飞跃，仅仅利用模型的参数调节是远远不够的，还需要依靠其他的手段，诸如，特征工程(feature egineering) ，模型组合(ensemble of model),以及堆叠(stacking)等。

KNN(k-nearest neighbor, k-NN)

1. 方法

K近邻法是基本且简单的分类与回归方法。k近邻法的基本做法是：对给定的训练实例点和输入实例点，首先确定输入实例点的k个最近邻训练实例点，然后利用这k个训练实例点的类的多数来预测输入实例点的类。

2. 三要素

K近邻法的输入为实例的特征向量，对应特征空间的点，输出为实例的类别，可以取多类。k近邻法不具有显式的学习过程。K值的选择，距离的度量及分类决策规则是k近邻法的三个基本要素。
k近邻法的模型对应特征空间的一个划分。
由不同的距离度量所确定的最近邻点是不同的。p=1:曼哈顿距离，p=2：欧式距离。
k值越小，模型越复杂，容易发生过拟合；k值越大，模型越简单。在应用中k一般选一个比较小的数值，通常采用交叉验证法来选取最优的k值。
多数表决等价于经验风险最小化。

3. 实现结构

实现方法：kd树，Kd树是一种二叉树。

NB(naive bayes)

1. 朴素贝叶斯算法

1）计算先验概率 $P (Y)$ 和条件概率 $P (X ∣ Y)$ ；（概率估计方法可以用极大似然估计或贝叶斯估计）
2）对于给定的实例，计算划分到不同类中的后验概率 $P (Y ∣ X)$ ；【求出联合概率分布 $P (X, Y)$ 即可】
3）将实例划分到后验概率最大的类中。

2. 何为朴素

假设特征间互相独立。

3. LR与NB的异同

1.目的：他们都是线性分类器；
2.NB学习输入与输出之间的联合概率分布，属于生成模型；LR学习给定输入条件下输出的最大概率，属于判别模型；
3.NB有一个很强的假设是：特征独立性假设。所以当特征之间相关性较大时，NB的效果很差，而LR不受影响；
4.NB根据经验给出了样本的先验分布，因此在数据量较少的情况下效果较好，而LR在数据量较小的情况下可能出现过拟合；
5.当样本数据远小于特征时，NB联合先验概率的预测效果好于LR。

PCA

1. PCA旋转

PCA进行旋转就是为了把由主成分捕获的方差之间的差异最大化

2. PCA是如何去除相关变量的

PCA/SVD是“合并相似性高并且有助于区分样本的列”和“去掉信息量少的特征向量（这些特征向量有可能包括那种纯粹冗余的feature，以及完全无关的feature）”借以达成降维的目的，并不是单纯的“去除了相似性高的列”或是“去掉信息量少的列”这样的解释。
PCA本质上是在特征空间中寻找一组基向量，由这一组基向量表示的样本值有较大的方差，并且样本之间没有相关性。

3. 已知数据高度相关就应该使用PCA吗？

是的

聚类算法

主要有三种：划分聚类，层次聚类和密度聚类。
划分聚类：K-means,CLARANS;
层次聚类：DIANA,BIRCH,chameloen,cure
密度聚类：OPTICS,DBSCAN

BIRCH算法利用树结构对数据集进行处理，叶结点存储一个聚类，用中心和半径表示，顺序处理每一个对象，并把它划分到距离最近的结点，该算法也可以作为其他聚类算法的预处理过程。

EM

EM算法是含有隐变量的概率模型参数的极大似然估计法或极大后验概率估计法。主要讨论极大似然估计。
EM算法与初值的选择有关，选择不同的初值可能得到不同的参数估计值。EM算法不能保证找到全局最优。
E步求期望，M步求极大化。重复EM步骤直至参数收敛。
EM算法可以用于生成模型的非监督学习。
EM算法的一个重要应用是高斯混合模型的参数估计。

FM、FFM

FFM,FM都是分解机模型，主要应用在广告领域预测CTR（click-through rate，点击率）和CVR（clic conversion rate，转换率）。在特征稀疏的条件下，可以表现出很好的效果。

FM

简单来说，对类目型特征，当使用one-hot coding之后，会出现：1.特征空间大；2.特征数据比较稀疏。同时通过观察大量的样本数据可以发现，某些特征经过关联之后，与label之间的相关性就会提高，因此引入两个特征的组合是非常有意义的。那么就需要使用多项式模型：

组合特征的参数一共有 $\frac{n(n-1)}{2}$ 个，任意两个参数都是独立的。然而，在数据稀疏性普遍存在的实际应用场景中，二次项参数的训练是很困难的。其原因是：每个参数 $w_ij$ 的训练需要大量 $x_i$ 和 $w_j$ 都非零的样本；由于样本数据本来就比较稀疏，满足" $x_i$ 和 $w_j$ 都非零”的样本将会非常少。训练样本的不足，很容易导致参数 $w_ij$ 不准确，最终将严重影响模型的性能。

如何解决二次项参数的训练问题呢？矩阵分解

使用矩阵分解之后，我们只需要求n个隐向量即可，假设每个隐向量的长度为k，那么我们就将二次项参数的计算量从 $n^2$ 减少到 $k n$ ，一般来说k远小于n.另外，还有一个好处是将二次项参数分解之后，所有包含“ $x_i$ 的非零组合特征”（存在某个 $j \neq = i$ ，使得 $x_i x_j≠0$ ）的样本都可以用来学习隐向量 $v_i$ ，这很大程度上避免了数据稀疏性造成的影响。

训练方法：梯度下降方法。根据不同的损失函数（例如回归问题就用MSE损失函数，分类问题就用交叉熵损失函数）来推导出梯度下降的公式。

FM参数训练的复杂度也是O(kn）。FM可以在线性时间训练和预测，是一种非常高效的模型。

FFM

FFM是FM的升级版本，通过引入field的概念，FFM把相同性质的特征归于同一个field。FFM模型认为隐向量 $v_i$ 不仅跟 $x_i$ 有关系，还跟与 $x_i$ 相乘的 $x_j$ 所属的Field有关系。
假设样本的 n个特征属于 $f$ 个field，那么FFM的二次项有 $n f$ 个隐向量。而在FM模型中，每一维特征的隐向量只有一个。FM可以看作FFM的特例，是把所有特征都归属到一个field时的FFM模型。根据FFM的field敏感特性，可以导出其模型方程。

首先，FFM相对FM来说，参数量扩大了F倍，效果比FM好，但是要真的想把它用到现实场景中是有问题的，而问题同样在于参数量太大。

感知机

1. 模型，学习策略，学习算法

感知机模型： $f(x)=\text{sign} (w\cdot x+b)$
感知机的损失函数：
$L(w,b)=-\sum_{x_i\in M}y_i(w x_i+b),$
其中M为误分类点的集合。因此损失函数的物理意义是所有误分类点到超平面的距离之和。

学习策略：在假设空间中选取使损失函数最小的模型参数。
学习算法：随机梯度下降。首先任意选取一个超平面 $w_0,b_0$ ,然后用梯度下降法不断地极小化目标函数。极小化过程不是一次使M中所有误分类点的梯度下降，而是随机选取一个误分类点使其梯度下降。
注意：感知机学习算法由于采用不同的初值或选取不同的误分类点，解可以不同。

2. 对偶形式

感知机也可以通过对偶形式求解，主要方法就是将参数w,b用分类点表示，即 $w=\sum_{i=1}^N\alpha_iy_ix_i, b=\sum_{i=1}^N\alpha_iy_i$

模型度量和选择

1. 特征归一化

为什么需要归一化：
1.归一化可以加快梯度下降法求解最优解的速度。
当特征之间的数值变化范围相差太大时，会使得收敛路径呈Z字型，导致收敛太慢，或者根本收敛不到最优解的结果。
2.归一化可以提高计算精度。
一些分类器需要计算样本之间的距离（如欧氏距离），例如KNN。如果一个特征值域范围非常大，那么距离计算就主要取决于这个特征，从而与实际情况相悖（比如这时实际情况是值域范围小的特征更重要）。
因此，可以看出，当算法需要使用梯度下降的方法求解最优解（比如逻辑回归）或者该算法计算样本点距离时（比如svm,KNN）必须使用归一化处理。
归一化的方法有线性归一化，标准差标准化，非线性归一化，最常用的是标准差标准化（standscaler）

2. F1，ROC与AUC

在回归任务中最常用的性能度量是均方误差MSE。
$E(f;D)=\frac{1}{m}\sum_{i=1}^m(f(x_i)-y_i)^2$

在分类问题中：

错误率与精度：错误率是分类错误的样本占样本总数，精度是分类正确的样本占样本总数的比例。
将每个类看的同等重要，不适用于解决不平衡分类问题。
查准率，查全率和F1
查准率：P(precision)=TP/(TP+FP): 预测正例中真正正例的比例（纵轴）
查全率：R(recall)=TP(TP+TN)：真正正例中有多少被检测出来（横轴）
已知查准率和查全率之后，可以通过画出P-R曲线来比较学习器的优劣。具体画法是：根据学习器的预测结果对样例进行排序，将最有可能是正例的排在最前面，最不可能是正例的排在最后面，按此顺序把样本作为正例进行预测，则每次都可以得到当前的查全率和查准率，以查全率R为横轴，查准率P为纵轴就可以画出P-R曲线。这意味着当我们选取一个阈值作为判断输出为正例还是负例之后对应的查全率和查准率，当学习器A的曲线可以完全包住学习器B的曲线时，认为学习器A优于B。
也可以通过F1来度量 $\frac{1}{F1}=\frac{1}{2}(\frac{1}{P}+\frac{1}{R})$
而在一些应用中，对查准率和查全率的重视程度有所不同，因此可以使用更一般的形式 $F_{\beta}$ 来衡量： $\frac{1}{F_{\beta}}=\frac{1}{1+\beta^2}(\frac{1}{P}+\frac{\beta^2}{R})$
ROC与AUC
ROC曲线的画法与P-R曲线相似，只是横纵坐标有所不同，ROC的纵轴是“真正例率TPR”，横坐标是“假正例率FPR”。
TPR=TP/(TP+FN) 真正例占所有正例的比例==查全率（纵轴）
FPR=FP/(FP+TN) 假正例占所有假例的比例（横轴）
绘出ROC曲线后，若一个学习器的ROC曲线被另一个学习器包住则后者优于前者，若出现交叉则比较两条曲线下的面积AUC。

使用AUC的好处：
1)AUC考虑的是样本预测的排序质量，而避免了对阈值的考虑（比如精度的计算是要先设置一个阈值）。当输出为【0,1】之间的概率值时，使用AUC指标显然考虑就是学习器的整体泛化能力而与阈值无关。如果我们完全随机的对样本分类，那么AUC应该接近0.5。
2)AUC对样本类别是否均衡并不敏感，这也是不均衡样本通常用AUC评价分类器性能的一个原因。

AUC的意义：
AUC是任取一对正负例，分类器给出正例得分大于负例得分的概率，反映了分类器的排序能力，从这个角度来说：
AUC=1，完美分类器，正例得分一定大于负例得分。
0.5~1，正例得分大于负例得分概率大于0.5，该分类器有效果。
AUC=0.5，正例得分随机大于负例概率，分类器无效。
0~0.5，正例得分大于负例得分概率小于0.5，比随机猜测还差。

1. 生成模型和判别模型

生成模型指的是通过学习联合概率分布P(x,y)，然后求出条件概率分布P(y|x)，比如朴素贝叶斯；
特点：生成模型可以还原条件概率分布，并且具有比较快的收敛速度，还可以用于隐变量的学习。

判别模型指的是直接学习决策函数y=f(x)或者条件概率分布P(y|x)。比如kNN，SVM，决策树。

判别模型通常会更好，因为生成模型会假设数据服从某种分布，例如朴素贝叶斯。数据量小的时候，生成模型可能会有更好的效果，但数据量大的时候，一般不占优势。

2. 线性分类器与非线性分类器的区别和优劣。

如果模型是参数的线性函数，并且存在线性分类面，那么就是线性分类器，否则不是。线性分类器速度快，编程方便，但是拟合结果可能不是太好，非线性分类器编程复杂，但是拟合效果好。
常见的线性分类器：线性回归，逻辑回归，单层感知机,贝叶斯分类。
常见的非线性分类: 决策树，随机森林，GBDT，多层感知机
SVM两者都有（看是线性核还是非线性核）

3. 考虑到机器学习有这么多算法，给定一个数据集，你如何决定使用哪一个算法？

首先应该考虑算法的目的是分类还是回归，然后考虑数据的类型。
如果给定的一个数据集是线性的，线性回归是最好的选择；
如果该数据是非线性互相作用的的，可以用boosting或bagging算法；
如果数据是图像或者音频，那么神经网络可以构建一个稳健的模型；
如果业务需求是要构建一个可以部署的模型，我们可以用回归或决策树模型（容易解释和说明），而不是黑盒算法如SVM，GBM等。总之，没有一个一劳永逸的算法。我们必须有足够的细心，去了解到底要用哪个算法。

4. 对于不平衡（不均衡）分类应该怎么做？

样本不平衡往往会导致模型对样本数较多的分类造成过拟合，即总是将样本分到了样本数较多的分类中；除此之外，一个典型的问题就是 Accuracy Paradox，这个问题指的是模型的对样本预测的准确率很高，但是模型的泛化能力差，其原因是模型将大多数的样本都归类为样本数较多的那一类。
针对不平衡采样主要有以下几种解决方法：
1.收集更多的数据（对原本数据样本就不平衡的样例不适用）；
2.改变评判指标（准确率，召回率，F1值，ROC（AUC），ROC 曲线具有不随样本比例而改变的良好性质，因此能够在样本比例不平衡的情况下较好地反映出分类器的优劣。）；
3.对数据进行采样；
对数据采样有两种方式：过采样和欠采样，前者适用于数据较少的情况，后者适用于数据较多的情况。
过采样方法：1）最简单的一种方法是对较少的样本进行复制，但没有给少数类样本增加任何新的信息，非常容易造成过拟合；2）Synthetic Minority Over-sampling Technique(SMOTH),利用最近邻的k个点的特征矢量乘随机权重之后累加的结果作为新的数据；3）adaptive synthetic sampling approach（ADASYN），基于SMOTH方法，但是各样本权重取决于这个样本是否容易被模型学习，更多的合成数据来源于难以被模型学习的样本。
4.使用异常检测的方法；
5.改变样本的权重；
改变样本权重指的是增大样本数较少类别的样本的权重，当这样的样本被误分时，其损失值要乘上相应的权重，从而让分类器更加关注这一类数目较少的样本；
6.模型融合的方法，把数量较多的类分为多个N等份，每份数据量与较少的那一类相当，然后分别训练N个模型，最后投票表决预测样本类别。

5. CV的好处

为了避免在测试集上出现的过拟合现象，一般我们需要一组“验证集”，模型训练完成以后在验证集上对模型进行评估。当验证集上的评估实验比较成功时，在测试集上进行最后的评估。然而，通过将原始数据分为3个数据集合，我们就大大减少了可用于模型学习的样本数量，并且得到的结果依赖于集合对（训练，验证）的随机选择。
这个问题可以通过交叉验证（CV 缩写）来解决。交叉验证仍需要测试集做最后的模型评估，但不再需要验证集。

6. 偏差与方差

偏差度量着偏离真实函数或参数的误差期望，而方差度量着数据上任意特定采样可能导致的估计期望的偏差。
偏差度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法本身的拟合能力；方差度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响。

改善偏差的方法：增多数据特征数、添加高次多项式特征、减小正则化系数λ
改善方差的方法：增大数据规模、减小数据特征数（维数）、增大正则化系数λ

7. 过拟合的原因（方差大）

1）样本数据的问题
样本数量太少；
抽样方法错误，抽出的样本数据不能有效足够代表业务逻辑或业务场景。比如样本符合正态分布，却按均分分布抽样，或者样本数据不能代表整体数据的分布；
样本里的噪音数据干扰过大；
2）模型问题
模型复杂度高、参数太多；
决策树模型没有剪枝；
权值学习迭代次数足够多，拟合了训练数据中的噪声和训练样例中没有代表性的特征.

8. 改善过拟合的方法？

1）获取更多的数据：比如从数据源获取更多的数据或者使用数据增强；抽样方法要符合业务场景；清洗噪声数据。
2）使用合适的模型：控制模型复杂度，优先选择简单的模型，或者用模型融合技术；
利用先验知识，添加正则项：L1正则更加容易产生稀疏解、L2正则倾向于让参数w趋向于0；
交叉验证；不要过度训练，最优化求解时，收敛之前停止迭代；
决策树模型剪枝权值衰减。
3）结合多种模型：bagging, boosting, dropout；
4）贝叶斯方法

9.似然的概念

概率描述了已知参数时的随机变量的输出结果；似然则用来描述已知随机变量输出结果时，未知参数的可能取值。
例如，对于“一枚正反对称的硬币上抛十次”这种事件，我们可以问硬币落地时十次都是正面向上的“概率”是多少；而对于“一枚硬币上抛十次，落地都是正面向上”这种事件，我们则可以问，这枚硬币正反面对称的“似然”程度是多少。
在机器学习中，损失函数一般使用的是负对数似然，这里的对数似然指的是在已知输出Y的情况下，对Y的分布参数进行似然估计，估计的参数与输入X有关。

从逻辑回归到神经网络

就是把寻找特征的过程
转化为
寻找一个好的funcation set的过程（即确定一个神经网络的框架，多少层？每层多少个神经元）
例如在语音辨识和文字处理方面，人很难去找到有用的特征，那就不如把寻找特征的过程交给机器自动去处理。

几何间隔是相对于函数间隔来说的一种距离。函数间隔可以表示分类预测的正确性及确信度。但是选择分离超平面时，只有函数间隔还不够，只要成比例地改变w,b就可以改变函数间隔。因此我们对分离超平面的法向量w加某些约束，如规范化， $∣ ∣ w ∣ ∣ = 1$ ，使得间隔是确定的。这时函数间隔变成几何间隔。 ↩︎ ↩︎
因为假设若某个x违反了约束条件，使得 $y_i( {w} {x_i}+ b)-1< 0$ ，那么就存在对应的拉格朗日乘子 $\alpha$ 为无穷大,那么 $\max_{\alpha_i\geq0}L(w,b,\alpha)=+\infty;$ 相反地，当所有x都满足条件时，那么 $\max_{\alpha_i\geq0}L(w,b,\alpha)=\frac{1}{2}|| w||^2.$ 那么外面取 $\min$ 函数时，实际还是会取 $\frac{1}{2}|| w||^2$ . ↩︎

你可能感兴趣的:(机器学习算法)

Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
机器学习与深度学习的区别 eqa11 机器学习
文章目录机器学习与深度学习的区别一、引言二、机器学习概述1、机器学习定义1.1、机器学习的应用2、机器学习算法三、深度学习概述1、深度学习定义1.1、深度学习的应用2、深度学习算法四、机器学习与深度学习的区别1、学习方法2、数据需求3、应用领域五、总结机器学习与深度学习的区别一、引言在人工智能的浪潮中，机器学习和深度学习无疑是最耀眼的两颗明星。它们在许多领域都取得了令人瞩目的成就，从自动驾驶汽车到
MATLAB车牌识别系统清风明月来几时图像算法处理 matlab 开发语言
MATLAB车牌识别系统是一个基于MATLAB开发的用于识别和提取车牌信息的系统。该系统使用图像处理和机器学习算法来实现车牌的定位和字符识别。以下是一个基本的MATLAB车牌识别系统的工作流程：图像预处理：首先，将输入的图像进行预处理，包括灰度化、高斯平滑、边缘检测等操作，以提高后续的车牌定位和字符识别的准确性。车牌定位：在预处理后的图像中，使用形态学运算和边缘检测算法来寻找车牌的位置。这可以通过
十大机器学习算法-梯度提升决策树（GBDT） zjwreal 机器学习 GBDT 机器学习梯度提升提升树梯度提升决策树
简介梯度提升决策树（GBDT）由于准确率高、训练快速等优点，被广泛应用到分类、回归合排序问题中。该算法是一种additive树模型，每棵树学习之前additive树模型的残差。许多研究者相继提出XGBoost、LightGBM等，又进一步提升了GBDT的性能。基本思想提升树-BoostingTree以决策树为基函数的提升方法称为提升树，其决策树可以是分类树或者回归树。决策树模型可以表示为决策树的加
通俗理解线性回归(Linear Regression) 小夏refresh 机器学习数据挖掘机器学习算法人工智能数据挖掘
线性回归,最简单的机器学习算法,当你看完这篇文章,你就会发现,线性回归是多么的简单.首先,什么是线性回归.简单的说,就是在坐标系中有很多点,线性回归的目的就是找到一条线使得这些点都在这条直线上或者直线的周围,这就是线性回归(LinearRegression).是不是有画面感了?那么我们上图片:![1.png][1]那么接下来,就让我们来看看具体的线性回归吧首先,我们以二维数据为例:我们有一组数据x
c++ +Opencv实现车牌自动识别听忆. 人工智能计算机视觉
c+++Opencv实现车牌自动识别1.图像预处理2.车牌定位3.字符分割4.字符识别完整流程概述：边走、边悟迟早会好要用C++和OpenCV实现车牌自动识别，主要流程分为几个步骤：图像预处理：提高车牌区域的可见度，方便后续的车牌定位与字符识别。车牌定位：通过图像处理和特征提取，定位车牌在图像中的位置。字符分割：将车牌区域中的字符逐个分割出来。字符识别：利用机器学习算法或者OCR（光学字符识别）技
NPU技术总结技术学习分享 webgl processon
NPUs简介定义:NPUs是一种专门为执行机器学习算法和神经网络操作而设计的处理器。起源:随着人工智能和深度学习的发展，NPUs应运而生，以满足对高效率和高能效的计算需求。NPUs的设计架构:NPUs通常采用不同于传统CPU或GPU的架构，优化了矩阵运算和并行处理。指令集:它们拥有专门的指令集，用于加速神经网络中的常见操作，如卷积和激活函数。NPUs的核心技术并行性:NPUs利用数据并行性和任务并
机器学习面试题目分享面试经验分享机器学习算法工程师深度学习经典问题好家伙VCC 面试机器学习面试经验分享 stm32 嵌入式硬件单片机 fpga开发
标题机器学习面经总结的常见面试题目等作业帮实习视觉算法一面凉凉经3.16号投递图像算法实习生，昨天hr打电话约了今早上牛客面试面试官还是很和蔼的，问了很多基础和细节，平时我都没有注意到的，肯定凉了，在这里记录一下，分享给大家由于我本科研究生都是计算机的，因此问了一些计算机基础的东西，但是由于年代久远，我都不记得了机器学习方面知识因为缺少一些动手实践，因此很多细节都不了解感谢面试官让我了解到这么多不
机器学习算法 —— LightGBM ZShiJ 机器学习算法机器学习算法分类
欢迎来到我的博客——探索技术的无限可能！博客的简介（文章目录）目录背景描述数据说明数据来源LightGBMLightGBM原理简介LightGBM的优点LightGBM的缺点LightGBM的应用基于英雄联盟数据集的LightGBM分类实战函数库导入数据读取/载入数据信息简单查看可视化描述利用LightGBM进行训练与预测利用LightGBM进行特征选择通过调整参数获得更好的效果基本参数调整针对训
机器人路径规划的机器学习算法科技大本营机器人机器学习算法
机器学习算法正在重塑机器人在复杂和动态环境中导航的方式，而机器人路径规划就是其中一个重要领域。传统方法通常在受控环境中表现良好，但在处理实时出现的障碍或变化时往往失效。通过机器学习，机器人可以从数据和经验中学习，做出智能决策并优化路线。本文回顾了一些在机器人路径规划领域中占主导地位的主要机器学习算法，它们的实际应用以及推动此技术进一步发展的趋势。了解机器人路径规划机器人路径规划是指确定机器人从起始
python机器学习算法--贝叶斯算法在下小天n 机器学习 python 机器学习算法
1.贝叶斯定理在20世纪60年代初就引入到文字信息检索中，仍然是文字分类的一种热门（基准）方法。文字分类是以词频为特征判断文件所属类型或其他（如垃圾邮件、合法性、新闻分类等）的问题。原理牵涉到概率论的问题，不在详细说明。sklearn.naive_bayes.GaussianNB(priors=None,var_smoothing=1e-09)#Bayes函数·priors：矩阵，shape=[n
人工智能&机器学习&深度学习 AA杂货铺111
机器学习：一切通过优化方法挖掘数据中规律的学科。深度学习：一切运用了神经网络作为参数结构进行优化的机器学习算法。强化学习：不仅能利用现有数据，还可以通过对环境的探索获得新数据，并利用新数据循环往复地更新迭代现有模型的机器学习算法。学习是为了更好地对环境进行探索，而探索是为了获取数据进行更好的学习。深度强化学习：一切运用了神经网络作为参数结构进行优化的强化学习算法。人工智能定义与分类人工智能（Art
生成式AI：创造性智能的新纪元 Lill_bin 杂谈人工智能分布式 zookeeper 机器学习算法
引言随着人工智能技术的飞速发展，生成式AI（GenerativeAI）已经成为一个引人注目的领域。它不仅仅是模仿人类行为，而是通过学习大量的数据，创造出全新的内容，如文本、图像、音乐等。本文将探讨生成式AI的基本原理、应用领域以及它对未来社会可能产生的影响。什么是生成式AI？生成式AI是一种利用机器学习算法，特别是深度学习技术，来生成新的数据样本的人工智能。这些数据样本在统计上与训练数据相似，但又
python logistic regression_机器学习算法与Python实践之逻辑回归（Logistic Regression） weixin_39702649 python logistic regression
机器学习算法与Python实践这个系列主要是参考下载地址：https://bbs.pinggu.org/thread-2256090-1-1.html一、逻辑回归(LogisticRegression)Logisticregression(逻辑回归)是当前业界比较常用的机器学习方法，用于估计某种事物的可能性。之前在经典之作《数学之美》中也看到了它用于广告预测，也就是根据某广告被用户点击的可能性，把
python logistic模型_Python实践之逻辑回归（Logistic Regression） weixin_39922394 python logistic模型
机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python，然后也想对一些机器学习算法加深下了解，所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍，所以就参考这本书的过程来学习了。这节学习的是逻辑回归(LogisticRegression)，也算进入了比较正统的机器学习算法。啥叫正统呢？我概念里面机器学习算法一般是这样一个
周报 | 24.8.26-24.9.1文章汇总双木的木 python拓展学习深度学习拓展阅读目标检测人工智能 python 计算机视觉 gpt transformer stable diffusion
为了更好地整理文章和发表接下来的文章，以后每周都汇总一份周报。周报|24.8.19-24.8.25文章汇总-CSDN博客python|提升代码迭代速度的Python重载方法-CSDN博客机器学习算法与Python学习|黑匣子被打开了？能玩的Transformer可视化解释工具！_研究别人的黑盒算法机器学习python-CSDN博客极市平台|语言图像模型大一统！Meta将Transformer和Di
自然语言处理系列五十》文本分类算法》SVM支持向量机算法原理陈敬雷-充电了么-CEO兼CTO 算法大数据人工智能算法自然语言处理分类 nlp ai 人工智能 chatgpt
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列五十SVM支持向量机》算法原理SVM支持向量机》代码实战总结自然语言处理系列五十SVM支持向量机》算法原理SVM支持向量机在文本分类的应用场景中，相比其他机器学习算法有更好的效果。下面介绍其原理，并用SparkMLlib机器
【大数据】孤立森林算法大雨淅淅大数据算法 python 大数据人工智能
目录一、孤立森林算法概述二、孤立森林算法优缺点和改进2.1孤立森林算法优点2.2孤立森林算法缺点2.3孤立森林算法改进三、孤立森林算法代码实现3.1孤立森林算法python实现3.2孤立森林算法JAVA实现3.3孤立森林算法C++实现四、孤立森林算法应用一、孤立森林算法概述孤立森林算法是一种用于异常检测的机器学习算法。它基于这样的直觉：异常点是数据中的少数派，它们在特征空间中的分布与正常数据点不同
如何开发针对不平衡分类的成本敏感神经网络 python 背包客研究不平衡学习分类神经网络 python
如何开发针对不平衡分类的成本敏感神经网络深度学习神经网络是一类灵活的机器学习算法，可以在各种问题上表现良好。神经网络使用误差反向传播算法进行训练，该算法涉及计算模型在训练数据集上产生的误差，并根据这些误差的比例更新模型权重。这种训练方法的局限性在于，每个类别的示例都被视为相同，对于不平衡的数据集，这意味着模型对一个类别的适应性要强得多，而对另一个类别的适应性则弱得多。反向传播算法可以更新，以根据类
大肠杆菌数据集的不平衡多类分类 Python 背包客研究不平衡学习分类 python 人工智能
大肠杆菌数据集的不平衡多类分类关注博主学习更多内容关注vxGZH:多目标优化与学习Lab教程概述本教程分为五个部分；他们是：大肠杆菌数据集探索数据集模型测试和基线结果评估模型评估机器学习算法评估数据过采样对新数据进行预测大肠杆菌数据集在这个项目中，我们将使用一个标准的不平衡机器学习数据集，称为“大肠杆菌”数据集，也称为“蛋白质定位位点”数据集。该数据集描述了利用细胞定位位点的氨基酸序列对大肠杆菌蛋
人工智能在网络安全领域的应用探索亿林数据人工智能 web安全安全网络安全
随着网络技术的飞速发展，网络安全问题日益凸显，成为制约数字化进程的重要瓶颈。人工智能（AI）作为一种变革性技术，正逐步在网络安全领域展现出其巨大的潜力和价值。本文旨在探讨人工智能在网络安全领域的应用现状、优势、挑战及未来发展趋势。一、人工智能在网络安全中的应用现状威胁检测与响应人工智能通过机器学习算法，能够自动识别网络中的异常行为，如未经授权的访问、恶意软件传播等。传统的安全系统依赖于静态规则和签
从自动驾驶看无人驾驶叉车的技术落地和应用电气_空空自动驾驶自动驾驶机器人人工智能毕设
摘要｜介绍无人驾驶叉车在自动驾驶技术中的应用，分析其关键技术，如环境感知、定位、路径规划等，并讨论机器学习算法和强化学习算法的应用以提高无人叉车的运行效率和准确性。无人叉车在封闭结构化环境、机器学习、有效数据集等方法的助力下，可有效推动叉车无人驾驶关键技术的发展。关键词：无人叉车；自动驾驶；机器学习；数据集随着人工智能技术的持续进步，无人叉车领域的供给与需求均呈现迅猛增长态势。它们不仅正在逐步替代
深度学习100问13:什么是二分类问题不断持续学习ing 人工智能机器学习自然语言处理
嘿，你知道二分类问题不？这就像是一个“超级裁判”，要把东西分成两大类。一、定义及举例想象一下，生活中有很多时候我们得决定一个东西到底属于哪一边。就像判断一封邮件，是“垃圾邮件”呢，还是“正常邮件”；或者看看一个病人，是“得了某种病”呢，还是“没得病”。二、解决方法要解决二分类问题呀，我们可以找来一些“魔法工具”，也就是机器学习算法。像逻辑回归啦、支持向量机啦、决策树啦等等。这些算法就像聪明的小助手
Python学习和面试中的常见问题及答案写代码的M教授 Python学习计划 python 学习面试
整理了一些关于Python和机器学习算法的高级问题及其详细答案。这些问题涵盖了多个方面，包括数据处理、模型训练、评估、优化和实际应用。一、Python编程问题解释Python中的装饰器（Decorators）是什么？它们的作用是什么？答案：装饰器是一种高阶函数，能够在不修改函数定义的情况下扩展或修改函数的行为。它们通常用于日志记录、权限验证、缓存等场景。使用@decorator_name语法将装饰
机器学习算法深度总结(5)-逻辑回归婉妃
1.模型定义逻辑回归属于基于概率分类的学习法.基于概率的模式识别是指对模式x所对应的类别y的后验概率禁行学习.其所属类别为后验概率最大时的类别:预测类别的后验概率,可理解为模式x所属类别y的可信度.逻辑回归(logistic),使用线性对数函数对分类后验概率进行模型化:上式,分母是满足概率总和为1的约束条件的正则化项,参数向量维数为:考虑二分类问题:使用上述关系式,logistic模型的参数个数从
python 数据挖掘与机器学习科研的力量人工智能 ChatGPT python 数据挖掘机器学习神经网络随机森林决策树贝叶斯
近年来，Python编程语言受到越来越多科研人员的喜爱，在多个编程语言排行榜中持续夺冠。同时，伴随着深度学习的快速发展，人工智能技术在各个领域中的应用越来越广泛。机器学习是人工智能的基础，因此，掌握常用机器学习算法的工作原理，并能够熟练运用Python建立实际的机器学习模型，是开展人工智能相关研究的前提和基础。模块一：课前准备Python编程基础与进阶Python编程入门1、Python环境搭建（
1区9+非肿瘤纯生信，逻辑清晰易懂，机器学习筛选关键基因的纯生信也可以发高水平期刊，抓紧上车！生信小课堂
影响因子：9.186关于非肿瘤生信，我们也解读过很多，主要有以下类型1单个疾病WGCNA+PPI分析筛选hub基因。2单个疾病结合免疫浸润，热点基因集，机器学习算法等。3两种相关疾病联合分析，包括非肿瘤结合非肿瘤，非肿瘤结合肿瘤或者非肿瘤结合泛癌分析4基于分型的非肿瘤生信分析5单细胞结合普通转录组生信分析目前非肿瘤生信发文的门槛较低，有需要的朋友欢迎交流研究概述：本研究首先使用R语言在三个基因表达
深度学习速通系列:贝叶思&SVM Ven% 支持向量机人工智能深度学习算法机器学习
贝叶斯（Bayesian）方法和支持向量机（SVM，SupportVectorMachine）是两种不同的机器学习算法，它们在解决分类和回归问题时有着不同的原理和应用场景贝叶斯方法：贝叶斯方法基于贝叶斯定理，这是一种利用已知信息（先验概率）来预测未知事件（后验概率）的概率方法。它通常用于分类问题，特别是当数据集较小或存在类别不平衡时。贝叶斯方法可以处理不确定性，并且可以通过增加新的数据来更新先验概
机器学习（ML）算法分类活蹦乱跳酸菜鱼机器学习
机器学习（ML）算法是一个广泛而多样的领域，涵盖了多种用于数据分析和模式识别的技术。以下是一些常见的机器学习算法分类及其具体算法：一、监督学习算法监督学习算法使用标记（即已知结果）的训练数据来训练模型，以便对新数据进行预测。线性回归：用于建立连续变量之间的关系，通过拟合一条直线或超平面来预测新数据的输出值。逻辑回归：虽然名称中包含“回归”，但实际上是用于分类问题，特别是二分类问题。通过将线性回归模
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S