面试题:机器学习的学习方式主要有哪些?

更多面试题,请看 wx公众号“机器学习算法面试

根据数据类型的不同,对一个问题的建模有不同的方式。依据不同的学习方式和输入数据,机器学习主要分为以下四种学习方式。

监督学习

特点:监督学习是使用已知正确答案的示例来训练网络。已知数据和其一一对应的标签,训练一个预测模型,将输入数据映射到标签的过程。

常见应用场景:监督式学习的常见应用场景如分类问题和回归问题。

算法举例:常见的有监督机器学习算法包括支持向量机(Support Vector Machine, SVM),朴素贝叶斯(Naive Bayes),逻辑回归(Logistic Regression),K近邻(K-Nearest Neighborhood, KNN),决策树(Decision Tree),随机森林(Random Forest),AdaBoost以及线性判别分析(Linear Discriminant Analysis, LDA)等。深度学习(Deep Learning)也是大多数以监督学习的方式呈现。

非监督式学习

定义:在非监督式学习中,数据并不被特别标识,适用于你具有数据集但无标签的情况。学习模型是为了推断出数据的一些内在结构。

常见应用场景:常见的应用场景包括关联规则的学习以及聚类等。

算法举例:常见算法包括Apriori算法以及k-Means算法。

半监督式学习

特点:在此学习方式下,输入数据部分被标记,部分没有被标记,这种学习模型可以用来进行预测。

常见应用场景:应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,通过对已标记数据建模,在此基础上,对未标记数据进行预测。

算法举例:常见算法如图论推理算法(Graph Inference)或者拉普拉斯支持向量机(Laplacian SVM)等。

弱监督学习

特点:弱监督学习可以看做是有多个标记的数据集合,次集合可以是空集,单个元素,或包含多种情况(没有标记,有一个标记,和有多个标记)的多个元素。数据集的标签是不可靠的,这里的不可靠可以是标记不正确,多种标记,标记不充分,局部标记等。已知数据和其一一对应的弱标签,训练一个智能算法,将输入数据映射到一组更强的标签的过程。标签的强弱指的是标签蕴含的信息量的多少,比如相对于分割的标签来说,分类的标签就是弱标签。

算法举例:举例,给出一张包含气球的图片,需要得出气球在图片中的位置及气球和背景的分割线,这就是已知弱标签学习强标签的问题。

在企业数据应用的场景下, 人们最常用的可能就是监督式学习和非监督式学习的模型。在图像识别等领域,由于存在大量的非标识的数据和少量的可标识数据, 目前半监督式学习是一个很热的话题。

基础概念
逻辑回归与朴素贝叶斯有什么区别
机器学习学习方式主要有哪些?
监督学习的步骤主要有哪些?
逻辑回归与朴素贝叶斯有什么区别
线性回归和逻辑回归的区别
代价函数,损失函数和目标函数的区别?
随机梯度下降法、批量梯度下降法有哪些区别?
LDA和PCA区别?
降维的必要性和目的是什么?
误差、偏差和方差的区别是啥?
梯度下降法缺点
批量梯度下降和随机梯度下降法的缺点?
如何对梯度下降法进行调优?
如何解决欠拟合
过拟合原因
如何解决过拟合
GBM
简单介绍一下XGBoost
XGBoost与GBDT的联系和区别有哪些?
为什么XGBoost泰勒二阶展开后效果就比较好呢?
XGBoost对缺失值是怎么处理的?
XGBoost为什么快
XGBoost防止过拟合的方法
XGBoost为什么若模型决策树的叶子节点值越大,越容易过拟合呢?
XGBoost为什么可以并行训练?
XGBoost中叶子结点的权重如何计算出来
XGBoost中的一棵树的停止生长条件
Xboost中的min_child_weight是什么意思
Xgboost中的gamma是什么意思
Xgboost中的参数
RF和GBDT的区别
xgboost本质上是树模型,能进行线性回归拟合么
Xgboos是如何调参的
为什么xgboost/gbdt在调参时为什么树的深度很少就能达到很高的精度?
为什么常规的gbdt和xgboost不适用于类别特别多的特征?
怎么处理类别特征在树模型下?
集成学习方法
bagging和boosting区别
为什么bagging减少方差
什么场景下采用bagging集成方法
bagging和dropout区别
为什么说bagging是减少variance,而boosting是减少bias?
adaboost为什么不容易过拟合?
组合弱学习器的算法?
DL
基础理论
说一下局部最优与全局最优的区别?
深度学习里,如何判断模型陷入局部最优?
Transfomer
Transformer为何使用多头注意力机制?
Transformer 相比于 RNN/LSTM,有什么优势?为什么
Transformer为什么Q和K使用不同的权重矩阵生成,为何不能使用同一个值进行自身的点乘?
Transformer计算attention的时候为何选择点乘而不是加法?两者计算复杂度和效果上有什么区别?
为什么在进行softmax之前需要对attention进行scaled
说一下在计算attention score的时候如何对padding做mask操作?
为什么在进行多头注意力的时候需要对每个head进行降维?
大概讲一下Transformer的Encoder模块?
简单介绍一下Transformer的位置编码?有什么意义和优缺点?
你还了解哪些关于位置编码的技术,各自的优缺点是什么?
简单讲一下Transformer中的残差结构以及意义。
为什么transformer块使用LayerNorm而不是BatchNorm?LayerNorm 在Transformer的位置是哪里?
简答讲一下BatchNorm技术,以及它的优缺点。
简单描述一下Transformer中的前馈神经网络?使用了什么激活函数?相关优缺点?
Decoder阶段的多头自注意力和encoder的多头自注意力有什么区别?
Transformer的并行化提现在哪个地方?
Decoder端可以做并行化吗?
简单描述一下wordpiece model 和 byte pair encoding,有实际应用过吗?
Transformer训练的时候学习率是如何设定的?Dropout是如何设定的,位置在哪里?Dropout 在测试的需要有什么需要注意的吗?
bert的mask为何不学习transformer在attention处进行屏蔽score的技巧?

你可能感兴趣的:(算法题,机器学习,深度学习,python,机器学习,深度学习)