机器学习最基础概念整理(定义/通俗解释)

我的知乎号进击的steve - 知乎

知乎原文出处机器学习最基础概念整理(定义/通俗解释) - 知乎

1.分类模型和回归模型区别

我们将机器学习模型定义为一个函数F,它节手一定的输入并生成一个输出。通常我们会根据输出值的类型将机器学习模型进一步划分为 分类 classification 和 回归 regression

如果机器学习模型的输出是 离散值 ,例如布尔值True/False, 那么我们将其称为 分类模型。如果输出是 连续值 那么我们将其称为回归模型

分类:adaboost, SVM

回归:

2.监督学习supervised learning和无监督学习unsupervised learning区别?

监督学习是有label的 主要是分类和回归两种方法,非监督学习无label 主要是降纬和聚类

监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做一个好的预测。

无监督学习为直接对数据精选建模。没有给定事先标记过的训练范例,所用的数据没有属性或标签这一概念。事先不知道输入数据对应的输出结果是什么。

如聚类算法,针对数据集,自动找出数据中的结构,从而把数据分成不同的簇。例如:谷歌新闻利用聚类算法把不同的主题放在一起。

无监督学习优点:由于没有标准的分类方法,有可能从数据中挖出启发与亮点。

k-means属于聚类算法

2.1聚类与分类的区别?

分类:类别是已知的,通过对已知分类的数据进行训练和学习,找到这些不同类的特征,再对未分类的数据进行分类。属于监督学习。

聚类:事先不知道数据会分为几类,通过聚类分析将数据聚合成几个群体。聚类不需要对数据进行训练和学习。属于无监督学习。

*3.逻辑回归解决的是分类问题还是拟合问题?

是分类问题

4.什么是欠拟合和过拟合?分别如何解决?

欠拟合underfitting通常是针对训练集,例如我们的预测pattern过于平滑(e.g直线来拟合多个输入点),也就是模型过于简单,这个通常可以通过引入多项式,或者神经网络等复杂模型来解决。

过拟合overfitting则通常是说训练习得的model对于测试集性能很差,而对训练集性能很好,也就是对训练集是overfitting,有很差的generalization(泛化能力),测试集的数据是我们的模型不曾见过的(参数无法基于此来训练)

过拟合解决方法:1.正规化regularization。2.增加训练数据集。[1]

5.什么是正则化Normalization?正则化有哪些方式?

正则化(英语:regularization)是指为解决适定性问题或过拟合而加入额外信息的过程。

正则化方式有L1正则化,L2正则化

L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。[2]

6.什么是L1正则化,什么是L2正则化?L1正则化和L2正则化有什么区别?

L1正则化是指权值向量w中各个元素的绝对值之和,通常表示为 ‖w‖1
L2正则化是指权值向量w中各个元素的平方和然后再求平方根(可以看到Ridge回归的L2正则化项有平方符号),通常表示为 ‖w‖2。 [3]

l1可以得到稀疏解 l2无法得到(其中l2比较常用,容易求解;l1只在需要得到稀疏解的时候用)

7. 什么是PCA?

PCA, principal components analysis, 主要成分分析, 就是在尽可能保留样本数据区分度的前提下给样本数据降维的一种方式,比如样本分布在二维,画一条线,取各个样本到直线距离,就能得到一个一维数据。

8.Adaboost算法

Adaptive Boosting自适应增强的缩写,它的自适应在于:前一个基本分类器分错的样本会得到加强,加权后的全体样本再次被用来训练下一个基本分类器。

优点:纠错能力强,数据平衡的情况下提高精度

缺点:训练耗时,对数据平衡要求高

9.GBDT模型

DT-Decision Tree决策树,GB是Gradient Boosting,是一种学习策略,GBDT的含义就是用Gradient Boosting的策略训练出来的DT模型。

GBDT模型的结果是一组回归分类树组合(CART Tree Ensemble):学习的是上一棵树预测结果的残差,这种思想就像准备考试前的复习,先做一遍习题册,

然后把做错的题目挑出来,在做一次,然后把做错的题目挑出来在做一次,经过反复多轮训练,取得最好的成绩。

GBDT + LR

单独的使用GBDT模型,容易出现过拟合,在实际应用中往往使用 GBDT+LR的方式做模型训练,

10.adaboosting和GBDT区别?

损失函数不同:AdaBoost 是通过提升错分数据点的权重来定位模型的不足,而Gradient Boosting是通过算梯度来定位模型的不足。

11.k-means算法

这是一个无监督学习聚类算法

俗称找老大法,

1.首先输入 k 的值,即我们指定希望通过聚类得到 k 个分组;

2.从数据集中随机选取 k 个数据点作为初始大佬(质心);

3.对集合中每一个小弟,计算与每一个大佬的距离,离哪个大佬距离近,就跟定哪个大佬。

4.这时每一个大佬手下都聚集了一票小弟,这时候召开选举大会,每一群选出新的大佬(即通过算法选出新的质心)。

5.如果新大佬和老大佬之间的距离小于某一个设置的阈值(表示重新计算的质心的位置变化不大,趋于稳定,或者说收敛),可以认为我们进行的聚类已经达到期望的结果,算法终止。

6.如果新大佬和老大佬距离变化很大,需要迭代3~5步骤。

12.什么是SVM?

支持向量机Support Vector Machine

线性可分SVM -- 硬间隔

线性SVM -- 软间隔

非线性SVM -- 点从二维平面分布变为三维分布,超平面从一个线变为一个面

SVM优点:求得的解一定是全局最优而不是局部最优。

缺点:只适用于二分类问题

参考

  1. ^机器学习之过拟合(overfitting) 机器学习之过拟合(overfitting) - 知乎
  2. ^机器学习中正则化项L1和L2的直观理解 机器学习中正则化项L1和L2的直观理解 | 码农家园
  3. ^机器学习中正则化项L1和L2的直观理解 机器学习中正则化项L1和L2的直观理解 | 码农家园

你可能感兴趣的:(机器学习,聚类,人工智能)