数据挖掘01:常用机器学习算法体系

常用机器学习算法体系

  • 有监督学习
  • 无监督学习
  • 半监督学习
  • 强化学习

有监督学习

指对数据的若干特征与若干标签之间的关联性进行建模的过程。包含回归和分类

无监督学习

指对不带任何标签的数据特征进行建模,通常包含聚类、降维。

半监督学习

介于有监督和无监督之间,通常可以在数据不完整时使用。

强化学习

将学习看作是试探评价过程,以试错的方式进行学习,与环境进行交互已获得奖惩指导行为,以其作为评价。

过拟合与欠拟合

定义

拟合度可简单理解为模型对于数据集背后客观规律的掌握程度。
过拟合 模型把训练样本学得太好了,导致模型泛化能力差,在测试集上效果不好。
** 欠拟合 ** 模型学些能力低下,导致对训练样本的一般性质尚未学好。
数据挖掘01:常用机器学习算法体系_第1张图片

如何解决过拟合或者欠拟合的问题?

数据挖掘01:常用机器学习算法体系_第2张图片

训练集上误差大时,a. 增大模型复杂度 b. 进行参数优化
训练集上误差小时,a.测试集上误差也小,则模型刚好; b.测试集上误差大,则过拟合,增大训练集的数据量或者降低模型复杂度。

你可能感兴趣的:(数据挖掘,机器学习,算法,数据挖掘)