《机器学习》学习


学习过程
      机器学习知识的个人学习心得是结合多种知识来源进行学习,包括:书上的理论、台湾林轩田老师的《机器学习基石》和《机器学习技法》讲解视频、sklearn机器学习库以及各种机器学习相关题目的实际训练等。
      书上的理论一般都比较枯燥,虽然不少人推荐各种机器学习相关经典书籍,自己看起来感觉还是挺枯燥的。在书本学习比较不容易理解时,结合林老师的视频课程个人感觉就容易理解的多。sklearn机器学习库在python环境下使用非常方便,有比较完整的文档支持。通过sklearn库的使用及使用说明文档,一方面可以更好的理解机器学习相关模型的学习参数及超参数设置,另一方面也可以更好的理解机器学习上面的相关技巧工具。
概述
      机器学习的任务主要包括:分类、回归和聚类。

  • 分类:输出目标是离散的。
  • 回归:输出目标是连续的区间。
  • 聚类:按一定方法把一堆杂合的数据进行分划,使同一分划的数据能够与其他分划区分开来。

      解决这些任务的学习方法分类主要包括:有监督学习、无监督学习、半监督学习和强化学习。
- 有监督学习:简单的说,就是用于训练学习的数据是有标记的。
- 无监督学习:用于训练学习的数据是没有标记的。
- 半监督学习:用于训练学习的数据是部分有标记的。
- 强化学习:

      机器学习是从已经掌握的样本数据中发现某种数学模型,通过这个数学模型对未知测试数据进行预测判定。当得出这个模型时,也就达到了机器学习的目的。印象深刻是林轩田在视频中经常发音的“hypothesis”,标识模型中的一个假设。学习的过程就是求解最优hypothesis的过程。
      在长期的研究过程中,形成的一些比较重要的模型有:线性模型、支持向量机模型、决策树模型、概率图模型、神经网络模型、集成模型等。优化过程的目标函数称为损失函数。从模型中不断优化得出最优hypothesis的策略有:梯度下降法、牛顿法、EM方法等。
      机器学习模型解决的问题一般为数学问题。为能够用这些模型匹配原始的问题,需要经过一系列预处理将原始数据转化为类似关系表的形式,最终将关系表转化为数值矩阵的形式——可以如此理解——关系表的每一行表示一个测试数据,每一列表示一个属性。
VC理论
机器学习技巧
      在机器学习中有一定技巧性的方法有数据降维、正则化、标准化、交叉验证、核函数、解决类别不平衡方法等。

你可能感兴趣的:(机器学习)