机器学习概论——阶段性总结1

        提到机器学习,你会想到哪些关键词?你可能会想到算法、模型、分类、回归、有监督、无监督、深度学习、神经网络、自然语言处理、图像识别、迁移学习、模糊学习......

        其实对待问题,不用一开始就深入到该问题的某一个part中去,站在外围,站在高处,才能对这个问题有一个宏观性的、基础性的把握。而且在后续深入研究过程中,要始终以宏观性、全局性思维来思考问题,把握住最本质的东西,才能起到提纲挈领的作用。

        其实最开始看书,我对概览性章节的内容不是很重视,反而重视的是后续章节的各种算法。但是现在回过头来重读这些书,概览性章节给我的启发、感触反而是最深的。时隔多年,终于体会到了这种高度总结性章节的美腻~!


那关于机器学习,我问了自己7个最基础、最简单的问题:

  • 什么是机器学习
  • 机器学习的前提是什么
  • 为什么要进行机器学习
  • 机器学习可以帮我们干什么
  • 机器学习的目标是什么
  • 机器学习的基本流程是什么
  • 机器学习的主要分类有哪些

下面给出我对上述问题的理解:

1、什么是机器学习?

        机器学习在我看来,主要就是干了一件事:找到刻画数据规律的模型

        比如说:

  • 对于有监督学习来说,从特征空间X--->目标空间Y,可能存在一个真实的从X--->Y的映射f,但f未知(所谓神谕)。机器学习要做的事情就是找到一个合适的模型,去刻画f,去无限逼近f。
  • 对于无监督学习来说,特征空间X本身可能存在某种真实的结构D,但D未知。那机器学习要做的事情就是找到一个合适的模型,去刻画结构D。

        归纳(induction)与演绎(deduction)是科学推理的两大基本手段。

  • “归纳”:从特殊到一般的泛化过程,即从具体的事实出发总结出一般性的规律;
  • “演绎”:从一般到特殊的特化过程,即从基础原理推演出具体情况。

显然,机器学习是从大量数据总结出一般性规律的过程,是一个归纳过程

2、机器学习的前提是什么?

        理论前提:同类数据具有一定的统计规律性,由于他们具有统计规律性,所以才可以基于概率统计方法进行处理;

        实践前提数据量足够(数据量足够,大数定律才成立,但目前基于小样本的学习也是一块热门内容)、计算能力强大。上述两个条件的成立,才使得我们置身于机器学习的第三次浪潮之中。

3、为什么要进行机器学习?

        关于这个问题,可以反过来思考,如果没有机器学习,那这种刻画规律的工作就需要人工来完成。

        比如说:

  • eg1.《机器学习实战》中提到的垃圾邮件分类例子,如果要人工维护垃圾邮件分类系统的话,就需要人工不断总结垃圾邮件特征,不断书写规则代码,不断运维。这样做运维成本会很高,且效果可能也不理想;
  • eg2. 信贷行业中,要判断一个人的信用等级,除了一系列规则模型外,还需要评分卡模型做最后把关;
  • eg3. 语音识别中,人们更是难以用简单的规则模式来总结规则,完成语音识别。

        因此,总体而言,如果没有机器学习,对应工作由人工完成的话,会有以下劣势:

机器学习概论——阶段性总结1_第1张图片

4、机器学习可以帮助我们干什么?

         完成3中人工完成的事情:

机器学习概论——阶段性总结1_第2张图片

 5、机器学习的目标是什么?

        目标一:考虑学习怎样的模型

        “没有免费的午餐”定理:对于一个学习算法A,若它在某些问题上比学习算法B好,那必然在另一些问题上,B比A效果好。

        因此机器学习的目标一就是:结合具体场景,考虑与该场景契合的模型,脱离具体问题谈算法,空泛地谈论什么算法更好,没有意义

        目标二:考虑如何学习模型

        有了理论层面的基础,还需要高效的计算方法。

6、机器学习的基本流程是什么?

        理解并牢记这个流程是非常重要的,后续基本各算法都是在这个框架内的。

        粗略划分,机器学习可以分为以下三个阶段:

机器学习概论——阶段性总结1_第3张图片

         更为细致的划分,机器学习可以分为以下六个阶段:

机器学习概论——阶段性总结1_第4张图片

       机器学习三要素:模型、策略、算法。理解并牢记上述流程对机器学习算法会起到提纲挈领的作用。

 7、机器学习的主要分类有哪些?

        各种分类方法只是看待问题的角度不同,彼此之间并不冲突。

机器学习概论——阶段性总结1_第5张图片


后续文章的更新均基于对以下书籍的学习总结:

  • 《机器学习》——周志华
  • 《统计学习方法》——李航
  • 《机器学习实战,基于Scikit-Learn和TensorFlow》
  • 《神经网络与深度学习》——邱锡鹏
  • 《阿里云天池大赛赛题解析》
  • 李宏毅的在线视频课程
  • Andrew Ng的在线视频课程

也在计划看一些知识图谱、迁移学习的内容,如获顿悟,也会分享~~哈哈~~

各种书需要结合起来看,每本书侧重的角度不一样,有些偏重理论层面,有些偏重实操层面~

就酱~共同学习~指正交流~

你可能感兴趣的:(机器学习专栏,机器学习,人工智能)