终极算法书摘

  1. 机器学习主要有5个学派, 我们会对每个学派分别介绍: 符号学派将学习看作逆向演
    绎, 并从哲学、 心理学、 逻辑学中寻求洞见; 联结学派对大脑进行逆向分析, 灵感来源于神
    经科学和物理学; 进化学派在计算机上模拟进化, 并利用遗传学和进化生物学知识; 贝叶斯
    学派认为学习是一种概率推理形式, 理论根基在于统计学; 类推学派通过对相似性判断的外
    推来进行学习, 并受心理学和数学最优化的影响。
  2. 机器学习的5个学派都有自己的主算法, 利用这种万能学习算法, 原则上, 你可以通过
    任何领域的数据来挖掘知识: 符号学派的主算法是逆向演绎, 联结学派的主算法是反向传
    播, 进化学派的主算法是遗传编程, 贝叶斯学派的主算法是贝叶斯推理, 类推学派的主算法
    是支持向量机。
  3. 信不信由你, 所有算法, 无论多复杂, 都能分解为这三种逻辑运算: 且, 或, 非。
  4. 第一, 我们掌握的数据越多, 我们能学的也越多。 没有数据? 什么也学不到。 大数据?
    很多东西可以学习。 这也是机器学习无处不在的原因, 因为有飞速增长的数据。 如果你在超
    市购买机器学习, 其包装上可能会写着“只需添加数据”。第二, 机器学习是一把剑, 利用这把剑可以杀死复杂性怪兽。 只要有足够的数据, 一段只有几百行代码的程序可以轻易生成拥有上百万行代码的程序, 而且它可以为解决不同问题不停产生不同的程序。 这可以显著降低程序员工作的复杂度。 当然, 就像对付九头蛇, 我们砍掉它的头, 会立即长出新头, 但长出的头会变小, 而且头的生长也需要时间, 因此我们仍有可能胜出。
    我们可以把机器学习当作逆运算, 正如开平方是平方的逆运算、 整合是分化的逆运算。
    正如我们会问“什么数的平方是16”, 或者“导数为x+1的函数是什么”, 我们也会问“什么算法
    会得出该结果”。 我们很快会看到, 怎样将这个观点运用到具体的学习算法中。
  5. 机器学习有许多不同的形式, 也会涉及许多不同的名字: 模式识别、 统计建模、 数据挖
    掘、 知识发现、 预测分析、 数据科学、 适应系统、 自组织系统等。
  6. 在信息处理这个生态系统中, 学习算法是顶级掠食者。 数据库、 网络爬虫、 索引器等相
    当于食草动物, 耐心地对无限领域中的数据进行蚕食。 统计算法、 线上分析处理等则相当于食肉动物。 食草动物有必要存在, 因为没有它们, 其他动物无法存活, 但顶级掠食者有更为刺激的生活。 数据爬虫就像一头牛, 网页相当于它的草原, 每个网页就是一根草。 当网络爬虫进行破坏行动时, 网站的副本就会保存在其硬盘当中。 索引器接着做一个页面的列表, 每个词都会出现在页面当中, 这很像一本书后的索引。 数据库就像大象, 又大又重, 永远不会被忽略。 在这些动物当中, 耐心的野兽飞快运转统计和分析算法, 压缩并进行选择, 将数据变为信息。 学习算法将这些信息吞下、 消化, 然后将其变成知识。
  7. 实际上, 对所有主要的学习算法——包括最近邻算法、 决策树学习算法以及贝叶斯网络(朴素贝叶斯的概括) ——来说, 如果你为学习算法提供足够、 适当的数
    据, 该算法可以实现任一功能(对学习任何东西来说, 都与数学相关) 。 需要注意的
    是, “足够数据”也有可能无限。 学习无限数据需要做出假设, 如我们会看到的那样, 而且不
    同的学习算法会有不同的假设
  8. 所有知识,无论是过去的、 现在的还是未来的,都有可能通过单个通用学习算法来从数
    据中获得。

你可能感兴趣的:(终极算法书摘)