当我们谈论机器学习的时候我们在谈论什么

当我们谈论机器学习的时候我们在谈论什么

  • 机器学习是什么
  • 机器学习为什么重要
  • 应用领域
  • 常用方法
  • 学习资料

by Elims这是一篇非技术性科普文

机器学习可能是很多人身边“最熟悉的陌生词”。经常听人提起,但具体内涵却不甚清晰。当我们谈论机器学习的时候我们究竟在谈论什么?本文从

  1. 机器学习是什么
  2. 机器学习为什么重要
  3. 应用领域
  4. 常用方法
  5. 学习资料

这五个方面分享笔者自己的思考和总结,欢迎各位指正讨论。

机器学习是什么

机器学习作为人工智能领域的一个分支,本质上是一类基于数据自动建立分析模型(analytical model)的方法。其核心思想在于,系统通过一些数学程式从数据中学习有用的信息,进而完成某些预设的任务,例如模式识别、数值预测、决策,等等。而这个过程中,人类尽可能少地参与,机器是学习和完成任务的主体。

机器学习的诞生源于人工智能科学家的好奇:计算机是否可以自动从数据里学到东西。”学到东西”的判断标准是,当输入新的数据时,计算机是否仍能有效并稳定地完成预期的任务。很长一段时间里,机器学习更多是数学家的玩具。算法长久存在,可惜实际应用场景有限。而近几十年来由于数据量(得益于各式传感器,各种网络的普及)和计算能力(得益于底层芯片的发展)的爆发,机器学习进入了蓬勃发展的时期。

机器学习方法对数据的数量和质量具有天然的依赖。数据量越大,质量越高,通常会获得更好的效果。机器学习不是万能的,没有好数据是万万不能的。圈内有一句俗话“Junk in, junk out”,意思是,如果喂给机器学习系统质量很差的数据,那也只能得到性能很差的结果。很多不熟悉机器学习的人过分夸大机器学习的作用,或抱有过高的期待,大多是没有意识到,若要充分发挥一个机器学习算法的能力,必须先收集足够多的数据并做精细的挑选和处理,否则便是在沙滩上筑楼。从理论的角度看,机器学习本质是数学,与概率论、信息学、逻辑学,等等学科和而不同;从工程角度看,机器学习仅仅是一个随数据起舞的工具,是从收集数据到分析测试这一系统工程中的一个部分。

机器学习为什么重要

小编私以为,机器学习最重要的意义在于,它是大大提高生产力的工具。在没有大数据和机器学习的时代,生产生活是以专家知识(expert knowledge)为指导的。机器学习籍由数据的力量,以机器代替了专家的角色。例如,进口的生产线坏了,只能请原产国工程师来维修,而具备维修能力的资深的工程师往往需要几十年的经验积累。但我们现在利用机器学习方法,通过收集机器正常和非正常运转的大量数据,有希望仅依靠计算机程序就能判断故障的原因并给出维修方法。而更有意义的是,这个计算机程序可被无限复制,被各地厂商无限使用。又例如,开车也是一种专家知识,而这种专家知识也逐渐被自动驾驶系统所取代。通过大量人类驾驶数据训练的机器学习系统已具备了在诸如高速路、城镇等特定区域的自动驾驶能力。未来,我们的双手可以从方向盘上解放,原本浪费在通勤上的时间会被返还给我们做更有意义的事情。此外,城际和洲际物流的效率也会被大大提高,因为自动驾驶系统可以24小时无休奔波在高速或铁路上。并且,城市交通的堵塞情况有希望缓解,因为机器学习系统可以合理安排每辆车的行驶路径和车速。再例如,预报天气亦是一种专家知识,但有了大量数据和机器学习的帮助,现在能够从历史数据里更准确预测未来的天气。

类似的以机器代替专家的例子有很多,他们或多或少降低了生产成本,提高了生产效益。从水车灌溉,风车磨面,到蒸汽时代、电气时代,人类社会进步的核心动力在于生产力的不断提高。如今,机器学习技术成为信息时代提高生产力的重要工具。它会被不断地范式化,以至于像空气一样存在于我们身边。

应用领域

除了前文提及的工业生产、交通、气象外,机器学习已被应用在社会方方面面。在金融领域主要有两个方向,一是识别最有价值的投资机会和时机,二是防范欺诈或者高风险的交易;政府也常使用机器学习来识别、追踪身份,或者预防身份盗用;在医疗领域,机器学习被用来辅助医生做诊断(这也是一个典型的代替expert knowledge的例子);在零售领域,商家通过机器学习系统学习用户的消费习惯,从而设计更有针对性的推荐、营销以及供应链管理策略……等等等等。

常用方法

机器学习方法主要分三大类:监督学习,非监督学习,以及半监督学习。监督学习指算法使用的数据是被标注的,每个输入对应了一个正确的输出。算法通过比较自己的输出值和正确的输出值之间的误差来进行自我迭代,从而使输出达到一定精度。非监督学习所使用的数据是没有标注的,每一个输入没有一个预先设定的所谓正确的输出。这种算法一般通过挖掘数据自身的结构特征提取有用的信息。而半监督学习,顾名思义,则是利用部分标注的数据来训练机器学习算法。通常应对难以取得大量标注数据的情况。其中有一个分支今年大受学界追捧,叫做增强学习(reinforcement learning),其在机器人领域有很好的前景。

针对具体问题,选择的机器学习算法往往是不同的。这里有一个流程图可以帮助大家理解各种具体算法之间的差别,从而根据自己的需要做选择:Which machine learning algorithm should I use?

学习资料

最后,给大家分享一点机器学习领域的资料供参考。

  • Coursera Machine Learning by Andrew Ng
  • Pattern Recognition and Machine Learning
  • Machine Learning

个人以为,通过网络课程(以上所列第一条)或者博客文章入手,快速初步了解技术细节,然后做一些小项目,辅以系统性阅读经典教材(以上所列第二、三条)是比较高效的学习方法。

你可能感兴趣的:(随笔)