什么是机器学习

本文一共3015字，专业人士建议阅读5-10分钟，非专业认识建议阅读10-20分钟

0.序言:

AlphaGo退役了，它赢了柯洁，也战胜了围棋五虎上将，标志着人工智能算法达到了新的高度，人工智能、深度学习、机器学习等话题也上了大家的餐桌，成了茶余饭后的谈资。本文将紧接上一讲《比你更了解你，浅谈用户画像》，我们来聊聊机器学习这个话题，本讲以入门介绍为主，技术介绍在后面的几讲展开。

1.什么是机器学习:

1.1学习的定义

近代学习是心理学的一个术语。它有广义和狭义之分。广义的学习是指人和动物在生活过程中获得个体经验的过程，是动物和人类生活中的普遍现象。如动物园里的象学会吹口琴、海狮和鲸鱼学会顶球、熊学会合掌拜谢等。狭义的学习指的是学生在学校里的学习。

1.2维基百科对于机器学习的定义

机器学习有下面几种定义：

机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。

机器学习是对能通过经验自动改进的计算机算法的研究。

机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。

1.3机器学习的三要素

数据、算法、模型

机器学习研究的是从数据中通过选取合适的算法，自动的归纳逻辑或规则，并根据这个归纳的结果(模型)与新数据来进行预测。

1.4机器学习与人类学习过程

1.5举个栗子

其实很大程度上来说机器学习与人的学习有很多共通之处，那我们先举个例子来看看人是怎么学习的，来类比机器学习。

假设有一对情侣，你是主人公(女友)，2个月前，朋友给你介绍了一个男友，他是工作狂。为了互相了解，你们每周末都会一起约会吃饭；已经约会有8周了，每周吃饭男友都会比约定时间晚到10分钟-30分钟，所以你每次约会也会比约定时间晚10-30分钟，并且你总结了一个规律(如果约会前打电话他说在公司，那么基本都是晚到30分钟左右，如果他说在家里，那么基本会晚到10分钟)，不过男友后来迟到的时间从10、30分钟变成了15、45分钟，你也自己调整了约定时间后到达的时间。

类比: 机器学习方法是计算机利用已有的数据(8次约会的经验)，得出了某种模型(迟到的规律)，并利用此模型预测未来(是否迟到)的一种方法。

1.6总结

人的学习有两个基本方法，一个是演绎法，一个是归纳法，这两种方法分别对应人工智能中的两种系统：专家系统和机器学习系统。所谓演绎法，是从已知的规则和事实出发，推导新的规则、新的事实，这对应于专家系统。专家系统也是早期的人工智能系统，它也称为规则系统，找一组某个领域的专家，如医学领域的专家，他们会将自己的知识或经验总结成某一条条规则、事实，例如某个人体温超过37度、流鼻涕、流眼泪，那么他就是感冒，这是一条规则。当这些专家将自己的知识、经验输入到系统中，这个系统便开始运行，每遇到一些新情况，会将之变为一条条事实。当将事实输入到专家系统时，专家会根据规则或事实进行推导、梳理，并得到最终结论，这便是专家系统。而归纳法是从现有样本数据中不断地观察、归纳、总结出规律和事实，对应机器学习系统或统计学习系统，侧重于统计学习，从大量的样本中统计、挖掘、发现潜在的规律和事实。

1.7现在常说的机器学习、深度学习、人工智能的关系

人工智能的范围可以说很大、很泛，从表面上可以理解为机器的智能化，让机器像人一样能解决思考解决问题。其实人工智能核心技术包括很多的方面：推理、知识、规划、学习、交流、感知、移动和操作物体的能力等。可以说机器学习和深度学习都是人工智能这个大主题下的一部分吧，深度学习又可以归为机器学习的一部分。简而言之，机器学习和深度学习是人工智能的两个关键的技能，看人工智能的发展历史，人工智能三大研究内容：计算机模仿人类的思考，对环境的感知和动作的实现是人工智能的三大研究内容。

即:人工智能>机器学习>深度学习

2.机器学习的适用场景

适用: 明天下不下雨，所有这些可以基于采样数据来识别和解决的问题，都可以通过机器学习来处理

无法适用: 哪个彩票号码能中五百万，这些无规律的随机事件

2.机器学习过程中的几个注意点

2.1:从感知到认知

感知的一个重要体现就是数据的获取与收集(可类比人对信息的获取，如眼睛)，认知强调理解

2.2:从学习到决策

学习: 对已有数据应用相关算法进行规则/模型的计算归纳；决策：遇到新的问题时，使用学到的知识进行学习

2.3:算法和数据哪个更重要

数据秒杀一切算法，但真正推动社会的进步的是算法，而不是数据。数据就好像是工业革命时期的煤炭，非常重要，蒸汽机就像是算法，最后大家记住的是瓦特发明了蒸汽机，而不是英国的煤矿。

3.机器学习常见的概念:

2.1监督学习:

监督学习的数据比较特殊，举个栗子，比如你在中学学习英语，在老师的帮助下练习英语发音，数据是你的发音和这个发音的对错/准确程度(对错/准确程度是老师告诉你的)，然后算法就是你去尝试去模拟数据(发音)的规律，不断根据英语单词的拼写规律来学习发音，最终你学习到了基于拼写及句子的上下文调整发音。

2.2无监督学习:

无监督学习的数据中没有人告诉你对错信息，举个栗子，今天老师给你了一个碗，里面有黑米有红米，让你对这个碗里的米分个类，你可能根据颜色分类，也可能根据大小、重要分类，都没有问题，因为老师没说按什么分，对不对这个问题。

2.3降维:

降维是从更基本的维度来看问题，举个栗子，这双鞋，对其降维可以是nike这个运动品牌，也可以是运动鞋这个类目

2.4泛化:

泛华就是你学到的规则/模型的普适程度。

举个栗子吧，今天老师让你看了20个西瓜，并告诉你熟不熟，然后给你一个西瓜，问你只看外观，这个西瓜熟不熟，你可能根据以下来判断:

可能你是这么做的：看表皮，你发现20个瓜里面，瓜皮表面光滑、花纹清晰、纹路明显、底面发黄的瓜都是熟的，但是不满足任何一个条件的都是不熟的。

所以你学到的模型如下:如果瓜皮表面光滑、花纹清晰、纹路明显、底面发黄的，就说明是熟瓜；其它的是不熟的瓜。

但是其实有时候，纹路不明显，但其他条件满足的时候也会有一部分是熟的瓜。所以你学到的模型具有一定泛化性能，但不具有很高的泛化性能。

4.机器学习最难的是什么:

如果你思考一遍上述流程，你可能发现一切都很容易，从数据清洗，特征提取，到模型选择，事实上这你就错了。因为机器学习最难的一部，这里根本就没提到，那就是把现实生产生活中的问题，提炼成一个机器学习问题。这需要的是你对问题本身的深刻洞察。有一天也许整个数据清洗到模型选择和交叉验证都自动化了。但始终有一个东西不能完全被机器搞定，那就是你如何从一个全新的领域，去提取机器学习可以有助解决的最重要的问题。再有，无论机器的预测多准确，它的结果如果不是在解答人的需求，也是一个没用的或至少不令人喜欢的东西。比如我发明一个算法能够特别准的预测老人的寿命，或者根据女生现在的长相推测她80岁的长相，即使算法十分牛掰，这样的产品估计也不是客户喜闻乐见的。

6.机器学习的应用举例

无疑，在2010年以前，机器学习的应用在某些特定领域发挥了巨大的作用，如车牌识别，网络攻击防范，手写字符识别等等。但是，从2010年以后，随着大数据概念的兴起，机器学习大量的应用都与大数据高度耦合，几乎可以认为大数据是机器学习应用的最佳场景。

譬如，但凡你能找到的介绍大数据魔力的文章，都会说大数据如何准确准确预测到了某些事。例如经典的Google利用大数据预测了H1N1在美国某小镇的爆发。

图 Google成功预测H1N1

百度预测2014年世界杯，从淘汰赛到决赛全部预测正确。

以上论述的只是从定义出发，配合栗子进行了相关概念的解释，详细的算法我们期待后面的几讲。

还有关于推荐系统和用户画像的介绍可以移步以下2个专栏: 1.什么是推荐系统(个性化内容分发)？ - 知乎专栏2.比你更了解你，浅谈用户画像 - 知乎专栏

其中机器学习算法在推荐系统方面的应用，可以移步我的知乎live -《推荐算法那点事》

live地址:知乎 Live - 全新的实时问答

什么是机器学习

你可能感兴趣的:(什么是机器学习)