写在前面
机器学习是一门涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科的多领域交叉学科,在当下各个领域运用十分广泛。不仅是业内人士,许多业外人士为了丰富自己的知识涉猎领域,提升自身竞争力,也或多或少的开始尝试接触机器学习。
需要进行大量手工调整才能解决的问题,机器学习算法通常可以简化代码、提高性能;
问题复杂,传统方法难以解决,最好的机器学习方法可以找到解决方案;
复杂世界有波动,机器学习算法可以适应新数据;洞察问题和大量数据……
那么,对于计算机小白来说,如何开始入门机器学习,走进机器学习的世界呢?本期岛主就来带大家梳理一下。
一、机器学习是什么
机器学习是一种从数据当中发现复杂规律,并且利用规律对未来时刻、未知状况进行预测和判定的方法。是当下被认为最有可能实现人工智能的方法,随着大数据+机器学习的组合,使得机器学习算法从数据中发现的规律越来越普适。
人工智能是一种无招胜有招的境界,而机器学习则是达成这种境界的一个门派武功。
在早期的工程领域,机器学习也经常称为模式识别(Pattern Recognition,PR),但模式识别更偏向于具体的应用任务,比如光学字符识别、语音识别、人脸识别等。
这些任务的特点是,对于我们人类而言,这些任务很容易完成,但我们不知道自己是如何做到的,因此也很难人工设计一个计算机程序来完成这些任务。一个可行的方法是设计一个算法可以让计算机自己从有标注的样本上学习其中的规律,并用来完成各种识别任务。随着机器学习技术的应用越来越广,现在机器学习的概念逐渐替代模式识别,成为这一类问题及其解决方法的统称。
二、机器学习技术的分类
人工智能主要包括感知智能(如图像识别、语言识别和手势识别等)和认知智能(主要是语言理解知识和推理),机器学习相关技术属于人工智能的一个分支。其理论主要分为如下三个方面:
• 机器学习(传统):包括线性回归、逻辑回归、决策树、SVM、贝叶斯模型、神经网络等。
• 深度学习:基于对数据进行表征学习的算法。
• 强化学习(Reinforcement Learning):强调如何基于环境而行动,以取得最大化的预期利益。和标准的监督式学习之间的区别在于,它并不需要出现正确的输入/输出对,也不需要精确校正次优化的行为。强化学习更加专注于在线规划,需要在探索(在未知的领域)和遵从(现有知识)之间找到平衡。
在现实生活中,机器学习技术主要体现在以下几个部分:
• 计算机视觉(CV):让机器看懂世界
• 自然语言处理(NLP):让机器读懂文字
• 语音识别(Speech Recognition):让机器听懂
• 数据挖掘(Data Mining):发现数据间的关系
……
三、走进机器学习的世界
对于我们计算机er,要想走进机器学习的世界,需要通过以下三方面进行学习与执行:
01、编程基础——Python
Python是著名的“龟叔”在1989年圣诞节期间,为了打发无聊的圣诞节而编写的一个编程语言。编程语言各有千秋,而Python是用来编写应用程序的高级编程语言
对于想要在机器学习方面入门的同学,学习Python,推荐廖雪峰老师的B站课程,此教程对0基础学Python的朋友十分友好。即使从未写过接触过代码的,学完本教程后,也可达到Python开发上千行代码的水平,如果你想以后做数据分析、AI、还是Web开发、爬虫、大数据等,这些基础知识都是必须掌握的,可以顺利进入Python的大门。同时建议配合着廖雪峰老师的博客来学习,事半功倍,官网:https://www.liaoxuefeng.com/wiki/1016959663602400
02、数学基础——线性代数、概率论、微积分等
学习机器学习需要一定的扎实的数学功底,但不要试图补足数学知识再开始学习机器学习。一般来说,大部分机器学习教程都要求:
1、 微积分:偏微分,链式法则,矩阵求导等
2、 线性代数:矩阵/张量乘法、求逆,奇异值分解/特征值分解,行列式,范数等
3、 概率论:概率分布,独立性与贝叶斯,最大似然和最大后验估计等
4、 最优化:线性优化,非线性优化、梯度下降、牛顿法等
5、 信息论
6、 数值分析
如果说想要把这些知识都补全再开始机器学习,可能就会本末倒置,学的不是机器学习,而是数学课了,因为想要把这些知识全掌握,往往需要很长时间,非常容易半途而废,万事开头难,很多人觉得机器学习难,就是难在这里。建议在学习的过程中哪里不会来翻书学习,这样学习更有效率。
03、机器学习基础
(1)统计学习
统计学习方法是通过学习已有的大量数据(输入空间),用模型来总结出规律(特征空间),并对未知类似事件做出预测(输出空间)的一个过程。主要的问题包括分类问题和回归问题,核心的步骤其实就是:模型+策略+算法=方法。
(2)机器学习算法的类型
机器学习有多种类型,可以根据如下规则进行分类:
是否在人类监督下进行训练(监督,半监督和强化学习)
是否可以动态渐进学习(在线学习 vs批量学习)
是否只是通过简单地比较新的数据点和已知的数据点,或者在训练数据中进行模式识别,以建立一个预测模型,就像科学家所做的那样(基于实例学习 vs基于模型学习)
其中入门阶段最需要理解的是分为监督学习、无监督学习、强化学习的分类方式。
监督学习可以理解为:使用标记的训练数据来学习从输入变量(X)到输出变量(Y)的映射函数,监督学习问题有两种类型:分类与回归;无监督学习问题只有输入变量(X),但没有相应的输出变量,它使用无标签的训练数据来模拟数据的基本结构;强化学习算法通常用于机器人的训练,允许代理根据当前状态决定最佳的下一个动作,通常通过反复试验来学习最佳行为。
04、推荐课程与书籍
① 李宏毅 -——机器学习公开课[1]
李宏毅现任台湾大学电气工程助理教授,研究重点是机器学习,特别是深度学习领域。他的机器学习课程视频,被很多学生在机器学习领域当做入门课程,课程中干货满满,被许多人称赞为最好的中文机器学习课程视频,讲课风格偏向于幽默风趣,经常会使用一些卡通形象来增加课程的趣味性。一些晦涩难懂的理论知识,在他形象生动的讲解下往往会变的容易掌握,适合初学者,有配套作业题,同时使用Python作为编程语言,对大多数初学者比较友好。
② 吴恩达——机器学习 |Coursera[2]
吴恩达老师是斯坦福大学教授,谷歌大脑、Coursera的创始人之一,百度首席科学家,研究重点是深度学习。作为斯坦福大学教授,讲课风格偏向于严谨,可以把知识点往细节出深挖,课程里面用到的数学知识讲解的十分耐心,这对于数学不好的同学十分友好。
这门课程的重点是对概念的讲解,理解算法,并理解选用特定算法的原因和意义,课程相对独立。每个算法所需要的所有数学,在这门课中也得到了完整的解释。
③ 斯坦福大学——CS231n和CS224d[3]
这两个都是非常深度的计算机视觉和自然语言处理领域很棒的课程,覆盖了该领域最先进的研究。同时阅读Ian Goodfellow 、Yoshua Bengio 和Aaron Courville三位大牛合著的Deep Learning这本书,能够大大巩固自己对机器学习和深度学习的理解。
④《机器学习》——周志华
周志华老师的《机器学习》这本书,又称之为西瓜书,基本涵盖机器学习的所有分支,如监督学习,无监督学习,半监督学习,强化学习,特征选择等。对于算法各个击破,建议像决策树、随机森林、朴素贝叶斯和集成算法好好看看。
在后记中,周老师讲了他写书的初衷、成书的过程等,文字很具有吸引力,建议大家书到手了也看一下后记,可以看到周老师在20年前初求学于这一方向的故事。
⑤《统计学习方法》——李航
这本书可以说是进阶利器,要想把机器学习里面的算法搞明白,这本书一定要好好读读,建议这本书里面的SVM、KNN算法好好看看,这本书讲的非常明白透彻,像SVM很多书省略很多步骤,讲的不够透彻。
⑥《利用python进行数据分析》
这本书非常重要,上面讲的是算法原理,要是真正将算法应用于实践,有相当大的一部分工作量是要对数据进行处理和分析的,机器学习中的数据多数都可以转化为DataFrame数据来进行建模,数据分析学会了,实际应用也就不远了,不过,关于数据分析,实践非常重要,只看书是不够的,这部分建议找一门课或者买一门课跟着学效果会好。
写在最后
想必各位计算机er看到这儿是否已经明白,机器学习(ML)学习起来需要多方面的知识,学起来也比较困难,但只要掌握正确的学习路径,并付出足够多的时间,一定会有学有所成的那一天~希望大家一步一个脚印,早日成文精通机器学习的科研大佬!
参考资料:
[1] 哔哩哔哩:李宏毅 -——机器学习公开课
https://www.bilibili.com/video/av46561029/
[2] 哔哩哔哩:吴恩达——机器学习 |Coursera
https://www.bilibili.com/video/BV1aW411t7Nq?spm_id_from=333.337.search-card.all.click
[3] 哔哩哔哩斯坦福大学——CS231n
https://www.bilibili.com/video/BV1K7411W7So?spm_id_from=333.337.search-card.all.click
哔哩哔哩:斯坦福大学——CS224d
https://www.bilibili.com/video/BV1wA411e79u?spm_id_from=333.337.search-card.all.click