想要解决如何自学机器学习、深度学习和人工智能这一问题,首先要了解三个概念以及它们之间的关系。
人工智能:人工智能英文缩写为AI,它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学研究领域的一个重要分支,又是众多学科的一个交叉学科,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括语音识别、图像识别、机器人、自然语言处理、智能搜索和专家系统等等。这种智能是从何而来的?这就要讲到下一层——机器学习。
机器学习:机器学习是人工智能领域的一个小分支。机器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习最基本的做法是使用算法来解析数据、从中学习,然后对真实世界中的事件做出决策和预测。
深度学习:深度学习就是一种实现机器学习的技术。深度学习是学习样本数据的内在规律和表示层次,它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习使得机器学习能够实现众多的应用,并拓展了人工智能的领域范围。但与机器学习不同,深度学习是利用深度的神经网络,将模型处理得更为复杂,从而使模型对数据的理解更加深入。
对它们的学习建议遵循这样的顺序:入门课程->框架研究->方向选择->实战训练。
按照这个顺序,接下来推荐一些我认为值得放在收藏夹的自学网站:
l 网课系列:基础+应用
l 笔记系列
l 工具系列
l 实战系列
网课系列
——基础篇
李宏毅的机器学习中文课程——台湾大学李宏毅的讲课风格风趣幽默,风格独树一帜,且用中文进行授课,不少人会选择它作为机器学习的入门课程。这门课程重点讲解了深度学习,可以作为进阶机器学习的开山斧。目前官网更新至2021春季课程。
吴恩达的机器学习课程——机器学习经典课程之一,课程广泛介绍机器学习、数据挖掘和模式识别等内容,内容覆盖全面,在Coursera上可以找到课程内容,且16w人打出了4.9/5.0的超高分。这门课的特点是它侧重于概念理解而不是数学,即使有数学推导与公式也并不复杂。
贪心科技的人工智能与机器学习实战课程——作为AI教育独角兽公司贪心的机器学习基础课程,适合用来夯实AI基础。课程讲解覆盖全面,包含所有核心机器学习算法,且每一项技术都配备了来自医疗、生物、社会科学等十几个不同领域的实战案例。课程的一大特色是实用性强,学完后即可应用到工作或科研项目中。在贪心科技官网可以报名该课程。
主讲老师
李文哲:人工智能和知识图谱领域专家。曾任金融科技独角兽公司的首席科学家、美国亚马逊的高级工程师,先后负责过聊天机器人、量化交易、自适应教育、金融知识图谱等项目,并在AAAI、KDD、AISTATS等顶会上发表过15篇以上论文,并荣获IAAI,IPDPS的最佳论文奖。
Jerry Yuan:人工智能、分布式系统、云计算专家。拥有14年人工智能、推荐系统、自然语言处理、数字图像和视频处理项目经验,主导多款核心推荐系统的研发,曾师从中国科学院王守觉院士从事人脸识别研究、共同发表论文。在美国博士期间,主要研究NASA支持的基于人工智能的空间天气预测项目。
主讲老师的共同点是都具有不同领域的丰富的项目经验,会在课程中讲解并带领学员完成各类项目案例,实现理论与实战的结合。
课程大纲
l 人工智能基础
l 线性回归
l 逻辑回归
l 模型的泛化
l 朴素贝叶斯
l 决策树
l 随机森林
l 提升树
l K-Means
l 主成分分析
l 神经网络
机器学习的基本思路是把现实生活中的问题抽象成数学模型,再利用数学方法对这个数学模型进行求解,从而解决现实生活中的问题。
依据这个思路,课程将算法按照学习方式分类进行学习,监督式学习讲解了决策树、朴素贝叶斯、K-Means等,无监督学习有主成分分析等算法,接着运用各章节学习的算法完成对配备的相应真实案例的建模与求解练习。
与前两个课程相比,贪心的机器学习基础课程实战性更强,在每章的理论部分讲解结束后,都会辅以相应的案例进行练习。如果对机器学习领域的研究方向选择还有迷茫,可以在该课程的项目案例实践中找到自己希望深入学习的方向。
就研究方向而言,当前深度学习已经在语音识别、图像处理等方面取得了阶段性的成果。从七八年前开始,也在自然语言处理领域出现深度学习的大批应用。关于深度学习的方向可以参考学者们的相关文献综述与专著,例如图灵奖大佬Yoshua Bengio的《Learning Deep Architectures
for AI》,提纲挈领地总结了深度学习架构中学习算法的动机和原理,为相关的研究提供了理论指导; 2012年的关于表示学习的综述文章《Representation Learning: A Review and New Perspectives》,在CSDN上搜索文章关键词也能找到综述翻译总结。
目前较为热门的领域是NLP、CV和ML,在贪心的机器学习基础课程中都可以找到相应的经典案例与前沿案例,以NLP和CV为例:
NLP项目案例:
情感分析项目:它的任务是给定一个文本,让模型自动判断这个文本所表达的情感是正面还是负面。通过完成这个项目,可以掌握中文分词、分布式表示、词向量、BERT的使用、句子向量等核心技术。还可以举一反三解决各种文本分类问题,如新闻主题分类、垃圾邮件分类、意图分类等。
聊天机器人中的意图识别:意图识别任务实际上就是识别出用户的意图是什么,该技术广泛应用在对话系统、机器人等场景中。在对话的场景中,基于文本的意图识别是第一步,也是最核心的一步,几乎任何的对话系统都包含意图识别模块,它是后续执行对话的基础。但实际上,意图识别也是经典文本分类任务。通过完成此项目,可以掌握SVM、词向量、BERT、文本处理等技术。
CV项目案例:
基于PCA的人脸识别:结合PCA和分类技术来做精简版的人脸识别程序,并分析通过PCA得出来的eigenface的形状是如何的,涉及的知识模块有PCA、特征脸(EigenFace)等。
基于神经网络的人脸识别:采用稍微复杂一点的人脸识别数据,并通过搭建多层神经网络来识别人脸。在搭建过程中,会涉及到神经元个数的原则、过拟合问题的考虑、图像处理等一系列细节。 涉及的知识模块有多层神经网络、PCA、图像处理等。
授课模式
贪心课程为线上授课模式,具体学习进度自我安排,自由度高。平台学习全程在线环境下操作,无需再下载任何软件。贪心科技有一套完整的上课系统,视频、文字、图片、编程、项目相结合,案例和项目都可以在云端平台上完成,快速上手,告别被动学习。
贪心课程的授课特色是互动性高,有专业的算法科学家作为助教在线提供答疑和项目帮助,提交的项目练习作业会及时给予批注与纠错,给出评语作为项目的整体学习建议,帮助学员快速进步。
网课系列
——应用篇
Udacity——Udacity的教育内容包含人工智能、自动驾驶、自然语言处理、计算机视觉、AI量化投资、区块链等,与 Google、Facebook、Amazon
等全球顶尖技术公司联合开发了一系列的专业认证项目,也与百度、腾讯、滴滴出行等中国前沿技术企业开发了一系列的课程项目。
项目示例:
AI for Healthcare(医疗AI):学习构建、评估和集成能够改变患者结果的预测模型。对2D和3D医学图像进行分类和分割,然后使用电子健康记录对患者结果进行建模以优化临床试验决策。最后构建算法来估计佩戴者在运动时的脉搏率。
Marketing Analytics(营销分析): 在课程中学习基础数据技能,深入了解Google Analytics和营销分析。学习使用Excel、Data Studio分析数据和构建模型,并使用Tableau完成信息丰富的数据可视化。
Self Driving Car Engineer(自动驾驶汽车工程师):将计算机视觉和深度学习应用于汽车问题,包括检测车道线、预测转向角等。接着学习传感器融合,使用它来过滤来自传感器阵列的数据以感知环境。有机会在Udacity的自动驾驶汽车上模拟运行代码。
笔记系列
机器学习基本概念笔记:包含学习经验与技巧,该网站讲得比较简练,可以作为模型与算法的查阅笔记资料。详见GitHub@CreateMoMo的笔记《Super Machine Learning Revision Notes》
李宏毅机器学习笔记:学习笔记的选择主要是看前期听了哪门课,李宏毅机器学习笔记可以配合之前推荐的李宏毅机器学习课程使用。详见GitHub@datawhalechina的笔记《leeML-notes》。
工具系列
PyTorch:一个开源的Python机器学习库
TensorFlow:一个端到端开源机器学习平台
Keras:由Python编写的开源人工神经网络库
在官方网站上都能找到guide、resources甚至blog。
实战系列
Kaggle——进行数据发掘和预测竞赛的在线平台
如果你是从未独立做过项目的新手,建议先选择难度较低的练习赛,参考官方给出的方案,来对比改善自己的结果。
这里为你推荐几篇文章,手把手教你入门经典练习项目。
1.泰坦尼克之灾
中文教程:CSDN@寒小阳《机器学习系列(3)_逻辑回归应用之Kaggle泰坦尼克之灾》
英文教程:Kaggle官网项目“Titanic”
2.房价预测
教程:Kaggle官网项目“House Prices: Advanced Regression Techniques”
阿里天池——天池大数据竞赛是由阿里巴巴集团主办,面向全球科研工作者的高端算法竞赛。官网也开放海量数据和分布式计算资源,整理AI学习知识库,开设新人学习赛,供新手在起步阶段练习。