唐宇迪:51CTO微职位讲师,计算机博士,人工智能专家

内容梗概:介绍人工智能学习步骤和知识框架。人工智能的学习可以拆分为7步,此为1-3步:上篇。

第1步:必备基础技能

要学人工智能(数据科学)这行还是需要一些基本功的,最基础也是最核心的就是Python和数学了!这两兄弟入门起来并不难,先掌握基础的边用边学也是可以的!

1)必备Python基础

如果对Python不熟悉的同学们,建议先看一下我的Python入门视频课程,可以快速入门!免费学习链接:https://edu.51cto.com/course/8399.html

  • 为什么是Python?
    最直接的解释就是大家都用它!以前是面向对象编程,后来大家更喜欢面向复制粘贴编程,现在懒到面向github编程,确实如此,该偷懒就得偷懒,Python就是这个作用!后续所有的实战内容都是基于Python,所以没得选啦!

  • 需要安装什么?
    Anaconda就够了!Anaconda就够了!Anaconda就够了!好了,说了三遍了,具体解释大家参考上面传送门课程就好

  • 用什么编程工具开始?
    虽然大家都有趁手的兵器,但是我给大家准备的绝大多数课件都是基于jupyter notebook的,所以这个肯定是必备的!

2)必备Python工具包

  • 什么是工具包?
    工具包就是人家把功能都写好了,咱们直接调用就完事啦!数据处理,分析,建模等都有对应的工具包。对于学习来说并不用把这些工具包背下来,先熟悉起来,后续肯定还是要现用现查的。

  • 哪些工具包是初学者必备的呢?
工具包名称 功能概述
Numpy 矩阵计算必备!它是后续一切计算的核心,数据科学领域核心工具包
Pandas 数据处理必备!读数据,处理数据,分析数据,非他不可!
Matplotlib 可视化必备!功能十分强大,没有画不出来的图,分析展示就靠它了!
Seaborn 更简单的可视化神器!一行代码给你搞定一个可视化展示结果

3)必备数学基础

  • 数学重要吗?非学不可吗?
    数学有多重要同学们肯定都十分清楚,尤其是在人工智能(数据科学)领域,不懂数学想必寸步难行,很多同学都问过我一个问题,工作中真能用上这么多数学吗?

我跟大家来解释一下,人工智能这行发展相当迅速,在实际工作中肯定要边干边学,学什么呢?想必就是当下的一些优秀论文了,如果连基本的数学公式都看不懂,那就不用再去谈什么高端技术了。做这行的同学们肯定都会有这样一个想法,所谓的人工智能就是对数据做各种各样的数学计算罢了!

  • 如何学数学?要定一个长期计划吗?
    对于数学我觉得并不需要从头开始花大量时间一步一个脚印去学习,举一个例子,我和我身边的同事,朋友都是干这行蛮久的了,数学不知道撸了多少遍了,考研时候也曾刷题无数,但也会遇到这样的问题,很多知识点如果一段时间没看很快还是会忘记。

我最常做的一件事就是用到什么查什么,查找的过程其实也是学习进步过程。建议大家可以快速过一遍常用的知识点(高数,线性,概率论中的基础),这个过程中千万别去看各种解题过程,也不用管具体求解的方法,说白了就是只要理解一个公式是做什么的,有什么用就足够了,类似教材中的习题,练习册上的求解这些统统不需要,以后也根本不会用笔去算这些麻烦事,把这个时间省下来去学习算法更划得来!

下面是课程中所设计的知识点,也是必备基础

知识点 内容 作用
高等数学 高等数学基础,微积分,泰勒公式与拉格朗日 机器学习公式推导必备
线性代数 线性代数基础,特征值与矩阵分解 算法求解必备
概率论 概率论基础,随机变量与概率估计,常用分布 机器学习经常提这些词
统计分析 回归分析,假设检验,相关分析,方差分析 数据分析必备

第2步:机器学习

人工智能领域最核心的就是机器学习了,无论大家后续想从事哪个方向,肯定都是先从机器学习开始!主要就两件事,第一就是掌握经典算法原理,第二就是熟练应用Python工具包进行建模实战!

1)机器学习算法

  • 算法要学什么?
    理解机器学习算法是如何对数据进行操作从而完成建模求解过程,说白了就是熟悉下数学在算法中是如何应用的。重在理解即可!不要对一个问题钻的没完没了,这样太浪费时间了,没准后续学习过程中一下子就迎刃而解了。

我觉得对算法的学习肯定不止一遍,尤其是准备面试就业的同学们,二刷,三刷都是很正常的现象(曾经有同学跟我说面试前一共刷了6遍课程)

  • 有了深度学习还需要机器学习吗?
    深度学习可以说是机器学习算法的一种,并不是有了神经网络其他经典算法就不需要了,需要根据不同的任务和数据来选择最合适的算法,学习路经肯定是先从机器学习开始,其实掌握了这些经典算法之后再看神经网络真的很简单!

下面是课程中会讲解的算法,也是大家必须掌握的!这里没有列出所有机器学习算法,因为有很多现在已经不实用了。

知识点 内容 概述
分类算法 逻辑回归,决策树,支持向量机,集成算法,贝叶斯算法 准备面试的同学们必须掌握
回归算法 线性回归,决策树,集成算法 有些算法既能做分类也能做回归
聚类算法 k-means,dbscan等 无监督是实在没标签的时候才考虑的
降维算法 主成分分析,线性判别分析等 重在理解降维的思想
进阶算法 GBDT提升算法,lightgbm,,EM算法,隐马尔科夫模型 进阶算法有时间精力的同学们可以挑战

2)机器学习算法实验分析

通过对比实验分析经典算法建模方法及其参数对结果的影响,通过实验与可视化展示理解算法中的参数与应用实例。

案例名称 内容概述
线性回归实验分析 掌握一元与多元线性回归,非线性回归方法,正则化惩罚的作用
模型评估方法 常用分类与回归算法评估方法对比,数据集切分实例
逻辑回归实验分析 经典分类模型构造方法,决策树边界绘制方法
聚类算法实验分析 无监督建模实例,聚类算法评估方法,无监督的作用与应用实例
决策树实验分析 树模型可视化实例与构造方法,树模型的分类与回归应用
集成算法实验分析 集成方法应用实例与效果分析,常见集成策略对比
支持向量机实验分析 SVM涉及参数与建模对比实验
关联规则实战分析 关联规则必备知识点与建模分析实例

3)机器学习算法代码复现

为了更好理解算法的机制从零开始复现经典算法,坚持不掉包原则,一步步完成算法所需所有模块。

  • 为什么要自己复现代码?有何价值呢?
    主要目的是更好的掌握算法的工作原理,重在练习!有时间的同学们可以自己复现一遍,时间紧的同学就不必亲力亲为了。
案例名称 内容概述
线性回归代码实现 分模块构建算法常用函数
逻辑回归代码实现 实例解读逻辑回归实现方法
Kmeans代码实现 非常简单易懂的无监督算法
决策树代码实现 树模型其实就是递归实现
神经网络代码实现 代码量略大,建议debug模式学习
贝叶斯代码实现 贝叶斯在文本任务中还是比较好解释
关联规则代码实现 常用的数据分析算法
打造音乐推荐系统 从零开始构造推荐系统模型

4)机器学习经典案例实战

  • 实战需要掌握哪些技能?
    在实战中可能把数学知识点都弱化了,因为更多时候我们都是使用现成的工具包来完成任务(调包侠)。这里需要大家掌握的节能功能比较多,首先就是熟练使用这些常用工具包了,数据预处理,特征工程,调参,验证这些都是非常核心的步骤。

概括来说就是要完成不同的任务所需流程和套路都是类似的,但是使用的方法和算法却可能不同,这就需要大家不断积累来丰富实战经验了。给同学们提供的这些案例大家都可以当作是自己的实战模板!

  • 这些案例能让我收获什么?
    最重要的就是学会针对不同数据(数值,文本,图像)如何进行预处理与分析,熟练应用工具包中各大核心函数进行调参与预处理,针对不同任务提出多种解决方案并进行实验分析。总结起来就是多做实验,多动手,代码写的多了自然就熟练了!
案例名称 内容概述
K近邻算法实战 机器学习入门案例,掌握工具包应用于建模方法
交易数据异常检测 十分重要,数据处理和建模策略的详细分析对比
集成算法建模实战 集成不用我多说了,必备核心策略
基于随机森林的气温预测 随机森林是机器学习中最常用的算法,详细分析对比
新闻分类实战 文本数据分析处理,基于贝叶斯算法展开建模实战
聚类实践分析 无监督应用实例
时间序列分析 时间序列数据制作方法,基于序列数据进行建模
用户流失预警 我经常说梦幻西游的用户流失,这个只是个DEMO
使用lightgbm进行饭店流量预测 又是一个大杀器,比xgboost还虎
人口普查数据集项目实战-收入预测 核心模板,数据分析,可视化啥的该有的都有
贝叶斯优化实战 难度较大,贝叶斯优化工具包使用实例
文本特征方法对比 文本数据常用特征提取方法对比
制作自己常用工具包 自己做个包玩玩

5)机器学习实战集锦

这里还给大家准备了丰富的实战项目,非常适合大家来练手!

案例名称 内容概述
Python实战关联规则 用工具包来做关联规则实在太轻松了
爱彼迎数据集分析与建模 房价数据集分析与建模实例
基于相似度的酒店推荐系统 来构建一个推荐系统完成酒店推荐
商品销售额回归分析 销售额预测,很常规的任务,常规套路搞定
绝地求生数据集探索分析与建模 绝地求生数据集,来看看你究竟被什么人干掉了
模型解释方法实战 建模后如何来解释模型呢,这几个工具包帮你搞定
自然语言处理必备工具包实战 NLP常用工具包解读,实例演示
银行客户还款可能性预测 银行客户数据来预测还款的可能性
图像特征聚类分析实践 图像数据如何进行聚类呢?
人口普查数据集项目实战-收入预测 核心模板,数据分析,可视化啥的该有的都有

第3步:数据分析与挖掘

数据分析这个词大家天天都在听,要干什么呢?无非就是从数据中获取有价值的信息,这其中方法与套路还是非常多的。 这个方向不需要什么理论积累,直接上数据,干就得了!案例的积累就是学习过程!

1)数据挖掘实战

  • 数据挖掘是什么?和机器学习有什么区别?
    简单来说数据挖掘就是对海量数据应用机器学习算法来得到想要的结果。在数据挖掘中重点并不是机器学习算法的选择,而是怎么样对数据进行处理才能得到更好的预测结果,在这里特征工程与预处理将成为核心解决方案。
案例名称 内容概述
泰坦尼克号获救预测 经典的kaggle竞赛案例,入门数据挖掘的第一个实战项目
数据特征构建 特征工程是数据挖掘的核心,基于sklearn讲解多种特征构建方法
用户画像实战 用户画像想必大家都听过了,如何应用数据来完成画像呢?
集成策略实例 数据挖掘中选择通常都选择集成策略来更好的提升效果
Xgboost实战 集成中的典型代表,竞赛的大杀器
京东购买意向预测 经典预测问题,基于用户历史行为数据完成预测任务
kaggle数据科学调查 可视化展示kaggle竞赛中参赛人员情况
房价预测 数据挖掘入门级别案例,快速掌握常规套路
电力敏感用户分析 竞赛实例,主要讲解特征工程的作用
fbprophet时间序列预测 时间序列预测非常实用的算法,用起来非常简单

2)数据挖掘竞赛优胜解决方案

  • 我又不参加竞赛,为什么要看人家的解决方案呢?
    给大家选择了天池,kaggle,融机等大型竞赛案例,并且提供的代码和方案均为竞赛时优胜者的解决思路。就好比要学下棋就得跟下的最好的玩自己才会提升,案例中均会讲解优胜者的思路和整体解决方案并提供代码实现。非常有助于大家提升!
案例名称 内容概述
快手短视频用户活跃度分析 基于用户的行为数据来预测接下来的活跃程度
工业化工生产预测 对化工数据进行分析,建模预测生产效率
智慧城市-道路通行时间预测 很接地气的竞赛,基于道路数据预测通行时间
特征工程建模可解释工具包 数据挖掘中很难的一点就是进行特征解释,这些工具包非常实用
医学糖尿病数据命名实体识别 命名实体识别算法讲解与应用实例分析
贷款平台风控模型-特征工程 用图模型来构建特征工程,这套思路应用很广
新闻关键词抽取模型 关键词抽取可以说是NLP必备技能了
机器学习项目实战模板 模板来了,以后有任务可以套用了,方法都差不多
电力敏感用户分析 竞赛实例,主要讲解特征工程的作用

3)数据分析实战

  • 数据分析的重点又是什么呢?
    数据挖掘主要是建模来进行预测,数据分析则重在可视化展示,分析其中各项指标对结果的影响等。给大家选择了一些经典分析案例,很多都可以直接当作模板来使用
案例名称 内容概述
散点图绘制技巧 都说了可视化是重点,画图肯定必须的了
纽约出租车运行情况分析建模 用了好多工具包,可以熟悉下对地理数据如何进行分析与展示
基于统计分析的电影推荐任务 统计分析常用方法,还能做推荐
数据分析与机器学习模板 这个模板真的非常全面了,分析,展示,建模,评估,简直一套龙了
数据降维 几种常用的降维算法对比分析与展示
商品可视化展示与文本处理 文本数据预处理与可视化展示
多变量分析 多变量分析也是数据分析中常见的方法
商品订单数据集分析 订单数据集分析
KIVA贷款数据分析 贷款数据集分析

唐宇迪-人工智能学习路线(下篇)

点击图片查看唐宇迪讲师亲自授课的微职位

唐宇迪-人工智能学习路线(上篇)_第1张图片