机器学习路线

阶段一、人工智能基础 — 高等数学必知必会

本阶段主要从数据分析、概率论和线性代数及矩阵和凸优化这四大块讲解基础,旨在训练大家逻辑能力,分析能力。拥有良好的数学基础,有利于大家在后续课程

的学习中更好的理解机器学习和深度学习的相关算法内容。同时对于AI研究尤为重要,例如人工智能中的智能很大一部分依托“概率论”实现的。

一、数据分析

1)常数e

2)导数

3)梯度

4)Taylor5)gini系数

6)信息熵与组合数

7)梯度下降

8)牛顿法

二、概率论

1)微积分与逼近论

2)极限、微分、积分基本概念

3)利用逼近的思想理解微分,利用积分的方式理解概率

4)概率论基础

5)古典模型6)常见概率分布

7)大数定理和中心极限定理

8)协方差(矩阵)和相关系数

9)最大似然估计和最大后验估计

三、线性代数及矩阵

1)线性空间及线性变换

2)矩阵的基本概念

3)状态转移矩阵

4)特征向量

5)矩阵的相关乘法6)矩阵的QR分解

7)对称矩阵、正交矩阵、正定矩阵

8)矩阵的SVD分解

9)矩阵的求导

10)矩阵映射/投影

四、凸优化

1)凸优化基本概念

2)凸集

3)凸函数4)凸优化问题标准形式

5)凸优化之Lagerange对偶化

6)凸优化之牛顿法、梯度下降法求解

阶段二、人工智能提升 — Python高级应用

随着AI时代的到来以及其日益蓬勃的发展,Python作为AI时代的头牌语言地位基本确定,机器学习是着实令人兴奋,但其复杂度及难度较大,通常会涉及组装工

作流和管道、设置数据源及内部和云部署之间的分流而有了Python库后,可帮助加快数据管道,且Python库也在不断更新发布中,所以本阶段旨在为大家学习后续的机器学习减负。

一、容器

1)列表:list

2)元组:tuple

3)字典: dict

4)数组: Array5)切片

6)列表推导式

7)浅拷贝和深拷贝

二、函数

1)lambda表达式

2)递归函数及尾递归优化3)常用内置函数/高阶函数

4)项目案例:约瑟夫环问题

三、常用库

1)时间库

2)并发库

3)科学计算库4)Matplotlib可视化绘图库

5)锁和线程

6)多线程编程

阶段三、人工智能提升 — Python项目

本阶段重点在于复习巩固Python的内容,通过对招聘网站的数据爬取,巩固静态网站爬取技巧,掌握技能包括requests库的使用、网页解析、正则表达式应用等;

通过对豆瓣网的评论数据的爬取以及职位画像系统,掌握网站模拟登陆的知识,掌握技能主要包含模拟登陆、数据爬取与解析等,让大家对Python的实际应用有个非常清晰的认识,了解Python在AI及数据抓取方面的长处,非常有利于大家后期阶段的学习。

项目一:职位画像

机器学习概述使用python爬虫scrapy框架,对于智联招聘职位进行抓取,处理下一页机制,抓取职位名称、公司名称、公司地点等职位数据,并将数据通

过Pipeline管道对数据进行数据去重,数据清洗,数据转换,数据存储。数据存储在Mysql数据库中,并将数据数值化,形成多表关联,后期使用Echarts可视化前端图表,完成数据炫酷展示。

项目二:豆瓣TOP250抓取

抓取豆瓣电影TOP250,得到电影名、电影介绍、评分、评论人数、经典的话等信息,后期为了防止爬虫被豆瓣Ban掉,增加了一些随机延迟、伪装浏览器

请求头,浏览器代理等,最终数据存储在Mongodb。

阶段四、人工智能实用 — 机器学习算法

机器学习利用算法去分析数据、学习数据,随后对现实世界情况作出判断和预测。因此,与预先编写好、只能按照特定逻辑去执行指令的软件不同,机器实际上

是在用大量数据和算法去“自我训练”,从而学会如何完成一项任务。 所以本阶段主要从机器学习概述、数据清洗和特征选择、回归算法、决策树、随机森林和提

升算法、SVM、聚类算、EM算法、贝叶斯算法、隐马尔科夫模型、LDA主题模型等方面讲解一些机器学习的相关算法以及这些算法的优化过程,这些算法也就是监督算法或者无监督算法。

一、机器学习

1)机器学习概述

二、特征工程

1)特征抽取

2)特征转换

3)特征选择4)降维

5)NLP特征工程

三、回归算法

1)Linear Regression算法

2)Lasso Regression算法

3)Ridge Regression/Classifier算法4)Elastic Net算法

5)Logistic算法

6)K-邻近算法(KNN)

四、决策树、随机森林和提升算法

1)决策树算法: ID3、C4.5、CART

2)决策树优化

3)Bagging和Boosting算法

4)随机森林5)Adaboost算法

6)GBDT算法

7)XGBoost

8)LightGBM

五、SVM

1)线性可分支持向量机

2)核函数理解3)SMO算法

4)SVM回归SVR和分类SVC

六、聚类算法

1)各种相似度度量介绍及相关关系

2)K-means算法

3)K-means算法优缺点及变种算法4)密度聚类

5)层级聚类

6)谱聚类

七、EM算法

1)最大似然估计

2)EM算法原理讲解3)多元高斯分布的EM实现

4)主题模型pLSA及EM算法

八、贝叶斯算法

1)朴素贝叶斯

2)条件概率表达形式3)贝叶斯网络的表达形式

九、隐马尔科夫模型

1)概率计算问题

2)前向/后向算法3)HMM的参数学习

4)高斯混合模型HMM

十、LDA主题模型

1)LDA主题模型概述

2)共轭先验分布

3)Dirichlet分布4)Laplace平滑

5)Gibbs采样详解

6)LDA与word2Vec效果比较

阶段五、人工智能实用 — 机器学习项目

本阶段主要通过音乐文件分类和金融反欺诈模型训练等项目,帮助大家对于上阶段的机器学习做更深入的巩固,为后续深度学习及数据挖掘提供项目支撑。

项目一:百度音乐系统文件分类

音乐推荐系统就是利用音乐网站上的音乐信息,向用户提供音乐信息或者建议,帮助用户决定应该听什么歌曲。而个人化推荐则是基于音乐信息及用户的兴趣

特征、听歌历史行为,向用户推荐用户可能会感兴趣的音乐或者歌手。推荐算法主要分为以下几种:基于内容的推荐、协同过滤推荐、基于关联规则推荐、基

于效用推荐、基于知识推荐等;推荐系统常用于各个互联网行业中,比如音乐、电商、旅游、金融等。

项目二:千万级P2P金融系统反欺诈模型训练

目前比较火的互联网金融领域,实质是小额信贷,小额信贷风险管理,本质上是事前对风险的主动把控,尽可能预测和防范可能出现的风险。本项目应用GBDT

、Randomforest等机器学习算法做信贷反欺诈模型,通过数据挖掘技术,机器学习模型对用户进行模型化综合度量,确定一个合理的风险范围,使风险和盈利达到一个平衡的状态。

阶段六、人工智能提升 — 深度学习

深度学习是实现机器学习的技术,同时深度学习也带来了机器学习的许多实际应用,拓展了AI的使用领域,本阶段主要从TensorFlow、深度学习概述、感知器神

经网络、BP神经网络、RBF径向基神经网络、CNN卷积神经网络、RNN循环神经网络等方面讲解深度学习相关算法以及深度学习框架的使用。

1)TensorFlow

2)基于Tensorflow实现回归算法

3)深度学习概述

4)感知器神经网络

5)BP神经网络6)RBF径向基神经网络

7)卷积神经网络(CNN)

8)循环神经网络(RNN)

9)生成对抗网络(GAN、WGAN、EBGAN、DCGAN等)

阶段七、人工智能提升 — 推荐算法及数据挖掘

随着现代电商的深入人心,基于用户行为(浏览、收藏、购物)分析尤为重要。而数据挖掘就是识别出巨量数据中有效的、新颖的、潜在有用的、最终可理解的模

式的非平凡过程。本阶段主要从基于内容的推荐、协同过滤、SVD、基于知识的推荐以及混合推荐算法等讲解,并结合音乐推荐、隐因子模型推荐等项目让大家有更深入的学习了解。

1)推荐算法概述

2)推荐算法算法理论介绍(协同过滤、基于内存的推荐、基于知识的推荐等)

3)数据挖掘相关算法(关联规则、Aprior算法)

4)项目案例:百度云音乐推荐系统、隐因子模型推荐系统开发

阶段八、人工智能终极实战 — 项目应用

本阶段重点以项目为导向,通过公安系统人脸识别、图像识别以及图像检索、、今日头条CTR广告点击量预估、序列分析系统、聊天机器人等多个项目的讲解,结合实际来进行AI的综合运用。

项目一:公安系统人脸识别、图像识别

使用深度学习框架从零开始完成人脸检测的核心技术图像类别识别的操作,从数据预处理开始一步步构建网络模型并展开分析与评估,方便大家快速动手进行项

目实践!识别上千种人靓,返回层次化结构的每个人的标签。

项目二:公安系统图像检索

本项目基于卷积神经网在训练过程中学习出对应的『二值检索向量』,对全部图先做了一个分桶操作,每次检索的时候只取本桶和临近桶的图片作比对,而不是

在全域做比对,使用这样的方式提高检索速度,使用Tensorflow框架建立基于ImageNet的卷积神经网络,并完成模型训练以及验证。

项目三:今日头条CTR广告点击量预估

点击率预估是广告技术的核心算法之一,它是很多广告算法工程师喜爱的战场。广告的价值就在于宣传效果,点击率是其中最直接的考核方式之一,点击率越大,证

明广告的潜在客户越多,价值就越大,因此才会出现了刷点击率的工具和技术。通过对于点击量的评估,完成对于潜在用户的价值挖掘。

项目四:序列分析系统

时间序列分析(Time Series Analysis)是一种动态数据处理的统计方法,主要基于随机过程理论和数理统计方法,研究随机数据序列所遵从的统计规律以便用于

解决实际问题。主要包括自相关分析等一般的统计分析方法,构建模型从而进行业务推断。经典的统计分析是假定数据序列具有独立性,而时间序列分析则侧重

于研究数据样本序列之间的依赖关系。时间序列预测一般反应了三种实际变化规律:趋势变化、周期性变化和随机性变化。时间序列预测常应用于国民经济宏观控制、企业经营管理、市场潜力量预测、天气预报、水文预报等方面,是应用于金融行业的一种核心算法之一。

项目五:京东聊天机器人/智能客服

聊天机器人/智能客服是一个用来模拟人类对话或者聊天的一个系统,利用深度学习和机器学习等NLP相关算法构建出问题和答案之间的匹配模型,然后可以将

其应用到客服等需要在线服务的行业领域中,聊天机器人可以降低公司客服成本,还能够提高客户的体验友好性。 在一个完整的聊天机器人实现过程中,主要包含了一些核心技术,包括但不限于:爬虫技术、机器学习算法、深度学习算法、NLP领域相关算法。通过实现一个聊天机器人可以帮助我们队AI整体知识的一个掌握。

项目六:机器人写诗歌

机器人写诗歌/小说是一种基于NLP自然语言相关技术的一种应用,在实现过程中可以基于机器学习相关算法或者深度学习相关算法来进行小说/诗歌构建过程。

人工智能的一个终极目标就是让机器人能够像人类一样理解文字,并运用文字进行创作,而这个目标大致上主要分为两个部分,也就是自然语言理解和自然语

言生成,其中现阶段的主要自然语言生成的运用,自然语言生成主要有两种不同的方式,分别为基于规则和基于统计,基于规则是指首先了解词性及语法等规

则,再依据这样的规则写出文章;而基于统计的本质是根据先前的字句和统计的结果,进而判断下一个子的生成,例如马尔科夫模型就是一种常用的基于统计的方法。

项目七:机器翻译系统

机器翻译又称自动翻译,是指利用计算机将一种自然语言转换为另外一种自然语言的过程,机器翻译是人工智能的终极目标之一,具有很高的研究价值,同时机

器翻译也具有比较重要的实用价值,机器翻译技术在促进政治、经济、文化交流等方面起到了越来越重要的作用;机器翻译主要分为以下三个过程:原文分析、

原文译文转换和译文生成;机器翻译的方式有很多种,但是随着深度学习研究取得比较大的进展,基于人工网络的机器翻译也逐渐兴起,特别是基于长短时记忆(

LSTM)的循环神经网络(RDD)的应用,为机器翻译添了一把火。

项目八:垃圾邮件过滤系统

邮件主要可以分为有效邮件和垃圾邮件两大类,有效邮件指的邮件接收者有意义的邮件,而垃圾邮件转指那些没有任何意义的邮件,其内容主要包含赚钱信息

、成人广告、商业或者个人网站广告、电子杂志等,其中垃圾邮件又可以发为良性垃圾邮件和恶性垃圾邮件,良性垃圾邮件指的就是对收件人影响不大的信息

邮件,而恶性垃圾邮件指具有破坏性的电子邮件,比如包含病毒、木马等恶意程序的邮件。垃圾邮件过滤主要使用使用机器学习、深度学习等相关算法,比如贝叶斯算法、CNN等,识别出所接收到的邮件中那些是垃圾邮件。

项目九:手工数字识别

人认知世界的开始就是从认识数字开始的,深度学习也一样,数字识别是深度学习的一个很好的切入口,是一个非常经典的原型问题,通过对手写数字识别功能

的实现,可以帮助我们后续对神经网络的理解和应用。选取手写数字识别的主要原因是手写数字具有一定的挑战性,要求对编程能力及神经网络思维能力有一定

的要求,但同时手写数字问题的复杂度不高,不需要大量的运算,而且手写数字也可以作为其它技术的一个基础,所以以手写数字识别为基础,贯穿始终,从而理解深度学习相关的应用知识。

项目十:癌症筛选检测

技术可以改变癌症患者的命运吗,对于患有乳腺癌患者来说,复发还是痊愈影响这患者的生命,那么怎么来预测患者的患病结果呢,机器学习算法可以帮助我们

解决这一难题,本项目应用机器学习logistic回归模型,来预测乳腺癌患者复发还是正常,有效的预测出医学难题。

项目十一:葡萄酒质量检测系统

随着信息科技的快速发展,计算机中的经典算法在葡萄酒产业中得到了广泛的研究与应用。其中机器学习算法的特点是运用了人工智能技术,在大量的样本集训练

和学习后可以自动地找出运算所需要的参数和模型。

项目十二:淘宝网购物篮分析推荐算法

购物篮分析(Market Basket Analysis)即非常有名的啤酒尿布故事的一个反应,是通过对购物篮中的商品信息进行分析研究,得出顾客的购买行为,主要目的是

找出什么样的物品会经常出现在一起,也就是那些商品之间是有很大的关联性的。通过购物篮分析挖掘出来的信息可以用于指导交叉

销售、追加销售、商品促销、顾客忠诚度管理、库存管理和折扣计划等业务;购物篮分析的最常用应用场景是电商行业,但除此之外,该算法还被应用于信用卡商城、电信与金融服务业、保险业以及医疗行业等。

项目十三:手工实现梯度下降回归算法

梯度下降法(英语:Gradient descent)是一个一阶最优化算法,通常也称为最速下降法。 要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前

点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索。如果相反地向梯度正方向迭代进行搜索,则会接近函数的局部极大值点;这个过程则被称为梯度上升法。

项目十四:基于TensorFlow实现回归算法

回归算法是业界比较常用的一种机器学习算法,通过应用于各种不同的业务场景,是一种成熟而稳定的算法种类;TensorFlow是一种常用于深度学习相关领域

的算法工具;随着深度学习热度的高涨,TensorFlow的使用也会越来越多,从而使用TensorFlow来实现一个不存在的算法,会加深对TensorFlow的理解和使

用;基于TensorFlow的回归算法的实现有助于后续的TensorFlow框架的理解和应用,并可以促进深度学习相关知识的掌握。

阶段九、人工智能实战 — 分布式搜索引擎开发

联网+、大数据、网络爬虫、搜索引擎等等这些概念,如今可谓炙手可热,本课程就是以公司项目经验为基础,为大家带来市面上比较流行的分布式搜索引擎之一

的ElasicSearch,深入浅出的带领大家了解并掌握该技术的综合应用,从而为大家添加一份竞争的资本。 本课程旨在带领大家进入搜索引擎领域,从无到有,深入浅出的讲解了什么是搜索引擎,搜索引擎的作用以及ElasticSearch在实际工作中的作用等。

1)Elasticsearch概念

2)Elasticsearch安装和插件介绍

3)Elasticsearch基本使用和简单查询

4)Elasticsearch的Java客户端使用5)Elasticsearch索引和Mapping

6)Elasticsearch搜索深入

7)Elasticsearch与Spring集成

8)Elasticsearch实战

阶段十、人工智能实战 — 企业项目实战

课程一、基于Python数据分析与机器学习案例实战教程

课程风格通俗易懂,基于真实数据集案例实战。主体课程分成三个大模块(1)python数据分析,(2)机器学习经典算法原理详解,(3)十大经典案例实战。通过python

数据科学库numpy,pandas,matplot结合机器学习库scikit-learn完成一些列的机器学习案例。算法课程注重于原理推导与流程解释,结合实例通俗讲解复杂的机器

学习算法,并以实战为主,所有课时都结合代码演示。算法与项目相结合,选择经典kaggle项目,从数据预处理开始一步步代码实战带大家快速入门机器学习。旨

在帮助同学们快速上手如何使用python库来完整机器学习案例。选择经典案例基于真实数据集,从数据预处理开始到建立机器学习模型以及效果评估,完整的讲解

如何使用python及其常用库进行数据的分析和模型的建立。对于每一个面对的挑战,分析解决问题思路以及如何构造合适的模型并且给出合适评估方法。在每一个

案例中,同学们可以快速掌握如何使用pandas进行数据的预处理和分析,使用matplotlib进行可视化的展示以及基于scikit-learn库的机器学习模型的建立。

1)Python数据分析与机器学习实战课程简介

2)Python快速入门

3)Python科学计算库Numpy

4)Python数据分析处理库Pandas

5)Python可视化库Matplotlib

6)回归算法

7)模型评估

8)K近邻算法

9)决策树与随机森林算法

10)支持向量机

11)贝叶斯算法

12)神经网络

13)Adaboost算法14)SVD与推荐

15)聚类算法

16)案例实战:使用Python库分析处理Kobe Bryan职业生涯数据

17)案例实战:信用卡欺诈行为检测

18)案例实战:泰坦尼克号获救预测

19)案例实战:鸢尾花数据集分析

20)案例实战:级联结构的机器学习模型

21)案例实战:员工离职预测

22)案例实战:使用神经网络进行手写字体识别

23)案例实战:主成分分析

24)案例实战:基于NLP的股价预测

25)案例实战:借贷公司数据分析

课程二、人工智能与深度学习实战

课程风格通俗易懂,必备原理,形象解读,项目实战缺一不可!主体课程分成四个大模块(1)神经网络必备基础知识点,(2)深度学习模型,(3)深度学习框架Caffe与

Tensorflow,(4)深度学习项目实战。 课程首先概述讲解深度学习应用与挑战,由计算机视觉中图像分类任务开始讲解深度学习的常规套路。对于复杂的神经网

络,将其展开成多个小模块进行逐一攻破,再挑战整体神经网络架构。对于深度学习模型形象解读卷积神经网络原理,详解其中涉及的每一个参数,对卷积网络架

构展开分析与评估,对于现阶段火爆的对抗生成网络以及强化学习给出形象解读,并配合项目实战实际演示效果。 基于框架实战,选择两款深度学习最火框架,Caffe与Tensorflow,首先讲解其基本使用方法,并结合案例演示如何应用框架构造神经网络模型并完成案例任务。 选择经典深度学习项目实战,使用深度学习框

架从零开始完成人脸检测,验证码识别,人脸关键点定位,垃圾邮件分类,图像风格转换,AI自己玩游戏等。对于每一个项目实战,从数据预处理开始一步步构建网络模型并展开分析与评估。 课程提供所涉及的所有数据,代码以及PPT,方便大家快速动手进行项目实践!

1)深度学习概述与挑战

2)图像分类基本原理门

3)深度学习必备基础知识点

4)神经网络反向传播原理

5)神经网络整体架构

6)神经网络案例实战图像分类任务

7)卷积神经网络基本原理

8)卷积参数详解

9)卷积神经网络案例实战

10)经典网络架构分析

11)分类与回归任务

12)三代物体检测算法分析

13)数据增强策略

14)TransferLearning

15)网络架构设计

16) 深度学习框架Caffe网络结构配置

17)Caffe

18)深度学习项目实战人脸检测19)人脸正负样本数据源制作

20)人脸检测网络架构配置习模型

21)人脸检测代码实战

22)人脸关键点定位项目实战

23)人脸关键点定位网络模型

24)人脸关键点定位构建级联网络

25)人脸关键点定位测试效果与分析

26)Tensorflow框架实战

27)Tensorflow构建回归模型

28)Tensorflow构建神经网络模型

29)Tensorflow深度学习模型

30)Tensorflow打造RNN网络模型

31)Tensorflow项目实战验证识别

32)项目实战图像风格转换

33)QLearning算法原理

34)DQN网络架构

35)项目实战DQN网络让AI自己玩游戏

36)项目实战对抗生成网络等

你可能感兴趣的:(机器学习路线)