Machine Learning 学习大纲

在这里更新一个机器学习所需要基础知识、语言基础、工具方法和项目概要,方便以后递进和深入学习。

机器学习高等数学基础

数据分析

1)常数e
2)导数
3)梯度
4)Taylor
5)gini系数
6)信息熵与组合数
7)梯度下降
8)牛顿法

概率论

1)线性空间及线性变换
2)矩阵的基本概念
3)状态转移矩阵
4)特征向量
5)矩阵的相关乘法
6)矩阵的QR分解
7)对称矩阵、正交矩阵、正定矩阵
8)矩阵的SVD分解
9)矩阵的求导
10)矩阵映射/投影

线性代数及矩阵

1)线性空间及线性变换
2)矩阵的基本概念
3)状态转移矩阵
4)特征向量
5)矩阵的相关乘法
6)矩阵的QR分解
7)对称矩阵、正交矩阵、正定矩阵
8)矩阵的SVD分解
9)矩阵的求导
10)矩阵映射/投影

凸优化

1)凸优化基本概念
2)凸集
3)凸函数
4)凸优化问题标准形式
5)凸优化之Lagerange对偶化
6)凸优化之牛顿法、梯度下降法求解

Python语言基础

容器

1)列表:list
2)元组:tuple
3)字典: dict
4)数组: Array
5)切片
6)列表推导式
7)浅拷贝和深拷贝

函数

1)lambda表达式
2)递归函数及尾递归优化

3)常用内置函数/高阶函数
4)项目案例:约瑟夫环问题

常用库

1)时间库
2)并发库
3)科学计算库
4)Matplotlib可视化绘图库
5)锁和线程
6)多线程编程

机器学习算法

监督学习

1)逻辑回归
2)softmax分类
3)条件随机场
4)支持向量机svm
5)决策树
6)随机森林
7)GBDT
8)集成学习

非监督学习

1)高斯混合模型
2)聚类
3)PCA
4)密度估计
5)LSI
6)LDA
7)双聚类
8)降维算法

数据处理与模型调优

1)特征提取
2)数据预处理
3)数据降维
4)模型参数调优
5)模型持久化
6)模型可视化
7)优化算法:坐标轴下降法和最小角回归法
8)数据挖掘关联规则算法
9)感知器模型

数据挖掘

深度学习

1)TensorFlow基本应用
2)BP神经网络
3)深度学习概述
4)卷积神经网络(CNN)
5)图像分类(vgg,resnet)
6)目标检测(rcnn,fast-rcnn,faster-rcnn,ssd)
7)递归神经网络(RNN)
8)lstm,bi-lstm,多层LSTM
9)无监督学习之AutoEncoder自动编码器
10)Seq2Seq
11)Seq2Seq with Attension
12)生成对抗网络
13)irgan
14)finetune及迁移学习
15)孪生网络
16)小样本学习

自然语言处理(NLP)

自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向。它已成为人工智能的核心领域。自然语言处理解决的是“让机器可以理解自然语言”这一到目前为止都还只是人类独有的特权,被誉为人工智能皇冠上的明珠,被广泛应用。本阶段从NLP的字、词和句子全方位多角度的学习NLP,作为NLP的基础核心技术,对NLP为核心的项目,如聊天机器人,合理用药系统,写诗机器人和知识图谱等提供底层技术。通过学习NLP和深度学习技术,掌握NLP具有代表性的前沿技术。

1)词(分词,词性标注)
2)词(深度学习之词向量,字向量)
3)词(深度学习之实体识别和关系抽取)
4)词(关键词提取,无用词过滤)
5)句(句法分析,语义分析)
6)句(自然语言理解,一阶逻辑)
7)句(深度学习之文本相似度)

图像处理(DIP)

数字图像处理(Digital Image Processing)是通过计算机对图像进行去除噪声、增强、复原、分割、提取特征等处理的方法和技术。广泛的应用于农牧业、林业、环境、军事、工业和医学等方面,是人工智能和深度学习的重要研究方向。深度学习作为当前机器学习领域最热门的技术之一,已经在图像处理领域获得了应用,并且展现出巨大的前景。本阶段学习了数字图像的基本数据结构和处理技术,到前沿的深度学习处理方法。掌握前沿的ResNet,SSD,Faster RCNN等深度学习模型,对图像分类,目标检测和模式识别等图像处理主要领域达到先进水平。实际工作中很多项目都可以转化为本课程的所学的知识去解决,如行人检测,人脸识别和数字识别。

-图像基础:图像读,写,保存,画图(线,圆,多边形,添加文字)
-图像操作及算数运算:图像像素读取,算数运算,ROI区域提取
-图像颜色空间运算:图像颜色空间相互转化
-图像几何变换:平移,旋转,仿射变换,透视变换等
-图像形态学:腐蚀,膨胀,开/闭运算等
-图像轮廓:长宽,面积,周长,外接圆,方向,平均颜色,层次轮廓等
-图像统计学:图像直方图
-图像滤波:高斯滤波,均值滤波,双边滤波,拉普拉斯滤波等

项目应用列举

项目一:公安系统人脸识别、图像识别
使用深度学习框架从零开始完成人脸检测的核心技术图像类别识别的操作,从数据预处理开始一步步构建网络模型并展开分析与评估,方便大家快速动手进行项目实践!识别上千种人靓,返回层次化结构的每个人的标签。

项目二:公安系统图像检索
本项目基于卷积神经网在训练过程中学习出对应的『二值检索向量』,对全部图先做了一个分桶操作,每次检索的时候只取本桶和临近桶的图片作比对,而不是在全域做比对,使用这样的方式提高检索速度,使用Tensorflow框架建立基于ImageNet的卷积神经网络,并完成模型训练以及验证。

项目三:今日头条CTR广告点击量预估
点击率预估是广告技术的核心算法之一,它是很多广告算法工程师喜爱的战场。广告的价值就在于宣传效果,点击率是其中最直接的考核方式之一,点击率越大,证明广告的潜在客户越多,价值就越大,因此才会出现了刷点击率的工具和技术。通过对于点击量的评估,完成对于潜在用户的价值挖掘。

项目四:序列分析系统
时间序列分析(Time Series Analysis)是一种动态数据处理的统计方法,主要基于随机过程理论和数理统计方法,研究随机数据序列所遵从的统计规律以便用于解决实际问题。主要包括自相关分析等一般的统计分析方法,构建模型从而进行业务推断。经典的统计分析是假定数据序列具有独立性,而时间序列分析则侧重于研究数据样本序列之间的依赖关系。时间序列预测一般反应了三种实际变化规律:趋势变化、周期性变化和随机性变化。时间序列预测常应用于国民经济宏观控制、企业经营管理、市场潜力量预测、天气预报、水文预报等方面,是应用于金融行业的一种核心算法之一。

项目五:京东聊天机器人/智能客服
聊天机器人/智能客服是一个用来模拟人类对话或者聊天的一个系统,利用深度学习和机器学习等NLP相关算法构建出问题和答案之间的匹配模型,然后可以将其应用到客服等需要在线服务的行业领域中,聊天机器人可以降低公司客服成本,还能够提高客户的体验友好性。 在一个完整的聊天机器人实现过程中,主要包含了一些核心技术,包括但不限于:爬虫技术、机器学习算法、深度学习算法、NLP领域相关算法。通过实现一个聊天机器人可以帮助我们队AI整体知识的一个掌握。

项目六:机器人写诗歌
机器人写诗歌/小说是一种基于NLP自然语言相关技术的一种应用,在实现过程中可以基于机器学习相关算法或者深度学习相关算法来进行小说/诗歌构建过程。人工智能的一个终极目标就是让机器人能够像人类一样理解文字,并运用文字进行创作,而这个目标大致上主要分为两个部分,也就是自然语言理解和自然语言生成,其中现阶段的主要自然语言生成的运用,自然语言生成主要有两种不同的方式,分别为基于规则和基于统计,基于规则是指首先了解词性及语法等规则,再依据这样的规则写出文章;而基于统计的本质是根据先前的字句和统计的结果,进而判断下一个子的生成,例如马尔科夫模型就是一种常用的基于统计的方法。

项目七:机器翻译系统
机器翻译又称自动翻译,是指利用计算机将一种自然语言转换为另外一种自然语言的过程,机器翻译是人工智能的终极目标之一,具有很高的研究价值,同时机器翻译也具有比较重要的实用价值,机器翻译技术在促进政治、经济、文化交流等方面起到了越来越重要的作用;机器翻译主要分为以下三个过程:原文分析、原文译文转换和译文生成;机器翻译的方式有很多种,但是随着深度学习研究取得比较大的进展,基于人工网络的机器翻译也逐渐兴起,特别是基于长短时记忆(LSTM)的循环神经网络(RDD)的应用,为机器翻译添了一把火。

项目八:垃圾邮件过滤系统
邮件主要可以分为有效邮件和垃圾邮件两大类,有效邮件指的邮件接收者有意义的邮件,而垃圾邮件转指那些没有任何意义的邮件,其内容主要包含赚钱信息、成人广告、商业或者个人网站广告、电子杂志等,其中垃圾邮件又可以发为良性垃圾邮件和恶性垃圾邮件,良性垃圾邮件指的就是对收件人影响不大的信息邮件,而恶性垃圾邮件指具有破坏性的电子邮件,比如包含病毒、木马等恶意程序的邮件。垃圾邮件过滤主要使用使用机器学习、深度学习等相关算法,比如贝叶斯算法、CNN等,识别出所接收到的邮件中那些是垃圾邮件。

项目九:手工数字识别
人认知世界的开始就是从认识数字开始的,深度学习也一样,数字识别是深度学习的一个很好的切入口,是一个非常经典的原型问题,通过对手写数字识别功能的实现,可以帮助我们后续对神经网络的理解和应用。选取手写数字识别的主要原因是手写数字具有一定的挑战性,要求对编程能力及神经网络思维能力有一定的要求,但同时手写数字问题的复杂度不高,不需要大量的运算,而且手写数字也可以作为其它技术的一个基础,所以以手写数字识别为基础,贯穿始终,从而理解深度学习相关的应用知识。

项目十:癌症筛选检测
技术可以改变癌症患者的命运吗,对于患有乳腺癌患者来说,复发还是痊愈影响这患者的生命,那么怎么来预测患者的患病结果呢,机器学习算法可以帮助我们解决这一难题,本项目应用机器学习logistic回归模型,来预测乳腺癌患者复发还是正常,有效的预测出医学难题。

项目十一:葡萄酒质量检测系统
随着信息科技的快速发展,计算机中的经典算法在葡萄酒产业中得到了广泛的研究与应用。其中机器学习算法的特点是运用了人工智能技术,在大量的样本集训练和学习后可以自动地找出运算所需要的参数和模型。

项目十二:淘宝网购物篮分析推荐算法
购物篮分析(Market Basket Analysis)即非常有名的啤酒尿布故事的一个反应,是通过对购物篮中的商品信息进行分析研究,得出顾客的购买行为,主要目的是找出什么样的物品会经常出现在一起,也就是那些商品之间是有很大的关联性的。通过购物篮分析挖掘出来的信息可以用于指导交叉销售、追加销售、商品促销、顾客忠诚度管理、库存管理和折扣计划等业务;购物篮分析的最常用应用场景是电商行业,但除此之外,该算法还被应用于信用卡商城、电信与金融服务业、保险业以及医疗行业等。

项目十三:手工实现梯度下降回归算法
梯度下降法(英语:Gradient descent)是一个一阶最优化算法,通常也称为最速下降法。 要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索。如果相反地向梯度正方向迭代进行搜索,则会接近函数的局部极大值点;这个过程则被称为梯度上升法。

项目十四:基于TensorFlow实现回归算法
回归算法是业界比较常用的一种机器学习算法,通过应用于各种不同的业务场景,是一种成熟而稳定的算法种类;TensorFlow是一种常用于深度学习相关领域的算法工具;随着深度学习热度的高涨,TensorFlow的使用也会越来越多,从而使用TensorFlow来实现一个不存在的算法,会加深对TensorFlow的理解和使用;基于TensorFlow的回归算法的实现有助于后续的TensorFlow框架的理解和应用,并可以促进深度学习相关知识的掌握。

项目十五:合理用药系统
合理用药系统,是根据临床合理用药专业工作的基本特点和要求,运用NLP和深度学习技术对药品说明书,临床路径等医学知识进行标准化,结构化处理。如自动提取药品说明书文本里面的关键信息如:药品相互作用,禁忌,用法用量,适用人群等,实现医嘱自动审查,及时发现不合理用药问题,帮助医生、药师等临床专业人员在用药过程中及时有效地掌握和利用医药知识,预防药物不良事件的发生、促进临床合理用药工作。

项目十六:行人检测
行人检测是利用图像处理技术和深度学习技术对图像或者视频序列中是否存在行人并给予精确定位。学习完行人检测技术后,对类似的工业缺陷检测,外观检测和医疗影像检测等目标检测范畴类的项目可以一通百通。该技术可与行人跟踪,行人重识别等技术结合,应用于人工智能系统、车辆辅助驾驶系统、智能机器人、智能视频监控、人体行为分析、智能交通等领域。由于行人兼具刚性和柔性物体的特性 ,外观易受穿着、尺度、遮挡、姿态和视角等影响,使得行人检测成为计算机视觉领域中一个既具有研究价值同时又极具挑战性的热门课题。

项目十七:时间序列算法模型
拿到一个观察序列后,首先要对它的平稳性和纯随机性进行检验,这两个重要的检验称为序列的预处理。根据检验的结果可以将序列分为不同的类型,对不同的类型我们采用不同的分析方法。
1)移动平均法 (MA)
2)自回归模型(AR)
AR模型是一种线性预测,即已知N个数据,可由模型推出第N点前面或后面的数据(设推出P点)。
本质类似于插值,其目的都是为了增加有效数据,只是AR模型是由N点递推,而插值是由两点(或少数几点)去推导多点,所以AR模型要比插值方法效果更好。
3)自回归滑动平均模型(ARMA)
其建模思想可概括为:逐渐增加模型的阶数,拟合较高阶模型,直到再增加模型的阶数而剩余残差方差不再显著减小为止。
4)指数平滑法
移动平均法的预测值实质上是以前观测值的加权和,且对不同时期的数据给予相同的加权。这往往不符合实际情况。
指数平滑法则对移动平均法进行了改进和发展,其应用较为广泛。
基本思想都是:预测值是以前观测值的加权和,且对不同的数据给予不同的权,新数据给较大的权,旧数据给较小的权。
根据平滑次数不同,指数平滑法分为:一次指数平滑法、二次指数平滑法和三次指数平滑法等

项目十八:PySpark大数据机器学习框架
Spark由AMPLab实验室开发,其本质是基于内存的快速迭代框架,“迭代”是机器学习最大的特点,因此非常适合做机器学习。得益于在数据科学中强大的表现,Python是一种解释型、面向对象、动态数据类型的高级程序设计语言,结合强大的分布式内存计算框架Spark,两个领域的强者走到一起,自然能碰出更加强大的火花(Spark可以翻译为火花)。
Spark的Python API几乎覆盖了所有Scala API所能提供的功能,只有极少数的一些特性和个别的API方法,暂时还不支持。但通常不影响我们使用Spark Python进行编程。

项目十九:天池、kaggle比赛
2014年3月,阿里巴巴集团董事局主席马云在北京大学发起“天池大数据竞赛”。首届大赛共有来自全球的7276支队伍参赛,海外参赛队伍超过148支。阿里巴巴集团为此开放了5.7亿条经过严格脱敏处理的数据。2014年赛季的数据提供方为贵阳市政府,参赛者根据交通数据模拟控制红绿灯时间,寻找减轻道路拥堵的方法。
Kaggle是一个数据分析的竞赛平台,网址:https://www.kaggle.com/企业或者研究者可以将数据、问题描述、期望的指标发布到Kaggle上,以竞赛的形式向广大的数据科学家征集解决方 案,类似于KDD-CUP(国际知识发现和数据挖掘竞赛)。Kaggle上的参赛者将数据下载下来,分析数据,然后运用机 器学习、数据挖掘等知识,建立算法模型,解决问题得出结果,最后将结果提交,如果提交的结果符合指标要求并且在参赛者中排名第一,将获得比赛丰厚的奖金。

项目二十:量化交易
量化交易(Quantitative Trading)是指借助现代统计学和数学的方法,利用计算机技术来进行交易的证券投资方式。量化交易从庞大的历史数据中海选能带来超额收益的多种“大概率”事件以制定策略,用数量模型验证及固化这些规律和策略,然后严格执行已固化的策略来指导投资,以求获得可以持续的、稳定且高于平均收益的超额回报。
量化交易起源于上世纪七十年代的股票市场,之后迅速发展和普及,尤其是在期货交易市场,程序化逐渐成为主流。有数据显示,国外成熟市场期货程序化交易已占据总交易量的70%-80%,而国内则刚刚起步。手工交易中交易者的情绪波动等弊端越来越成为盈利的障碍,而程序化交易天然而成的精准性、100%执行率则为它的盈利带来了优势。

企业项目

基于Python数据分析与机器学习案例实战教程

(1)python数据分析
(2)机器学习经典算法原理详解
(3)十大经典案例实战

通过python数据科学库numpy,pandas,matplot结合机器学习库scikit-learn完成一些列的机器学习案例。算法课程注重于原理推导与流程解释,结合实例通俗讲解复杂的机器学习算法,并以实战为主,所有课时都结合代码演示。算法与项目相结合,选择经典kaggle项目,从数据预处理开始一步步代码实战带大家快速入门机器学习。旨在帮助同学们快速上手如何使用python库来完整机器学习案例。选择经典案例基于真实数据集,从数据预处理开始到建立机器学习模型以及效果评估,完整的讲解如何使用python及其常用库进行数据的分析和模型的建立。对于每一个面对的挑战,分析解决问题思路以及如何构造合适的模型并且给出合适评估方法。在每一个案例中,同学们可以快速掌握如何使用pandas进行数据的预处理和分析,使用matplotlib进行可视化的展示以及基于scikit-learn库的机器学习模型的建立。

1)Python数据分析与机器学习实战课程简介
2)Python快速入门
3)Python科学计算库Numpy
4)Python数据分析处理库Pandas
5)Python可视化库Matplotlib
6)回归算法
7)模型评估
8)K近邻算法
9)决策树与随机森林算法
10)支持向量机
11)贝叶斯算法
12)神经网络
13)Adaboost算法
14)SVD与推荐
15)聚类算法
16)案例实战:使用Python库分析处理Kobe Bryan职业生涯数据
17)案例实战:信用卡欺诈行为检测
18)案例实战:泰坦尼克号获救预测
19)案例实战:鸢尾花数据集分析
20)案例实战:级联结构的机器学习模型
21)案例实战:员工离职预测
22)案例实战:使用神经网络进行手写字体识别
23)案例实战:主成分分析
24)案例实战:基于NLP的股价预测
25)案例实战:借贷公司数据分析

人工智能与深度学习实战

(1)神经网络必备基础知识点
(2)深度学习模型
(3)深度学习框架Caffe与Tensorflow
(4)深度学习项目实战

概述讲解深度学习应用与挑战,由计算机视觉中图像分类任务开始讲解深度学习的常规套路。对于复杂的神经网络,将其展开成多个小模块进行逐一攻破,再挑战整体神经网络架构。对于深度学习模型形象解读卷积神经网络原理,详解其中涉及的每一个参数,对卷积网络架构展开分析与评估,对于现阶段火爆的对抗生成网络以及强化学习给出形象解读,并配合项目实战实际演示效果。 基于框架实战,选择两款深度学习最火框架,Caffe与Tensorflow,首先讲解其基本使用方法,并结合案例演示如何应用框架构造神经网络模型并完成案例任务。 选择经典深度学习项目实战,使用深度学习框架从零开始完成人脸检测,验证码识别,人脸关键点定位,垃圾邮件分类,图像风格转换,AI自己玩游戏等。

1)深度学习概述与挑战
2)图像分类基本原理门
3)深度学习必备基础知识点
4)神经网络反向传播原理
5)神经网络整体架构
6)神经网络案例实战图像分类任务
7)卷积神经网络基本原理
8)卷积参数详解
9)卷积神经网络案例实战
10)经典网络架构分析
11)分类与回归任务
12)三代物体检测算法分析
13)数据增强策略
14)TransferLearning
15)网络架构设计
16) 深度学习框架Caffe网络结构配置
17)Caffe
18)深度学习项目实战人脸检测
19)人脸正负样本数据源制作
20)人脸检测网络架构配置习模型
21)人脸检测代码实战
22)人脸关键点定位项目实战
23)人脸关键点定位网络模型
24)人脸关键点定位构建级联网络
25)人脸关键点定位测试效果与分析
26)Tensorflow框架实战
27)Tensorflow构建回归模型
28)Tensorflow构建神经网络模型
29)Tensorflow深度学习模型
30)Tensorflow打造RNN网络模型
31)Tensorflow项目实战验证识别
32)项目实战图像风格转换
33)QLearning算法原理
34)DQN网络架构
35)项目实战DQN网络让AI自己玩游戏
36)项目实战对抗生成网络等

AI大数据互联网电影智能推荐

随着科技的发展,现在视频的来源和类型多样性,互联网视频内容充斥着整个网络,如果仅仅是通过翻页的方法来寻找自己想看的视频必然会感到疲劳,现在急需一种能智能推荐的工具,推荐系统通过分析用户对视频的评分分析,对用户的兴趣进行建模,从而预测用户的兴趣并给用户进行推荐。
Python是一种面向对象的解释型计算机程序设计语言,Python具有丰富和强大的库。它常被昵称为胶水语言,而大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,企业面临海量数据的到来,大多选择把数据从本地迁移至云端,云端将成为最大的非结构化数据存储场所。本项目主要以客户咨询为载体,分析客户的群体,分布,旨在挖掘客户的内在需求,帮助企业实现更有价值的营销。

教务管理系统业务介绍

1)教务管理系统框架讲解
2)系统业务逻辑介绍

大数据需求分析

1)明确数据需求
2)大数据分析过程
3)分析难点和解决方案
4)大数据相关技术选型

构建分布式大数据框架

1)Hadoop分布式集群配置
2)ZooKeeper高可用
3)SQOOP数据转移
4)ETL数据清洗
5)HIVE数据分析
6)HBase数据存储

基于教务管理系统大数据分析

1)业务数据分析指标设定
2)操作MapReduce分而治之
3)使用Hive进行数据整合抽离
4)使用HBase存储非结构话数据

大数据可视化

1)可视化技术选型
2)Echarts代码展示炫酷视图
3)使用Tableau进行数据可视化展示

电商大数据情感分析与AI推断实战项目

本项目从开发的角度以大数据、PHP技术栈为基础,使用真实商用表结构和脱敏数据,分三步构建商用系统、真实大数据环境、进行推断分析以及呈现结果。 项目课程的完整性、商业性,可以使学者尽可能完整地体会真实的商业需求和业务逻辑。完整的项目过程,使PHP技术栈的同学得以窥见和学到一个完整商业平台项目的搭建方法;真实大数据环境的搭建,使呈现、建立大数据的工具应用技术概念储备;基于大数据平台的分析需求的实现、呈现,将完整的一次大数据技术栈到分析结果的中线,平铺直述,为学习大数据并有开发基础的同学点亮新的能力。

实践项目研发

1)开发环境的安装配置
2)表与数据
3)LARAVEL的快速开发实践
4)批量创建模型
5)万能控制器与表配置
6)统一视图的创建

数据分析需求设立

1)定义数据需求
2)分析计算过程
3)分析难点和解决方案
4)大数据技术选型

大数据平台搭建

1)分布式环境的模拟建立
2)网络环境的调通
3)身份验证与集群控制
4)Hadoop环境搭建和要点说明
5)MapReduce与Yarn的搭建和说明

大数据分析脚本编写

1)MapReduce脚本编写
2)拆解数据需求
3)Map逻辑详写
4)Reduce逻辑详写
5)结果整理与输出

结果可视化

1)可视化需求和技术选型
2)展示页面的快速铺设
3)可视化JS上手
4)使用可视化JS展示结果

AI法律咨询大数据分析与服务智能推荐实战项目

本项目结合目前流行的大数据框架,在原有成熟业务的前提下,进行大数据分析处理,真实还原企业应用。
项目的业务系统底层主要采用JAVA架构,大数据分析主要采用Hadoop框架,其中包括Kettle实现ETL、SQOOP、Hive、Kibana、HBASE、Spark以及人工智能算法等框架技术;采用真实大数据集群环境的搭建,让学员切身感受企业项目的从0到1的过程。

系统业务介绍

1)底层业务实现框架讲解
2)功能模块讲解

系统架构设计

1)总体架构分析
2)数据流向
3)各技术选型承载作用
4)部署方案

详尽实现

1)原始数据处理
2)ETL数据导入
3)MR数据计算
4)Hive数据分析

数据可视化

1)采用Highcharts插件展示客户偏好曲线图
2)使用Tableau进行数据分析可视化展示

项目优化

1)ZooKeeper实现HA
2)集群监控的整体联调

AI大数据基站定位智能推荐商圈分析项目实战

随着当今个人手机终端的普及、出行人群中手机拥有率和使用率已达到相当高的比例,根据手机信号在真实地理空间的覆盖情况,将手机用户时间序列的手机定位数据,映射至现实地理位置空间位置,即可完整、客观地还原出手机用户的现实活动轨迹,从而挖掘出人口空间分布与活动联系特征信息。
商圈是现代市场中企业市场活动的空间,同时也是商品和服务享用者的区域。商圈划分为目的之一是研究潜在顾客分布,以制定适宜的商业对策。
本项目以实战为基础结合大数据技术Hadoop、.Net技术全栈为基础,采用真实商业数据,分不同环节构建商用系统、真实大数据环境、进行推断分析及呈现数据。

一、分析系统业务逻辑讲解
1)大数据基站定位智能推荐商圈分析系统介绍
2)数据前期清洗和数据分析目标指标的设定等

二、大数据导入与存储
1)关系型数据库基础知识
2)hive的基本语法
3)hive的架构及设计原理
4)hive安装部署与案例等
5)Sqoop安装及使用
6)Sqoop与关系型数据库进行交互等
7)动手实践

三、Hbase理论及实战
1)Hbase简介、安装及配置
2)Hbase的数据存储与数据模型
3)Hbase Shell
4)Hbase 访问接口
5)Hbase数据备份与恢复方法等
6)动手实践(数据转储与备份)

四、基站数据分析与统计推断
1)背景与分析推断目标
2)分析方法与过程推断
3)动手实践(分析既定指标数据)

五、数据分析与统计推断结果的展示(大数据可视化)
1)使用Tableau展示数据分析结果
2)使用HighCharts、ECharts展示数据分析结果

百度云实例

深入理解百度云计算基础产品/基于百度云弹性计算服务实现基础架构解决方案

全面介绍BCC(CDS 、EIP)、BLB、RDS、BOS、VPC等百度云弹性计算服务,介绍百度云的安全防护方案,深入介绍传统架构下如何通过百度云弹性计算服务快速构建更稳定、安全的应用;
认证培训专家将通过深入浅出,理论和实践相结合的课程帮助学员深入掌握百度云弹性计算服务。

1)快速体验百度云服务器BCC的功能全貌
2)基于BCC的云磁盘CDS的操作与管理
3)基于BCC的磁盘快照、自定义镜像的操作与管理
4)基于自定义镜像快速生成BCC的实验
5)基于磁盘快照实现数据备份与恢复的最佳实践
6)基于百度云安全组完成定义IP+端口的入站和出站访问策略
7)快速体验百度云私有网络VPC的功能全貌
8)基于百度云VPC+VPN快速搭建Stie-to-Stie的混合云架构
9)在百度云VPC网络下实现NAT地址映射的实践
10)快速体验百度云数据库RDS的功能全貌
11)云数据库RDS的备份与恢复操作体验
12)熟悉数据传输服务DTS的使用
13)快速体验百度云负载均衡BLB的功能全貌
14)快速体验百度云存储BOS的功能全貌
15)快速体验百度云数据库RDS的功能全貌
16)快速体验百度云内容分发网络CDN
17)基于BLB、BCC、RDS、BOS和CDN快速部署Discuz论坛实现弹性架构综合实验
18)快速体验百度云安全BSS和DDOS防护服务
19)快速体验百度云监控BCM

基于百度云的迁移上云实战

基于百度云弹性计算服务的基础产品,实现传统IT架构迁移到百度云上的实战,为客户业务上云提升能力,提升客户上云前的信心,上云中和上云后的技术能力。以真实的客户案例,结合设计好的动手实验课提升实战经验,介绍了业务上云的过程、方法、工具以及案例等。

1)基于BCC快速部署LNMP基础环境
2)基于BCC快速部署LAMP基础环境
3)基于BCC快速部署MySQL数据库
4)基于BCC快速部署MS SQL数据库服务
5)基于BCC快速部署Tomcat基础环境
6)云数据库RDS结合数据传输服务DTS实现数据迁移上云的最佳实践
7)基于BOS桌面实现BOS的可视化管理
8)基于BOS FS实现BOS服务挂载到本地文件系统
9)基于BOS-Util实现BOS的批量文件操作的演示
10)基于BOS CLI实现BOS文件的单机操作

在百度云平台上进行开发

全面介绍使用百度云产品进行应用开发,理解百度云主要产品特性,包括BCC、BOS、RDS、SCS在应用开发中的使用,结合实际应用开发案例全面的介绍整个开发流程和百度云产品使用方法,以提升学员开发技能和了解百度云产品开发特点,根据一天或者两天的课程,提供多个实际动手实验,认证讲师指导实验,真正做到学以致用,为学员实现上云开发保驾护航。

1)基于百度云OpenAPI实现简化版控制台的综合实验
2)基于百度云BOS OpenAPI实现简化版的百度网盘

百度云“天工 · 智能物联网”与“天像· 智能多媒体”服务平台介绍与案例分析

百度天工物联平台是“一站式、全托管”的物联网服务平台,依托百度云基础产品与服务,提供全栈物联网核心服务,帮助开发者快速搭建、部署物联网应用。通过全面介绍天工的IoT Hub、IoT Parser、Rule Engine、IoT Device、BML、BMR、OCR和语音识别等产品与服务,解析天工典型的产品架构方案,应用到工业4.0、车联网、能源、物流和智能硬件等各行业解决方案。

1)基于百度云LSS快速搭建音视频直播平台最佳实践
2)基于百度云VOD快速搭建音视频点播平台最佳实践
3)体验百度云音视频转码MCT的转码计算服务
4)基于百度云文档服务DOC体验文档存储、转码、分发播放一站式服务体验
5)基于百度云物接入IoT Hub实现智能设备与百度云端之间建立安全的双向连接
6)体验百度云的物管理IoT Device端到端配置实践

百度云“天智·人工智能”服务平台介绍与实战

天智是基于世界领先的百度大脑打造的人工智能平台,提供了语音技术、文字识别、人脸识别、深度学习和自然语言NLP等一系列人工智能产品及解决方案,帮助各行各业的客户打造智能化业务系统。本课程力求对百度人工智能服务平台进行整体、全面的介绍,包括天智平台与解决方案介绍、主要产品(百度语音、人脸识别、文字识别、百度深度学习、百度机器学习 BML、自然语言NLP等)的介绍、客户案例分享等。

1)百度机器学习BML-广告点击率预估
2)百度识别-文字识别
3)百度识别-人脸识别
4)百度自然语言处理-短文本相似度
5)百度语音-朗读者
6)百度深度学习-预测用户感兴趣的电影

阿里云实例

-云计算 - 网站建设:部署与发布
阿里云网站建设认证课程教你如何掌握将一个本地已经设计好的静态网站发布到Internet公共互联网,绑定域名,完成工信部的ICP备案。

-云计算 - 网站建设:简单动态网站搭建
阿里云简单动态网站搭建课程教你掌握如何快速搭建一个WordPress动态网站,并会对网站进行个性化定制,以满足不同的场景需求。

-云计算 - 云服务器管理维护
阿里云服务器运维管理课程教你掌握快速开通一台云服务器,并通过管理控制台方便地进行服务器的管理、服务器配置的变更和升级、数据的备份,并保证其可以正常运转并按业务需求随时进行配置的变更。

-云计算 - 云数据库管理与数据迁移
阿里云云数据库管理与数据迁移认证课程掌握云数据库的概念,如何在云端创建数据库、将自建数据库迁移至云数据库MySQL版、数据导入导出,以及云数据库运维的常用操作。

-云计算 - 云存储:对象存储管理与安全
阿里云云储存认证课程教你掌握安全、高可靠的云存储的使用,以及在云端存储下载文件,处理图片,以及如何保护数据的安全。

-云计算 - 超大流量网站的负载均衡
掌握如何为网站实现负载均衡,以轻松应对超大流量和高负载。

-大数据 - MOOC网站日志分析
本课程可以帮助学员掌握如何收集用户访问日志,如何对访问日志进行分析,如何利用大数据计算服务对数据进行处理,如何以图表化的形式展示分析后的数据。

-大数据 - 搭建企业级数据分析平台
模拟电商场景,搭建企业级的数据分析平台,用来分析商品数据、销售数据以及用户行为等。

-大数据 - 基于LBS的热点店铺搜索
本课程可以帮助学员掌握如何在分布式计算框架下开发一个类似于手机地图查找周边热点(POI)的功能,掌握GeoHash编码原理,以及在地理位置中的应用,并能将其应用在其他基于LBS的定位场景中。
课程中完整的演示了整个开发步骤,学员在学完此课程之后,掌握其原理,可以在各种分布式计算框架下完成此功能的开发,比如MapReduce、Spark。

-大数据 - 基于机器学习PAI实现精细化营销
本课程通过一个简单案例了解、掌握企业营销中常见的、也是必需的精准营销数据处理过程,了解机器学习PAI的具体应用,指导学员掌握大数据时代营销的利器---通过机器学习实现营销。

-大数据 - 基于机器学习的客户流失预警分析
本课程讲解了客户流失的分析方法、流程,同时详细介绍了机器学习中常用的分类算法、集成学习模型等通用技能,并使用阿里云机器学习PAI实现流失预警分析。可以帮助企业快速、准确识别流失客户,辅助制定策略进行客户关怀,达到挽留客户的目的。

-大数据 - 使用DataV制作实时销售数据可视化大屏
帮助非专业工程师通过图形化的界面轻松搭建专业水准的实时可视化数据大屏,以满足业务展示、业务监控、风险预警等多种业务的展示需求。

-大数据 - 使用MaxCompute进行数据质量核查
通过本案例,学员可了解影响数据质量的因素,出现数据质量问题的类型,掌握通过MaxCompute(DateIDE)设计数据质量监控的方法,最终独立解决常见的数据质量监控需求。

-大数据 - 使用Quick BI制作图形化报表
阿里云Quick BI制作图形化报表认证课程教你掌握将电商运营过程中的数据进行图表化展现,掌握通过Quick BI将数据制作成各种图形化报表的方法,同时还将掌握搭建企业级报表门户的方法。

-大数据 - 使用时间序列分解模型预测商品销量
使用时间序列分解模型预测商品销量教你掌握商品销量预测方法、时间序列分解以及熟悉相关产品的操作演示和项目介绍。

-云安全 - 云平台使用安全
阿里云云平台使用安全认证课程教你了解由传统IT到云计算架构的变迁过程、当前信息安全的现状和形势,以及在云计算时代不同系统架构中应该从哪些方面利用云平台的优势使用安全风险快速降低90%。

-云安全 - 云上服务器安全
阿里云云上服务器安全认证课程教你了解在互联网上提供计算功能的服务器主要面临哪些安全风险,并针对这些风险提供了切实可行的、免费的防护方案。

-云安全 - 云上网络安全
了解网络安全的原理和解决办法,以及应对DDoS攻击的方法和防护措施,确保云上网络的安全。

-云安全 - 云上数据安全
了解云上数据的安全隐患,掌握数据备份、数据加密、数据传输安全的解决方法。

-安全 - 云上应用安全
了解常见的应用安全风险,SQL注入原理及防护,网站防篡改的解决方案等,确保云上应用的安全。

-云安全 - 云上安全管理
了解云上的安全监控方法,学会使用监控大屏来监控安全风险,并能够自定义报警规则,确保随时掌握云上应用的安全情况。

你可能感兴趣的:(Machine Learning 学习大纲)