课程体系
阶段一、人工智能基础 - 高等数学必知必会 本阶段主要从数据分析、概率论和线性代数及矩阵和凸优化这四大块讲解基础,旨在训练大家逻辑能力,分析能力。拥有良好的数学基础,有利于大家在后续课程的学习中更好的理解机器学习和深度学习的相关算法内容。同时对于AI研究尤为重要,例如人工智能中的智能很大一部分依托“概率论”实现的。
一、数据分析 1)常数e
2)导数
3)梯度
4)Taylor
5)gini系数
6)信息熵与组合数
7)梯度下降
8)牛顿法
二、概率论 1)微积分与逼近论
2)极限、微分、积分基本概念
3)利用逼近的思想理解微分, 利用积分的方式理解概率
4)概率论基础
5)古典模型
6)常见概率分布
7)大数定理和中心极限定理
8)协方差(矩阵)和相关系数
9)最大似然估计和最大后验估计
三、线性代数及矩阵 1)线性空间及线性变换
2)矩阵的基本概念
3)状态转移 矩阵
4)特征向量
5)矩阵的相关乘法
6)矩阵的QR分解
7)对称矩阵、正交矩阵、正定矩阵
8)矩阵的SVD分解
9)矩阵的求导
10)矩阵映射/投影
四、凸优化 1)凸优化基本概念
2)凸集
3)凸函数
4)凸优化问题标准形式
5)凸优化之Lagerange对偶化
6)凸优化之牛顿法、梯度下降法求解
阶段二、人工智能提升 - Python高级应用 随着AI时代的到来以及其日益蓬勃的发展,Python作为AI时代的头牌语言地位基本确定,机器学习是着实令人兴奋,但其复杂度及难度较大,通常会涉及组装工作流和管道、设置数据源及内部和云部署之间的分流而有了Python库后,可帮助加快数据管道,且Python库也在不断更新发布中,所以本阶段旨在为大家学习后续的机器学习减负。
一、容器 1)列表:list
2)元组:tuple
3)字典: dict
4)数组: Array
5)切片
6)列表推导式
7)浅拷贝和深拷贝
二、函数 1)lambda表达式
2)递归函数及尾递归优化
3)常用内置函数/高阶函数
4)项目案例:约瑟夫环问题
三、常用库 1)时间库
2)并发库
3)科学计算库
4)Matplotlib可视化绘图库
5)锁和线程
6)多线程编程
阶段三、人工智能实用 - 机器学习篇机器学习利用算法去分析数据、学习数据,随后对现实世界情况作出判断和预测。因此,与预先编写好、只能按照特定逻辑去执行指令的软件不同,机器实际上是在用大量数据和算法去“自我训练”,从而学会如何完成一项任务。
所以本阶段主要从机器学习概述、数据清洗和特征选择、回归算法、决策树、随机森林和提升算法、SVM、聚类算、EM算法、贝叶斯算法、隐马尔科夫模型、LDA主题模型等方面讲解一些机器学习的相关算法以及这些算法的优化过程,这些算法也就是监督算法或者无监督算法。
一、机器学习 1)机器学习概述
二、监督学习 1)逻辑回归
2)softmax分类
3)条件随机场
4)支持向量机svm
5)决策树
6)随机森林
7)GBDT
8)集成学习
三、非监督学习 1)高斯混合模型
2)聚类
3)PCA
4)密度估计
5)LSI
6)LDA
7)双聚类
8)降维算法
四、数据处理与模型调优 1)特征提取
2)数据预处理
3)数据降维
4)模型参数调优
5)模型持久化
6)模型可视化
7)优化算法:坐标轴下降法和最小角回归法
8)数据挖掘关联规则算法
9)感知器模型
阶段四、人工智能实用 - 数据挖掘篇 本阶段主要通过音乐文件分类和金融反欺诈模型训练等项目,帮助大家对于上阶段的机器学习做更深入的巩固,为后续深度学习及数据挖掘提供项目支撑。
项目一:百度音乐系统文件分类 音乐推荐系统就是利用音乐网站上的音乐信息,向用户提供音乐信息或者建议,帮助用户决定应该听什么歌曲。而个人化推荐则是基于音乐信息及用户的兴趣特征、听歌历史行为,向用户推荐用户可能会感兴趣的音乐或者歌手。推荐算法主要分为以下几种:基于内容的推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐等;推荐系统常用于各个互联网行业中,比如音乐、电商、旅游、金融等。
项目二:千万级P2P金融系统反欺诈模型训练 目前比较火的互联网金融领域,实质是小额信贷,小额信贷风险管理,本质上是事前对风险的主动把控,尽可能预测和防范可能出现的风险。本项目应用GBDT、Randomforest等机器学习算法做信贷反欺诈模型,通过数据挖掘技术,机器学习模型对用户进行模型化综合度量,确定一个合理的风险范围,使风险和盈利达到一个平衡的状态。
阶段五、人工智能前沿 - 深度学习篇 深度学习是实现机器学习的技术,同时深度学习也带来了机器学习的许多实际应用,拓展了AI的使用领域,本阶段主要从TensorFlow、BP神经网络、深度学习概述、CNN卷积神经网络、递归神经网、自动编码机,序列到序列网络、生成对抗网络,孪生网络,小样本学习技术等方面讲解深度学习相关算法以,掌握深度学习前沿技术,并根据不同项目选择不同的技术解决方案。针对公司样本不足,采用小样本技术和深度学习技术结合,是项目落地的解决方案。
1)TensorFlow基本应用
2)BP神经网络
3)深度学习概述
4)卷积神经网络(CNN)
5)图像分类(vgg,resnet)
6)目标检测(rcnn,fast-rcnn,faster-rcnn,ssd)
7)递归神经网络(RNN)
8)lstm,bi-lstm,多层LSTM
9)无监督学习之AutoEncoder自动编码器
10)Seq2Seq
11)Seq2Seq with Attension
12)生成对抗网络
13)irgan
14)finetune及迁移学习
15)孪生网络
16)小样本学习
阶段六、人工智能进阶 - 自然语言处理篇 自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向。它已成为人工智能的核心领域。自然语言处理解决的是“让机器可以理解自然语言”这一到目前为止都还只是人类独有的特权,被誉为人工智能皇冠上的明珠,被广泛应用。本阶段从NLP的字、词和句子全方位多角度的学习NLP,作为NLP的基础核心技术,对NLP为核心的项目,如聊天机器人,合理用药系统,写诗机器人和知识图谱等提供底层技术。通过学习NLP和深度学习技术,掌握NLP具有代表性的前沿技术。
1)词(分词,词性标注)代码实战
2)词(深度学习之词向量,字向量)代码实战
3)词(深度学习之实体识别和关系抽取)代码实战
4)词(关键词提取,无用词过滤)代码实战
5)句(句法分析,语义分析)代码实战
6)句(自然语言理解,一阶逻辑)代码实战
7)句(深度学习之文本相似度)代码实战
阶段七、人工智能进阶 - 图像处理篇 数字图像处理(Digital Image Processing)是通过计算机对图像进行去除噪声、增强、复原、分割、提取特征等处理的方法和技术。广泛的应用于农牧业、林业、环境、军事、工业和医学等方面,是人工智能和深度学习的重要研究方向。深度学习作为当前机器学习领域最热门的技术之一,已经在图像处理领域获得了应用,并且展现出巨大的前景。本阶段学习了数字图像的基本数据结构和处理技术,到前沿的深度学习处理方法。掌握前沿的ResNet,SSD,Faster RCNN等深度学习模型,对图像分类,目标检测和模式识别等图像处理主要领域达到先进水平。实际工作中很多项目都可以转化为本课程的所学的知识去解决,如行人检测,人脸识别和数字识别。
一、图像基础 图像读,写,保存,画图(线,圆,多边形,添加文字)
二、图像操作及算数运算 图像像素读取,算数运算,ROI区域提取
三、图像颜色空间运算 图像颜色空间相互转化
四、图像几何变换 平移,旋转,仿射变换,透视变换等
五、图像形态学 腐蚀,膨胀,开/闭运算等
六、图像轮廓 长宽,面积,周长,外接圆,方向,平均颜色,层次轮廓等
七、图像统计学 图像直方图
八、图像滤波 高斯滤波,均值滤波,双边滤波,拉普拉斯滤波等
阶段八、人工智能终极实战 - 项目应用 本阶段重点以项目为导向,通过公安系统人脸识别、图像识别以及图像检索、今日头条CTR广告点击量预估、序列分析系统、聊天机器人等多个项目的讲解,结合实际来进行AI的综合运用。
项目一:公安系统人脸识别、图像识别 使用深度学习框架从零开始完成人脸检测的核心技术图像类别识别的操作,从数据预处理开始一步步构建网络模型并展开分析与评估,方便大家快速动手进行项目实践!识别上千种人靓,返回层次化结构的每个人的标签。
项目二:公安系统图像检索 本项目基于卷积神经网在训练过程中学习出对应的『二值检索向量』,对全部图先做了一个分桶操作,每次检索的时候只取本桶和临近桶的图片作比对,而不是在全域做比对,使用这样的方式提高检索速度,使用Tensorflow框架建立基于ImageNet的卷积神经网络,并完成模型训练以及验证。
项目三:今日头条CTR广告点击量预估 点击率预估是广告技术的核心算法之一,它是很多广告算法工程师喜爱的战场。广告的价值就在于宣传效果,点击率是其中最直接的考核方式之一,点击率越大,证明广告的潜在客户越多,价值就越大,因此才会出现了刷点击率的工具和技术。通过对于点击量的评估,完成对于潜在用户的价值挖掘。
项目四:序列分析系统 时间序列分析(Time Series Analysis)是一种动态数据处理的统计方法,主要基于随机过程理论和数理统计方法,研究随机数据序列所遵从的统计规律以便用于解决实际问题。主要包括自相关分析等一般的统计分析方法,构建模型从而进行业务推断。经典的统计分析是假定数据序列具有独立性,而时间序列分析则侧重于研究数据样本序列之间的依赖关系。时间序列预测一般反应了三种实际变化规律:趋势变化、周期性变化和随机性变化。时间序列预测常应用于国民经济宏观控制、企业经营管理、市场潜力量预测、天气预报、水文预报等方面,是应用于金融行业的一种核心算法之一。
项目五:京东聊天机器人/智能客服 聊天机器人/智能客服是一个用来模拟人类对话或者聊天的一个系统,利用深度学习和机器学习等NLP相关算法构建出问题和答案之间的匹配模型,然后可以将其应用到客服等需要在线服务的行业领域中,聊天机器人可以降低公司客服成本,还能够提高客户的体验友好性。 在一个完整的聊天机器人实现过程中,主要包含了一些核心技术,包括但不限于:爬虫技术、机器学习算法、深度学习算法、NLP领域相关算法。通过实现一个聊天机器人可以帮助我们队AI整体知识的一个掌握。
项目六:机器人写诗歌 机器人写诗歌/小说是一种基于NLP自然语言相关技术的一种应用,在实现过程中可以基于机器学习相关算法或者深度学习相关算法来进行小说/诗歌构建过程。人工智能的一个终极目标就是让机器人能够像人类一样理解文字,并运用文字进行创作,而这个目标大致上主要分为两个部分,也就是自然语言理解和自然语言生成,其中现阶段的主要自然语言生成的运用,自然语言生成主要有两种不同的方式,分别为基于规则和基于统计,基于规则是指首先了解词性及语法等规则,再依据这样的规则写出文章;而基于统计的本质是根据先前的字句和统计的结果,进而判断下一个子的生成,例如马尔科夫模型就是一种常用的基于统计的方法。
项目七:机器翻译系统 机器翻译又称自动翻译,是指利用计算机将一种自然语言转换为另外一种自然语言的过程,机器翻译是人工智能的终极目标之一,具有很高的研究价值,同时机器翻译也具有比较重要的实用价值,机器翻译技术在促进政治、经济、文化交流等方面起到了越来越重要的作用;机器翻译主要分为以下三个过程:原文分析、原文译文转换和译文生成;机器翻译的方式有很多种,但是随着深度学习研究取得比较大的进展,基于人工网络的机器翻译也逐渐兴起,特别是基于长短时记忆(LSTM)的循环神经网络(RDD)的应用,为机器翻译添了一把火。
私聊