本阶段主要从数据分析、概率论和线性代数及矩阵和凸优化这四大块讲解基础,旨在训练大家逻辑能力,分析能力。拥有良好的数学基础,有利于大家在后续课程的学习中更好的理解机器学习和深度学习的相关算法内容。同时对于AI研究尤为重要,例如人工智能中的智能很大一部分依托“概率论”实现的。
一、数据分析 |
|
1)常数e |
5)gini系数 |
二、概率论 |
|
1)微积分与逼近论 |
6)常见概率分布 |
三、线性代数及矩阵 |
|
1)线性空间及线性变换 |
6)矩阵的QR分解 |
四、凸优化 |
|
1)凸优化基本概念 |
4)凸优化问题标准形式 |
随着AI时代的到来以及其日益蓬勃的发展,Python作为AI时代的头牌语言地位基本确定,机器学习是着实令人兴奋,但其复杂度及难度较大,通常会涉及组装工作流和管道、设置数据源及内部和云部署之间的分流而有了Python库后,可帮助加快数据管道,且Python库也在不断更新发布中,所以本阶段旨在为大家学习后续的机器学习减负。
一、容器 |
|
1)列表:list |
5)切片 |
二、函数 |
|
1)lambda表达式 |
3)常用内置函数/高阶函数 |
三、常用库 |
|
1)时间库 |
4)Matplotlib可视化绘图库 |
机器学习利用算法去分析数据、学习数据,随后对现实世界情况作出判断和预测。因此,与预先编写好、只能按照特定逻辑去执行指令的软件不同,机器实际上是在用大量数据和算法去“自我训练”,从而学会如何完成一项任务。
所以本阶段主要从机器学习概述、数据清洗和特征选择、回归算法、决策树、随机森林和提升算法、SVM、聚类算、EM算法、贝叶斯算法、隐马尔科夫模型、LDA主题模型等方面讲解一些机器学习的相关算法以及这些算法的优化过程,这些算法也就是监督算法或者无监督算法。
一、机器学习 |
|
1)机器学习概述 |
|
二、监督学习 |
|
1)逻辑回归 |
5)决策树 |
三、非监督学习 |
|
1)高斯混合模型 4)密度估计 |
5)LSI |
四、数据处理与模型调优 |
|
1)特征提取 |
6)模型可视化 |
本阶段主要通过音乐文件分类和金融反欺诈模型训练等项目,帮助大家对于上阶段的机器学习做更深入的巩固,为后续深度学习及数据挖掘提供项目支撑。
项目一:百度音乐系统文件分类 |
|
音乐推荐系统就是利用音乐网站上的音乐信息,向用户提供音乐信息或者建议,帮助用户决定应该听什么歌曲。而个人化推荐则是基于音乐信息及用户的兴趣特征、听歌历史行为,向用户推荐用户可能会感兴趣的音乐或者歌手。推荐算法主要分为以下几种:基于内容的推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐等;推荐系统常用于各个互联网行业中,比如音乐、电商、旅游、金融等。 |
|
项目二:千万级P2P金融系统反欺诈模型训练 |
|
目前比较火的互联网金融领域,实质是小额信贷,小额信贷风险管理,本质上是事前对风险的主动把控,尽可能预测和防范可能出现的风险。本项目应用GBDT、Randomforest等机器学习算法做信贷反欺诈模型,通过数据挖掘技术,机器学习模型对用户进行模型化综合度量,确定一个合理的风险范围,使风险和盈利达到一个平衡的状态。 |
深度学习是实现机器学习的技术,同时深度学习也带来了机器学习的许多实际应用,拓展了AI的使用领域,本阶段主要从TensorFlow、BP神经网络、深度学习概述、CNN卷积神经网络、递归神经网、自动编码机,序列到序列网络、生成对抗网络,孪生网络,小样本学习技术等方面讲解深度学习相关算法以,掌握深度学习前沿技术,并根据不同项目选择不同的技术解决方案。针对公司样本不足,采用小样本技术和深度学习技术结合,是项目落地的解决方案。
1)TensorFlow基本应用 |
9)无监督学习之AutoEncoder自动编码器 |
自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向。它已成为人工智能的核心领域。自然语言处理解决的是“让机器可以理解自然语言”这一到目前为止都还只是人类独有的特权,被誉为人工智能皇冠上的明珠,被广泛应用。本阶段从NLP的字、词和句子全方位多角度的学习NLP,作为NLP的基础核心技术,对NLP为核心的项目,如聊天机器人,合理用药系统,写诗机器人和知识图谱等提供底层技术。通过学习NLP和深度学习技术,掌握NLP具有代表性的前沿技术。
1)词(分词,词性标注)代码实战 |
5)句(句法分析,语义分析)代码实战 |
数字图像处理(Digital Image Processing)是通过计算机对图像进行去除噪声、增强、复原、分割、提取特征等处理的方法和技术。广泛的应用于农牧业、林业、环境、军事、工业和医学等方面,是人工智能和深度学习的重要研究方向。深度学习作为当前机器学习领域最热门的技术之一,已经在图像处理领域获得了应用,并且展现出巨大的前景。本阶段学习了数字图像的基本数据结构和处理技术,到前沿的深度学习处理方法。掌握前沿的ResNet,SSD,Faster RCNN等深度学习模型,对图像分类,目标检测和模式识别等图像处理主要领域达到先进水平。实际工作中很多项目都可以转化为本课程的所学的知识去解决,如行人检测,人脸识别和数字识别。
一、图像基础 |
|
图像读,写,保存,画图(线,圆,多边形,添加文字) |
|
二、图像操作及算数运算 |
|
图像像素读取,算数运算,ROI区域提取 |
|
三、图像颜色空间运算 |
|
图像颜色空间相互转化 |
|
四、图像几何变换 |
|
平移,旋转,仿射变换,透视变换等 |
|
五、图像形态学 |
|
腐蚀,膨胀,开/闭运算等 |
|
六、图像轮廓 |
|
长宽,面积,周长,外接圆,方向,平均颜色,层次轮廓等 |
|
七、图像统计学 |
|
图像直方图 |
|
八、图像滤波 |
|
高斯滤波,均值滤波,双边滤波,拉普拉斯滤波等 |
本阶段重点以项目为导向,通过公安系统人脸识别、图像识别以及图像检索、今日头条CTR广告点击量预估、序列分析系统、聊天机器人等多个项目的讲解,结合实际来进行AI的综合运用。
项目一:公安系统人脸识别、图像识别 |
|
使用深度学习框架从零开始完成人脸检测的核心技术图像类别识别的操作,从数据预处理开始一步步构建网络模型并展开分析与评估,方便大家快速动手进行项目实践!识别上千种人靓,返回层次化结构的每个人的标签。 |
|
项目二:公安系统图像检索 |
|
本项目基于卷积神经网在训练过程中学习出对应的『二值检索向量』,对全部图先做了一个分桶操作,每次检索的时候只取本桶和临近桶的图片作比对,而不是在全域做比对,使用这样的方式提高检索速度,使用Tensorflow框架建立基于ImageNet的卷积神经网络,并完成模型训练以及验证。 |
|
项目三:今日头条CTR广告点击量预估 |
|
点击率预估是广告技术的核心算法之一,它是很多广告算法工程师喜爱的战场。广告的价值就在于宣传效果,点击率是其中最直接的考核方式之一,点击率越大,证明广告的潜在客户越多,价值就越大,因此才会出现了刷点击率的工具和技术。通过对于点击量的评估,完成对于潜在用户的价值挖掘。 |
|
项目四:序列分析系统 |
|
时间序列分析(Time Series Analysis)是一种动态数据处理的统计方法,主要基于随机过程理论和数理统计方法,研究随机数据序列所遵从的统计规律以便用于解决实际问题。主要包括自相关分析等一般的统计分析方法,构建模型从而进行业务推断。经典的统计分析是假定数据序列具有独立性,而时间序列分析则侧重于研究数据样本序列之间的依赖关系。时间序列预测一般反应了三种实际变化规律:趋势变化、周期性变化和随机性变化。时间序列预测常应用于国民经济宏观控制、企业经营管理、市场潜力量预测、天气预报、水文预报等方面,是应用于金融行业的一种核心算法之一。 |
|
项目五:京东聊天机器人/智能客服 |
|
聊天机器人/智能客服是一个用来模拟人类对话或者聊天的一个系统,利用深度学习和机器学习等NLP相关算法构建出问题和答案之间的匹配模型,然后可以将其应用到客服等需要在线服务的行业领域中,聊天机器人可以降低公司客服成本,还能够提高客户的体验友好性。 在一个完整的聊天机器人实现过程中,主要包含了一些核心技术,包括但不限于:爬虫技术、机器学习算法、深度学习算法、NLP领域相关算法。通过实现一个聊天机器人可以帮助我们队AI整体知识的一个掌握。 |
|
项目六:机器人写诗歌 |
|
机器人写诗歌/小说是一种基于NLP自然语言相关技术的一种应用,在实现过程中可以基于机器学习相关算法或者深度学习相关算法来进行小说/诗歌构建过程。人工智能的一个终极目标就是让机器人能够像人类一样理解文字,并运用文字进行创作,而这个目标大致上主要分为两个部分,也就是自然语言理解和自然语言生成,其中现阶段的主要自然语言生成的运用,自然语言生成主要有两种不同的方式,分别为基于规则和基于统计,基于规则是指首先了解词性及语法等规则,再依据这样的规则写出文章;而基于统计的本质是根据先前的字句和统计的结果,进而判断下一个子的生成,例如马尔科夫模型就是一种常用的基于统计的方法。 |
|
项目七:机器翻译系统 |
|
机器翻译又称自动翻译,是指利用计算机将一种自然语言转换为另外一种自然语言的过程,机器翻译是人工智能的终极目标之一,具有很高的研究价值,同时机器翻译也具有比较重要的实用价值,机器翻译技术在促进政治、经济、文化交流等方面起到了越来越重要的作用;机器翻译主要分为以下三个过程:原文分析、原文译文转换和译文生成;机器翻译的方式有很多种,但是随着深度学习研究取得比较大的进展,基于人工网络的机器翻译也逐渐兴起,特别是基于长短时记忆(LSTM)的循环神经网络(RDD)的应用,为机器翻译添了一把火。 |
|
项目八:垃圾邮件过滤系统 |
|
邮件主要可以分为有效邮件和垃圾邮件两大类,有效邮件指的邮件接收者有意义的邮件,而垃圾邮件转指那些没有任何意义的邮件,其内容主要包含赚钱信息、成人广告、商业或者个人网站广告、电子杂志等,其中垃圾邮件又可以发为良性垃圾邮件和恶性垃圾邮件,良性垃圾邮件指的就是对收件人影响不大的信息邮件,而恶性垃圾邮件指具有破坏性的电子邮件,比如包含病毒、木马等恶意程序的邮件。垃圾邮件过滤主要使用使用机器学习、深度学习等相关算法,比如贝叶斯算法、CNN等,识别出所接收到的邮件中那些是垃圾邮件。 |
|
项目九:手工数字识别 |
|
人认知世界的开始就是从认识数字开始的,深度学习也一样,数字识别是深度学习的一个很好的切入口,是一个非常经典的原型问题,通过对手写数字识别功能的实现,可以帮助我们后续对神经网络的理解和应用。选取手写数字识别的主要原因是手写数字具有一定的挑战性,要求对编程能力及神经网络思维能力有一定的要求,但同时手写数字问题的复杂度不高,不需要大量的运算,而且手写数字也可以作为其它技术的一个基础,所以以手写数字识别为基础,贯穿始终,从而理解深度学习相关的应用知识。 |
|
项目十:癌症筛选检测 |
|
技术可以改变癌症患者的命运吗,对于患有乳腺癌患者来说,复发还是痊愈影响这患者的生命,那么怎么来预测患者的患病结果呢,机器学习算法可以帮助我们解决这一难题,本项目应用机器学习logistic回归模型,来预测乳腺癌患者复发还是正常,有效的预测出医学难题。 |
|
项目十一:葡萄酒质量检测系统 |
|
随着信息科技的快速发展,计算机中的经典算法在葡萄酒产业中得到了广泛的研究与应用。其中机器学习算法的特点是运用了人工智能技术,在大量的样本集训练和学习后可以自动地找出运算所需要的参数和模型。 |
|
项目十二:淘宝网购物篮分析推荐算法 |
|
购物篮分析(Market Basket Analysis)即非常有名的啤酒尿布故事的一个反应,是通过对购物篮中的商品信息进行分析研究,得出顾客的购买行为,主要目的是找出什么样的物品会经常出现在一起,也就是那些商品之间是有很大的关联性的。通过购物篮分析挖掘出来的信息可以用于指导交叉销售、追加销售、商品促销、顾客忠诚度管理、库存管理和折扣计划等业务;购物篮分析的最常用应用场景是电商行业,但除此之外,该算法还被应用于信用卡商城、电信与金融服务业、保险业以及医疗行业等。 |
|
项目十三:手工实现梯度下降回归算法 |
|
梯度下降法(英语:Gradient descent)是一个一阶最优化算法,通常也称为最速下降法。 要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索。如果相反地向梯度正方向迭代进行搜索,则会接近函数的局部极大值点;这个过程则被称为梯度上升法。 |
|
项目十四:基于TensorFlow实现回归算法 |
|
回归算法是业界比较常用的一种机器学习算法,通过应用于各种不同的业务场景,是一种成熟而稳定的算法种类;TensorFlow是一种常用于深度学习相关领域的算法工具;随着深度学习热度的高涨,TensorFlow的使用也会越来越多,从而使用TensorFlow来实现一个不存在的算法,会加深对TensorFlow的理解和使用;基于TensorFlow的回归算法的实现有助于后续的TensorFlow框架的理解和应用,并可以促进深度学习相关知识的掌握。 |
|
项目十五:合理用药系统 |
|
合理用药系统,是根据临床合理用药专业工作的基本特点和要求,运用NLP和深度学习技术对药品说明书,临床路径等医学知识进行标准化,结构化处理。如自动提取药品说明书文本里面的关键信息如:药品相互作用,禁忌,用法用量,适用人群等,实现医嘱自动审查,及时发现不合理用药问题,帮助医生、药师等临床专业人员在用药过程中及时有效地掌握和利用医药知识,预防药物不良事件的发生、促进临床合理用药工作。 |
|
项目十六:行人检测 |
|
行人检测是利用图像处理技术和深度学习技术对图像或者视频序列中是否存在行人并给予精确定位。学习完行人检测技术后,对类似的工业缺陷检测,外观检测和医疗影像检测等目标检测范畴类的项目可以一通百通。该技术可与行人跟踪,行人重识别等技术结合,应用于人工智能系统、车辆辅助驾驶系统、智能机器人、智能视频监控、人体行为分析、智能交通等领域。由于行人兼具刚性和柔性物体的特性 ,外观易受穿着、尺度、遮挡、姿态和视角等影响,使得行人检测成为计算机视觉领域中一个既具有研究价值同时又极具挑战性的热门课题。 |
|
项目十七:时间序列算法模型 |
|
拿到一个观察序列后,首先要对它的平稳性和纯随机性进行检验,这两个重要的检验称为序列的预处理。根据检验的结果可以将序列分为不同的类型,对不同的类型我们采用不同的分析方法。 |
|
项目十八:PySpark大数据机器学习框架 |
|
Spark由AMPLab实验室开发,其本质是基于内存的快速迭代框架,“迭代”是机器学习最大的特点,因此非常适合做机器学习。得益于在数据科学中强大的表现,Python是一种解释型、面向对象、动态数据类型的高级程序设计语言,结合强大的分布式内存计算框架Spark,两个领域的强者走到一起,自然能碰出更加强大的火花(Spark可以翻译为火花)。 |
|
项目十九:天池、kaggle比赛 |
|
2014年3月,阿里巴巴集团董事局主席马云在北京大学发起“天池大数据竞赛”。首届大赛共有来自全球的7276支队伍参赛,海外参赛队伍超过148支。阿里巴巴集团为此开放了5.7亿条经过严格脱敏处理的数据。2014年赛季的数据提供方为贵阳市政府,参赛者根据交通数据模拟控制红绿灯时间,寻找减轻道路拥堵的方法。 |
|
项目二十:量化交易 |
|
量化交易(Quantitative Trading)是指借助现代统计学和数学的方法,利用计算机技术来进行交易的证券投资方式。量化交易从庞大的历史数据中海选能带来超额收益的多种“大概率”事件以制定策略,用数量模型验证及固化这些规律和策略,然后严格执行已固化的策略来指导投资,以求获得可以持续的、稳定且高于平均收益的超额回报。 |
全面介绍BCC(CDS 、EIP)、BLB、RDS、BOS、VPC等百度云弹性计算服务,介绍百度云的安全防护方案,深入介绍传统架构下如何通过百度云弹性计算服务快速构建更稳定、安全的应用;
认证培训专家将通过深入浅出,理论和实践相结合的课程帮助学员深入掌握百度云弹性计算服务。
1)快速体验百度云服务器BCC的功能全貌 |
11)云数据库RDS的备份与恢复操作体验 |
基于百度云弹性计算服务的基础产品,实现传统IT架构迁移到百度云上的实战,为客户业务上云提升能力,提升客户上云前的信心,上云中和上云后的技术能力。以真实的客户案例,结合设计好的动手实验课提升实战经验,介绍了业务上云的过程、方法、工具以及案例等。
1)基于BCC快速部署LNMP基础环境 |
6)云数据库RDS结合数据传输服务DTS实现数据迁移上云的最佳实践 |
全面介绍使用百度云产品进行应用开发,理解百度云主要产品特性,包括BCC、BOS、RDS、SCS在应用开发中的使用,结合实际应用开发案例全面的介绍整个开发流程和百度云产品使用方法,以提升学员开发技能和了解百度云产品开发特点,根据一天或者两天的课程,提供多个实际动手实验,认证讲师指导实验,真正做到学以致用,为学员实现上云开发保驾护航。
1)基于百度云OpenAPI实现简化版控制台的综合实验 |
2)基于百度云BOS OpenAPI实现简化版的百度网盘 |
百度天工物联平台是“一站式、全托管”的物联网服务平台,依托百度云基础产品与服务,提供全栈物联网核心服务,帮助开发者快速搭建、部署物联网应用。通过全面介绍天工的IoT Hub、IoT Parser、Rule Engine、IoT Device、BML、BMR、OCR和语音识别等产品与服务,解析天工典型的产品架构方案,应用到工业4.0、车联网、能源、物流和智能硬件等各行业解决方案。
1)基于百度云LSS快速搭建音视频直播平台最佳实践 |
4)基于百度云文档服务DOC体验文档存储、转码、分发播放一站式服务体验 |
天智是基于世界领先的百度大脑打造的人工智能平台,提供了语音技术、文字识别、人脸识别、深度学习和自然语言NLP等一系列人工智能产品及解决方案,帮助各行各业的客户打造智能化业务系统。本课程力求对百度人工智能服务平台进行整体、全面的介绍,包括天智平台与解决方案介绍、主要产品(百度语音、人脸识别、文字识别、百度深度学习、百度机器学习 BML、自然语言NLP等)的介绍、客户案例分享等。
1)百度机器学习BML-广告点击率预估 |
4)百度自然语言处理-短文本相似度 |
课程风格通俗易懂,基于真实数据集案例实战。主体课程分成三个大模块(1)python数据分析,(2)机器学习经典算法原理详解,(3)十大经典案例实战。通过python数据科学库numpy,pandas,matplot结合机器学习库scikit-learn完成一些列的机器学习案例。算法课程注重于原理推导与流程解释,结合实例通俗讲解复杂的机器学习算法,并以实战为主,所有课时都结合代码演示。算法与项目相结合,选择经典kaggle项目,从数据预处理开始一步步代码实战带大家快速入门机器学习。旨在帮助同学们快速上手如何使用python库来完整机器学习案例。选择经典案例基于真实数据集,从数据预处理开始到建立机器学习模型以及效果评估,完整的讲解如何使用python及其常用库进行数据的分析和模型的建立。对于每一个面对的挑战,分析解决问题思路以及如何构造合适的模型并且给出合适评估方法。在每一个案例中,同学们可以快速掌握如何使用pandas进行数据的预处理和分析,使用matplotlib进行可视化的展示以及基于scikit-learn库的机器学习模型的建立。
1)Python数据分析与机器学习实战课程简介 |
14)SVD与推荐 |
课程风格通俗易懂,必备原理,形象解读,项目实战缺一不可!主体课程分成四个大模块(1)神经网络必备基础知识点,(2)深度学习模型,(3)深度学习框架Caffe与Tensorflow,(4)深度学习项目实战。 课程首先概述讲解深度学习应用与挑战,由计算机视觉中图像分类任务开始讲解深度学习的常规套路。对于复杂的神经网络,将其展开成多个小模块进行逐一攻破,再挑战整体神经网络架构。对于深度学习模型形象解读卷积神经网络原理,详解其中涉及的每一个参数,对卷积网络架构展开分析与评估,对于现阶段火爆的对抗生成网络以及强化学习给出形象解读,并配合项目实战实际演示效果。 基于框架实战,选择两款深度学习最火框架,Caffe与Tensorflow,首先讲解其基本使用方法,并结合案例演示如何应用框架构造神经网络模型并完成案例任务。 选择经典深度学习项目实战,使用深度学习框架从零开始完成人脸检测,验证码识别,人脸关键点定位,垃圾邮件分类,图像风格转换,AI自己玩游戏等。对于每一个项目实战,从数据预处理开始一步步构建网络模型并展开分析与评估。 课程提供所涉及的所有数据,代码以及PPT,方便大家快速动手进行项目实践!
1)深度学习概述与挑战 |
19)人脸正负样本数据源制作 |
随着科技的发展,现在视频的来源和类型多样性,互联网视频内容充斥着整个网络,如果仅仅是通过翻页的方法来寻找自己想看的视频必然会感到疲劳,现在急需一种能智能推荐的工具,推荐系统通过分析用户对视频的评分分析,对用户的兴趣进行建模,从而预测用户的兴趣并给用户进行推荐。
Python是一种面向对象的解释型计算机程序设计语言,Python具有丰富和强大的库。它常被昵称为胶水语言,而大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,企业面临海量数据的到来,大多选择把数据从本地迁移至云端,云端将成为最大的非结构化数据存储场所。本项目主要以客户咨询为载体,分析客户的群体,分布,旨在挖掘客户的内在需求,帮助企业实现更有价值的营销。
一、教务管理系统业务介绍 |
|
1)教务管理系统框架讲解 |
2)系统业务逻辑介绍 |
二、大数据需求分析 |
|
1)明确数据需求 |
3)分析难点和解决方案 |
三、构建分布式大数据框架 |
|
1)Hadoop分布式集群配置 |
4)ETL数据清洗 |
四、基于教务管理系统大数据分析 |
|
1)业务数据分析指标设定 |
3)使用Hive进行数据整合抽离 |
五、大数据可视化 |
|
1)可视化技术选型 |
3)使用Tableau进行数据可视化展示 |
本项目从开发的角度以大数据、PHP技术栈为基础,使用真实商用表结构和脱敏数据,分三步构建商用系统、真实大数据环境、进行推断分析以及呈现结果。 项目课程的完整性、商业性,可以使学者尽可能完整地体会真实的商业需求和业务逻辑。完整的项目过程,使PHP技术栈的同学得以窥见和学到一个完整商业平台项目的搭建方法;真实大数据环境的搭建,使呈现、建立大数据的工具应用技术概念储备;基于大数据平台的分析需求的实现、呈现,将完整的一次大数据技术栈到分析结果的中线,平铺直述,为想要学习大数据并有开发基础的同学点亮新的能力。
一、实践项目研发 |
|
1)开发环境的安装配置 |
4)批量创建模型 |
二、数据分析需求设立 |
|
1)定义数据需求 |
3)分析难点和解决方案 |
三、大数据平台搭建 |
|
1)分布式环境的模拟建立 |
4)Hadoop环境搭建和要点说明 |
四、大数据分析脚本编写 |
|
1)MapReduce脚本编写 |
4)Reduce逻辑详写 |
五、结果可视化 |
|
1)可视化需求和技术选型 |
3)可视化JS上手 |
本项目结合目前流行的大数据框架,在原有成熟业务的前提下,进行大数据分析处理,真实还原企业应用,让学员身临其境的感受企业大数据开发的整个流程。
项目的业务系统底层主要采用JAVA架构,大数据分析主要采用Hadoop框架,其中包括Kettle实现ETL、SQOOP、Hive、Kibana、HBASE、Spark以及人工智能算法等框架技术;采用真实大数据集群环境的搭建,让学员切身感受企业项目的从0到1的过程。
一、系统业务介绍 |
|
1)底层业务实现框架讲解 |
2)功能模块讲解 |
二、系统架构设计 |
|
1)总体架构分析 |
3)各技术选型承载作用 |
三、详尽实现 |
|
1)原始数据处理 |
3)MR数据计算 |
四、数据可视化 |
|
1)采用Highcharts插件展示客户偏好曲线图 |
2)使用Tableau进行数据分析可视化展示 |
五、项目优化 |
|
1)ZooKeeper实现HA |
2)集群监控的整体联调 |
随着当今个人手机终端的普及、出行人群中手机拥有率和使用率已达到相当高的比例,根据手机信号在真实地理空间的覆盖情况,将手机用户时间序列的手机定位数据,映射至现实地理位置空间位置,即可完整、客观地还原出手机用户的现实活动轨迹,从而挖掘出人口空间分布与活动联系特征信息。
商圈是现代市场中企业市场活动的空间,同时也是商品和服务享用者的区域。商圈划分为目的之一是研究潜在顾客分布,以制定适宜的商业对策。
本项目以实战为基础结合大数据技术Hadoop、.Net技术全栈为基础,采用真实商业数据,分不同环节构建商用系统、真实大数据环境、进行推断分析及呈现数据。
一、分析系统业务逻辑讲解 |
|
1)大数据基站定位智能推荐商圈分析系统介绍 |
2)数据前期清洗和数据分析目标指标的设定等 |
二、大数据导入与存储 |
|
1)关系型数据库基础知识 |
5)Sqoop安装及使用 |
三、Hbase理论及实战 |
|
1)Hbase简介、安装及配置 |
4)Hbase 访问接口 |
四、基站数据分析与统计推断 |
|
1)背景与分析推断目标 |
3)动手实践(分析既定指标数据) |
五、数据分析与统计推断结果的展示(大数据可视化) |
|
1)使用Tableau展示数据分析结果 |
2)使用HighCharts、ECharts展示数据分析结果 |
区块链(Blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。所谓共识机制是区块链系统中实现不同节点之间建立信任、获取权益的数学算法。
区块链是比特币的底层技术,像一个数据库账本,记载所有的交易记录。这项技术也因其安全、便捷的特性逐渐得到了银行与金融业的关注。
一、课程介绍 |
|
1)区块链的发展 |
3)学习目标 |
二、区块链的技术架构 |
|
1)数据层 创世区块 交易记录 私钥,公钥和钱包地址 |
5)合约层 比特币脚本 以太坊智能合约 fabic智能合约 RPC远程调用 |
三、环境搭建 |
|
1)以太坊 以太坊介绍 以太坊开发过程 图形界面客户端使用 供应链的应用 保险领域的应用 DAO的介绍和应用 |
3)hyperledger项目fabric介 fabric介绍 fabric本地开发环境搭建 fabric分布式集群环境搭建 |
四、案例和DEMO |
|
1)案例讲解 支付和清结算 公益行业的应用 供应链的应用 保险领域的应用 DAO的介绍和应用 |
3)Demo介绍 数据资产的确权和追溯 |
程序化交易:又称程式交易,发源于上世纪80年代的美国,其最初的定义是指在纽约股票交易所(NYSE)市场上同时买卖超过15只以上的股票组合;像高盛、摩根士丹利及德意志银行都是在各大交易市场程序化交易的最活跃参与会员。
本课程主要面向意愿从事金融量化交易人员、金融行业从业人员、金融策略开发人员及投资经验丰富而想实现计算机自动下单人员;主要讲解了证券期货程序化实现原理及过程,通过本课程的学习,您可以根据自己的意愿打造属于自己的量化投资交易系统; 本课程主要用到的技术手段有:Python、Pandas、数据分析、数据挖掘机器学习等。
一、程序化交易数据获取与清洗讲解 |
|
1)数据的清洗与合成 |
3)技术指标开发讲解 |
二、回测框架搭建讲解 |
|
1)回测框架搭建背景及基本流程讲解 |
2)回测框架实现及收益指标讲解 |
三、程序化交易部分实现讲解 |
|
1)CTP技术讲解 |
3)程序化交易具体实现讲解 |
课程一、云计算 - 网站建设:部署与发布 |
|
阿里云网站建设认证课程教你如何掌握将一个本地已经设计好的静态网站发布到Internet公共互联网,绑定域名,完成工信部的ICP备案。 |
|
课程二、云计算 - 网站建设:简单动态网站搭建 |
|
阿里云简单动态网站搭建课程教你掌握如何快速搭建一个WordPress动态网站,并会对网站进行个性化定制,以满足不同的场景需求。 |
|
课程三、云计算 - 云服务器管理维护 |
|
阿里云服务器运维管理课程教你掌握快速开通一台云服务器,并通过管理控制台方便地进行服务器的管理、服务器配置的变更和升级、数据的备份,并保证其可以正常运转并按业务需求随时进行配置的变更。 |
|
课程四、云计算 - 云数据库管理与数据迁移 |
|
阿里云云数据库管理与数据迁移认证课程掌握云数据库的概念,如何在云端创建数据库、将自建数据库迁移至云数据库MySQL版、数据导入导出,以及云数据库运维的常用操作。 |
|
课程五、云计算 - 云存储:对象存储管理与安全 |
|
阿里云云储存认证课程教你掌握安全、高可靠的云存储的使用,以及在云端存储下载文件,处理图片,以及如何保护数据的安全。 |
|
课程六、云计算 - 超大流量网站的负载均衡 |
|
掌握如何为网站实现负载均衡,以轻松应对超大流量和高负载。 |
|
课程七、大数据 - MOOC网站日志分析 |
|
本课程可以帮助学员掌握如何收集用户访问日志,如何对访问日志进行分析,如何利用大数据计算服务对数据进行处理,如何以图表化的形式展示分析后的数据。 |
|
课程八、大数据 - 搭建企业级数据分析平台 |
|
模拟电商场景,搭建企业级的数据分析平台,用来分析商品数据、销售数据以及用户行为等。 |
|
课程九、大数据 - 基于LBS的热点店铺搜索 |
|
本课程可以帮助学员掌握如何在分布式计算框架下开发一个类似于手机地图查找周边热点(POI)的功能,掌握GeoHash编码原理,以及在地理位置中的应用,并能将其应用在其他基于LBS的定位场景中。 |
|
课程十、大数据 - 基于机器学习PAI实现精细化营销 |
|
本课程通过一个简单案例了解、掌握企业营销中常见的、也是必需的精准营销数据处理过程,了解机器学习PAI的具体应用,指导学员掌握大数据时代营销的利器---通过机器学习实现营销。 |
|
课程十一、大数据 - 基于机器学习的客户流失预警分析 |
|
本课程讲解了客户流失的分析方法、流程,同时详细介绍了机器学习中常用的分类算法、集成学习模型等通用技能,并使用阿里云机器学习PAI实现流失预警分析。可以帮助企业快速、准确识别流失客户,辅助制定策略进行客户关怀,达到挽留客户的目的。 |
|
课程十二、大数据 - 使用DataV制作实时销售数据可视化大屏 |
|
帮助非专业工程师通过图形化的界面轻松搭建专业水准的实时可视化数据大屏,以满足业务展示、业务监控、风险预警等多种业务的展示需求。 |
|
课程十三、大数据 - 使用MaxCompute进行数据质量核查 |
|
通过本案例,学员可了解影响数据质量的因素,出现数据质量问题的类型,掌握通过MaxCompute(DateIDE)设计数据质量监控的方法,最终独立解决常见的数据质量监控需求。 |
|
课程十四、大数据 - 使用Quick BI制作图形化报表 |
|
阿里云Quick BI制作图形化报表认证课程教你掌握将电商运营过程中的数据进行图表化展现,掌握通过Quick BI将数据制作成各种图形化报表的方法,同时还将掌握搭建企业级报表门户的方法。 |
|
课程十五、大数据 - 使用时间序列分解模型预测商品销量 |
|
使用时间序列分解模型预测商品销量教你掌握商品销量预测方法、时间序列分解以及熟悉相关产品的操作演示和项目介绍。 |
|
课程十六、云安全 - 云平台使用安全 |
|
阿里云云平台使用安全认证课程教你了解由传统IT到云计算架构的变迁过程、当前信息安全的现状和形势,以及在云计算时代不同系统架构中应该从哪些方面利用云平台的优势使用安全风险快速降低90%。 |
|
课程十七、云安全 - 云上服务器安全 |
|
阿里云云上服务器安全认证课程教你了解在互联网上提供计算功能的服务器主要面临哪些安全风险,并针对这些风险提供了切实可行的、免费的防护方案。 |
|
课程十八、云安全 - 云上网络安全 |
|
了解网络安全的原理和解决办法,以及应对DDoS攻击的方法和防护措施,确保云上网络的安全。 |
|
课程十九、云安全 - 云上数据安全 |
|
了解云上数据的安全隐患,掌握数据备份、数据加密、数据传输安全的解决方法。 |
|
课程二十、云安全 - 云上应用安全 |
|
了解常见的应用安全风险,SQL注入原理及防护,网站防篡改的解决方案等,确保云上应用的安全。 |
|
课程二十一、云安全 - 云上安全管理 |
|
了解云上的安全监控方法,学会使用监控大屏来监控安全风险,并能够自定义报警规则,确保随时掌握云上应用的安全情况。 |