01-大数据导读
01) javaEE与大数据的区别(参考:附件资料\JavaEE大数据区别.txt)
01) javaEE业务开发(品优购电商)
电商系统架构.png
02) 大数据的体系说明(抖音推荐系统 电商精准推荐系统)
大数据架构处理流程.jpg
02) 大数据学习的建议:
01) 理解框架的功能和使用场景
02) 熟练使用(集群安装 编程开发 API使用 问题解决)
03) 框架内部的运行机制(原理)
04) 分析源码(验证运行原理)
05) 给开源贡献代码: apache committer : fink github
02-大数据离线课程介绍
01) 围绕hadoop生态圈
02) 围绕大数据处理主线
01) 数据采集
02) 数据存储
03) 数据预处理
04) 数据分析(数据仓库hive)
05) 数据应用
03) 学习技术路线:
01) hadoop中的HDFS(分布式文件存储系统)
02) hadoop中的MapReduce(分布式计算框架)
03) hive (使用sql进行数据分析的数据仓库) hbase(基于hadoop的分布式数据库) zookeeper(大数据中的基础组件,分布式协调服务)
04) 离线项目--电商网站日志分析系统:
05) 离线辅助工具集(flume sqoop oozie azkaban等技术)
06) spark基于内存计算: sparkCore(离线处理) sparkSql(sql分析) sparkStreaming(实时计算)
07) flink 流式处理 批处理 druid 等
07) 机器学习: Mahout sparkMLlib Python 机器学习库 自然语言处理等
03-今日课程内容大纲
01) 大数据导论(理论)
数据分析介绍及步骤
数据分析的挑战
Internet of everything IOT(物联网)
数据集市(卖数据的市场)
02) zookeeper
zookeeper介绍及集群搭建
zookeeper shell命令行客户端操作 javaAPI操作
zookeeper数据模型 zookeeper选举机制
04-数据分析的定义和作用(离线、实时、机器学习)
01) 数据分析概述
01) 定义: 通过适当的数学方法统计方法把隐藏在数据中的规律总结提取出来的过程(从数据中淘金的过程)
02) 作用:商业领域,帮助企业提取数据中蕴含的商业价值,帮助企业进行判断和决策, 提高企业的竞争力.
03) 举例:餐饮行业数据分析案例
02) 分析种类:
01) 离线分析(NBA球员统计 股票k线)
分析过去一段时间产生的数据
02) 实时分析(双十一大屏展示成交量 商品成交量(指标))
分析当前实时产生的数据
03) 机器学习(股票量化交易 推荐系统)
使用数据模型(数学建模)对未来进行预测(数据挖掘)
大数据的三个技术方向,需要学习三个技术栈,公司都是三个技术栈都存在
课程安排: 离线 ----> 实时 -----> 机器学习---->结合应用(风控系统 短视频推荐系统 广告精准推荐系统 用户画像 数据仓库等)
05-数据分析的基本步骤(重要)
01) 明确分析的目标和思路
目的指引分析的方向, 思路指导如何开展数据分析
分析思路有一些营销管理类的理论支撑(附件资料\数据分析方法论)
02) 数据采集
数据库 互联网(爬虫) 国家行业等公开数据 开展市场调查 社工库
03) 数据预处理
经过清洗 转换等动作把非结构化的数据 脏数据变成格式统一 规则良好的结构化数据
举例: 缺失值 异常值 数据变换(函数变换) 数据集成等
04) 数据分析
根据业务需求及分析目标, 通过适当的数据分析方法 数据分析工具找出数据中隐藏的规律
数据挖掘: 高大上的数据分析,主要是: 分类 聚类 关联规则 时序模式 预测 智能推荐 等
05) 数据应用
数据可视化展示 数据报表 智能决策等
06-科技发展的挑战(分布式、海量数据处理场景)
01) 网站架构演进
单体架构 ----> 分布式集群架构 参考: javaEE和大数据区别.png
02) 分布式 集群 的概念
参考: https://kb.cnblogs.com/page/503317/
分布式: 分布式是指将不同的业务分布在不同的地方独立部署运行
集群: 而集群指的是将几台服务器集中在一起,实现同一业务
联系: 分布式中的每一个节点,都可以做集群. 而集群并不一定就是分布式的
举例:
小饭店原来只有一个厨师,切菜洗菜备料炒菜全干.后来客人多了,
厨房一个厨师忙不过来,又请了个厨师,两个厨师都能炒一样的菜,这两个厨师的关系是集群.
为了让厨师专心炒菜,把菜做到极致,又请了个配菜师负责切菜,备菜,备料,厨师和配菜师的关系是分布式,
一个配菜师也忙不过来了,又请了个配菜师,两个配菜师关系是集群
03) 海量数据场景下的挑战
01) 海量数据的存储问题-----> 分布式存储(hadoop中hdfs)
02) 海量数据的计算问题-----> 分布式计算(hadoop中mapreduce)
07-什么是大数据
01) 大数据相关理论
02) 大数据相关的技术
03) 大数据相关的实践
04) 大数据引起的变革:
思维的变革
商业模式变革
管理变革
参考: 附件资料\大数据时代.pdf