Hadoop01_认识大数据

Hadoop学习六个板块

1.入门
2.HDFS
3.MapReduce
4.Yarn
5.生产调优
6.Hadoop源码解析


Hadoop学习的版本 3.1.3

学习前置基础:

  • JavaSE
  • Maven
  • IDEA
  • Linux

1.大数据概念

无法在短时间内使用常规软件进行 捕获、管理、处理的数据集合;
庞大的数据集需要新的处理模式才能转变为信息资产,从而使得公司具备更强的决策力,洞察力、流程优化能力

海量、高增长率、多样化的信息资产

(1)数据量单位

bit byte KB MB GB TB PB EB ZB YB BB NB DB
大数据的处理范围:TB PB EB级别
大厂数据量 EB级别

(2)大数据要解决的问题

海量数据的 采集 、存储 、计算的问题

2.大数据特点

1.大量

人类所有印刷材料数据量约200PB
人类总共说过的话数据量大约5EB
个人计算机硬盘存储TB级别
大企业数据量能够达到EB级别

大量: 大数据的存储问题

2.高增长率

数据增长率高,因此数据的处理效率 要求高

高增长率:实时快速计算问题

3.数据格式多样

数据格式分为结构化数据和非结构化数据
结构化数据:数据库、文本
非结构化数据:网络日志、音频、视频、图片

格式多样化:海量数据的采集问题

4.价值密度低

数据量很大,但是有效数据小
低密度:ETL

3.大数据应用场景

1.推荐用户喜欢的内容
抖音推送的视频、电商的猜你喜欢
2.分析用户消费习惯
3.物流仓储
城市购买特点,配置仓储内容
4.保险
5.金融

4.大数据发展前景

1.党和政府的支持
Hadoop01_认识大数据_第1张图片
2. 5G风口
Hadoop01_认识大数据_第2张图片
3. 人才紧缺
Hadoop01_认识大数据_第3张图片

5. 大数据程序员工作日常

Hadoop01_认识大数据_第4张图片
(1)产品经理提出一些指标需求
(2)BI部门搭建数据平台、分析数据指标
(3)对数据指标进行可视化报表
将分析的结果数据写到Mysql,让前端程序员读走进行可视化展示

BI部门组织架构

(1)平台组

  • 搭建集群环境
  • 集群监控
  • 集群性能调优

(2)数仓组

  • ETL 数据清洗
  • 数仓建模(★)

(3)实时组

  • 实时指标分析
  • 实时计算性能调优

(4)数据挖掘组(算法组)

  • 算法工程师(智能推荐)
  • 用户画像(对用户打标签,通过标签对用户进行分群,然后对不同群体推送不同的广告、优惠券)

(5)报表开发组

  • JavaEE工程师
  • 前端工程师
    负责开发一些报表工具、数据的可视化展示

你可能感兴趣的:(Hadoop,hadoop,大数据)