一、大数据的简要概要

1、什么是大数据:

大数据的关键是:主要解决海量数据的存储海量数据的分析计算问题。
在这里插入图片描述
备注:这里的无法用常规软件工具操作指的就是类似于mysql等常规数据库软件。

2、大数据的特点(4V):

• Volume(大量)
• Velocity(高速) 在如此海量的数据面前,处理数据的效率就是企业的生命。
• Variety(多样)
• Value(低价值密度) 虽然数据量很大,但是,有用的数据只有一点。

备注:其中多样可以通过下面的图中看出,包括结构化数据和非结构化数据。
一、大数据的简要概要_第1张图片
备注:常用的存储单位:
一、大数据的简要概要_第2张图片

3、大数据能干啥以及大数据的前景

• 大数据可以用来物流仓库的选址、分析用户消费习惯、人口迁徙……
• 大数据当前受到国家的大力支持,同时由于大数据课程在17年才开设,属于高新技术,大牛少,升职竞争小,人才缺失。
• 先入行者吃肉,后入行者喝汤,最后的买单。

4、大数据部门业务流程分析:

一、大数据的简要概要_第3张图片

其中大数据开发部分拓展开就是:(其中的平台组一定要累计3-5年的工作经验)
一、大数据的简要概要_第4张图片

5、大数据中数据的流动过程(红色只是一些常用的工具)

一、大数据的简要概要_第5张图片
备注:大数据基本上都是在Linux系统上运行的,比如老师给我们演示的,就是通过虚拟机来跑三个服务器来运行。

6、整体架构介绍

一、大数据的简要概要_第6张图片
其中,

  • Flume是日志采集组件。
  • Kafka是数据队列与缓冲组件,相当于原来用一根水管来运输,现在用两根水管。
  • Hadoop是数据存储与计算组件,其分为两个部分,HDFS用于存储,MapReduce用于离线计算。
  • Spark是数据内存计算组件,其有离线计算的Spark Core、SQL、Mlib、R,还有在线计算的SparkStream,其相当于是高科技的加工厂,处理速度快,效率高。
  • Spring往右的都是软件平台开发技术,即JavaEE,比如:

一、大数据的简要概要_第7张图片

7、大数据技术生态(用在天猫上购物为例)

一、大数据的简要概要_第8张图片

参考文献:尚硅谷的大数据学习路线

你可能感兴趣的:(Hadoop)