大数据入门学习篇

大数据包含‘快速化’、‘多样化’、‘价值化’、‘大量化’多重属性。由结构化和非结构化的数组组成,90%为非结构化数据。

1、大数据计算模式及其代表产品

大数据入门学习篇_第1张图片 

 

 

2、大数据与云计算和物联网的关系

云计算处理的主要问题:解决海量数据分布式存储和分布式处理问题、虚拟化、多租户。

物联网:各种信息传感器、控制器、机器、人员和物等通过各类可能的网络接入,实现物与物、物与人的泛在连接,形成人与物、物与物相连,实现信息化和远程管理控制。

大数据入门学习篇_第2张图片

 

感知层收集到的数据通过网络层把数据传输到数据中心,再经过处理层进行数据处理得到处理好的数据。

 

大数据入门学习篇_第3张图片

即大数据是云计算的继承

 

3、Hadoop项目/软件框架(集合了多种技术)大数据处理构架

部署在Linux系统上。

Hadoop是一个分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。其核心是分布式文件系统HDFS(分布式存储)和MapReduce(分布式并行框架,离线分析,批量处理)。在分布式环境下提供了海量数据梳理的能力。

主要解决:如何实现海量数据的分布式存储和分布式处理。

大数据入门学习篇_第4张图片

 大数据入门学习篇_第5张图片

 

 

4、HDFS分布式文件存储

将文件分割,分割为不同的小块分布到不同的机器上, 可突破单机存储的上线。

有名称节点和数据节点,名称节点NameNode可表示为数据目录,根据名称节点可查找到相关数据,相当于管家。数据节点DataNode存储具体的数据,每个数据节点中的数据保存在各自节点的本地Linux文件系统中。

大数据入门学习篇_第6张图片

 

 

你可能感兴趣的:(大数据与机器学习)