大数据学习Day01 --初识大数据

Day01–千里之行,始于足下

前言

​ 自学大数据之路,希望见证自己每一天的成长

心得

  1. 了解大数据
  2. 了解大数据相关岗位
  3. 大数据与Hadoop的关系

正文

  1. 什么是大数据

    ​ 大数据,指在一定时间内,无法用常规软件工具捕捉、管理和处理的数据。是一种海量、高增长率和多样化的信息资产

  2. 大数据的四个特点(4v)

    ​ 1.Volume(大量),典型个人计算机硬盘容量为TB,而一些大型企业的数据量已经接近EB量级

    ​ 2.Velocity(高速),这是大数据区分于传统数据挖掘的显著特征。根据IDC的预测,2020年全球数据量会 高达35.2ZB,海量数据的产生,对应着海量数据的处理,数据的处理效率影响着企业

    ​ 3.Variety(多样),相比于结构化数据,非结构化数据越来越多。网络日志、音频、视频、图片、地理位置 等,非结构化数据对数据处理能力提出了更高要求

    ​ 4.value(低密度价值) 数据量大,但是有用信息少,需要从处理大量数据中挖掘关键信息

  3. 大数据相关岗位置 大数据学习Day01 --初识大数据_第1张图片

  4. Hadoop

    ​1.什么是Hadoop:
    ​ ​ ​ ​ ​ ​ Hadoop是Apache基金会的一个子项目,是一个分布式系统基础架构。Hadoop实现了一个分布式文件 系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在 低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那 些有着超大数据集(large data set)的应用程序。可以以流的形式访问(streaming access)文件系统 中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存 储,而MapReduce则为海量的数据提供了计算

    2.Hadoop核心

    YARN HDFS MapReduce common
    调度资源 数据存储 计算 辅助工具

    3 Hadoop三大发行版本

    ​ ​ ​ Apache版本:最原始(最基础)的版本,对于入门学习最好。

    ​ ​ ​ Cloudera:在大型互联网企业中用的较多,对于Hadoop生态圈版本的统一问题处理的较好。

    ​ ​ ​ Hortonworks:文档较好。

    4.为什么用Hadoop处理数据

    ​ ​ ​ ​ ​ 首先看Hadoop的核心组件之一的HDFS,在Hadoop 官网对他的特点有详细定义,HDFS跟现存的许多分 布式架构有所不同,对POSIX的通用性规范做了取舍,用来增加HDFS的吞吐率,在设计之初就是为了处理 大批量的数据,并且依附着Hadoop,已经形成了Hadoop生态圈,一系列组件运行在Hadoop上,协同处 理大批量数据,Hadoop至于Hadoop生态圈的地位可以比作Spring对于Spring组件的地位,根据需求,越 来越多的组件依附着Hadoop应运而生,所以,处理大数据我们一般选用Hadoop,这里Hadoop指的是广义上的Hadoop生态圈 ​
    大数据学习Day01 --初识大数据_第2张图片

你可能感兴趣的:(大数据学习)