大数据分析学习之路——Hive

大数据

  • 什么是大数据?  大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。换句话数据量在TB,PB,甚至更大的多元化数据集合。多,杂的数据

  • 当今数据处理模式:离线处理(先收集数据,再处理)----Hadoop;流式处理(实时处理)---spark


Hadoop

1,The Apache Hadoop project develops open-source software for reliable, scalable, distributed computing.Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

2,特点:reliable, scalable, distributed

3,核心组件及功能

  • Command:底层依赖库
  • HDFS:分布式的数据储存
  • Yarn:任务调度和资源管理
  • Mapresource:处理海量数据

    功能:

          HDFS:namenode: 存储元数据信息(元数据:谁创建,什么时间创建,创建在什么节点),管理者

                       datanode:真正存储数据的节点,执行者

    

           Yarn:resourcemanager: 管理平台资源

                      nodemanager: 机器真正对应的资源—每个机器具体的节点


          MapReduce:分布式计算框架

                     map端:将任务分配到不同的机器节点上(拆分任务)

                    shuffle:中间桥梁(内容拆分)

                    reduce端:map结果汇总

4,Hadoop框架的优缺点:

    优点:效率高,适合离线处理

   缺点:启动开销大(所以只能是数据量很大才适合用了)

Hive

1,Hive 将结构化的数据映射成表格,是数据仓库,使用类SQL语句,进行数据的读写管理

2,与数据库的异同点:

  • 数据处理方面:Hive使用MapReduce, 数据库使用自己的引擎, 语句上与sql语句类似
  • 数据格式:hive使用分隔符
  • hive执行的时候会有延迟,因为hive没有索引,需要整张表进行扫描
  • hive具有可扩张性

3,Hive与hadoop的关系

hive是建立在大数据平台Hadoop框架之上的大数据仓库,以HQL语句为实现形式,底层转化为经过MapRdeuce处理的,HDFS文件


概念的东西,构架方面的东西,及底层的工作,还需加深理解。











你可能感兴趣的:(大数据)