hive 数字转换字符串_Hive架构及Hive SQL的执行流程解读

1、Hive产生背景

  • MapReduce编程的不便性
  • HDFS上的文件缺少Schema(表名,名称,ID等,为数据库对象的集合)

2、Hive是什么

Hive的使用场景是什么?

基于Hadoop做一些数据清洗啊(ETL)、报表啊、数据分析

可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。

Hive是SQL解析引擎,它将SQL语句转译成M/R Job然后在Hadoop执行。

  • 由Facebook开源,最初用于解决海量结构化的日志数据统计问题
  • 构建在Hadoop之上的数据仓库
  • Hive定义了一种类SQL查询语言:HQL(类似SQL但不完全相同)
  • 通常用于进行离线数据处理(早期采用MapReduce)
  • 底层支持多种不同的执行引擎(现在可以直接把Hive跑在Spark上面)

Hive底层的执行引擎有:MapReduce、Tez、Spark

3、Hive 特点

  • Hive 最大的特点是 Hive 通过类 SQL 来分析大数据,而避免了写 MapReduce 程序来分析数据,这样使得分析数据更容易
  • Hive 是将数据映射成数据库和一张张的表,库和表的元数据信息一般存在关系型数据库上(比如 MySQL)
  • Hive 本身并不提供数据的存储功能,数据一般都是存储在 HDFS 上的(对数据完整性、格式要求并不严格)

你可能感兴趣的:(hive,数字转换字符串)