hive 区别 优缺点 场景

数据仓库与数据库区别

  • 数据库:主要面向OLTP服务
  • 数据仓库:主要面向OLAP服务

  • OLTP:

    • 联机事务处理,用来实时记录交易信息。
    • 快速返回响应信息,毫秒级
    • 倾向于业务
  • OLAP:
    • 联机及分析处理,用来分析查询所存数据。
    • 一般系统按天、周、月生成报表。
    • OLAP属于商业智能范畴,数据需要研究、处理、分析,驱动商业决策
    • 倾向于分析

  • CAP原则
    指的是在一个分布式系统中,Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可得兼

  • ETL
    ETL工程师
    用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。
    爬虫、数据的算法(清洗、转换)、ETL工具


HIVE的优点及缺点

HIVE的优点

  • HIVE
    定位是数据仓库,偏向数据分析和计算方向。
    计算引擎mapreduce只是其中之一。
    计算引擎spark

  • 高可靠、高容错

    • HIVE Sever采用:主备模式
      有主有从。当主机挂掉,备机马上启动。即【高可用】单点故障。
    • 双MetaStore
    • 超时重试
  • 类SQL
    • 类似SQL语法
    • 内置大量函数
  • 可扩展
    • 自定义存储格式
    • 自定义函数(UDF/UDAF/UDTF)
  • 多接口
    • Beeline,JDBC,Thrift,Python,Rest

HIVE的缺点

  • 延迟较高
    • 默认为M/R为执行引擎,启动有延迟
  • 不支持物理化视图
    • 不能在视图上更新、插入、删除
  • 不适用OLTP
    • 暂不支持列级别添加、更新、删除
  • 暂不支持存储过程
    • 当前版本不支持存储过程,只能听哦那个过UDF实现一些逻辑处理

UDF(不影响条数),UDAF(会让条数减少),UDTF(会让调试增加)


HIVE的应用场景

  • 数据挖掘
    • 用户行为分析
    • 兴趣分区
    • 区域展示
  • 非实时分析
    • 日志分析
    • 文本分析
  • 数据汇总
    • 每天/周用户点击情况
    • 流量统计
  • 作为数据仓库
    • 数据抽取
    • 数据加载
    • 数据转换

你可能感兴趣的:(hive)