技本功|Hive优化之监控(三)

 Hive是大数据领域常用的组件之一,主要是大数据离线数仓的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的一个点,因此掌握一些Hive调优是必不可少的技能。影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。本文主要是从监控运维的角度对Hive进行整体性能把控,通过对hive元数据监控,提前发现Hive表的不合理处及可优化点,将被动运维转化为主动运维。

1   Hive元数据简介

Hive元数据一般会存储在关系数据库中,mysql是最常见的选择,这里介绍的就是Hive元数据就是存储在myslq中的,本次会介绍几张主要的元数据表,DBS、TBLS、SDS、PARTITIONS

1.1 Hive数据库相关的元数据表(DBS)

 

元数据表字段

说明

示例数据

DB_ID

数据库ID

2

DESC

数据库描述

测试库

DB_LOCATION_URI

数据库HDFS路径

hdfs://namenode/user/hive/warehouse/hhh1234.db

NAME

数据库名

hhh1234

OWNER_NAME

数据库所有者用户名

hhh1234

OWNER_TYPE

所有者角色

USER

1.2 Hive表和视图相关的元数据表(TBLS)

元数据表字段

说明

示例数据

TBL_ID

表ID

1

CREATE_TIME

创建时间

1436317071

DB_ID

数据库ID

2,对应DBS中的DB_ID

LAST_ACCESS_TIME

上次访问时间

1436317071

OWNER

所有者

hhh

RETENTION

保留字段

0

SD_ID

序列化配置信息

86,对应SDS表中的SD_ID

TBL_NAME

表名

hhh1234

TBL_TYPE

表类型

MANAGED_TABLE、EXTERNAL_TABLE、INDEX_TABLE、VIRTUAL_VIEW

VIEW_EXPANDED_TEXT

你可能感兴趣的:(技术文档,数据库,运维,hive,大数据,mysql)