Step by Step 实现基于 Cloudera 5.8.2 的企业级安全大数据平台 - Sentry 的整合

本篇主要介绍 Hive 集成 Sentry、Impala 集成 Sentry、HUE 集成 Sentry,HDFS 集成 Sentry(这块暂时没有调通)。

众所周知,MySQL 有细粒度的权限控制,诸如 HBase 这样的 NoSQL DB 也有细化到表的权限控制。而 Hadoop 生态圈中也有一款对应的产品 Sentry,它可以细化到 Hive / Impala 数据库的列粒度,进行权限控制,极大地提升了集群的多租户共享能力,保障了数仓本身的数据安全性。配合 Kerberos 的 user / service 认证,HDFS 的 ACLs 文件系统权限控制,以及传输层加密,HDFS 的静态数据加密,甚至是基于 LUKS 的整盘加密,可谓海陆空式的进行了安全防护。

下面我们来具体谈谈,怎么集成 Sentry 到 Hadoop 中。

Hive 集成 Sentry

准备工作

  • Hive 的数仓 /user/hive/warehouse 目录必须从属于 hive:hive;
  • Hive 的 Cloudera 配置:hive.server2.enable.impersonation = False
  • YARN 的 Cloudera 配置:确保Allowed System Users已经包含了hive用户;

配置工作

在 Clouder Manager 对 Hive 进行配置,这里的 Server Name 是 Hive 数仓服务名,表示根服务:

Sentry Service = Sentry
Server Name for Sentry Authorization = server1

重启 Hive 服务。

给 hive 用户授权 hive 超级管理员权限,假设 hiveserver2 是 192.168.1.3:

HIVESERVER2_HOSTNAME=192.168.1.3
beeline -u "jdbc:hive2://${HIVESERVER2_HOSTNAME}:10000/default;principal=hive/${HIVESERVER2_HOSTNAME}@DOMAIN.COM;"
CREATE ROLE admin_role;
GRANT ALL ON SERVER server1 TO ROLE admin_role;
GRANT ROLE admin_role TO GROUP hive;
GRANT ROLE admin_role TO GROUP admin;

Impala 集成 Sentry

在 Clouder Manager 对 Impala 进行配置:

Sentry Service = Sentry

重启 Impala 服务。

HUE 集成 Sentry

在 Clouder Manager 对 HUE 进行配置:

Sentry Service = Sentry

重启 HUE 服务。

添加 Hive, Impala, HUE, HUE 默认超级管理员组到 Sentry admin 组

在 Clouder Manager 对 Sentry 进行配置,修改 Admin Group,添加hiveimpalahueadmin(hue的默认超级管理员),重启 Sentry 服务。

至此,所有配置完成,接下来进行功能测试。

功能测试

本文对 Use Case 1进行了详细阐述,针对 Use Case 2 和 Use Case 3,请读者通过 HUE 的 Hive Tables 功能自己实现。

Use Case 1: hive 用户有最高权限,可以查看所有数据库、表及 CRUD 等,hue 用户只有 filtered 数据库权限

准备测试数据:

cat /tmp/events.csv
10.1.2.3,US,android,createNote
10.200.88.99,FR,windows,updateNote
10.1.2.3,US,android,updateNote
10.200.88.77,FR,ios,createNote
10.1.4.5,US,windows,updateTag

然后,在 HUE 的 hive editor 中运行下面 sql 语句,创建 sensitive filtered 数据库:

create database sensitive;
 
create table sensitive.events (
    ip STRING, country STRING, client STRING, action STRING
) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
 
load data local inpath '/tmp/events.csv' overwrite into table sensitive.events;
 
create database filtered;
 
create view filtered.events as select country, client, action from sensitive.events;
 
create view filtered.events_usonly as select * from filtered.events where country = 'US';

使用 hive/hive_admin这个 principal 进行 Kerberos 认证,为 hive 用户赋予最高权限(不知道如何创建 principal?请参考Step by Step 实现基于 Cloudera 5.8.2 的企业级安全大数据平台 - Kerberos的整合):

kinit hive/hive_admin

HIVESERVER2_HOSTNAME=192.168.1.3

beeline -u "jdbc:hive2://${HIVESERVER2_HOSTNAME}:10000/default;principal=hive/${HIVESERVER2_HOSTNAME}@DOMAIN.COM;"
 
CREATE ROLE admin_role;
 
GRANT ALL ON SERVER server1 TO ROLE admin_role; 
 
GRANT ROLE admin_role TO GROUP hive;

在 HUE 中使用 hive 用户进行登录,确认可以读取 sensitive filtered 数据库中的表数据,hive 用户应该可以查看所有数据库、访问所有表。创建用户 hue,它只可以访问 filtered 数据库:

kinit hive/hive_admin

HIVESERVER2_HOSTNAME=192.168.1.3

beeline -u "jdbc:hive2://${HIVESERVER2_HOSTNAME}:10000/default;principal=hive/${HIVESERVER2_HOSTNAME}@DOMAIN.COM"
 
CREATE ROLE test_role;
 
GRANT ALL ON DATABASE filtered TO ROLE test_role;
 
GRANT ROLE test_role TO GROUP hue;

在 HUE 界面上使用 hue 用户登录,确认 hue 用户只对 filtered 数据库有最高权限,但是对 sensitive 没有任何权限。

Use Case 2: hue用户对数据库 test_only 有所有权限,对 test_select_only 只有 select 权限

Use Case 3: hive用户具备数据库hive_only数据库所有权限,而hue用户只能SELECT hive_only.events.country 字段

你可能感兴趣的:(Step by Step 实现基于 Cloudera 5.8.2 的企业级安全大数据平台 - Sentry 的整合)