spark-依赖包添加方式

1、上传到HDFS

  1. 创建 archive: jar cv0f spark-libs.jar -C $SPARK_HOME/jars/ .
  2. 上传jar包到 HDFS: hdfs dfs -put spark-libs.jar /some/path/
  3. 在spark-default.conf中设置 spark.yarn.archive=hdfs:///some/path/spark-libs.jar
    或者 spark.yarn.jars=hdfs:///some/path/*.jar
    将第三方的jar文件copy到${HADOOP_HOME}/share/hadoop/common/lib文件夹中(Hadoop集群中所有机器均要求copy)

2、在提交脚本中添加

bin/spark-submit --jars /opt/cdh-5.3.6/hive/lib/mysql-connector-java-5.1.27-bin.jar

spark.executor.extraClassPath /opt/apps/spark/external_jars/*

spark.driver.extraClassPath /opt/apps/spark/external_jars/*

脚本中从maven仓库下载

bin/spark-submit --packages mysql:mysql-connector-java:5.1.27 --repositories http://maven.aliyun.com/nexus/content/groups/public/

3、在默认环境中添加

A.创建一个保存第三方jar文件的文件夹:
命令:$ mkdir external_jars

B.修改Spark配置信息
命令:$ vim conf/spark-env.sh
修改内容:SPARK_CLASSPATH=$SPARK_CLASSPATH:/opt/cdh-5.3.6/spark/external_jars/*

C.将依赖的jar文件copy到新建的文件夹中
命令:$ cp /opt/cdh-5.3.6/hive/lib/mysql-connector-java-5.1.27-bin.jar ./external_jars/

你可能感兴趣的:(spark)