Spark应用依赖jar包添加无效的解决方案
在Spark应用中,我们发现,在${SPARK_HOME}\lib文件夹中添加jar包时并不起作用。那么,要如何使得我们编写的Sparky应用依赖的jar有效呢?有如下四种方案:
1.使用参数--jars 添加本地的第三方jar文件(运行spark-submit脚本的机器上),可以给定多个jar文件,中间用逗号隔开例子:
bin/spark-sql --jars /opt/modules/cdh-5.3.6/hive-0.13.1-cdh5.3.6/lib/hive-jdbc-0.13.1-cdh5.3.6.jar
2.使用参数--packages例子1:
bin/spark-shell --packages mysql:mysql-connector-java:5.1.27
例子2:
bin/spark-shell --packages mysql:mysql-connector-java:5.1.27
--repositories http://maven.aliyun.com/nexus/content/groups/public
3.使用SPARK_CLASSPATH环境变量给定jar文件的路径4.将第三方的jar文件打包到最终的jar包里面(常用)
在将Spark应用程序打包时,将依赖的第三方jar文件一起打包。
注意:
(1) 当运行是yarn的cluster模式,上面的方法除了第四种,其他的都不可以用,这种情况可以考虑直接将第三方的jar文件放在hadoop的默认的classpath中,默认放在${HADOOP_HOEM}\share\hadoop\common\lib或者${HADOOP_HOEM}\share\hadoop\yarn\lib
(2) spark应用在运行的时候,对于${SPARK_HOME}\lib文件夹中的jar文件,只会加载一部分datanucleus-*.jar 和 spark-assembly-*.jar;但是如果运行的环境是spark on yarn and cluster模式的话,只会默认的加载spark-assembly-*.jar(3) sparksql应用程序集成hive的情况下,如果spark on yarn and cluster模式,请将spark目录下的lib目录里面的datanucleus-*.jar放在hadoop默认的classpath下