在Kettle(PDI)跑Apache Spark作业

原创文章,转载请注明出处:http://qq85609655.iteye.com/blog/2205156

 

hadoop上要跑Apache Spark作业

使用的ETL工具是Kettle(PDI)

 

目前能够执行像mapreduce一样执行作业,插件以及demo在附近中

在Kettle(PDI)跑Apache Spark作业_第1张图片

将附件解压

在Kettle(PDI)跑Apache Spark作业_第2张图片

 

使用Apache Spark最大的原因是基于内存运算速度较快,性能较好,在实际应用中,Hive的使用范围比较广,需要将Hive基于Mapreduce的运算引擎切换为Apache Spark,在Apache Spark安装好后,执行如下命令,启动SparkSQL thrift JDBC/ODBC Server

./sbin/start-thriftserver.sh --master yarn --executor-memory 512m --hiveconf hive.server2.thrift.port=10050

使用Hive Driver JDBC连接SparkSQL和查询数据

 

你可能感兴趣的:(apache)