一、概述
Spark Core、Spark-SQL与Spark-Streaming都是相同的,编写好之后打成jar包使用spark-submit命令提交到集群运行应用
$SPARK_HOME/bin#./spark-submit --master spark://Master01:7077 --class MainClassFullName [--files $HIVE_HOME/conf/hive-site.xml] JarNameFullPath [slices]
说明:
--master参数用于指定提交到的Spark集群入口,这个入口通常是Spark的Master节点(即Master进程或ResourceManager进程所在的节点),如果需要为该参数指定一个高可用集群则集群节点之间使用英文逗号分割
--class参数用于指定Spark之Driver的入口Main类(必须指定该Main类的全名)
如果使用Spark操作Hive仓库则需要使用--files参数指定Hive的配置文件
如果使用Spark操作关系数据库则需要将关系数据库的驱动包放置于Spark安装目录下的library目录下(在Spark2.x中应该放置于jars目录下),如:
[hadoop@CloudDeskTop jars]$ pwd
/software/spark-2.1.1/jars
JarNameFullPath表示的是提交的Spark应用所在的JAR包全名(最好指定为绝对的全路径)
slices:表示的是读取数据的并行度(值为一个数值,根据实际的物理内存配置来指定,内存较小时指定为1或者不用指定),一般在Streaming应用中是不需要指定的
二、Spark之JDBC实战
(一)、本地模式操作
典型业务场景描述:将CloudDeskTop客户端本地的数据,通过Spark处理,然后将结果写入远端关系数据库中,供前端在线事务系统使用
1、在Eclipse4.5中建立工程RDDToJDBC,并创建一个文件夹lib用于放置第三方驱动包
[hadoop@CloudDeskTop software]$ cd /project/RDDToJDBC/
[hadoop@CloudDeskTop RDDToJDBC]$ mkdir -p lib
[hadoop@CloudDeskTop RDDToJDBC]$ ls
bin lib src
2、添加必要的环境
2.1、将MySql的jar包拷贝到工程目录RDDToJDBC下的lib目录下
[hadoop@CloudDeskTop software]$ cp -a /software/hive-1.2.2/lib/mysql-connector-java-3.0.17-ga-bin.jar /project/RDDToJDBC/lib/
2.1、将Spark的开发库Spark2.1.1-All追加到RDDToJDBC工程的classpath路径中去(可以通过添加用户库的方式来解决);Spark2.1.1-All中包含哪些包,请点击此处
3、基于RDD到DB的Java源码
1 packagecom.mmzs.bigdata.spark.core.local;2
3 importjava.io.File;4 importjava.sql.Connection;5 importjava.sql.DriverManager;6 importjava.sql.PreparedStatement;7 importjava.sql.SQLException;8 importjava.util.Arrays;9 importjava.util.Iterator;10 importjava.util.List;11
12 importorg.apache.spark.SparkConf;13 importorg.apache.spark.api.java.JavaPairRDD;14 importorg.apache.spark.api.java.JavaRDD;15 importorg.apache.spark.api.java.JavaSparkContext;16 importorg.apache.spark.api.java.function.FlatMapFunction;17 importorg.apache.spark.api.java.function.Function2;18 importorg.apache.spark.api.java.function.PairFunction;19 importorg.apache.spark.api.java.function.VoidFunction;20
21 importscala.Tuple2;22 importscala.Tuple4;23
24 public classRDDToDB {25 /**
26 * 全局计数器27 */
28 private static intcount;29
30 /**
31 * 数据库连接32 */
33 private staticConnection conn;34
35 /**
36 * 预编译语句37 */
38 private staticPreparedStatement pstat;39
40 private static final File OUT_PATH=new File("/home/hadoop/test/output");41
42 static{43 delDir(OUT_PATH);44 try{45 String sql="insert into wordcount(word,count) values(?,?)";46 String url="jdbc:mysql://127.0.0.1:3306/test?useUnicode=true&characterEncoding=utf8";47 Class.forName("com.mysql.jdbc.Driver");48 conn=DriverManager.getConnection(url, "root", "123456");49 pstat=conn.prepareStatement(sql);50 } catch(ClassNotFoundException e) {51 e.printStackTrace();52 } catch(SQLException e) {53 e.printStackTrace();54 }55 }56 /**
57 * 删除任何目录或文件58 *@paramf59 */
60 private static voiddelDir(File f){61 if(!f.exists())return;62 if(f.isFile()||(f.isDirectory()&&f.listFiles().length==0)){63 f.delete();64 return;65 }66 File[] files=f.listFiles();67 for(File fp:files)delDir(fp);68 f.delete();69 }70
71 //分批存储
72 private static void batchSave(Tuple2 line,booleanisOver){73 try{74 pstat.setString(1, line._1());75 pstat.setInt(2, line._2());76
77 if(isOver){//如果结束了循环则直接写磁盘
78 pstat.addBatch();79 pstat.executeBatch();80 pstat.clearBatch();81 pstat.clearParameters();82 }else{ //如果没有结束则将sql语句添加到批处理中去
83 pstat.addBatch();84 count++;85 if(count%100==0){ //如果满一个批次就提交一次批处理操作
86 pstat.executeBatch();87 pstat.clearBatch();88 pstat.clearParameters();89 }90 }91 }catch(SQLException e){92 e.printStackTrace();93 }94 }95
96 /**
97 * 将RDD集合中的数据存储到关系数据库MYSql中去98 *@paramstatResRDD99 */
100 private static void saveToDB(JavaPairRDDstatResRDD){101 final long rddNum=statResRDD.count();102 statResRDD.foreach(new VoidFunction>(){103 private long count=0;104 @Override105 public void call(Tuple2 line) throwsException {106 if(++count
114 try{115 if(null!=pstat)pstat.close();116 if(null!=conn)conn.close();117 }catch(SQLException e){118 e.printStackTrace();119 }120 }121
122 public static voidmain(String[] args) {123 SparkConf conf=newSparkConf();124 conf.setAppName("Java Spark local");125 conf.setMaster("local");126
127 //根据Spark配置生成Spark上下文
128 JavaSparkContext jsc=newJavaSparkContext(conf);129
130 //读取本地的文本文件成内存中的RDD集合对象
131 JavaRDD lineRdd=jsc.textFile("/home/hadoop/test/jdbc");132
133 //切分每一行的字串为单词数组,并将字串数组中的单词字串释放到外层的JavaRDD集合中
134 JavaRDD flatMapRdd=lineRdd.flatMap(new FlatMapFunction(){135 @Override136 public Iterator call(String line) throwsException {137 String[] words=line.split(" ");138 List list=Arrays.asList(words);139 Iterator its=list.iterator();140 returnits;141 }142 });143
144 //为JavaRDD集合中的每一个单词进行计数,将其转换为元组
145 JavaPairRDD mapRdd=flatMapRdd.mapToPair(new PairFunction(){146 @Override147 public Tuple2 call(String word) throwsException {148 return new Tuple2(word,1);149 }150 });151
152 //根据元组中的第一个元素(Key)进行分组并统计单词出现的次数
153 JavaPairRDD reduceRdd=mapRdd.reduceByKey(new Function2(){154 @Override155 public Integer call(Integer pre, Integer next) throwsException {156 return pre+next;157 }158 });159
160 //将单词元组中的元素反序以方便后续排序
161 JavaPairRDD mapRdd02=reduceRdd.mapToPair(new PairFunction,Integer,String>(){162 @Override163 public Tuple2 call(Tuple2 wordTuple) throwsException {164 return new Tuple2(wordTuple._2,wordTuple._1);165 }166 });167
168 //将JavaRDD集合中的单词按出现次数进行将序排列
169 JavaPairRDD sortRdd=mapRdd02.sortByKey(false, 1);170
171 //排序之后将元组中的顺序换回来
172 JavaPairRDD mapRdd03=sortRdd.mapToPair(new PairFunction,String,Integer>(){173 @Override174 public Tuple2 call(Tuple2 wordTuple) throwsException {175 return new Tuple2(wordTuple._2,wordTuple._1);176 }177 });178
179 //存储统计之后的结果到磁盘文件中去180 //mapRdd03.saveAsTextFile("/home/hadoop/test/jdbc/output");
181
182 saveToDB(mapRdd03);183
184 //关闭Spark上下文
185 jsc.close();186 }187 }
View Code
4、测试Spark的JDBC应用
4.1、初始化MySql数据库服务(节点在192.168.154.134上)
A、启动MySql数据库服务
[root@DB03 ~]# cd /software/mysql-5.5.32/multi-data/3306/
[root@DB03 3306]# ls
data my.cnf my.cnf.bak mysqld
[root@DB03 3306]# ./mysqld start
Starting MySQL...
B、建立test库
[root@CloudDeskTop 3306]# cd /software/mysql-5.5.32/bin/
[root@CloudDeskTop bin]# ./mysql -h192.168.154.134 -P3306 -uroot -p123456 -e "show databases;"
+--------------------+
| Database |
+--------------------+
| information_schema |
| mysql |
| performance_schema |
+--------------------+
[root@CloudDeskTop bin]# ./mysql -h192.168.154.134 -P3306 -uroot -p123456 -e "create database test character set utf8;"
[root@CloudDeskTop bin]# ./mysql -h192.168.154.134 -P3306 -uroot -p123456 -e "show databases;"
+--------------------+
| Database |
+--------------------+
| information_schema |
| mysql |
| performance_schema |
| test |
+--------------------+
C、建立wordcount表
[root@DB03 bin]# ./mysql -h192.168.154.134 -P3306 -uroot -p123456 -e "create table if not exists test.wordcount(wid int(11) auto_increment primary key,word varchar(30),count int(3))engine=myisam charset=utf8;"
[root@DB03 bin]# ./mysql -h192.168.154.134 -P3306 -uroot -p123456 -e "desc test.wordcount;"
+-------+-------------+------+-----+---------+----------------+
| Field | Type | Null | Key | Default | Extra |
+-------+-------------+------+-----+---------+----------------+
| wid | int(11) | NO | PRI | NULL | auto_increment |
| word | varchar(30) | YES | | NULL | |
| count | int(3) | YES | | NULL | |
+-------+-------------+------+-----+---------+----------------+
#目前数据库表中还没有数据
[root@DB03 bin]# ./mysql -h192.168.154.134 -P3306 -uroot -p123456 -e "select * from test.wordcount;"
4.2、准备Spark的源数据
[hadoop@CloudDeskTop jdbc]$ pwd
/home/hadoop/test/jdbc
[hadoop@CloudDeskTop jdbc]$ ls
myuser testJDBC.txt
[hadoop@CloudDeskTop jdbc]$ cat testJDBC.txt myuser
zhnag san shi yi ge hao ren
jin tian shi yi ge hao tian qi
wo zai zhe li zuo le yi ge ce shi
yi ge guan yu scala de ce shi
welcome to mmzs
欢迎 欢迎
lisi 123456 165 1998-9-9
lisan 123ss 187 2009-10-19
wangwu 123qqwe 177 1990-8-3
4.3、在Eclipse4.5中直接运行Spark代码,观察Eclipse控制台输出
4.4、检查在关系数据库MySql中是否已经存在数据
[root@CloudDeskTop bin]# ./mysql -h192.168.154.134 -P3306 -uroot -p123456 -e "select * from test.wordcount;"
(二)、集群模式操作
典型业务场景描述:将HDFS集群中的数据通过Spark处理之后,将结果写入远端关系数据库中,供前端在线事务系统使用
1、在Eclipse4.5中的工程RDDToJDBC下创建一个package文件夹用于放置打包文件
[hadoop@CloudDeskTop software]$ cd /project/RDDToJDBC/
[hadoop@CloudDeskTop RDDToJDBC]$ mkdir -p package
[hadoop@CloudDeskTop RDDToJDBC]$ ls
bin package src
2、将关系数据库的驱动包放置到Spark安装目录下的jars目录下
在客户端上传所需的mysql-connector-java-3.0.17-ga-bin.jar包:
[hadoop@CloudDeskTop jars]# pwd
/software/spark-2.1.1/jars
然后分发到集群:
[hadoop@CloudDeskTop software]$ scp -r /software/spark-2.1.1/jars/mysql-connector-java-3.0.17-ga-bin.jar master01:/software/spark-2.1.1/jars/
[hadoop@master01 software]$ scp -r /software/spark-2.1.1/jars/mysql-connector-java-3.0.17-ga-bin.jar master02:/software/spark-2.1.1/jars/
[hadoop@master01 software]$ scp -r /software/spark-2.1.1/jars/mysql-connector-java-3.0.17-ga-bin.jar slave01:/software/spark-2.1.1/jars/
[hadoop@master01 software]$ scp -r /software/spark-2.1.1/jars/mysql-connector-java-3.0.17-ga-bin.jar slave02:/software/spark-2.1.1/jars/
[hadoop@master01 software]$ scp -r /software/spark-2.1.1/jars/mysql-connector-java-3.0.17-ga-bin.jar slave03:/software/spark-2.1.1/jars/
3、开发源码
1 packagecom.mmzs.bigdata.spark.core.cluster;2
3 importjava.sql.Connection;4 importjava.sql.DriverManager;5 importjava.sql.PreparedStatement;6 importjava.sql.SQLException;7 importjava.util.Arrays;8 importjava.util.Iterator;9 importjava.util.List;10
11 importorg.apache.spark.SparkConf;12 importorg.apache.spark.api.java.JavaPairRDD;13 importorg.apache.spark.api.java.JavaRDD;14 importorg.apache.spark.api.java.JavaSparkContext;15 importorg.apache.spark.api.java.function.FlatMapFunction;16 importorg.apache.spark.api.java.function.Function2;17 importorg.apache.spark.api.java.function.PairFunction;18 importorg.apache.spark.api.java.function.VoidFunction;19
20 importscala.Tuple2;21
22 public classRDDToDB {23 /**
24 * 全局计数器25 */
26 private static intcount;27
28 /**
29 * 数据库连接30 */
31 private staticConnection conn;32
33 /**
34 * 预编译语句35 */
36 private staticPreparedStatement pstat;37
38 static{39 try{40 String sql="insert into wordcount(word,count) values(?,?)";41 String url="jdbc:mysql://192.168.154.134:3306/test?useUnicode=true&characterEncoding=utf8";42 Class.forName("com.mysql.jdbc.Driver");43 conn=DriverManager.getConnection(url, "root", "123456");44 pstat=conn.prepareStatement(sql);45 } catch(ClassNotFoundException e) {46 e.printStackTrace();47 } catch(SQLException e) {48 e.printStackTrace();49 }50 }51
52 /**
53 * 批量存储数据54 *@paramline55 *@throwsSQLException56 */
57 private static void batchSave(Tuple2 line,booleanisOver){58 try{59 pstat.setString(1, line._1());60 pstat.setInt(2, line._2());61
62 if(isOver){//如果结束了循环则直接写磁盘。63 //如果RDD数据已经迭代结束,则执行剩下的批量语句。
64 pstat.addBatch();65 pstat.executeBatch();66 pstat.clearBatch();67 pstat.clearParameters();68 }else{ //如果没有结束则将sql语句添加到批处理中去。69 //如果RDD数据的迭代还未曾结束,则直接将当前语句添加到批处理计划中去;70 //但是如果批处理语句数量超过了100则冲刷一次缓冲区中批处理并重置计数器。
71 pstat.addBatch();72 count++;73 if(count%100==0){ //如果满一个批次就提交一次批处理操作
74 pstat.executeBatch();75 pstat.clearBatch();76 pstat.clearParameters();77 }78 }79 }catch(SQLException e){80 e.printStackTrace();81 }82 }83
84 /**
85 * 将RDD集合中的数据存储到关系数据库MYSql中去。86 * 存储结果到关系数据库中87 * 必须将内部类对象方法(如:call)中的操作分离到一个独立的方法(如:batchSave)中去,88 * 因为Spark给定的内部类API都是可序列化的,而执行JDBC操作的Statement和Connection都是不能被序列化的89 *@paramwordGroupList90 *@throwsClassNotFoundException91 */
92 private static void saveToDB(JavaPairRDDstatResRDD){93 final long rddNum=statResRDD.count();94 statResRDD.foreach(new VoidFunction>(){95 private long count=0;96 @Override97 public void call(Tuple2 line) throwsException {98 if(++count
106 try{107 if(null!=pstat)pstat.close();108 if(null!=conn)conn.close();109 }catch(SQLException e){110 e.printStackTrace();111 }112 }113
114 public static voidmain(String[] args) {115 SparkConf conf=newSparkConf();116 conf.setAppName("Java Spark Cluster");117
118 //根据Spark配置生成Spark上下文
119 JavaSparkContext jsc=newJavaSparkContext(conf);120
121 //读取本地的文本文件成内存中的RDD集合对象
122 JavaRDD lineRdd=jsc.textFile("/spark/input", 1);123
124 //切分每一行的字串为单词数组,并将字串数组中的单词字串释放到外层的JavaRDD集合中
125 JavaRDD flatMapRdd=lineRdd.flatMap(new FlatMapFunction(){126 @Override127 public Iterator call(String line) throwsException {128 String[] words=line.split(" ");129 List list=Arrays.asList(words);130 Iterator its=list.iterator();131 returnits;132 }133 });134
135 //为JavaRDD集合中的每一个单词进行计数,将其转换为元组
136 JavaPairRDD mapRdd=flatMapRdd.mapToPair(new PairFunction(){137 @Override138 public Tuple2 call(String word) throwsException {139 return new Tuple2(word,1);140 }141 });142
143 //根据元组中的第一个元素(Key)进行分组并统计单词出现的次数
144 JavaPairRDD reduceRdd=mapRdd.reduceByKey(new Function2(){145 @Override146 public Integer call(Integer pre, Integer next) throwsException {147 return pre+next;148 }149 });150
151 //将单词元组中的元素反序以方便后续排序
152 JavaPairRDD mapRdd02=reduceRdd.mapToPair(new PairFunction,Integer,String>(){153 @Override154 public Tuple2 call(Tuple2 wordTuple) throwsException {155 return new Tuple2(wordTuple._2,wordTuple._1);156 }157 });158
159 //将JavaRDD集合中的单词按出现次数进行将序排列
160 JavaPairRDD sortRdd=mapRdd02.sortByKey(false, 1);161
162 //排序之后将元组中的顺序换回来
163 JavaPairRDD mapRdd03=sortRdd.mapToPair(new PairFunction,String,Integer>(){164 @Override165 public Tuple2 call(Tuple2 wordTuple) throwsException {166 return new Tuple2(wordTuple._2,wordTuple._1);167 }168 });169
170 //存储统计之后的结果到磁盘文件中去171 //mapRdd03.saveAsTextFile("/spark/output");
172
173 saveToDB(mapRdd03);174
175 //关闭Spark上下文
176 jsc.close();177 }178 }
View Code
说明:
在集群模式下,Spark操作关系数据库是通过启动一个Job来完成的,而启动Job则是通过RDD的操作来触发的,因此在Spark集群模式下其关系数据库的所有操作必须位于RDD操作级别才是有效的,否则数据的操作将无法影响到关系数据库中去,而RDD级别之外的操作都属于Spark Core的客户端Driver级别(比如:SparkSQL和SparkStreaming),在上面的代码中,只有RDD对象在被foreachXXX时才会进入到SparkCore级别的Job操作,在RDD之外的操作是属于Driver级别的操作,无法启动Job。
在基于RDD级别的SparkCore操作过程中,其数据都是被封装成Job提交到集群,并在集群的各个节点上执行分配的Task,数据在各个Task节点之间传递需要数据本身支持可序列化,因此在Spark应用中出现的高频率内部类对象(比如上面的VoidFunction)都必须支持可序列化,这意味着在这些内部类对象中出现的成员也必须是可序列化的,因此我们在这些内部类对象所在的上下文中编写代码时必须注意不能出现不可序列化的对象或引用(如不能出现基于瞬态的流化对象Connection、Statement、Thread等),即在这些内部类对象上下文中出现的对象引用必须是实现了java.io.Seralizable接口的。
4、打包工程代码到dist目录下
[hadoop@CloudDeskTop ~]$ cd /project/RDDToJDBC/bin/
[hadoop@CloudDeskTop bin]$ ls
com mysql-connector-java-3.0.17-ga-bin.jar
[hadoop@CloudDeskTop bin]$ jar -cvfe /project/RDDToJDBC/package/RDDToJDBC.jar com.mmzs.bigdata.spark.core.cluster.RDDToDB com/
[hadoop@CloudDeskTop bin]$ cd ../package
[hadoop@CloudDeskTop package]$ ls
RDDToJDBC.jar
5、集群模式下的应用提交测试
A、启动spark集群运行环境:[hadoop@master01 install]$ sh start-total.sh
#!/bin/bash
echo"请首先确认你已经切换到hadoop用户"#启动zookeeper集群for node in hadoop@slave01 hadoop@slave02 hadoop@slave03;do ssh $node "source /etc/profile; cd /software/zookeeper-3.4.10/bin/; ./zkServer.sh start; jps";done
#开启dfs集群
cd/software/ && start-dfs.sh &&jps
#开启spark集群
#启动master01的Master进程,slave节点的Worker进程
cd/software/spark-2.1.1/sbin/ && ./start-master.sh && ./start-slaves.sh &&jps
#启动master02的Master进程
ssh hadoop@master02"cd /software/spark-2.1.1/sbin/; ./start-master.sh; jps"#spark集群的日志服务,一般不开,因为比较占资源
#cd/software/spark-2.1.1/sbin/ && ./start-history-server.sh && cd - &&jps
start-spark.sh
start-spark.sh
B、在CloudDeskTop客户端节点上提交Spark应用
#将数据库中的旧数据删除掉
[root@CloudDeskTop bin]# pwd
/software/mysql-5.5.32/bin
[root@CloudDeskTop bin]# ./mysql -h192.168.154.134 -P3306 -uroot -p123456 -e "truncate table test.wordcount;"
[root@CloudDeskTop bin]# ./mysql -h192.168.154.134 -P3306 -uroot -p123456 -e "select * from test.wordcount;"
#准备源数据
[hadoop@CloudDeskTop jdbc]$ hdfs dfs -put testJDBC.txt /spark/input/
[hadoop@master02 ~]$ hdfs dfs -ls /spark/
Found 1 items
drwxr-xr-x - hadoop supergroup 0 2018-02-26 21:56 /spark/input
[hadoop@master02 ~]$ hdfs dfs -ls /spark/input
Found 1 items
-rw-r--r-- 3 hadoop supergroup 156 2018-02-26 21:56 /spark/input/testJDBC.txt
[hadoop@master02 ~]$ hdfs dfs -cat /spark/input/testJDBC.txt
zhnag san shi yi ge hao ren
jin tian shi yi ge hao tian qi
wo zai zhe li zuo le yi ge ce shi
yi ge guan yu scala de ce shi
welcome to mmzs
欢迎 欢迎
#提交Spark应用
首先:
[hadoop@CloudDeskTop lib]$ cd/software/spark-2.1.1/bin/然后:
第一种提交方式:(可能会出现空指针异常的情况)
[hadoop@CloudDeskTop bin]$ ./spark-submit --master spark://master01:7077 --class com.mmzs.bigdata.spark.core.cluster.RDDToDB /project/RDDToJDBC/package/RDDToJDBC.jar
第二种提交方式:
[hadoop@CloudDeskTop bin]$ ./spark-submit --master spark://master01:7077 --class com.mmzs.bigdata.spark.core.cluster.RDDToDB --jars /software/spark-2.1.1/jars/mysql-connector-java-3.0.17-ga-bin.jar /project/RDDToJDBC/package/RDDToJDBC.jar
C、测试关系数据库中是否已经有数据
[root@CloudDeskTop bin]# ./mysql -h192.168.154.134 -P3306 -uroot -p123456 -e "select * from test.wordcount;"