package com.zhbr.utils
import java.util.Properties
import org.apache.spark.sql.execution.datasources.jdbc.JDBCOptions
import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}
/**
* 连接数据库工具类
*/
object ConnOracleUtile {
/**
* 读取Oracle数据库
* @param spark
* @param dbtable
* @return
*/
def readPMSGSOracleData(spark:SparkSession,dbtable:String)={
val data: DataFrame = spark.read.format("jdbc")
.option("url", "jdbc:oracle:thin:@//10.212.242.XXX:11521/pmsgs")
.option("dbtable", dbtable)
.option("user", "qyw")
.option("password", "XXX")
.load()
data
}
/**
* 读取mysql数据库
* @param spark
* @param dbtable
* @return
*/
def readUSAPPData(spark:SparkSession,dbtable:String)={
val data: DataFrame = spark.read.format("jdbc")
.option("url", "jdbc:mysql://21.76.120.XX:3306/us_app")
.option("dbtable", dbtable)
.option("user", "root")
.option("password", "XXX")
.load()
data
}
/**
* 将数据写入到Mysql数据库(追加写入)
* @param result
* @param dbtable
*/
def writeData(result:DataFrame,dbtable:String): Unit ={
result.write.mode(SaveMode.Append).format("jdbc")
.option(JDBCOptions.JDBC_URL,"jdbc:mysql://21.76.120.XX:3306/us_app?rewriteBatchedStatement=true")
.option("user","root")
.option("password","XXX")
.option(JDBCOptions.JDBC_TABLE_NAME,dbtable)
.option(JDBCOptions.JDBC_TXN_ISOLATION_LEVEL,"NONE") //不开启事务
.option(JDBCOptions.JDBC_BATCH_INSERT_SIZE,500) //设置批量插入
.save()
}
}
接口trait:
package com.zhbr.`trait`
import org.apache.spark.SparkContext
import org.apache.spark.sql.sparkSession
trait ProcessDataSC {
/**
* 处理数据,实现不同的etl操作
* @param spark
*/
def process(sc: SparkContext,spark:SparkSession)
}
mianClass:
package com.zhbr.mainClass
import com.zhbr.process._
import org.apache.spark.sql.SparkSession
object DataProcessMain {
def main(args: Array[String]): Unit = {
//获取sparkSession
val sparkSession = SparkSession.builder().appName(this.getClass.getSimpleName.filter(!_.equals('$'))).getOrCreate()
//获取sparkContext
val sparkContext = sparkSession.sparkContext
//设置日志级别
sparkContext.setLogLevel("WARN")
//计算程序
DLZZ.process(sparkContext,sparkSession)
//释放资源
sparkContext.stop()
sparkSession.stop()
}
}
计算程序:
package com.zhbr.process.run_date
import java.sql.Timestamp
import java.text.SimpleDateFormat
import java.util.{Calendar, Date}
import com.zhbr.`trait`.{ProcessDataSC}
import com.zhbr.utils.{ConnOracleUtile}
import org.apache.spark.SparkContext
import org.apache.spark.sql.execution.datasources.jdbc.JDBCOptions
import org.apache.spark.sql._
/**
1. 运行数据
*/
object DLZZ extends ProcessDataSC{
/**
* 处理数据,实现不同的etl操作
*
* @param spark
*/
override def process(sc:SparkContext,spark:SparkSession): Unit = {
//读取增量数据的条件
val tableName = "(select * from edc_exchange.T_EDC_TRAN_CURRENT_LINE where DATA_DATE=truncate(sysdate)-1) tableTemp"
//读取电流日曲线表T_EDC_TRAN_CURRENT_LINE,获取数据
val DLRQX_Data: DataFrame = ConnOracleUtile.readPMSGSOracleData(spark,tableName)
//读取数据(终端停复电台区表)
val ZDTFDTQData: DataFrame = ConnOracleUtile.readUSAPPData(spark,"pdwqy_qxzh_zdtfd_tg")
//分别创建临时表
DLRQX_Data.registerTempTable("DLRQX_Table")
ZDTFDTQData.registerTempTable("ZDTFDTQData_table")
//计算过程(示意)
val DLZZData = spark.sql("select dl.*,zd.* from DLRQX_Table dl join ZDTFDTQData_table zd on dl.ssds = zd.ssdsid")
//将最后的数据保存到表中(电流转置表)
DLZZData.write.mode(SaveMode.Append).format("jdbc")
.option(JDBCOptions.JDBC_URL,"jdbc:mysql://21.76.120.XX:3306/us_app?rewriteBatchedStatement=true")
.option("user","root")
.option("password","XXX")
.option(JDBCOptions.JDBC_TABLE_NAME,"tempfinal_pdwqy_qxzh_dlzz")
.option(JDBCOptions.JDBC_TXN_ISOLATION_LEVEL,"NONE") //不开启事务
.option(JDBCOptions.JDBC_BATCH_INSERT_SIZE,500) //设置批量插入
.save()
}
}
以上计算步骤关键点:(以时间为参考做增量更新,每天凌晨抽取计算前一天的数据)
val tableName = "(select * from edc_exchange.T_EDC_TRAN_CURRENT_LINE where DATA_DATE=truncate(sysdate)-1) tableTemp"
注意:
val tableName = "(select * from edc_exchange.T_EDC_TRAN_CURRENT_LINE where DATA_DATE=truncate(sysdate)-1) tableTemp"
SparkSQL的全量更新非常简单,其实只需要在写入环节将SaveMode的模式修改为Overwrite即可。
但是这样也存在问题:
即OverWrite模式会先将原来的表删掉,然后spark根据字段推测各字段类型,重写生成新表。但新表的字段类型往往与原表有较大出入,如果是对字段的类型有着比较严格的要求,那最好不要使用OverWrite模式。
如本人公司项目原本的目标表字段类型:
如粗暴地使用OverWrite做全量更新,数据的字段类型会变为:
因此,如需要严格保持原表的字段类型还需要使用Append模式:
然后在程序执行前,执行一条删除原表数据的SQL语句:
truncate table 表名;
这样,现将原表数据删除,在追加新的数据,也可以完成全量更新。