了解实时数仓的整体背景/涉及技术/业务主线
实时数仓的整体架构图.
使用Canal采集MySQL中的数据变更信息.
使用Java开发Canal客户端.
ProtoBuf序列化
Canal原理.
依赖于MySQL的主从复制功能.
一个服务端里面可以有多个实例,每个实例中都有自己的EventParser/EventSink/EventStore/MetaManager.
Canal高可用: Server端高可用/Client高可用
进入数仓业务开发.
搭建实时数仓的项目环境
开发Canal客户端,负责将MySQL的变更信息通过Protobuf发送给Kafka.
实时ETL工程的项目环境初始化.
Canal高可用分为2种:
Canal的高可用依赖于zookeeper
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Z61rKCRW-1591285941152)(assets/image-20200426095826172.png)]
改过之后,将Canal分发到2节点一份,需要修改实例的slaveID.
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VwqUQSsA-1591285941155)(assets/image-20200426095926674.png)]
可以使用zookeeper客户端zkCli.sh获取节点信息:
/export/servers/zookeeper-3.4.9/bin/zkCli.sh
get /otter/canal/destinations/example/running
{"active":true,"address":"192.168.88.120:11111","cid":1}
使用高可用版本的API获取Canal信息:
CanalConnector connector = CanalConnectors.newClusterConnector(
"node1:2181,node2:2181,node3:2181",
"example",
"root",
"123456"
);
可以尝试终止掉目前正在使用的Canal,看zk上面是否能够自动切换到新的canal服务器端.
客户端的高可用主要依赖于zk,会在zk上注册消费者的节点信息:
客户端高可用本身不需要进行任何配置,直接去启动2个客户端就可以了.
我们可以在IDEA中,将当前的客户端启动配置直接复制一份.
启动第二个客户端程序.之后触发MySQL的数据变更,可以看到第一个Canal程序已经消费到了数据,另一个处于等待状态,当第一个程序挂掉后,第二个程序就可以开始进行消费,他们是通过zk中的cursor里面记录的position实现数据的索引记录,继续消费.
依赖仓库下载地址(如果遇到依赖下载不了,可以使用下面的仓库.):
链接:https://pan.baidu.com/s/1oRZpVHAZgJKZ8zC26VAxiw
提取码:0w6l
复制这段内容后打开百度网盘手机App,操作更方便哦
创建项目,创建子模块:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-esl1Seik-1591285941157)(assets/image-20200426104738010.png)]
导入依赖:
导入依赖,参考讲义,或者今天的代码.
创建包结构:
包名 | 说明 |
---|---|
com.itcast.canal_client | 存放入口、Canal客户端核心实现 |
com.itcast.canal_client.util | 存放工具类 |
com.itcast.canal_client.kafka | 存放Kafka生产者实现 |
在resources文件夹下,创建一个server.propertis配置文件,复制下面的内容到配置文件.
# canal配置
canal.server.ip=node1
canal.server.port=11111
canal.server.destination=example
canal.server.username=root
canal.server.password=123456
canal.subscribe.filter=itcast_shop.*
# zookeeper配置
zookeeper.server.ip=node1:2181,node2:2181,node3:2181
# kafka配置
kafka.bootstrap_servers_config=node1:9092,node2:9092,node3:9092
kafka.batch_size_config=1024
# 1: 表示leader写入成功就返回确认信息,假如Leader写完之后宕机了,还没来得及同步到各个节点,数据丢失.
# 0: 异步操作,不管数据有没有写入成功.存在数据丢失.
# -1: 当Leader写入成功,同时从主节点同步成功之后才返回,可以保证数据不丢失.
# all: Leader会等待所有的Follower同步完成,确保消息不丢失,除非整个Kafka集群都挂掉了.
kafka.acks=all
kafka.retries=0
kafka.client_id_config=itcast_shop_canal_click
kafka.key_serializer_class_config=org.apache.kafka.common.serialization.StringSerializer
kafka.value_serializer_class_config=cn.itcast.canal.protobuf.ProtoBufSerializer
kafka.topic=ods_itcast_shop_mysql
为了方便配置文件的读取,我们可以编写一个工具类来获取配置文件的数据.
package com.itcast.canal_client.util;
import java.io.IOException;
import java.io.InputStream;
import java.util.Properties;
/**
* 客户端程序配置文件的读取工具类
*/
public class ConfigUtil {
// 一般,我们配置文件都是通过类名.变量名的形式进行获取的.
// 为了方便后面的使用,这里我们也可以将配置文件都定义为静态的成员变量.
public static String CANAL_SERVER_IP = "";
public static String CANAL_SERVER_PORT = "";
public static String CANAL_SERVER_DESTINATION = "";
public static String CANAL_SERVER_USERNAME = "";
public static String CANAL_SERVER_PASSWORD = "";
public static String CANAL_SUBSCRIBE_FILTER = "";
public static String ZOOKEEPER_SERVER_IP = "";
public static String KAFKA_BOOTSTRAP_SERVERS_CONFIG = "";
public static String KAFKA_BATCH_SIZE_CONFIG = "";
public static String KAFKA_ACKS = "";
public static String KAFKA_RETRIES = "";
public static String KAFKA_CLIENT_ID_CONFIG = "";
public static String KAFKA_KEY_SERIALIZER_CLASS_CONFIG = "";
public static String KAFKA_VALUE_SERIALIZER_CLASS_CONFIG = "";
public static String KAFKA_TOPIC = "";
// 定义代码块,对上面的变量进行赋值.
{
//编写代码.
// 这个代码块随着对象的创建而加载.
}
static {
try {
// 静态代码块
// 随着类的加载而加载
// 读取config.properties,将数据赋值给上面的成员变量
// 将数据封装为properties对象.
Properties properties = new Properties();
// 读取config配置文件
// 2种方式: 1. 使用FileInputStream, 2. 使用类的加载器.
InputStream inputStream = ConfigUtil.class.getClassLoader().getResourceAsStream("config.properties");
// 将数据封装为properties对象.
properties.load(inputStream);
// 从properties对象中获取数据,赋值给上面的变量.
CANAL_SERVER_IP = properties.getProperty("canal.server.ip");
CANAL_SERVER_PORT = properties.getProperty("canal.server.port");
CANAL_SERVER_DESTINATION = properties.getProperty("canal.server.destination");
CANAL_SERVER_USERNAME = properties.getProperty("canal.server.username");
CANAL_SERVER_PASSWORD = properties.getProperty("canal.server.password");
CANAL_SUBSCRIBE_FILTER = properties.getProperty("canal.subscribe.filter");
ZOOKEEPER_SERVER_IP = properties.getProperty("zookeeper.server.ip");
KAFKA_BOOTSTRAP_SERVERS_CONFIG = properties.getProperty("kafka.bootstrap_servers_config");
KAFKA_BATCH_SIZE_CONFIG = properties.getProperty("kafka.batch_size_config");
KAFKA_ACKS = properties.getProperty("kafka.acks");
KAFKA_RETRIES = properties.getProperty("kafka.retries");
KAFKA_CLIENT_ID_CONFIG = properties.getProperty("kafka.client_id_config");
KAFKA_KEY_SERIALIZER_CLASS_CONFIG = properties.getProperty("kafka.key_serializer_class_config");
KAFKA_VALUE_SERIALIZER_CLASS_CONFIG = properties.getProperty("kafka.value_serializer_class_config");
KAFKA_TOPIC = properties.getProperty("kafka.topic");
} catch (IOException e) {
// 下面这一行是将数据打印到控制台,开发时,一般我们都是将错误信息写入到日志文件中.
// 这行代码建议不要删除,除非我们已经手动将日志保存起来.
e.printStackTrace();
} finally {
}
}
//测试配置的读取功能
public static void main(String[] args) {
System.out.println(ConfigUtil.CANAL_SERVER_IP);
System.out.println(ConfigUtil.CANAL_SERVER_PORT);
System.out.println(ConfigUtil.CANAL_SERVER_DESTINATION);
System.out.println(ConfigUtil.CANAL_SERVER_USERNAME);
System.out.println(ConfigUtil.CANAL_SERVER_PASSWORD);
System.out.println(ConfigUtil.CANAL_SUBSCRIBE_FILTER);
System.out.println(ConfigUtil.ZOOKEEPER_SERVER_IP);
System.out.println(ConfigUtil.KAFKA_BOOTSTRAP_SERVERS_CONFIG);
System.out.println(ConfigUtil.KAFKA_BATCH_SIZE_CONFIG);
System.out.println(ConfigUtil.KAFKA_ACKS);
System.out.println(ConfigUtil.KAFKA_RETRIES);
System.out.println(ConfigUtil.KAFKA_CLIENT_ID_CONFIG);
System.out.println(ConfigUtil.KAFKA_KEY_SERIALIZER_CLASS_CONFIG);
System.out.println(ConfigUtil.KAFKA_VALUE_SERIALIZER_CLASS_CONFIG);
System.out.println(ConfigUtil.KAFKA_TOPIC);
}
}
在Common工程中,创建protobuf的配置文件
syntax = "proto3";
option java_package = "cn.itcast.canal.protobuf";
option java_outer_classname = "CanalModel";
// 一行数据中包含的内容.
message RowData{
string logfileName = 2;
uint64 logfileOffset = 3;
string eventType = 4;
string dbName = 5;
string tableName = 6;
uint64 executeTime = 7;
//列信息
map columns = 8;
}
编译配置文件
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vFoyI5xd-1591285941160)(assets/image-20200426115642098.png)]
编写自定义数据传输的实体类: RowData
package cn.itcast.shop.bean;
import java.util.Map;
/**
* RowData就是一行数据的记录
*/
public class RowData {
private String logfileName;
private Long logfileOffset;
private String eventType;
private String dbName;
private String tableName;
private Long executeTime;
private Map<String, String> columns;
public RowData() {
}
public RowData(String logfileName, Long logfileOffset, String eventType, String dbName, String tableName, Long executeTime, Map<String, String> columns) {
this.logfileName = logfileName;
this.logfileOffset = logfileOffset;
this.eventType = eventType;
this.dbName = dbName;
this.tableName = tableName;
this.executeTime = executeTime;
this.columns = columns;
}
public String getLogfileName() {
return logfileName;
}
public void setLogfileName(String logfileName) {
this.logfileName = logfileName;
}
public Long getLogfileOffset() {
return logfileOffset;
}
public void setLogfileOffset(Long logfileOffset) {
this.logfileOffset = logfileOffset;
}
public String getEventType() {
return eventType;
}
public void setEventType(String eventType) {
this.eventType = eventType;
}
public String getDbName() {
return dbName;
}
public void setDbName(String dbName) {
this.dbName = dbName;
}
public String getTableName() {
return tableName;
}
public void setTableName(String tableName) {
this.tableName = tableName;
}
public Long getExecuteTime() {
return executeTime;
}
public void setExecuteTime(Long executeTime) {
this.executeTime = executeTime;
}
public Map<String, String> getColumns() {
return columns;
}
public void setColumns(Map<String, String> columns) {
this.columns = columns;
}
@Override
public String toString() {
return "RowData{" +
"logfileName='" + logfileName + '\'' +
", logfileOffset=" + logfileOffset +
", eventType='" + eventType + '\'' +
", dbName='" + dbName + '\'' +
", tableName='" + tableName + '\'' +
", executeTime=" + executeTime +
", columns=" + columns +
'}';
}
}
修改canal客户端发送程序
package com.itcast.canal_client;
import cn.itcast.canal.protobuf.CanalModel;
import cn.itcast.shop.bean.RowData;
import com.alibaba.fastjson.JSON;
import com.alibaba.otter.canal.client.CanalConnector;
import com.alibaba.otter.canal.client.CanalConnectors;
import com.alibaba.otter.canal.protocol.CanalEntry;
import com.alibaba.otter.canal.protocol.Message;
import com.google.protobuf.ByteString;
import com.google.protobuf.InvalidProtocolBufferException;
import com.itcast.canal_client.util.ConfigUtil;
import java.net.InetSocketAddress;
import java.net.SocketAddress;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
/**
* Canal客户端开发
*/
public class CanalClient {
public static void main(String[] args) throws Exception {
//2. 创建Canal连接对象
// CanalConnectors.newSingleConnector() // 单机版的Canal服务端
// CanalConnectors.newClusterConnector() // 高可用版本的Canal
// CanalConnector connector = CanalConnectors.newSingleConnector(
// new InetSocketAddress("node1", 11111),
// "example", "root", "123456");
CanalConnector connector = CanalConnectors.newClusterConnector(
ConfigUtil.ZOOKEEPER_SERVER_IP,
ConfigUtil.CANAL_SERVER_DESTINATION,
ConfigUtil.CANAL_SERVER_USERNAME,
ConfigUtil.CANAL_SERVER_PASSWORD
);
//3. 连接Canal服务端
connector.connect();
//4. 回滚到最后一次消费的位置
connector.rollback();
//5. 订阅我们要消费的数据.比如我们只消费itcast_shop数据库
connector.subscribe(ConfigUtil.CANAL_SUBSCRIBE_FILTER);
// 获取数据不是只获取1次,而是应该源源不断的获取数据,只要数据发生了变更,我们就要进行数据的采集.
// 所以我们应该用一个死循环,源源不断的获取数据.
boolean flag = true;
while (flag) {
//6. 获取数据
// connector.get() 从服务器端获取数据,并发送回执
// connector.getWithoutAck() 从服务器获取数据,但是不发送回执.注意: 这种方式需要手动的发送回执.
Message message = connector.getWithoutAck(1000);
//7. 解析数据
long id = message.getId();//本批次数据的ID
List<CanalEntry.Entry> entries = message.getEntries();// 本批次的数据
//判断当前批次有没有获取到数据.
if (id == -1 || entries.size() == 0) {
//没有数据,不执行任何操作
} else {
// 将binlog转换为protobuf格式
binlogToProtoBuf(message);
}
//8. 给服务器一个回执,告诉服务器本批次的数据已经消费过了.
connector.ack(id);
//每一批次都休息1秒钟
// Thread.sleep(1000);
}
//9. 关闭连接.
connector.disconnect();
}
// binlog解析为ProtoBuf
private static void binlogToProtoBuf(Message message) throws InvalidProtocolBufferException {
// 1. 构建CanalModel.RowData实体
RowData rowdata = new RowData();
// 1. 遍历message中的所有binlog实体
for (CanalEntry.Entry entry : message.getEntries()) {
// 只处理事务型binlog
if (entry.getEntryType() == CanalEntry.EntryType.TRANSACTIONBEGIN ||
entry.getEntryType() == CanalEntry.EntryType.TRANSACTIONEND) {
continue;
}
// 获取binlog文件名
String logfileName = entry.getHeader().getLogfileName();
// 获取logfile的偏移量
long logfileOffset = entry.getHeader().getLogfileOffset();
// 获取sql语句执行时间戳
long executeTime = entry.getHeader().getExecuteTime();
// 获取数据库名
String schemaName = entry.getHeader().getSchemaName();
// 获取表名
String tableName = entry.getHeader().getTableName();
// 获取事件类型 insert/update/delete
String eventType = entry.getHeader().getEventType().toString().toLowerCase();
rowdata.setLogfileName(logfileName);
rowdata.setLogfileOffset(logfileOffset);
rowdata.setExecuteTime(executeTime);
rowdata.setDbName(schemaName);
rowdata.setTableName(tableName);
rowdata.setEventType(eventType);
// 获取所有行上的变更
HashMap<String, String> map = new HashMap<>();
CanalEntry.RowChange rowChange = CanalEntry.RowChange.parseFrom(entry.getStoreValue());
List<CanalEntry.RowData> columnDataList = rowChange.getRowDatasList();
for (CanalEntry.RowData rowData : columnDataList) {
if (eventType.equals("insert") || eventType.equals("update")) {
for (CanalEntry.Column column : rowData.getAfterColumnsList()) {
map.put(column.getName(), column.getValue().toString());
}
} else if (eventType.equals("delete")) {
for (CanalEntry.Column column : rowData.getBeforeColumnsList()) {
map.put(column.getName(), column.getValue().toString());
}
}
}
rowdata.setColumns(map);
// 这里打印的rowdata是我们自己定义的对象.
System.out.println(rowdata);
// 将我们自己封装的rowdata使用自定义方式发送到Kafka.,
// KafkaUtil.sendToKafka(rowdata);
}
}
}
到目前为止,我们已经能够将Canal中的消息获取到,并且封装成了自定义的RowData对象,我们先需要的就是直接将RowData对象发送给Kafka.并且将数据发送到Kafka的时候需要使用Protobuf进行序列化.
现在我们需要将数据发送到Kafka中,那么Kafka里面是否能够直接接收自定义对象RowData呢?
Kafka中数据传递的格式: Kafka中只能传递字节数组类型.
因为Kafka不支持直接将RowData数据类型进行传递,所以我们可以借鉴StringSerializer,通过自定义的方式,实现将RowData转换为字节.
package com.itcast.canal_client.kafka;
import cn.itcast.shop.bean.RowData;
import com.itcast.canal_client.util.ConfigUtil;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerRecord;
import java.util.Properties;
/**
* Kafka的数据发送工具类
*/
public class KafkaSender {
// 定义一个发送数据的对象
public static KafkaProducer<String, RowData> producer;
static {
// 在静态代码块中,对KafkaProducer进行初始化操作
Properties properties = new Properties();
properties.setProperty("bootstrap.servers", ConfigUtil.KAFKA_BOOTSTRAP_SERVERS_CONFIG);
properties.setProperty("acks", ConfigUtil.KAFKA_ACKS);
properties.setProperty("retries", ConfigUtil.KAFKA_RETRIES);
properties.setProperty("batch.size", ConfigUtil.KAFKA_BATCH_SIZE_CONFIG);
properties.setProperty("key.serializer", ConfigUtil.KAFKA_KEY_SERIALIZER_CLASS_CONFIG);
//自定义value的序列化.待定
properties.setProperty("value.serializer", ConfigUtil.KAFKA_VALUE_SERIALIZER_CLASS_CONFIG);
producer = new KafkaProducer<String, RowData>(properties);
}
/**
* 将RowData对象发送到Kafka中.
* @param rowData
*/
public static void send(RowData rowData) {
producer.send(new ProducerRecord<String, RowData>(ConfigUtil.KAFKA_TOPIC, rowData));
}
}
我们可以先定义一个接口,后期,凡是想实现自定义对象发送到Kafka的需求,都需要让我们的对象实现此接口.也就是凡是实现此接口的实体类,都可以直接发送给Kafka.
使用Lombok改造之前的RowData实体类.
lombok是帮助我们快速的创建实体类的一些工具方法,比如get/set方法/有参无参构造等.使用的时候需要注意以下细节:
要在项目中添加lombok依赖:
<dependency>
<groupId>org.projectlombokgroupId>
<artifactId>lombokartifactId>
<version>1.18.4version>
dependency>
在IDEA中添加插件.否则IDEA编译会报错,认为我们没有getset方法.
package cn.itcast.shop.protobuf;
/**
* 凡是需要通过protobuf实现序列化的实体类,都需要实现该接口
*/
public interface ProtoBufable {
/**
* 子类必须实现该方法,提供一个转字节的功能.
* @return
*/
byte[] toBytes();
}
package cn.itcast.shop.bean;
import cn.itcast.canal.protobuf.CanalModel;
import cn.itcast.shop.protobuf.ProtoBufable;
import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.NoArgsConstructor;
import lombok.ToString;
import java.util.Map;
/**
* RowData就是一行数据的记录
*/
@Data //get/set方法
@NoArgsConstructor //无参构造
@AllArgsConstructor // 有参构造
@ToString
public class RowData implements ProtoBufable {
private String logfileName;
private Long logfileOffset;
private String eventType;
private String dbName;
private String tableName;
private Long executeTime;
private Map<String, String> columns;
@Override
public byte[] toBytes() {
// 使用protobuf将当前对象中的数据转换为字节.
CanalModel.RowData.Builder builder = CanalModel.RowData.newBuilder();
//向build中添加数据
builder.setLogfileName(logfileName);
builder.setLogfileOffset(logfileOffset);
builder.setEventType(eventType);
builder.setDbName(dbName);
builder.setTableName(tableName);
builder.setExecuteTime(executeTime);
builder.putAllColumns(columns);
//将数据转换为字节数组
byte[] bytes = builder.build().toByteArray();
return bytes;
}
}
package cn.itcast.shop.protobuf;
import org.apache.kafka.common.serialization.Serializer;
import java.util.Map;
/**
* 自定义的序列化器
*/
public class ProtoBufSerializer implements Serializer<ProtoBufable> {
@Override
public void configure(Map<String, ?> configs, boolean isKey) {
// 自定义配置
}
/**
* 实现向Kafka中发送数据的核心方法
* @param topic
* @param data
* @return
*/
@Override
public byte[] serialize(String topic, ProtoBufable data) {
return data.toBytes();
}
@Override
public void close() {
// 关闭资源的方法,目前不需要
}
}
启动Kafka的相关工具
# 启动Kafka的服务端
nohup /export/servers/kafka_2.11-1.0.0/bin/kafka-server-start.sh /export/servers/kafka_2.11-1.0.0/config/server.properties > /dev/null 2>&1 &
# 启动Kafka的客户端消费者
/export/servers/kafka_2.11-1.0.0/bin/kafka-console-consumer.sh --zookeeper node1:2181 --topic ods_itcast_shop_mysql
使用KafkaManager的时候,只需要去conf文件夹下修改application.conf中的zk地址信息:
kafka-manager.zkhosts="node1:2181"
访问Kafka-Manager
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CrRi73ZF-1591285941162)(assets/image-20200426153641329.png)]
#
#kafka的配置
#
# Kafka集群地址
bootstrap.servers="node1:9092,node2:9092,node3:9092"
# ZooKeeper集群地址
zookeeper.connect="node1:2181,node2:2181,node3:2181"
# 消费组ID
group.id="itcast"
# 自动提交拉取到消费端的消息offset到kafka
enable.auto.commit="true"
# 自动提交offset到zookeeper的时间间隔单位(毫秒)
auto.commit.interval.ms="5000"
# 每次消费最新的数据
auto.offset.reset="latest"
# kafka序列化器
key.serializer="org.apache.kafka.common.serialization.StringSerializer"
# kafka反序列化器
key.deserializer="org.apache.kafka.common.serialization.StringDeserializer"
# ip库本地文件路径
ip.file.path="D:/workspace/flink/itcast_shop_parent34/data/qqwry.dat"
# Redis配置
redis.server.ip="node2"
redis.server.port=6379
# MySQL配置
mysql.server.ip="node1"
mysql.server.port=3306
mysql.server.database="itcast_shop"
mysql.server.username="root"
mysql.server.password="123456"
# Kafka Topic名称
input.topic.canal="ods_itcast_shop_mysql"
# Kafka click_log topic名称
input.topic.click_log="ods_itcast_click_log"
# Kafka 购物车 topic名称
input.topic.cart="ods_itcast_cart"
# kafka 评论 topic名称
input.topic.comments="ods_itcast_comments"
# Druid Kafka数据源 topic名称
output.topic.order="dwd_order"
output.topic.order_detail="dwd_order_detail"
output.topic.cart="dwd_cart"
output.topic.clicklog="dwd_click_log"
output.topic.goods="dwd_goods"
output.topic.ordertimeout="dwd_order_timeout"
output.topic.comments="dwd_comments"
# HBase订单明细表配置
hbase.table.orderdetail="dwd_order_detail"
hbase.table.family="detail"
log4j.rootLogger=warn,stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%5p - %m%n
<configuration>
<property>
<name>hbase.rootdirname>
<value>hdfs://node1:8020/hbasevalue>
property>
<property>
<name>hbase.cluster.distributedname>
<value>truevalue>
property>
<property>
<name>hbase.master.portname>
<value>16000value>
property>
<property>
<name>hbase.zookeeper.property.clientPortname>
<value>2181value>
property>
<property>
<name>hbase.zookeeper.quorumname>
<value>node1:2181,node2:2181,node3:2181value>
property>
<property>
<name>hbase.zookeeper.property.dataDirname>
<value>/export/servers/zookeeper-3.4.5-cdh5.14.0/zkdatasvalue>
property>
configuration>
package cn.itcast.shop.realtime.etl.util
import com.typesafe.config.{Config, ConfigFactory}
/**
* 全局的配置工具类
*/
object GlobalConfigUtil {
//使用ConfigFactory加载application.conf配置文件
private val config: Config = ConfigFactory.load()
// 从config中获取配置信息
val `bootstrap.servers`: String = config.getString("bootstrap.servers")
val `zookeeper.connect`: String = config.getString("zookeeper.connect")
val `group.id`: String = config.getString("group.id")
val `enable.auto.commit`: String = config.getString("enable.auto.commit")
val `auto.commit.interval.ms`: String = config.getString("auto.commit.interval.ms")
val `auto.offset.reset`: String = config.getString("auto.offset.reset")
val `key.serializer`: String = config.getString("key.serializer")
val `key.deserializer`: String = config.getString("key.deserializer")
val `ip.file.path`: String = config.getString("ip.file.path")
val `redis.server.ip`: String = config.getString("redis.server.ip")
val `redis.server.port`: String = config.getString("redis.server.port")
val `mysql.server.ip`: String = config.getString("mysql.server.ip")
val `mysql.server.port`: String = config.getString("mysql.server.port")
val `mysql.server.database`: String = config.getString("mysql.server.database")
val `mysql.server.username`: String = config.getString("mysql.server.username")
val `mysql.server.password`: String = config.getString("mysql.server.password")
val `input.topic.canal`: String = config.getString("input.topic.canal")
val `input.topic.click_log`: String = config.getString("input.topic.click_log")
val `input.topic.cart`: String = config.getString("input.topic.cart")
val `input.topic.comments`: String = config.getString("input.topic.comments")
val `output.topic.order`: String = config.getString("output.topic.order")
val `output.topic.order_detail`: String = config.getString("output.topic.order_detail")
val `output.topic.cart`: String = config.getString("output.topic.cart")
val `output.topic.clicklog`: String = config.getString("output.topic.clicklog")
val `output.topic.goods`: String = config.getString("output.topic.goods")
val `output.topic.ordertimeout`: String = config.getString("output.topic.ordertimeout")
val `output.topic.comments`: String = config.getString("output.topic.comments")
val `hbase.table.orderdetail`: String = config.getString("hbase.table.orderdetail")
val `hbase.table.family`: String = config.getString("hbase.table.family")
def main(args: Array[String]): Unit = {
println(GlobalConfigUtil.`output.topic.cart`)
println(GlobalConfigUtil.`zookeeper.connect`)
println(GlobalConfigUtil.`hbase.table.family`)
println(GlobalConfigUtil.`ip.file.path`)
}
}
入口主程序主要负责接收Kafka的数据,进行ETL处理,之后将处理后的数据推送给kafka或者保存到HBase等.
Flink流处理程序的开发步骤:
获取Flink的流处理运行环境
设置运行环境相关参数:
开启Checkpoint.
设置程序的重启策略:
如果Flink开启了Checkpoint,默认是无限重启的.所以我们应该配置一下重启策略
加载Kafka数据源.
进行业务开发
启动程序
package cn.itcast.shop.realtime.etl.app
import org.apache.flink.api.common.restartstrategy.RestartStrategies
import org.apache.flink.runtime.state.filesystem.FsStateBackend
import org.apache.flink.streaming.api.environment.CheckpointConfig
import org.apache.flink.streaming.api.{CheckpointingMode, TimeCharacteristic}
import org.apache.flink.streaming.api.scala._
/**
* FlinkETL程序的入口
*/
object App {
def main(args: Array[String]): Unit = {
//1. 获取Flink的流处理运行环境
val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
//2. 设置运行环境相关参数:
// * 并行度(全局的)
env.setParallelism(1)
// * 设置时间的处理特性,设置为事件发生时间.
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
//3. 开启Checkpoint.
env.enableCheckpointing(5000L)
env.getCheckpointConfig.setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE)
// 配置两次checkpoint的最小时间间隔
env.getCheckpointConfig.setMinPauseBetweenCheckpoints(1000)
// 配置最大checkpoint的并行度
env.getCheckpointConfig.setMaxConcurrentCheckpoints(1)
// 配置checkpoint的超时时长
env.getCheckpointConfig.setCheckpointTimeout(60000)
// 当程序关闭,触发额外的checkpoint
env.getCheckpointConfig.enableExternalizedCheckpoints(
CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION)
// 1. 进行checkpoint的参数设置
// 2. 比如超时时间/失败策略/并行度....
// 3. 设置checkpoint的路径信息.
// checkpoint的HDFS保存位置
env.setStateBackend(new FsStateBackend("hdfs://node1:8020/flink_itcast_shop000"))
//4. 设置程序的重启策略:
// 如果Flink开启了Checkpoint,默认是无限重启的.所以我们应该配置一下重启策略
// 如果程序出错,间隔1秒钟后重启一次,如果还是失败,那么程序退出.
env.setRestartStrategy(RestartStrategies.fixedDelayRestart(1, 1000))
//
//5. 加载Kafka数据源.
env.fromCollection(
List("hadoop", "hive", "spark")
).print()
//6. 进行业务开发
//7. 启动程序
env.execute("itcast_shop")
}
}
因为目前有2种数据源,为了方便后面的业务开发,我们针对String和MySQL的数据开发2个基类,
package cn.itcast.shop.realtime.etl.process.base
import org.apache.flink.streaming.api.scala.DataStream
/**
* 所有ETL的基类,主要负责定义整体流程.
* 比如定义数据源的方法,处理数据的方法...
* (爷爷)
*/
trait BaseETL[T] {
/**
* 获取数据源
* @param topic 需要消费的Topic名称
* @return
*/
def getDataSource(topic: String): DataStream[T]
/**
* 后续所有的ETL操作都需要将功能实现放在Process方法中.
*/
def process()
}
package cn.itcast.shop.realtime.etl.util
import java.util.Properties
import org.apache.kafka.clients.consumer.ConsumerConfig
/**
* Kafka配置工具类
*/
object KafkaProps {
def getKafkaProps(): Properties = {
//定义Kafka配置
val properties = new Properties()
properties.setProperty(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, GlobalConfigUtil.`bootstrap.servers`)
properties.setProperty(ConsumerConfig.GROUP_ID_CONFIG, GlobalConfigUtil.`group.id`)
properties.setProperty(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, GlobalConfigUtil.`enable.auto.commit`)
properties.setProperty(ConsumerConfig.AUTO_COMMIT_INTERVAL_MS_CONFIG, GlobalConfigUtil.`auto.commit.interval.ms`)
properties.setProperty(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG, GlobalConfigUtil.`auto.offset.reset`)
properties.setProperty(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, GlobalConfigUtil.`key.deserializer`)
properties
}
}
package cn.itcast.shop.realtime.etl.process.base
import cn.itcast.shop.realtime.etl.util.{GlobalConfigUtil, KafkaProps}
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer011
import org.apache.flink.streaming.util.serialization.SimpleStringSchema
/**
* 负责处理String类型的数据源
* (爸爸)
*/
abstract class MQBaseETL(env: StreamExecutionEnvironment) extends BaseETL[String] {
/**
* 获取数据源
*
* @param topic 需要消费的Topic名称
* @return
*/
override def getDataSource(topic: String): DataStream[String] = {
val consumer = new FlinkKafkaConsumer011[String](
topic,
new SimpleStringSchema,
KafkaProps.getKafkaProps
)
// 添加Kafka数据源
val sourceStream: DataStream[String] = env.addSource(consumer)
sourceStream
}
}
在RowData中添加一个构造方法,用户根据字节数组生成对象
/**
* 接收字节数组,转换为RowData对象
*
* @param bytes
*/
public RowData(byte[] bytes) {
try {
//先将字节数组转换为CanalModel.RowData对象
CanalModel.RowData rowData = CanalModel.RowData.parseFrom(bytes);
//对当前对象赋值
this.logfileName = rowData.getLogfileName();
this.logfileOffset = rowData.getLogfileOffset();
this.eventType = rowData.getEventType();
this.dbName = rowData.getDbName();
this.tableName = rowData.getTableName();
this.executeTime = rowData.getExecuteTime();
//先初始化Map
this.columns = new HashMap<>();
//将RowData的数据赋值到当前columns中
this.columns.putAll(rowData.getColumnsMap());
} catch (InvalidProtocolBufferException e) {
e.printStackTrace();
} finally {
}
}
编写自定义反序列化器
package cn.itcast.shop.realtime.etl.util
import cn.itcast.shop.bean.RowData
import org.apache.flink.api.common.serialization.{AbstractDeserializationSchema, DeserializationSchema}
import org.apache.flink.api.common.typeinfo.TypeInformation
/**
* 自定义RowData的转换类,将Kafka中的数据直接转换为RowData类型
*/
class CanalRowDataDeserializationSchema extends AbstractDeserializationSchema[RowData]{
/**
* 在这个方法中,将字节转换为RowData对象
* @param bytes
* @return
*/
override def deserialize(bytes: Array[Byte]): RowData = {
// 2种方式进行转换. 1: 在这里进行转换 2: 在RowData的构造构造方法中进行转换.
new RowData(bytes)
}
}
package cn.itcast.shop.realtime.etl.process.base
import cn.itcast.shop.bean.RowData
import cn.itcast.shop.realtime.etl.util.{CanalRowDataDeserializationSchema, GlobalConfigUtil, KafkaProps}
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer011
import org.apache.flink.streaming.util.serialization.SimpleStringSchema
/**
* 负责处理Canal相关类型的数据源(RowData)
* (爸爸)
*/
abstract class MySQLBaseETL(env: StreamExecutionEnvironment) extends BaseETL[RowData] {
/**
* 获取数据源
*
* @param topic 需要消费的Topic名称
* @return
*/
override def getDataSource(topic: String = GlobalConfigUtil.`input.topic.canal`): DataStream[RowData] = {
val consumer = new FlinkKafkaConsumer011[RowData](
topic,
new CanalRowDataDeserializationSchema,
KafkaProps.getKafkaProps
)
// 添加Kafka数据源
val sourceStream: DataStream[RowData] = env.addSource(consumer)
sourceStream
}
}
package cn.itcast.shop.realtime.etl.process.test
import cn.itcast.shop.realtime.etl.process.base.MQBaseETL
import cn.itcast.shop.realtime.etl.util.GlobalConfigUtil
import org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnvironment}
class TestStringETL(env: StreamExecutionEnvironment) extends MQBaseETL(env){
/**
* 后续所有的ETL操作都需要将功能实现放在Process方法中.
*/
override def process(): Unit = {
val source: DataStream[String] = getDataSource(GlobalConfigUtil.`input.topic.click_log`)
source.print("点击流日志数据::")
}
}
package cn.itcast.shop.realtime.etl.process.test
import cn.itcast.shop.bean.RowData
import cn.itcast.shop.realtime.etl.process.base.MySQLBaseETL
import org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnvironment}
class TestMySQLETL(env: StreamExecutionEnvironment) extends MySQLBaseETL(env){
/**
* 后续所有的ETL操作都需要将功能实现放在Process方法中.
*/
override def process(): Unit = {
val source: DataStream[RowData] = getDataSource()
source.print("MySQL中获取的数据::")
}
}
//6. 进行业务开发
//获取String类型的数据
new TestStringETL(env).process()
//获取MySQL的数据
new TestMySQLETL(env).process()
使用Kafka发送点击流日志的测试数据:
/export/servers/kafka_2.11-1.0.0/bin/kafka-console-producer.sh --broker-list node1:9092,node2:9092,node3:9092 --topic ods_itcast_click_log
修改MySQL中的数据,看Flink能否打印出来
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xzOpAWCd-1591285941164)(assets/image-20200426175143190.png)]
序列化: 对象转字节.
反序列化: 字节转对象.