L小Ray想有腮

大数据实战项目 -- 实时数仓

文章目录

一、实时数据
- 1.1 日志采集器
- 1.1 日志生成器
- 1.3 日志分发器
- 1.4 采集流脚本
二、实时采集
- 2.1 项目搭建
- 2.2 Kafka 数据获取
- 2.3 Redis 数据去重
- 2.4 ES 数据存储
- 2.5 精准一次性消费
- 2.6 Kibana 可视化配置
- 2.7 发布数据接口
三、实时监控
- 3.1 Canal
- - 3.1.1 配置 MySQL
  - 3.1.2 安装 canal
- 3.2 Canal ODS 层数据分流
- 3.3 Maxwell
- 3.4 Maxwell ODS 层数据分流

一、实时数据

1.1 日志采集器

新建 Spring Boot Web 工程

https://start.spring.io/ 勾选 Lombok、 Spring Web、 Spring for Apache Kafka。

准备 POM 文件

在原POM基础上添加JSON工具


<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <parent>
        <artifactId>gmallartifactId>
        <groupId>com.simworgroupId>
        <version>0.0.1-SNAPSHOTversion>
    parent>
    <modelVersion>4.0.0modelVersion>
    <artifactId>loggerartifactId>

    <properties>
        <maven.compiler.source>8maven.compiler.source>
        <maven.compiler.target>8maven.compiler.target>
    properties>

    <dependencies>
        <dependency>
            <groupId>com.alibabagroupId>
            <artifactId>fastjsonartifactId>
        dependency>

        <dependency>
            <groupId>org.springframework.bootgroupId>
            <artifactId>spring-boot-starter-webartifactId>
        dependency>
        <dependency>
            <groupId>org.springframework.kafkagroupId>
            <artifactId>spring-kafkaartifactId>
        dependency>

        <dependency>
            <groupId>org.projectlombokgroupId>
            <artifactId>lombokartifactId>
            <optional>trueoptional>
        dependency>
        <dependency>
            <groupId>org.springframework.bootgroupId>
            <artifactId>spring-boot-starter-testartifactId>
            <scope>testscope>
            <exclusions>
                <exclusion>
                    <groupId>org.junit.vintagegroupId>
                    <artifactId>junit-vintage-engineartifactId>
                exclusion>
            exclusions>
        dependency>
        <dependency>
            <groupId>org.springframework.kafkagroupId>
            <artifactId>spring-kafka-testartifactId>
            <scope>testscope>
        dependency>
    dependencies>

    <build>
        <plugins>
            <plugin>
                <groupId>org.springframework.bootgroupId>
                <artifactId>spring-boot-maven-pluginartifactId>
                <configuration>
                    <excludes>
                        <exclude>
                            <groupId>org.projectlombokgroupId>
                            <artifactId>lombokartifactId>
                        exclude>
                    excludes>
                configuration>
            plugin>
        plugins>
    build>
project>

编写日志采集控制器

将日志分流发送至Kafka 2. 将日志落盘

package com.simwor.gmall.controller;

import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONObject;
import lombok.extern.slf4j.Slf4j;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.kafka.core.KafkaTemplate;
import org.springframework.web.bind.annotation.RequestBody;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RestController;

@RestController
@Slf4j
public class LoggerController {
    @Autowired
    private KafkaTemplate<String,String> kafkaTemplate;

    @RequestMapping("/applog")
    public String appLog(@RequestBody String applog) {
        JSONObject jsonObject = JSON.parseObject(applog);
        if(jsonObject.getString("start") != null && jsonObject.getString("start").length() > 0)
            kafkaTemplate.send("gmall-start-log", applog);
        else
            kafkaTemplate.send("gmall-event-log", applog);

        log.info(applog);
        return applog;
    }
}

准备日志落盘配置文件 logback.xml


<configuration>
    <property name="LOG_HOME" value="/opt/applog/logs" />
    <appender name="console" class="ch.qos.logback.core.ConsoleAppender">
        <encoder>
            <pattern>%msg%npattern>
        encoder>
    appender>

    <appender name="rollingFile" class="ch.qos.logback.core.rolling.RollingFileAppender">
        <file>${LOG_HOME}/app.logfile>
        <rollingPolicy class="ch.qos.logback.core.rolling.TimeBasedRollingPolicy">
            <fileNamePattern>${LOG_HOME}/app.%d{yyyy-MM-dd}.logfileNamePattern>
        rollingPolicy>
        <encoder>
            <pattern>%msg%npattern>
        encoder>
    appender>

    
    <logger name="com.simwor.gmall.controller.LoggerController"
            level="INFO" additivity="false">
        <appender-ref ref="rollingFile" />
        <appender-ref ref="console" />
    logger>

    <root level="error" additivity="false">
        <appender-ref ref="console" />
    root>
configuration>

准备应用配置文件 application.properties

#============== kafka ===================
# 指定kafka 代理地址，可以多个
spring.kafka.bootstrap-servers=simwor01:9092,simwor02:9092,simwor03:9092
# 指定消息key和消息体的编解码方式
spring.kafka.producer.key-serializer=org.apache.kafka.common.serialization.StringSerializer
spring.kafka.producer.value-serializer=org.apache.kafka.common.serialization.StringSerializer

运行验证

打包运行

发送消息

验证

1.1 日志生成器

日志生成器模拟 gmall-start-log 和 gmall-event-log 的格式对 日志采集器 不断发出请求。

[omm@simwor01 mock-log]$ ll
-rw-r--r--. 1 omm omm      610 Jun 16 10:16 application.properties
-rw-r--r--. 1 omm omm 11114569 Jun 13  2020 gmall2020-mock-log-2020-05-10.jar
-rw-r--r--. 1 omm omm     3211 Jun 16 10:17 logback.xml
-rw-r--r--. 1 omm omm      493 Mar 19  2020 path.json

[omm@simwor01 mock-log]$ java -jar gmall2020-mock-log-2020-05-10.jar 
...
{"common":{"ar":"110000","ba":"Xiaomi","ch":"web","md":"Xiaomi 9","mid":"mid_35","os":"Android 9.0","uid":"60","vc":"v2.1.134"},"start":{"entry":"notice","loading_time":9558,"open_ad_id":19,"open_ad_ms":8081,"open_ad_skip_ms":0},"ts":1623810190000}
{"common":{"ar":"110000","ba":"Xiaomi","ch":"web","md":"Xiaomi 9","mid":"mid_35","os":"Android 9.0","uid":"60","vc":"v2.1.134"},"displays":[{"display_type":"activity","item":"2","item_type":"activity_id","order":1},{"display_type":"query","item":"9","item_type":"sku_id","order":2},{"display_type":"query","item":"10","item_type":"sku_id","order":3},{"display_type":"query","item":"5","item_type":"sku_id","order":4},{"display_type":"query","item":"7","item_type":"sku_id","order":5},{"display_type":"query","item":"1","item_type":"sku_id","order":6},{"display_type":"query","item":"8","item_type":"sku_id","order":7},{"display_type":"promotion","item":"8","item_type":"sku_id","order":8},{"display_type":"query","item":"3","item_type":"sku_id","order":9},{"display_type":"promotion","item":"2","item_type":"sku_id","order":10}],"page":{"during_time":18544,"page_id":"home"},"ts":1623810199558}
...

可以配置生成日志的日期以及发起请求的地址。

[omm@simwor01 mock-log]$ head application.properties 

#业务日期
mock.date=2021-06-16

#模拟数据发送模式
mock.type=http
#http模式下，发送的地址
mock.url=http://localhost:8080/applog

[omm@simwor01 mock-log]$

1.3 日志分发器

日志分发器指由Nginx将 日志生成器 的请求均匀地分发至多个后端 日志采集器。

配置Nginx

[root@simwor01 conf.d]# pwd
/etc/nginx/conf.d
[root@simwor01 conf.d]# cat applog.conf 
upstream applog {
  server simwor01:8080;
  server simwor02:8080;
  server simwor03:8080;
}

server {
  listen 80;
  server_name localhost;
  location / {
    proxy_pass http://applog;
  }
}
[root@simwor01 conf.d]#

修改日志生成器请求地址

[omm@simwor01 mock-log]$ head application.properties 

#业务日期
mock.date=2021-06-16

#模拟数据发送模式
mock.type=http
#http模式下，发送的地址
mock.url=http://localhost/applog

[omm@simwor01 mock-log]$

效果验证

1.4 采集流脚本

#!/bin/bash
JAVA_BIN=/opt/module/jdk/bin/java
PROJECT=/opt/applog/logger
APPNAME=logger-0.0.1-SNAPSHOT.jar
 
case $1 in
 "start")
   {
    for i in simwor01 simwor02 simwor03
    do
     echo "========: $i==============="
    ssh $i  "$JAVA_BIN -Xms32m -Xmx64m  -jar $PROJECT/$APPNAME >/dev/null 2>&1  &"
    done
     echo "========NGINX==============="
    sudo systemctl start nginx
  };;
  "stop")
  { 
     echo "======== NGINX==============="
    sudo systemctl stop nginx
    for i in simwor01 simwor02 simwor03
    do
     echo "========: $i==============="
     ssh $i "ps -ef|grep $APPNAME |grep -v grep|awk '{print \$2}'|xargs kill" >/dev/null 2>&1
    done
 
  };;
esac

二、实时采集

2.1 项目搭建

POM 文件


<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <parent>
        <artifactId>gmallartifactId>
        <groupId>com.simworgroupId>
        <version>0.0.1-SNAPSHOTversion>
    parent>
    <modelVersion>4.0.0modelVersion>

    <artifactId>realtimeartifactId>

    <properties>
        <spark.version>2.4.0spark.version>
        <scala.version>2.11.8scala.version>
        <kafka.version>1.0.0kafka.version>
        <project.build.sourceEncoding>UTF-8project.build.sourceEncoding>
        <project.reporting.outputEncoding>UTF-8project.reporting.outputEncoding>
        <java.version>1.8java.version>
    properties>

    <dependencies>
        <dependency>
            <groupId>com.alibabagroupId>
            <artifactId>fastjsonartifactId>
            <version>1.2.56version>
        dependency>
        <dependency>
            <groupId>org.elasticsearchgroupId>
            <artifactId>elasticsearchartifactId>
            <version>2.4.6version>
        dependency>
        <dependency>
            <groupId>org.apache.sparkgroupId>
            <artifactId>spark-core_2.11artifactId>
            <version>${spark.version}version>
        dependency>
        <dependency>
            <groupId>org.apache.sparkgroupId>
            <artifactId>spark-streaming_2.11artifactId>
            <version>${spark.version}version>
        dependency>
        <dependency>
            <groupId>org.apache.kafkagroupId>
            <artifactId>kafka-clientsartifactId>
            <version>${kafka.version}version>
        dependency>
        <dependency>
            <groupId>org.apache.sparkgroupId>
            <artifactId>spark-streaming-kafka-0-10_2.11artifactId>
            <version>${spark.version}version>
        dependency>
        <dependency>
            <groupId>redis.clientsgroupId>
            <artifactId>jedisartifactId>
            <version>2.9.0version>
        dependency>
        <dependency>
            <groupId>org.apache.phoenixgroupId>
            <artifactId>phoenix-sparkartifactId>
            <version>4.14.2-HBase-1.3version>
        dependency>
        <dependency>
            <groupId>org.apache.sparkgroupId>
            <artifactId>spark-sql_2.11artifactId>
            <version>${spark.version}version>
        dependency>
        <dependency>
            <groupId>io.searchboxgroupId>
            <artifactId>jestartifactId>
            <version>5.3.3version>
            <exclusions>
                <exclusion>
                    <groupId>org.slf4jgroupId>
                    <artifactId>slf4j-apiartifactId>
                exclusion>
            exclusions>
        dependency>
        <dependency>
            <groupId>net.java.dev.jnagroupId>
            <artifactId>jnaartifactId>
            <version>4.5.2version>
        dependency>
        <dependency>
            <groupId>org.codehaus.janinogroupId>
            <artifactId>commons-compilerartifactId>
            <version>2.7.8version>
        dependency>
    dependencies>

    <build>
        <plugins>
            
            <plugin>
                <groupId>net.alchim31.mavengroupId>
                <artifactId>scala-maven-pluginartifactId>
                <version>3.4.6version>
                <executions>
                    <execution>
                        
                        <goals>
                            <goal>compilegoal>
                            <goal>testCompilegoal>
                        goals>
                    execution>
                executions>
            plugin>
            <plugin>
                <groupId>org.apache.maven.pluginsgroupId>
                <artifactId>maven-assembly-pluginartifactId>
                <version>3.0.0version>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependenciesdescriptorRef>
                    descriptorRefs>
                configuration>
                <executions>
                    <execution>
                        <id>make-assemblyid>
                        <phase>packagephase>
                        <goals>
                            <goal>singlegoal>
                        goals>
                    execution>
                executions>
            plugin>
        plugins>
    build>

project>

配置文件 config.properties

# Kafka配置
kafka.broker.list=simwor01:9092,simwor02:9092,simwor03:9092

# Redis配置
redis.host=simwor01
redis.port=6379

实用类

package com.simwor.realtime.util

import java.io.InputStreamReader
import java.util.Properties

object PropertiesUtil {

  def main(args: Array[String]): Unit = {
    val properties: Properties = PropertiesUtil.load("config.properties")
    println(properties.getProperty("kafka.broker.list"))
  }

  def load(propertieName:String): Properties ={
    val prop=new Properties();
    prop.load(new InputStreamReader(Thread.currentThread().getContextClassLoader.getResourceAsStream(propertieName) , "UTF-8"))
    prop
  }

}

2.2 Kafka 数据获取

Kafka 实用类

package com.simwor.realtime.util

import java.util.Properties

import org.apache.kafka.clients.consumer.ConsumerRecord
import org.apache.kafka.common.TopicPartition
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.dstream.InputDStream
import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies}

object MyKafkaUtil {
  private val properties: Properties = PropertiesUtil.load("config.properties")
  val broker_list = properties.getProperty("kafka.broker.list")

  // kafka消费者配置
  var kafkaParam = collection.mutable.Map(
    "bootstrap.servers" -> broker_list,//用于初始化链接到集群的地址
    "key.deserializer" -> classOf[StringDeserializer],
    "value.deserializer" -> classOf[StringDeserializer],
    //用于标识这个消费者属于哪个消费团体
    "group.id" -> "gmall_consumer_group",
    //如果没有初始化偏移量或者当前的偏移量不存在任何服务器上，可以使用这个配置属性
    //可以使用这个配置，latest自动重置偏移量为最新的偏移量
    "auto.offset.reset" -> "latest",
    //如果是true，则这个消费者的偏移量会在后台自动提交,但是kafka宕机容易丢失数据
    //如果是false，会需要手动维护kafka偏移量
    "enable.auto.commit" -> (true: java.lang.Boolean)
  )

  // 创建DStream，返回接收到的输入数据
  // LocationStrategies：根据给定的主题和集群地址创建consumer
  // LocationStrategies.PreferConsistent：持续的在所有Executor之间分配分区
  // ConsumerStrategies：选择如何在Driver和Executor上创建和配置Kafka Consumer
  // ConsumerStrategies.Subscribe：订阅一系列主题
  def getKafkaStream(topic: String,ssc:StreamingContext ): InputDStream[ConsumerRecord[String,String]]={
    val dStream = KafkaUtils.createDirectStream[String,String](ssc, LocationStrategies.PreferConsistent,ConsumerStrategies.Subscribe[String,String](Array(topic),kafkaParam ))
    dStream
  }

  def getKafkaStream(topic: String,ssc:StreamingContext,groupId:String): InputDStream[ConsumerRecord[String,String]]={
    kafkaParam("group.id")=groupId
    val dStream = KafkaUtils.createDirectStream[String,String](ssc, LocationStrategies.PreferConsistent,ConsumerStrategies.Subscribe[String,String](Array(topic),kafkaParam ))
    dStream
  }

  def getKafkaStream(topic: String,ssc:StreamingContext,offsets:Map[TopicPartition,Long],groupId:String): InputDStream[ConsumerRecord[String,String]]={
    kafkaParam("group.id")=groupId
    val dStream = KafkaUtils.createDirectStream[String,String](ssc, LocationStrategies.PreferConsistent,ConsumerStrategies.Subscribe[String,String](Array(topic),kafkaParam,offsets))
    dStream
  }
}

消费数据

package com.simwor.realtime.app

import com.alibaba.fastjson.{JSON, JSONObject}
import com.simwor.realtime.bean.DauInfo
import com.simwor.realtime.util.{MyEsUtil, MyKafkaUtil, RedisUtil}
import org.apache.kafka.clients.consumer.ConsumerRecord
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.{DStream, InputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}

import java.text.SimpleDateFormat
import java.util.Date
import scala.collection.mutable.ListBuffer

object DauApp {

  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("dau_app").setMaster("local[4]")
    val ssc = new StreamingContext(sparkConf, Seconds(5))

    // 消费Kafka启动日志
    val recordInputStream: InputDStream[ConsumerRecord[String, String]] = MyKafkaUtil.getKafkaStream("gmall-start-log", ssc)
    val jsonObjectDataStream = recordInputStream.map(record => {
      val jsonString = record.value()
      val jsonObject = JSON.parseObject(jsonString)

      val timestamp = jsonObject.getLong("ts")
      val simpleDateFormat = new SimpleDateFormat("yyyy-MM-dd HH")
      val dateHourString = simpleDateFormat.format(new Date(timestamp))
      val dateHour = dateHourString.split(" ")
      jsonObject.put("dt", dateHour(0))
      jsonObject.put("hr", dateHour(1))

      jsonObject
    })

    // Redis日志去重，计算日活
    //...

    //ElasticSearch 最终存储
    ...

    ssc.start()
    ssc.awaitTermination()
  }

}

2.3 Redis 数据去重

实用类

package com.simwor.realtime.util

import redis.clients.jedis.{Jedis, JedisPool, JedisPoolConfig}

object RedisUtil {

  var jedisPool:JedisPool=null

  def getJedisClient: Jedis = {
    if(jedisPool==null){
      //      println("开辟一个连接池")
      val config = PropertiesUtil.load("config.properties")
      val host = config.getProperty("redis.host")
      val port = config.getProperty("redis.port")

      val jedisPoolConfig = new JedisPoolConfig()
      jedisPoolConfig.setMaxTotal(100)  //最大连接数
      jedisPoolConfig.setMaxIdle(20)   //最大空闲
      jedisPoolConfig.setMinIdle(20)     //最小空闲
      jedisPoolConfig.setBlockWhenExhausted(true)  //忙碌时是否等待
      jedisPoolConfig.setMaxWaitMillis(500)//忙碌时等待时长 毫秒
      jedisPoolConfig.setTestOnBorrow(true) //每次获得连接的进行测试

      jedisPool=new JedisPool(jedisPoolConfig,host,port.toInt)
    }
    //    println(s"jedisPool.getNumActive = ${jedisPool.getNumActive}")
    //   println("获得一个连接")
    jedisPool.getResource
  }

}

去重

    // Redis日志去重，计算日活
    val filteredDStream: DStream[JSONObject] = jsonObjectDataStream.mapPartitions { jsonObjItr =>
      val originalList = jsonObjItr.toList
      val filteredList = new ListBuffer[JSONObject]()
      val jedisClient = RedisUtil.getJedisClient

      println("Before Filter : " + originalList.size)
      for(jsonObj <- originalList) {
        val dt = jsonObj.getString("dt")
        val mid = jsonObj.getJSONObject("common").getString("mid")
        val dauKey = "dau:" + dt
        val exists = jedisClient.sadd(dauKey, mid)
        jedisClient.expire(dauKey, 3600*24)
        if (exists == 1L)
          filteredList += jsonObj
      }

      println("After Filter : " + filteredList.size)
      jedisClient.close()
      filteredList.toIterator
    }

2.4 ES 数据存储

索引模板

PUT   _template/gmall_dau_info_template
{
  "index_patterns": ["gmall_dau_info*"],                  
  "settings": {                                               
    "number_of_shards": 3
  },
  "aliases" : { 
    "{index}-query": {},
    "gmall_dau_info-query":{}
  },
 "mappings": {
   "properties":{
     "mid":{
       "type":"keyword"
     },
     "uid":{
       "type":"keyword"
     },
     "ar":{
       "type":"keyword"
     },
     "ch":{
       "type":"keyword"
     },
     "vc":{
       "type":"keyword"
     },
      "dt":{
       "type":"keyword"
     },
      "hr":{
       "type":"keyword"
     },
      "mi":{
       "type":"keyword"
     },
     "ts":{
       "type":"date"
     }
   }
 }
}

索引样例类

package com.simwor.realtime.bean

case class DauInfo(
                mid:String,
                uid:String,
                ar:String,
                ch:String,
                vc:String,
                var dt:String,
                var hr:String,
                var mi:String,
                ts:Long)

实用类

package com.simwor.realtime.util

import io.searchbox.client.config.HttpClientConfig
import io.searchbox.client.{JestClient, JestClientFactory}
import io.searchbox.core.{Bulk, Index, Search}
import org.elasticsearch.index.query.{BoolQueryBuilder, MatchQueryBuilder}
import org.elasticsearch.search.builder.SearchSourceBuilder

object MyEsUtil {

  def bulkDoc(sourceList: List[Any], indexName: String): Unit = {
    val jestClient = getClient

    val bulkBuilder = new Bulk.Builder
    for(source <- sourceList) {
      val index = new Index.Builder(source).index(indexName).`type`("_doc").build()
      bulkBuilder.addAction(index)
    }

    jestClient.execute(bulkBuilder.build())
    jestClient.close()
  }

  /* ElasticSearch Connection Factory */

  def getClient:JestClient ={
    if(factory==null) build();
    factory.getObject
  }

  def  build(): Unit ={
    factory = new JestClientFactory
    factory.setHttpClientConfig(new HttpClientConfig.Builder("http://simwor01:9200")
      .multiThreaded(true)
      .maxTotalConnection(20)
      .connTimeout(10000).readTimeout(1000).build())
  }

  private var factory: JestClientFactory = null;
}

数据存储

    //ElasticSearch 最终存储
    filteredDStream.foreachRDD { rdd =>
      rdd.foreachPartition { jsonItr =>
        val list = jsonItr.toList
        val dt = new SimpleDateFormat("yyyy-MM-dd").format(new Date())
        val dauList = list.map { startupJsonObj =>
          val dtHr: String = new SimpleDateFormat("yyyy-MM-dd HH:mm").format(new Date(startupJsonObj.getLong("ts")))
          val dtHrArr: Array[String] = dtHr.split(" ")
          val dt = dtHrArr(0)
          val timeArr = dtHrArr(1).split(":")
          val hr = timeArr(0)
          val mi = timeArr(1)
          val commonJSONObj: JSONObject = startupJsonObj.getJSONObject("common")
          DauInfo(commonJSONObj.getString("mid"),
            commonJSONObj.getString("uid"),
            commonJSONObj.getString("mid"),
            commonJSONObj.getString("ch"),
            commonJSONObj.getString("vc"),
            dt, hr, mi,
            startupJsonObj.getLong("ts"))
        }
        MyEsUtil.bulkDoc(dauList, "gmall_dau_info_" + dt)
      }
    }

2.5 精准一次性消费

Kafka 支持事务性提交但不支持事务性消费，ES支持幂等性提交但不支持事务。

通过手工保存Kafka偏移量 + ES幂等性提交，即可达成 精准一次性消费。

手工保存 Kafka 偏移量到 Redis

OffsetManager

package com.simwor.realtime.util

import org.apache.kafka.common.TopicPartition
import org.apache.spark.streaming.kafka010.OffsetRange

import java.util

object OffsetManager {

  // 获取偏移量
  def getOffset(topicName: String, groupId: String): Map[TopicPartition, Long] = {
    // Redis
    // type -> hash
    // key -> offset:[topic]:[groupid]
    // field -> partition_id
    // value -> offset
    val jedisClient = RedisUtil.getJedisClient

    val offsetMap: util.Map[String, String] = jedisClient.hgetAll("offset:" + topicName + ":" + groupId)
    import scala.collection.JavaConversions._
    val kafkaOffsetMapMap: Map[TopicPartition, Long] = offsetMap.map { case (partitionId, offset) =>
      (new TopicPartition(topicName, partitionId.toInt), offset.toLong)
    }.toMap

    jedisClient.close()
    kafkaOffsetMapMap
  }

  //写入偏移量
  def saveOffset(topicName: String, groupId: String, offsetRanges: Array[OffsetRange]): Unit = {
    val jedisClient = RedisUtil.getJedisClient

    val offsetMap: util.Map[String, String] = new util.HashMap()
    for(offset <- offsetRanges) {
      val partition: Int = offset.partition
      val untilOffset: Long = offset.untilOffset
      offsetMap.put(partition.toString, untilOffset.toString)
      println("partition := " + partition + " -- " + offset.fromOffset + " --> " + untilOffset)
    }
    if(offsetMap != null && offsetMap.size() > 0)
      jedisClient.hmset("offset:" + topicName + ":" + groupId, offsetMap)

    jedisClient.close()
  }

}

DauApp

package com.simwor.realtime.app

import com.alibaba.fastjson.{JSON, JSONObject}
import com.simwor.realtime.bean.DauInfo
import com.simwor.realtime.util.{MyEsUtil, MyKafkaUtil, OffsetManager, RedisUtil}
import org.apache.kafka.clients.consumer.ConsumerRecord
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.{DStream, InputDStream}
import org.apache.spark.streaming.kafka010.{HasOffsetRanges, OffsetRange}
import org.apache.spark.streaming.{Seconds, StreamingContext}

import java.text.SimpleDateFormat
import java.util.Date
import scala.collection.mutable.ListBuffer

object DauApp {

  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("dau_app").setMaster("local[4]")
    val ssc = new StreamingContext(sparkConf, Seconds(5))

    // ***************** 读取Kafka偏移量
    val topicName = "gmall-start-log"
    val groupId = "gmall-start-group"
    val kafkaOffsetMap = OffsetManager.getOffset(topicName, groupId)
    var recordInputStream: InputDStream[ConsumerRecord[String, String]] = null
    if(kafkaOffsetMap != null && kafkaOffsetMap.size > 0)
      recordInputStream = MyKafkaUtil.getKafkaStream("gmall-start-log", ssc, kafkaOffsetMap, groupId)
    else
      recordInputStream = MyKafkaUtil.getKafkaStream("gmall-start-log", ssc)

    // ***************** 获得偏移结束点
    var offsetRanges: Array[OffsetRange] = Array.empty[OffsetRange]
    val startupInputGetOffsetDstream: DStream[ConsumerRecord[String, String]] = recordInputStream.transform { rdd =>
      offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
      rdd
    }

...

    //ElasticSearch 最终存储
    filteredDStream.foreachRDD { rdd =>
...
      // ***************** 提交Kafka偏移量
      OffsetManager.saveOffset(topicName, groupId, offsetRanges)
    }

    ssc.start()
    ssc.awaitTermination()
  }

}

ES 幂等性提交

指定文档ID MyEsUtil

  def bulkDoc(sourceList: List[(String, DauInfo)], indexName: String): Unit = {
    val jestClient = getClient

    val bulkBuilder = new Bulk.Builder
    for((id, source) <- sourceList) {
      // ************ 指定ID，重复出现时只更新不新建
      val index = new Index.Builder(source).index(indexName).`type`("_doc").id(id).build()
      bulkBuilder.addAction(index)
    }

    jestClient.execute(bulkBuilder.build())
    jestClient.close()
  }

指定文档ID DauApp

    //ElasticSearch 最终存储
    filteredDStream.foreachRDD { rdd =>
      rdd.foreachPartition { jsonItr =>
        val list = jsonItr.toList
        val dt = new SimpleDateFormat("yyyy-MM-dd").format(new Date())
        val dauList: List[(String, DauInfo)] = list.map { startupJsonObj =>
          val dtHr: String = new SimpleDateFormat("yyyy-MM-dd HH:mm").format(new Date(startupJsonObj.getLong("ts")))
          val dtHrArr: Array[String] = dtHr.split(" ")
          val dt = dtHrArr(0)
          val timeArr = dtHrArr(1).split(":")
          val hr = timeArr(0)
          val mi = timeArr(1)
          val commonJSONObj: JSONObject = startupJsonObj.getJSONObject("common")
          val dauInfo = DauInfo(commonJSONObj.getString("mid"),
            commonJSONObj.getString("uid"),
            commonJSONObj.getString("mid"),
            commonJSONObj.getString("ch"),
            commonJSONObj.getString("vc"),
            dt, hr, mi,
            startupJsonObj.getLong("ts"))

          // **************** 返回值必须加上文档的id，这里使用mid
          (dauInfo.mid, dauInfo)
        }
        MyEsUtil.bulkDoc(dauList, "gmall_dau_info_" + dt)
      }

2.6 Kibana 可视化配置

配置数据源 Stack Management -> Index Patterns -> Create Index Pattern

配置可视化 Visualize

Create new visualize -> New Vertical Bar / Choose a source -> gmall_dau_info_2021*

设置纵坐标

设置横坐标

设置时间范围并刷新 Refresh

查看并保存 Update -> Save

组合仪表盘

Dashboard -> Create new dashboard -> Add

实时更新

分享链接 Share -> Embed Code -> Saved Object


<html>
<head>
	<meta charset="utf-8">
	<title>Simwortitle>
head>
<body>
	<h1>Daily Active Usersh1>
	<iframe src="http://simwor01:5601/app/kibana#/dashboard/39adc0a0-d4f0-11eb-8ddb-af39ee8ef270?embed=true&_g=(filters%3A!()%2CrefreshInterval%3A(pause%3A!t%2Cvalue%3A0)%2Ctime%3A(from%3Anow%2Fw%2Cto%3Anow%2Fw))" height="600" width="800">iframe>
body>
html>

2.7 发布数据接口

接口格式

接口	路径	返回结果
总数	http://publisher:8070/realtime-total?date=2019-02-01	[{“id”:“dau”,“name”:“新增日活”,“value”:1200},{“id”:“new_mid”,“name”:“新增设备”,“value”:233} ]
分时统计	http://publisher:8070/realtime-hour?id=dau&date=2019-02-01	{“yesterday”:{“11”:383,“12”:123,“17”:88,“19”:200 }, “today”:{“12”:38,“13”:1233,“17”:123,“19”:688 }}

新建项目

Spring 版本POM中调成 2.1.15.RELEASE，添加一些其它工具包。

<dependency>
    <groupId>org.apache.commonsgroupId>
    <artifactId>commons-lang3artifactId>
    <version>3.10version>
dependency>
<dependency>
    <groupId>com.google.guavagroupId>
    <artifactId>guavaartifactId>
    <version>29.0-jreversion>
dependency>
<dependency>
    <groupId>com.alibabagroupId>
    <artifactId>fastjsonartifactId>
    <version>1.2.68version>
dependency>
<dependency>
    <groupId>io.searchboxgroupId>
    <artifactId>jestartifactId>
    <version>5.3.3version>
    <exclusions>
        <exclusion>
            <groupId>org.slf4jgroupId>
            <artifactId>slf4j-apiartifactId>
        exclusion>
    exclusions>
dependency>
<dependency>
    <groupId>net.java.dev.jnagroupId>
    <artifactId>jnaartifactId>
    <version>4.5.2version>
dependency>
<dependency>
    <groupId>org.codehaus.janinogroupId>
    <artifactId>commons-compilerartifactId>
    <version>2.7.8version>
dependency>
<dependency>
    <groupId>org.elasticsearchgroupId>
    <artifactId>elasticsearchartifactId>
    <version>2.4.6version>
dependency>

项目配置文件 application.properties

spring.elasticsearch.jest.uris=http://simwor01:9200,http://simwor02:9200,http://simwor03:9200
server.port=8070

定义接口

package com.simwor.publisher.service;

import java.util.Map;

public interface EsService {

    public Long getDauTotal(String date);

    public Map getDauHour(String data);

}

实现接口

package com.simwor.publisher.service.impl;

import com.google.gson.JsonElement;
import com.google.gson.JsonObject;
import com.simwor.publisher.service.EsService;
import io.searchbox.client.JestClient;
import io.searchbox.core.Search;
import io.searchbox.core.SearchResult;
import io.searchbox.core.search.aggregation.TermsAggregation;
import org.elasticsearch.index.query.MatchAllQueryBuilder;
import org.elasticsearch.search.aggregations.AggregationBuilders;
import org.elasticsearch.search.aggregations.bucket.terms.TermsBuilder;
import org.elasticsearch.search.builder.SearchSourceBuilder;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Service;

import java.io.IOException;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

@Service
public class EsServiceImpl implements EsService {

    @Autowired
    JestClient jestClient;

    @Override
    public Long getDauTotal(String date) {
        Long totalResult = 0L;
        String indexName = "gmall_dau_info_" + date + "-query";
        SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
        searchSourceBuilder.query(new MatchAllQueryBuilder());
        Search search = new Search.Builder(searchSourceBuilder.toString())
                .addIndex(indexName)
                .addType("_doc")
                .build();

        try {
            SearchResult searchResult = jestClient.execute(search);
            JsonObject jsonObject = searchResult.getJsonObject();
            JsonElement jsonElement = jsonObject.get("hits").getAsJsonObject().get("total").getAsJsonObject().get("value");
            totalResult = jsonElement.getAsLong();
        } catch (IOException e) {
            e.printStackTrace();
            throw new RuntimeException("ElasticSearch 查询异常");
        }

        return totalResult;
    }

    @Override
    public Map getDauHour(String date) {
        Map<String, Long> results = new HashMap<>();
        String indexName = "gmall_dau_info_" + date + "-query";
        //构造查询语句
        SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
        TermsBuilder termsBuilder = AggregationBuilders.terms("groupby_hr").field("hr").size(24);
        searchSourceBuilder.aggregation(termsBuilder);
        Search search = new Search.Builder(searchSourceBuilder.toString())
                .addIndex(indexName)
                .addType("_doc")
                .build();

        try {
            //执行并封装返回结果
            SearchResult searchResult = jestClient.execute(search);
            List<TermsAggregation.Entry> buckets = searchResult.getAggregations().getTermsAggregation("groupby_hr").getBuckets();
            for(TermsAggregation.Entry bucket : buckets)
                results.put(bucket.getKey(), bucket.getCount());
        } catch (IOException e) {
            e.printStackTrace();
        }

        return results;
    }
}

接口前端请求控制器

package com.simwor.publisher.controller;

import com.alibaba.fastjson.JSON;
import com.simwor.publisher.service.EsService;
import org.apache.commons.lang3.time.DateUtils;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RequestParam;
import org.springframework.web.bind.annotation.RestController;

import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.*;

@RestController
public class PublisherController {

    @Autowired
    private EsService esService;

    @GetMapping("realtime-total")
    public String realtimeTotal(@RequestParam("date") String dt) {
        List<Map<String, Object>> resultList = new ArrayList<>();

        Map<String, Object> dauMap = new HashMap<>();
        dauMap.put("id", "dau");
        dauMap.put("name", "新增日活");
        dauMap.put("value", esService.getDauTotal(dt));
        resultList.add(dauMap);

        Map<String, Object> midMap = new HashMap<>();
        midMap.put("id", "new_mid");
        midMap.put("name", "新增设备");
        midMap.put("value", 233);
        resultList.add(midMap);

        return JSON.toJSONString(resultList);
    }

    @GetMapping("realtime-hour")
    public String realTimeHour(@RequestParam("id") String id,
                               @RequestParam("date") String dt) {
        Map<String, Map<String, Long>> resultMap = new HashMap<>();

        Map dauHourToday = esService.getDauHour(dt);
        Map dauHourYesterday = esService.getDauHour(getYesterday(dt));
        resultMap.put("today", dauHourToday);
        resultMap.put("yesterday", dauHourYesterday);

        return JSON.toJSONString(resultMap);
    }

    private String getYesterday(String today) {
        SimpleDateFormat simpleDateFormat = new SimpleDateFormat("yyyy-MM-dd");
        String yesterday = "";

        try {
            Date todayDate = simpleDateFormat.parse(today);
            Date yesterdayDate = DateUtils.addDays(todayDate, -1);
            yesterday = simpleDateFormat.format(yesterdayDate);
        } catch (ParseException e) {
            e.printStackTrace();
        }

        return yesterday;
    }

}

GET gmall_dau_info_2021-06-22-query/_search
{
  "aggs": {
    "groupby_hr": {
      "terms": {
        "field": "hr",
        "size": 24
      }
    }
  }
}

"aggregations" : {
   "groupby_hr" : {
     "doc_count_error_upper_bound" : 0,
     "sum_other_doc_count" : 0,
     "buckets" : [
       {
         "key" : "21",
         "doc_count" : 50
       }
     ]
   }
 }

三、实时监控

本章介绍两款 MySQL 数据变化实时监控工具：Canal 和 Maxwell。

3.1 Canal

定义

Canal 通过模拟 MySQL 的主从复制 备机的行为 来实时 监控数据变化。

Master主库将改变记录，写到二进制日志(binary log)中；
Slave从库向mysql master发送dump协议，将master主库的binary log events拷贝到它的中继日志(relay log)；
Slave从库读取并重做中继日志中的事件，将改变的数据同步到自己的数据库。

3.1.1 配置 MySQL

初始化数据库及canal用户权限

mysql> create database gmall_db;

mysql> use gmall_db;

mysql> source /opt/appdb/gmall_db.sql

mysql> GRANT SELECT, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO 'canal'@'%' IDENTIFIED BY 'ABcd12#$..';

mysql>

开启 binlog

[omm@simwor01 ~]$ sudo vi /etc/my.cnf
[omm@simwor01 ~]$ tail -4 /etc/my.cnf
server-id= 1
log-bin=mysql-bin
binlog_format=row
binlog-do-db=gmall_db
[omm@simwor01 ~]$ sudo systemctl restart mysqld
[omm@simwor01 mysql]$ pwd
/var/lib/mysql
[omm@simwor01 mysql]$ ll mysql-bin*
-rwxr-xr-x. 1 mysql mysql 154 Jun 29 11:11 mysql-bin.000001
-rwxr-xr-x. 1 mysql mysql  19 Jun 29 11:11 mysql-bin.index
[omm@simwor01 mysql]$

模拟业务数据生成观察 binlog 大小变化

[omm@simwor01 appdb]$ java -jar gmall2020-mock-db-2020-05-18.jar 
--------开始生成数据--------
--------开始生成用户数据--------
共有10名用户发生变更
共生成0名用户
--------开始生成收藏数据--------
共生成收藏100条
--------开始生成购物车数据--------
共生成购物车274条
--------开始生成订单数据--------
共优惠券200张
共生成订单14条
共有9订单参与活动条
--------开始生成支付数据--------
状态更新14个订单
共有8订单完成支付
--------开始生成退单数据--------
状态更新8个订单
共生成退款2条
--------开始生成评价数据--------
共生成评价8条
[omm@simwor01 appdb]$ 

[omm@simwor01 mysql]$ ll mysql-bin*
-rwxr-xr-x. 1 mysql mysql 220806 Jun 29 11:16 mysql-bin.000001
-rwxr-xr-x. 1 mysql mysql     19 Jun 29 11:11 mysql-bin.index
[omm@simwor01 mysql]$

3.1.2 安装 canal

架构

一个 Canal Server 可以监控多个 MySQL。

解压

[omm@simwor01 soft]$ pwd
/opt/soft
[omm@simwor01 soft]$ mkdir /opt/module/canal
[omm@simwor01 soft]$ tar -zxf canal.deployer-1.1.4.tar.gz -C /opt/module/canal
[omm@simwor01 soft]$ ll /opt/module/canal
total 4
drwxrwxr-x. 2 omm omm   76 Jun 29 11:22 bin
drwxrwxr-x. 5 omm omm  123 Jun 29 11:22 conf
drwxrwxr-x. 2 omm omm 4096 Jun 29 11:22 lib
drwxrwxr-x. 2 omm omm    6 Sep  2  2019 logs
[omm@simwor01 soft]$

修改配置文件

[omm@simwor01 conf]$ vi canal.properties 
[omm@simwor01 conf]$ grep canal.mq.servers canal.properties 
canal.mq.servers = simwor01:9092,simwor02:9092,simwor03:9092
[omm@simwor01 conf]$ grep serverMode canal.properties 
canal.serverMode = kafka
[omm@simwor01 conf]$

[omm@simwor01 example]$ pwd
/opt/module/canal/conf/example
[omm@simwor01 example]$ vi instance.properties 
[omm@simwor01 example]$ grep canal.instance.master.address instance.properties 
canal.instance.master.address=simwor01:3306
[omm@simwor01 example]$ grep canal.instance.db instance.properties 
canal.instance.dbUsername=canal
canal.instance.dbPassword=ABcd12#$..
[omm@simwor01 example]$ grep canal.mq.topic instance.properties 
canal.mq.topic=GMALL_DB_CANAL
[omm@simwor01 example]$

模拟 Canal 监测 MySQL 数据变化

# 启动 Canal
[omm@simwor01 canal]$ bin/startup.sh

# 生成数据
[omm@simwor01 appdb]$ pwd
/opt/appdb
[omm@simwor01 appdb]$ java -jar gmall2020-mock-db-2020-05-18.jar 

# 观察 Kafka topic
[omm@simwor01 bin]$ ./kafka-console-consumer.sh --bootstrap-server simwor01:9092 --topic GMALL_DB_CANAL --from-beginning
...
^CProcessed a total of 1582 messages
[omm@simwor01 bin]$

3.2 Canal ODS 层数据分流

通过 Canal 可以实时监测数据变化，现要求不同表的数据变化记录到不同的 Kafka topic 中。如下修改 user_info 表就会推送到 ODS_USER_INFO 主题中：

BaseDbCanal 业务分流代码

package com.simwor.realtime.ods

import com.alibaba.fastjson.JSON
import com.simwor.realtime.util.{MyKafkaSink, MyKafkaUtil, OffsetManager}
import org.apache.kafka.clients.consumer.ConsumerRecord
import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.{DStream, InputDStream}
import org.apache.spark.streaming.kafka010.{HasOffsetRanges, OffsetRange}
import org.apache.spark.streaming.{Seconds, StreamingContext}

object BaseDbCanal {

  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("base_db_canal_app").setMaster("local[4]")
    val ssc = new StreamingContext(sparkConf, Seconds(5))

    // ***************** 读取Kafka偏移量
    val topicName = "GMALL_DB_CANAL"
    val groupId = "gmall-canal-group"
    val kafkaOffsetMap = OffsetManager.getOffset(topicName, groupId)
    var recordInputStream: InputDStream[ConsumerRecord[String, String]] = null
    if(kafkaOffsetMap != null && kafkaOffsetMap.size > 0)
      recordInputStream = MyKafkaUtil.getKafkaStream(topicName, ssc, kafkaOffsetMap, groupId)
    else
      recordInputStream = MyKafkaUtil.getKafkaStream(topicName, ssc)

    // ***************** 获得偏移结束点
    var offsetRanges: Array[OffsetRange] = Array.empty[OffsetRange]
    val startupInputGetOffsetDstream: DStream[ConsumerRecord[String, String]] = recordInputStream.transform { rdd =>
      offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
      rdd
    }

    // ***************** 将 Kafka 数据转成 JSON 对象
    val jsonObjDstream = startupInputGetOffsetDstream.map { record =>
      val jsonString = record.value()
      val jsonObj = JSON.parseObject(jsonString)
      jsonObj
    }

    // ***************** 解析对象数据分流回推至 Kafka
    jsonObjDstream.foreachRDD { rdd =>
      //推回 Kafka
      rdd.foreach { jsonObj =>
        // 根据表名生长 topic 名
        val tableName = jsonObj.getString("table")
        val topic = "ODS_" + tableName.toUpperCase()
        // 将数据分流推到 Kafka
        val jsonArr = jsonObj.getJSONArray("data")
        import scala.collection.JavaConversions._
        for( item <- jsonArr)
          MyKafkaSink.send(topic, item.toString)
      }
    }

    // ***************** 提交Kafka偏移量
    OffsetManager.saveOffset(topicName, groupId, offsetRanges)

    ssc.start()
    ssc.awaitTermination()
  }
  
}

MyKafkaSink 实用类

package com.simwor.realtime.util

import java.util.Properties

import org.apache.kafka.clients.producer.{KafkaProducer, ProducerRecord}

object MyKafkaSink {
  private val properties: Properties = PropertiesUtil.load("config.properties")
  val broker_list = properties.getProperty("kafka.broker.list")
  var kafkaProducer: KafkaProducer[String, String] = null

  def createKafkaProducer: KafkaProducer[String, String] = {
    val properties = new Properties
    properties.put("bootstrap.servers", broker_list)
    properties.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer")
    properties.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer")
    properties.put("enable.idompotence",(true: java.lang.Boolean))
    var producer: KafkaProducer[String, String] = null
    try
      producer = new KafkaProducer[String, String](properties)
    catch {
      case e: Exception =>
        e.printStackTrace()
    }
    producer
  }

  def send(topic: String, msg: String): Unit = {
    if (kafkaProducer == null) kafkaProducer = createKafkaProducer
    kafkaProducer.send(new ProducerRecord[String, String](topic, msg))

  }

  def send(topic: String,key:String, msg: String): Unit = {
    if (kafkaProducer == null) kafkaProducer = createKafkaProducer
    kafkaProducer.send(new ProducerRecord[String, String](topic,key, msg))

  }
}

3.3 Maxwell

对比 Canal

Maxwell 没有 Canal那种server+client模式，只有一个server把数据发送到消息队列或redis。
Maxwell 有一个亮点功能，就是Canal只能抓取最新数据，对已存在的历史数据没有办法处理。而Maxwell有一个bootstrap功能，可以直接引导出完整的历史数据用于初始化，非常好用。
Maxwell不能直接支持HA，但是它支持断点还原，即错误解决后重启继续上次点儿读取数据。
Maxwell只支持json格式，而Canal如果用Server+client模式的话，可以自定义格式。
Maxwell比Canal更加轻量级。

安装

解压缩

[omm@simwor01 soft]$ tar -zxf maxwell-1.25.0.tar.gz -C /opt/module/
[omm@simwor01 soft]$ ln -s /opt/module/maxwell-1.25.0/ /opt/module/maxwell
[omm@simwor01 soft]$ ll -d /opt/module/max*
lrwxrwxrwx. 1 omm omm  27 Jun 30 10:23 /opt/module/maxwell -> /opt/module/maxwell-1.25.0/
drwxrwxr-x. 4 omm omm 200 Jun 30 10:23 /opt/module/maxwell-1.25.0
[omm@simwor01 soft]$

配置 MySQL 环境（前提：binlog已开启）

mysql> CREATE DATABASE maxwell;

mysql> GRANT ALL   ON maxwell.* TO 'maxwell'@'%' IDENTIFIED BY 'Abcd12#$..';

mysql> GRANT  SELECT ,REPLICATION SLAVE , REPLICATION CLIENT  ON *.* TO maxwell@'%';

修改配置文件

[omm@simwor01 maxwell]$ cp config.properties.example config.properties
[omm@simwor01 maxwell]$ vi config.properties
[omm@simwor01 maxwell]$ head -15 config.properties

log_level=info

producer=kafka
kafka.bootstrap.servers=simwor01:9092,simwor02:9092,simwor03:9092
kafka_topic=GMALL_DB_MAXWELL
# database | table | primary_key | random | column
producer_partition_by=primary_key

# mysql login info
host=simwor01
user=maxwell
password=Abcd12#$..

client_id=maxwell_1

[omm@simwor01 maxwell]$

启动验证

启动maxwell -> 生成模拟数据 -> Kafka 消费验证

3.4 Maxwell ODS 层数据分流

数据格式对比

日志结构：canal 每一条SQL会产生一条日志，如果该条Sql影响了多行数据，则已经会通过集合的方式归集在这条日志中。（即使是一条数据也会是数组结构）；maxwell 以影响的数据为单位产生日志，即每影响一条数据就会产生一条日志。如果想知道这些日志是否是通过某一条sql产生的可以通过xid进行判断，相同的xid的日志来自同一sql。
数字类型：当原始数据是数字类型时,maxwell会尊重原始数据的类型不增加双引，变为字符串；canal一律转换为字符串。
带原始数据字段定义：canal数据中会带入表结构；maxwell更简洁。

BaseDbMaxwell 业务代码

package com.simwor.realtime.ods

...

object BaseDbMaxwell {

...
    // ***************** 读取Kafka偏移量
    val topicName = "GMALL_DB_MAXWELL"
    val groupId = "gmall-maxwell-group"
    ...

    // ***************** 解析对象数据分流回推至 Kafka
    jsonObjDstream.foreachRDD { rdd =>
      //推回 Kafka
      rdd.foreach { jsonObj =>
        // 根据表名生长 topic 名
        val tableName = jsonObj.getString("table")
        val topic = "ODS_" + tableName.toUpperCase()
        // 将数据分流推到 Kafka
        val jsonString = jsonObj.getString("data")
        MyKafkaSink.send(topic, jsonString)
      }
    }

...
}

你可能感兴趣的:(BigData)

Big Data (H/M) Assessed Exercise 后端
BigData(H/M)AssessedExerciseTaskSheet2024/25–Individual–v107/02/25SummaryThegoalofthisexerciseistofamiliarizeyourselveswiththedesign,implementationandperformancetestingofBigDataanalysistasksusingApach
2025年计算机工程与大数据应用国际会议（CEBDA 2025） Yangxshy EI 会议大数据
2025年计算机工程与大数据应用国际会议2025InternationalConferenceonComputerEngineeringandBigDataApplications大会信息会议名称：2025年计算机工程与大数据应用国际会议会议简称：CEBDA2025收录检索：提交EiCompendex,CPCI,CNKI,GoogleScholar等大会地点：中国·北京审稿通知：投稿后2-3日内通
大数据安全项目是小酒大数据 python pycharm sql mysql
1.项目详情用python写一个大数据安全项目（使用tk，页面布局使用盒子模型，页面中各个按钮，主题要美观，按扭间的距离不要太进），需要连接数据库连接名是root（数据库名为bigdata_security,数据库密码是123456。查询数据库中的student表（包括id，name,sex,school,height,weight这些字段））。包括管理员和学生两个功能。2.代码详
【软考高项】【英语知识】- 21 - 单词积累 oo寻梦in记软考高项（信息系统项目管理师）软考
目录一、常见计算机技术词汇二、项目管理词汇2.1十大知识域2.2五大过程组2.349个子过程2.4工具和技术汇总2.5输入和输出汇总一、常见计算机技术词汇序号中文英文1云计算Cloudcomputing2云存储Cloudstorage3云服务Cloudservice4软件即服务SaaS5平台即服务PaaS6基础设施即服务laaS7虚拟资源Virtualresources8大数据bigdata9大数
Ubuntu下配置安装Hadoop 2.2 weixin_30501857 大数据 java 运维
---恢复内容开始---这两天玩Hadoop，之前在我的Mac上配置了好长时间都没成功的Hadoop环境，今天想在win7虚拟机下的Ubuntu12.0464位机下配置，然后再建一个组群看一看。参考资料：1.InstallingsinglenodeHadoop2.2.0onUbuntu：http://bigdatahandler.com/hadoop-hdfs/installing-single-
[转载] awesome big data weixin_30343157 javascript java runtime ViewUI
原文:https://github.com/onurakpolat/awesome-bigdata#graph-data-model作者把分布式领域相关的大部分开源项目和论文分类整理了一遍,造福人类啊.AwesomeBigDataAcuratedlistofawesomebigdataframeworks,resourcesandotherawesomeness.Inspiredbyawesome
2014 6月，比较老了金金2019
AwesomeBigDataAcuratedlistofawesomebigdataframeworks,resourcesandotherawesomeness.Inspiredbyawesome-php,awesome-python,awesome-ruby,hadoopecosystemtable&big-data.Yourcontributionsarealwayswelcome!Awes
Centos7服务器运维服务系统安装过程中遇到的问题总结阿卜力米提40 服务器运维
Centos7服务器运维服务系统安装过程中遇到的问题总结centos服务器运维由于我们Sinesafe的客户要求网站的服务器要装Centos7版本所以给大家分享下安装的过程与经验,如果需要深入的服务器运维服务也可以找我们。机器域名机器别名xxx.xxx.xxx.xxxbigdata1xxx.xxx.xxx.xxxbigdata2xxx.xxx.xxx.xxxbigdata33台机器用户名和密码：用
【大数据治理】局外人_Jia 大数据安全人工智能
大数据治理（BigDataGovernance）是指通过一系列策略、流程和技术手段，确保大数据的质量、安全性、合规性和可用性，从而最大化数据的价值。以下是大数据治理的核心内容、挑战和最佳实践：1.大数据治理的核心内容1.1数据质量管理确保数据的准确性、完整性、一致性和及时性。数据清洗：处理缺失值、重复数据和错误数据。数据验证：定义数据规则，确保数据符合业务需求。数据监控：实时监控数据质量，及时发现
简记一段数据清洗项目经历 Jo乔戈里 sql database mysql python
声明：该项目是从github上下载的，原项目地址在:https://github.com/TurboWay/bigdata_analyse这个数据分析项目选自其中的"Amoy_job",即"10万条厦门招聘数据分析",但是没有严格沿用里面的代码，绝大部分都是自己思考所做的数据清洗。注意，此处仅是数据清洗，尚未进入到真正的数据分析和可视化，得出结论这些阶段！代码镇楼:fromcollectionsi
nginx+flume网络流量日志实时数据分析实战_日志数据分析(1) 2401_84182578 程序员 nginx flume 数据分析
得到visits模型hadoopjar/export/data/mapreduce/web_log.jarcn.itcast.bigdata.weblog.clickstream.ClickStreamVisit网络日志数据分析-数据加载对于日志数据的分析，Hive也分为三层：ods层、dw层、app层创建数据库createdatabaseifnotexistsweb_log_ods;create
探秘高效大数据处理：揭秘开源项目【BigData】温宝沫Morgan
探秘高效大数据处理：揭秘开源项目【BigData】databaseBlazegraphHighPerformanceGraphDatabase项目地址:https://gitcode.com/gh_mirrors/dat/database1、项目介绍在如今的数字化时代，数据已成为企业的重要资产。对于海量数据的处理和分析，我们常常需要依赖强大的工具来支撑。这就是我们要向您推荐的开源项目——BigDa
开源项目推荐：基于Lambda架构的大数据管道柳旖岭
开源项目推荐：基于Lambda架构的大数据管道big-data-pipeline-lambda-archAfullbigdatapipeline(LambdaArchitecture)withSpark,Kafka,HDFSandCassandra.项目地址:https://gitcode.com/gh_mirrors/bi/big-data-pipeline-lambda-arch1.项目基础介
Hadoop HDFS 安装详细步骤碟中碟山 hadoop hdfs 大数据
Hadoop安装详细步骤安装前分别在master、slave1、slave2三台机器的root用户下的主目录下创建目录bigdata，即执行下面的命令：mkdir~/bigdataHadoop安装包下载检查Hadopp和java版本是否对应，在官网中查hadoop-3.1.3JDK1.8hadoop-2.10.2JDK1.7or1.8hadoop-2.9.2JDK1.7or1.8hadoop-2.
大数据治理体系构建与关键技术实践一ge科研小菜鸡大数据大数据
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着信息技术的快速发展和数据规模的爆炸式增长，大数据已经成为各行业的核心资产。然而，数据质量低、数据孤岛、数据安全风险等问题日益突出，影响了数据的有效利用和价值挖掘。因此，大数据治理（BigDataGovernance）成为企业和政府机构提升数据管理能力、优化决策支持的重要手段。本篇文章将深入探讨大数据治理的体系构建、核心技术及其在实际应
Hive 整合 Spark 全教程（Hive on Spark）字节全栈_rJF hive spark hadoop
hadoop.proxyuser.luanhao.groups*hadoop.proxyuser.luanhao.groups*2）HDFS配置文件配置hdfs-site.xmldfs.namenode.http-addressBigdata00:9870dfs.namenode.secondary.http-addressBigdata00:9868dfs.replication13）YARN配
centos7搭建flink1.18并以 standalone模式启动咸鱼c君 flink 大数据大数据
版本组件版本scala2.12.20java1.8.0_181flink1.18.1关于scala和Java的安装参考：scala和java安装flink下载地址：flink下载链接集群规划bigdata01bigdata02bigdata03masterworkerworkerworker安装1.创建存放路径三个节点都需要操作用于存放安装包:mkdir/home/software/用于存放存放解
一文了解大数据概论程序员
一.大数据概论1.1大数据概念大数据（bigdata）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决，海量数据的存储和海量数据的分析计算问题。按顺序给出数据存储单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte=8bit
ranger-kms安装蘑菇丁 eclipse java ide
默认已安装ranger-admin和mysql服务。Ranger组件服务默认都在/opt/bigdata.test/core/ranger目录下安装。解压安装包[hadoop~]$cd/opt/ranger[hadoop@ranger]$tar-xzvfranger-2.1.0-kms.tar.gz[hadoop@xranger]$mvranger-2.1.0-kmsranger/ranger-k
把hive中的数据导出到mysql 樱浅沐冰笔记 hadoop hive mysql
注意事项！！！！1.hive中的表的字段和类型必须和mysql表中的字段和类型一样不如hive中的stnamevarchar（50），那么mysql中的字段和类型也必须为stnamestring2.sqoopexport--connectjdbc:mysql://localhost:3306/xiandian--usernameroot--passwordbigdata--tablem1--hca
Django常用ORM 程序猿_小天 Django django django orm
聚合分组Sum函数将None变为0xx=Coalesce(Sum('number'),0,output_field=CharField())跨表分组去重#B表中有一个外键表是A,即a=models.ForeignKey(A)a_queryset=BigData.objects.filter(pk=OuterRef("a")).annotate(Sum('number',distinct=True)
大数据治理：概念、框架与实践一ge科研小菜鸡大数据 Python 大数据
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注引言随着数据量的爆炸性增长，大数据治理（BigDataGovernance）成为数据管理领域的重要议题。大数据治理旨在对海量数据进行有效管理，确保数据的质量、可用性、安全性和合规性，同时为企业决策提供有力支持。本文系统介绍大数据治理的概念、核心框架、实施步骤及典型应用案例，结合实际场景提供技术支持和代码示例。一、大数据治理的定义与重要性1.什么是
【Springer斯普林格出版，Ei稳定，往届快速见刊检索】第四届电子信息工程、大数据与计算机技术国际学术会议（ EIBDCT 2025）艾思科蓝 AiScholar 学术会议计算机科学电子信息科学与技术大数据信息可视化可信计算技术深度学习人工智能自然语言处理信息与通信
第四届电子信息工程、大数据与计算机技术国际学术会议（EIBDCT2025）20254thInternationalConferenceonElectronicInformationEngineering,BigDataandComputerTechnology中国-青岛|2025年2月21-23日|www.eibdct.net组织单位长春电子科技大学、加拿大魁北克大学、美国新泽西理工学院、美国欧道
分布式系统理论基础二-CAP 王知无(import_bigdata)
GitHub：https://github.com/wangzhiwubigdata/God-Of-BigData关注公众号,内推,面试,资源下载,关注更多大数据技术~大数据成神之路~预计更新500+篇文章，已经更新50+篇~引言CAP是分布式系统、特别是分布式存储领域中被讨论最多的理论，“什么是CAP定理？”在Quora分布式系统分类下排名FAQ的No.1。CAP在程序员中也有较广的普及，它不仅
使用java代码消费kafka数据二进制_博客大数据 java kafka
首先创建maven项目，导入jar包org.apache.kafkakafka-clients3.0.0org.slf4jslf4j-log4j121.7.25示例一：使用java代码消费kafka所有数据packagecom.bigdata.day03;importorg.apache.kafka.clients.consumer.ConsumerConfig;importorg.apache.
Hive 查看partition 以及msck 修复分区 dgsdaga3026010 大数据
#checktable的partitionhive>showpartitionstable_name;如果是外部表，不小心把表给删除了，可以适用下命令重新关联表和数据[MSCKREPAIRTABLE]全量修复分区hive>msckrepairtabletable_name;转载于:https://www.cnblogs.com/TendToBigData/p/10501178.html
2024年总结：大转向年度总结
本文于2025年1月2号首发于公众号“狗哥琐话”。2024年是个打工人苦命年，我看到几乎每个人都比以往辛苦。这让我想起了六字真言，钱难赚屎难吃。职业转向今年我在职业上尝试做了一个转向，具体的结果可能需要比较长的时间来检验我选择是否正确，所以转向的细节我就不全部展开了，可以确定是我依然会专注在Infra和BigData，比如今年我发布了SparkSQL和FlinkSQL的IDEA提效插件。那么我为什
官宣开源阿里云与清华大学共建AI大模型推理项目Mooncake 阿里云大模型
2024年6月，国内优质大模型应用月之暗面Kimi与清华大学MADSys实验室（MachineLearning,AI,BigDataSystemsLab）联合发布了以KVCache为中心的大模型推理架构Mooncake。通过使用以KVCache为中心的PD分离和以存换算架构，大幅提升大模型应用Kimi智能助手推理吞吐的同时有效降低了推理成本，自发布以来受到业界广泛关注。近日，清华大学和研究组织9#
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
echarts象形渐变柱状图星星跌入梦境* echarts angular.js 前端
一、效果图如下：二、代码如下（1）父组件importitemfrom'../bigdata/components/item.vue'exportdefault{components:{item}}.page-con{width:100%;height:100%;.main-con{width:35%;height:33%;}}（2）子组件importechartsfrom"echarts";exp
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，