CodingCatX

Oryx2源码学习

简介

oryx官网

代码分析

基于oryx-2.1.2

代码目录结构

+ oryx
| - app # 基于oryx平台实现的可复用的als、kmeans、rdf算法应用和一个wordcount例子
     | - conf # 样例的conf
     | - example # wordcount代码
     | - oryx-app # als、kmeans、rdf算法应用代码
     | - oryx-app-api # 各应用的可定制复用接口
     | - oryx-app-common # 各应用的公用代码
     | - oryx-app-mllib # als、kmeans、rdf应用的底层算法实现
     | - oryx-app-serving # als、kmeans、rdf应用的的servinglayer实现
| - deploy # 与部署运行相关的代码
     | - bin # 启动脚本
     | - oryx-batch # BatchLayer的二进制main函数
     | - oryx-serving # ServingLayer的二进制main函数
     | - oryx-speed # SpeedLayer的二进制main函数
| - framework # 框架主要代码实现
     | - kafka-util # kafka相关功能
     | - oryx-api # 框架的API接口
     | - oryx-common # 框架的公用功能
     | - oryx-lambda # 框架BatchLayer/SpeedLayer运行、调度、数据分发逻辑代码，这里是框架的主体代码
     | - oryx-lambda-serving # 框架ServingLayer的运行逻辑主体代码
     | - oryx-ml # 机器学习特别定制的BatchLayer接口，实现了一些机器学习相关的通用逻辑
| - src # 文档等其他文件

wordcount例子

为了方便后续的说明，这里举例一个官方wordcount的配置文件例子，文件位于app/conf/wordcount-example.conf：

# A very basic example config file configuring only the essential elements to
# run the example "word count" application
# Values are examples, appropriate for Cloudera quickstart VM:
kafka-brokers = "quickstart.cloudera:9092"
zk-servers = "quickstart.cloudera:2181"
hdfs-base = "hdfs:///user/cloudera/OryxWordCountExample"
oryx {
  id = "WordCountExample"
  input-topic {
    broker = ${kafka-brokers}
    lock = {
      master = ${zk-servers}
    }
  }
  update-topic {
    broker = ${kafka-brokers}
    lock = {
      master = ${zk-servers}
    }
  }
  batch {
    streaming {
      generation-interval-sec = 60
      num-executors = 1
      executor-cores = 2
      executor-memory = "1g"
    }
    update-class = "com.cloudera.oryx.example.batch.ExampleBatchLayerUpdate"
    storage {
      data-dir =  ${hdfs-base}"/data/"
      model-dir = ${hdfs-base}"/model/"
    }
    ui {
      port = 4040
    }
  }
  speed {
    streaming {
      num-executors = 1
      executor-cores = 2
      executor-memory = "1g"
    }
    model-manager-class = "com.cloudera.oryx.example.speed.ExampleSpeedModelManager"
    ui {
      port = 4041
    }
  }
  serving {
    memory = "1000m"
    model-manager-class = "com.cloudera.oryx.example.serving.ExampleServingModelManager"
    application-resources = "com.cloudera.oryx.example.serving"
    api {
      port = 8080
    }
  }
}

完整的配置说明请见：oryx2默认配置文件

1. deploy

1.1. bin

bin目录下是架构的启动脚本，用途包括
- 启动batch/speed/serving Layer
- 按照配置文件配置kafka
- kafka的输入和输出功能

usage: oryx-run.sh command [--option value] ...
  where command is one of:
    batch        Run Batch Layer
    speed        Run Speed Layer
    serving      Run Serving Layer
    kafka-setup  Inspect ZK/Kafka config and configure Kafka topics
    kafka-tail   Follow output from Kafka topics
    kafka-input  Push data to input topic
  and options are one of:
    --layer-jar  Oryx JAR file, like oryx-{serving,speed,batch}-x.y.z.jar
                 Defaults to any oryx-*.jar in working dir
    --conf       Oryx configuration file, like oryx.conf. Defaults to 'oryx.conf'
    --app-jar    User app JAR file
    --jvm-args   Extra args to Oryx JVM processes (including drivers and executors)
    --deployment Only for Serving Layer now; can be 'yarn' or 'local', Default: local.
    --input-file Only for kafka-input. Input file to send
    --help       Display this messag

1.2. oryx-batch/oryx-serving/oryx-speed

这几个目录是对应层的启动主函数，都只是简单的调用了frame的对应层的启动函数而已。
batch

    try (BatchLayer batchLayer = new BatchLayer<>(ConfigUtils.getDefault())) {
      HadoopUtils.closeAtShutdown(batchLayer);
      batchLayer.start();
      batchLayer.await();
    }

speed

    try (SpeedLayer speedLayer = new SpeedLayer<>(ConfigUtils.getDefault())) {
      HadoopUtils.closeAtShutdown(speedLayer);
      speedLayer.start();
      speedLayer.await();
    }

serving

    try (ServingLayer servingLayer = new ServingLayer(ConfigUtils.getDefault())) {
      JVMUtils.closeAtShutdown(servingLayer);
      servingLayer.start();
      servingLayer.await();
    }

2. framework

2.0. AbstractSparkLayer

AbstractSparkLayer是batch和speedlayer的基类，因此先介绍AbstractSparkLayer类。

2.0.1. 类的定义和主要函数

/**
 * Encapsulates commonality between Spark-based layer processes,
 * {@link com.cloudera.oryx.lambda.batch.BatchLayer} and
 * {@link com.cloudera.oryx.lambda.speed.SpeedLayer}
 *
 * @param  input topic key type
 * @param  input topic message type
 */
public abstract class AbstractSparkLayer<K,M> implements Closeable {
  protected AbstractSparkLayer(Config config);
  ...
  protected abstract String getConfigGroup();
  protected abstract String getLayerName();
  ...
  protected final JavaStreamingContext buildStreamingContext();
  protected final JavaInputDStream> buildInputDStream(JavaStreamingContext streamingContext);
  private static void fillInLatestOffsets(Map offsets, Map kafkaParams);
}

2.0.2. AbstractSparkLayer主要函数

AbstractSparkLayer构造函数 - 主要功能是读取conf并初始化成员变量。

   protected AbstractSparkLayer(Config config) {
     Objects.requireNonNull(config);
     log.info("Configuration:\n{}", ConfigUtils.prettyPrint(config));

     String group = getConfigGroup();
     this.config = config;
     String configuredID = ConfigUtils.getOptionalString(config, "oryx.id");
     this.id = configuredID == null ? generateRandomID() : configuredID;
     this.streamingMaster = config.getString("oryx." + group + ".streaming.master");
     this.inputTopic = config.getString("oryx.input-topic.message.topic");
     this.inputTopicLockMaster = config.getString("oryx.input-topic.lock.master");
     this.inputBroker = config.getString("oryx.input-topic.broker");
     this.updateTopic = ConfigUtils.getOptionalString(config, "oryx.update-topic.message.topic");
     this.updateTopicLockMaster = ConfigUtils.getOptionalString(config, "oryx.update-topic.lock.master");

     // 加载对应的类，整个框架用了很多反射手段
     this.keyClass = ClassUtils.loadClass(config.getString("oryx.input-topic.message.key-class"));
     this.messageClass = ClassUtils.loadClass(config.getString("oryx.input-topic.message.message-class"));
     this.keyDecoderClass = (Class>) ClassUtils.loadClass(config.getString("oryx.input-topic.message.key-decoder-class"), Decoder.class);
     this.messageDecoderClass = (Class>) ClassUtils.loadClass(config.getString("oryx.input-topic.message.message-decoder-class"), Decoder.class);

     // streaming的计算周期
     this.generationIntervalSec = config.getInt("oryx." + group + ".streaming.generation-interval-sec");

     // 注意这里，可以添加额外的spark配置，这里会统一读取，并在初始化StreamingContext时设置。
     this.extraSparkConfig = new HashMap<>();
     for (Map.Entry e : config.getConfig("oryx." + group + ".streaming.config").entrySet()) {
       extraSparkConfig.put(e.getKey(), e.getValue().unwrapped());
     }

     Preconditions.checkArgument(generationIntervalSec > 0);
   }

需要基类重载的标示函数 - 用于基类判断子类的类别

   /**
    * @return layer-specific config grouping under "oryx", like "batch" or "speed"
    */
   protected abstract String getConfigGroup();

   /**
    * @return display name for layer like "BatchLayer"
    */
   protected abstract String getLayerName();

buildStreamingContext - 初始化StreamingContext

   protected final JavaStreamingContext buildStreamingContext() {
     log.info("Starting SparkContext with interval {} seconds", generationIntervalSec);

     // 初始化sparkconf
     SparkConf sparkConf = new SparkConf();

     // 下面两部是给测试使用的，正常情况下不会有这种情况发生
     // Only for tests, really
     if (sparkConf.getOption("spark.master").isEmpty()) {
       log.info("Overriding master to {} for tests", streamingMaster);
       sparkConf.setMaster(streamingMaster);
     }
     // Only for tests, really
     if (sparkConf.getOption("spark.app.name").isEmpty()) {
       String appName = "Oryx" + getLayerName();
       if (id != null) {
         appName = appName + "-" + id;
       }
       log.info("Overriding app name to {} for tests", appName);
       sparkConf.setAppName(appName);
     }

     // 设置上面获取的额外的spark设置
     for (Map.Entry e : extraSparkConfig.entrySet()) {
       sparkConf.setIfMissing(e.getKey(), e.getValue().toString());
     }

     // 设置一些设置，防止关闭应用时长时间无响应
     // Turn this down to prevent long blocking at shutdown
     sparkConf.setIfMissing("spark.streaming.gracefulStopTimeout", Long.toString(TimeUnit.MILLISECONDS.convert(generationIntervalSec, TimeUnit.SECONDS)));
     sparkConf.setIfMissing("spark.cleaner.ttl", Integer.toString(20 * generationIntervalSec));

     // 新建sparkcontext 
     long generationIntervalMS = TimeUnit.MILLISECONDS.convert(generationIntervalSec, TimeUnit.SECONDS);
     JavaSparkContext jsc = JavaSparkContext.fromSparkContext(SparkContext.getOrCreate(sparkConf));

     // 新建StreamingContext，注意计算间隔为generationIntervalMS
     return new JavaStreamingContext(jsc, new Duration(generationIntervalMS));
   }

buildInputDStream - 根据StreamingContext初始化Kafka的DStream并返回

   protected final JavaInputDStream> buildInputDStream(JavaStreamingContext streamingContext) {
     // 检查并询问是否创建对应的KafkaTopic
     Preconditions.checkArgument(com.cloudera.oryx.kafka.util.KafkaUtils.topicExists(inputTopicLockMaster, inputTopic), "Topic %s does not exist; did you create it?", inputTopic);
     if (updateTopic != null && updateTopicLockMaster != null) {
       Preconditions.checkArgument(com.cloudera.oryx.kafka.util.KafkaUtils.topicExists(updateTopicLockMaster, updateTopic), "Topic %s does not exist; did you create it?", updateTopic);
     }

     Map kafkaParams = new HashMap<>();
     //kafkaParams.put("zookeeper.connect", inputTopicLockMaster);
     String groupID = getGroupID();
     kafkaParams.put("group.id", groupID);
     // Don't re-consume old messages from input by default
     kafkaParams.put("auto.offset.reset", "largest");
     kafkaParams.put("metadata.broker.list", inputBroker);
     // Newer version of metadata.broker.list:
     kafkaParams.put("bootstrap.servers", inputBroker);

     // 获取Topic上次消费到的offset，信息保存在inputTopicLockMaster参数配置的zk中
     Map offsets = com.cloudera.oryx.kafka.util.KafkaUtils.getOffsets(inputTopicLockMaster, groupID, inputTopic);
     fillInLatestOffsets(offsets, kafkaParams);
     log.info("Initial offsets: {}", offsets);

     // Ugly compiler-pleasing acrobatics:
     @SuppressWarnings("unchecked")
     Class> streamClass = (Class>) (Class) MessageAndMetadata.class;

     // 创建Kafka的DStream
     return KafkaUtils.createDirectStream(streamingContext, keyClass, messageClass, keyDecoderClass, messageDecoderClass, streamClass, kafkaParams, offsets, Functions.>identity());
}

fillInLatestOffsets - 填充Kafka需要的offset数据结构

   private static void fillInLatestOffsets(Map offsets, Map kafkaParams) {
     if (offsets.containsValue(null)) {

       Set needOffset = new HashSet<>();
       for (Map.Entry entry : offsets.entrySet()) {
         if (entry.getValue() == null) {
           needOffset.add(entry.getKey());
         }
       }
       log.info("No initial offsets for {}; reading from Kafka", needOffset);

       // The high price of calling private Scala stuff:
       @SuppressWarnings("unchecked")
       scala.collection.immutable.Map kafkaParamsScalaMap = (scala.collection.immutable.Map)scala.collection.immutable.Map$.MODULE$.apply(JavaConversions.mapAsScalaMap(kafkaParams).toSeq());
       @SuppressWarnings("unchecked")
       scala.collection.immutable.Set needOffsetScalaSet = (scala.collection.immutable.Set)scala.collection.immutable.Set$.MODULE$.apply(JavaConversions.asScalaSet(needOffset).toSeq());

       KafkaCluster kc = new KafkaCluster(kafkaParamsScalaMap);
       Map leaderOffsets = JavaConversions.mapAsJavaMap(kc.getLatestLeaderOffsets(needOffsetScalaSet).right().get());
       for (Map.Entry entry : leaderOffsets.entrySet()) {
         TopicAndPartition tAndP = entry.getKey();
         // Can't reference LeaderOffset class, so, hack away:
         String leaderOffsetString = entry.getValue().toString();
         Matcher m = Pattern.compile("LeaderOffset\\([^,]+,[^,]+,([^)]+)\\)").matcher(leaderOffsetString);
         Preconditions.checkState(m.matches());
         offsets.put(tAndP, Long.valueOf(m.group(1)));
       }
     }
   }

2.1. SpeedLayer

如deploy解释，SpeedLayer的启动只是调用了对应类的启动命令而已。batch的入口类为com.cloudera.oryx.lambda.speed.SpeedLayer。

2.1.1. SpeedLayer类定义和主要函数

类的定义如下：

/**
 * Main entry point for Oryx Speed Layer.
 *
 * @param  type of key read from input topic
 * @param  type of message read from input topic
 * @param  type of update message read/written
 */
public final class SpeedLayer<K,M,U> extends AbstractSparkLayer<K,M> {
   public SpeedLayer(Config config);

   // 类别标示，实现基类接口
   protected abstract String getConfigGroup();
   protected abstract String getLayerName();

   // 任务启停，实现基类接口
   public synchronized void start();
   public void await();
   public synchronized void close();

   // 加载对应的类
   private SpeedModelManager loadManagerInstance();
   private Decoder loadDecoderInstance();
}

2.1.2. 主要函数

public SpeedLayer(Config config) - 加载SpeedLayer的配置

   public SpeedLayer(Config config) {
     super(config);
     // UpdateTopic的kafka配置
     this.updateBroker = config.getString("oryx.update-topic.broker");
     this.updateTopic = config.getString("oryx.update-topic.message.topic");
     this.maxMessageSize = config.getInt("oryx.update-topic.message.max-size");
     this.updateTopicLockMaster = config.getString("oryx.update-topic.lock.master");

     // 用户实现的逻辑类 
     this.modelManagerClassName = config.getString("oryx.speed.model-manager-class");

     // update topic的解码类 
     this.updateDecoderClass = (Class>) ClassUtils.loadClass(config.getString("oryx.update-topic.message.decoder-class"), Decoder.class);
     Preconditions.checkArgument(maxMessageSize > 0);
   }

重载的标示函数 - 用于基类判断子类的类别

   @Override
   protected String getConfigGroup() {
     return "speed";
   }

   @Override
   protected String getLayerName() {
     return "SpeedLayer";
   }

public synchronized void start(); - 启动streaming任务

   public synchronized void start() {
     String id = getID();
     if (id != null) {
       log.info("Starting Speed Layer {}", id);
     }

     // 初始化StreamingContext，调用基类的函数
     streamingContext = buildStreamingContext();
     log.info("Creating message stream from topic");

     // 创建InputTopic的DStream
     JavaInputDStream> dStream = buildInputDStream(streamingContext);

     // 映射为KVPair格式 
     JavaPairDStream pairDStream = dStream.mapToPair(new MMDToTuple2Fn());

     // 创建UpdateTopic, 注意这里创建时，从最小的点开始消费
     consumer = Consumer.createJavaConsumerConnector(new ConsumerConfig(
         ConfigUtils.keyValueToProperties(
             "group.id", "OryxGroup-" + getLayerName() + "-" + System.currentTimeMillis(),
             "zookeeper.connect", updateTopicLockMaster,
             "fetch.message.max.bytes", maxMessageSize,
             // Do start from the beginning of the update queue
             "auto.offset.reset", "smallest"
         )));

     // 创建stream并映射为KVPair格式 
     KafkaStream stream = consumer.createMessageStreams(Collections.singletonMap(updateTopic, 1), new StringDecoder(null), loadDecoderInstance()).get(updateTopic).get(0);
     final Iterator> transformed = Iterators.transform(stream.iterator(),
         new Function, KeyMessage>() {
           @Override
           public KeyMessage apply(MessageAndMetadata input) {
             return new KeyMessageImpl<>(input.key(), input.message());
           }
         });

     // 加载用户的逻辑类
     modelManager = loadManagerInstance();

     // 创建UpdateTopic的消费线程，注意这里没有使用DStream消费UpdateTopic，而是使用了一个单独线程进行消费
     new Thread(new LoggingRunnable() {
       @Override
       public void doRun() {
         try {
           // 调用consume函数消费stream
           modelManager.consume(transformed, streamingContext.sparkContext().hadoopConfiguration());
         } catch (Throwable t) {
           log.error("Error while consuming updates", t);
           close();
         }
       }
     }, "OryxSpeedLayerUpdateConsumerThread").start();

     // 对于InputTopic，进行RDD的正常变换，对于InputTopic可以使用DStream的API。这里用到了`SpeedLayerUpdate`函数类。
     pairDStream.foreachRDD(new SpeedLayerUpdate<>(modelManager, updateBroker, updateTopic));

     // 记录消费进度，这里用到了`UpdateOffsetsFn`函数类。
     dStream.foreachRDD(new UpdateOffsetsFn(getGroupID(), getInputTopicLockMaster()));
     log.info("Starting Spark Streaming");

     // 启动StreamingContext
     streamingContext.start();
   }
 //////////////////////////////////////////
 // `SpeedLayerUpdate`函数类 - 用作在SpeedLayer和用户函数之间加了一层调用函数。
 //////////////////////////////////////////
 /**
  * Main Spark Streaming function for the speed layer that collects and publishes update to
  * a Kafka topic.
  *
  * @param  type of key read from input topic
  * @param  type of message read from input topic
  * @param  type of update message read/written
  */
 public final class SpeedLayerUpdate<K,M,U> implements Function<JavaPairRDD<K,M>,Void> {
   private static final Logger log = LoggerFactory.getLogger(SpeedLayerUpdate.class);

   private final SpeedModelManager modelManager;
   private final String updateBroker;
   private final String updateTopic;

   public SpeedLayerUpdate(SpeedModelManager modelManager,
                           String updateBroker,
                           String updateTopic) {
     this.modelManager = modelManager;
     this.updateBroker = updateBroker;
     this.updateTopic = updateTopic;
   }

   // 主要行为 - 处理InputTopic的每个RDD
   @Override
   public Void call(JavaPairRDD newData) throws IOException { 
     if (newData.isEmpty()) {
       log.debug("RDD was empty");
     } else {
       // 调用用户的RDD处理逻辑
       Iterable updates = modelManager.buildUpdates(newData); 
       // 分发输出，默认写到UpdateTopic中
       if (updates != null) { 
         try (TopicProducer producer = new TopicProducerImpl<>(updateBroker, updateTopic, true)) { 
           // 注意这里，写入producer的时候，带着"UP"标签。
           for (U update : updates) { producer.send("UP", update);} 
         } 
       } 
     } 
     return null; 
   } 
 }
 //////////////////////////////////////////
 // `UpdateOffsetsFn`函数类 - 用作更新zk中的消费OFFSET。
 //////////////////////////////////////////
 /**
  * Function that reads offset range from latest RDD in a streaming job, and updates
  * Zookeeper/Kafka with the latest offset consumed.
  *
  * @param  RDD element's key type (not used)
  * @param  RDD element's value type (not used)
  */
 public final class UpdateOffsetsFn<K,M> implements Function<JavaRDD<MessageAndMetadata<K,M>>,Void> {
   private static final Logger log = LoggerFactory.getLogger(UpdateOffsetsFn.class);

   private final String group;
   private final String inputTopicLockMaster;

   public UpdateOffsetsFn(String group, String inputTopicLockMaster) {
     this.group = group;
     this.inputTopicLockMaster = inputTopicLockMaster;
   }

   /** 
    * @param javaRDD RDD whose underlying RDD must be an instance of {@link HasOffsetRanges},
    *  such as {@code KafkaRDD}
    * @return null
    */
   @Override
   public Void call(JavaRDD> javaRDD) {
     // 读取每个RDD中的OFFSET记录 
     OffsetRange[] ranges = ((HasOffsetRanges)javaRDD.rdd()).offsetRanges();
     Map newOffsets = new HashMap<>(ranges.length);
     for (OffsetRange range : ranges) {
       // 组装KAFKA需要的OFFSET数据格式
       newOffsets.put(new TopicAndPartition(range.topic(), range.partition()), range.untilOffset());
     }
     log.info("Updating offsets: {}", newOffsets);

     // 更新ZK中的OFFSET记录 
     KafkaUtils.setOffsets(inputTopicLockMaster, group, newOffsets);
     return null;
   }
 }

注意start函数是synchronized，线程互斥。
这个函数是SteamingLayer的主要逻辑，可以看到InputTopic的消费走的是正常的sparkapi，但UpdateTopic的消费走的是单独线程。
这样的话用户就需要考虑到两个线程之间的加锁问题。同时单线程消费大量数据可能会有性能问题。

public void await() - 等待StreamingContext程序结束

   public void await() {
     Preconditions.checkState(streamingContext != null);
     log.info("Spark Streaming is running");
     // 等待结束 
     streamingContext.awaitTermination();
   }

public synchronized void close() - 释放资源

   public synchronized void close() {
     // 调用用户的close函数                                                      
     if (modelManager != null) {
       log.info("Shutting down model manager");
       modelManager.close();
       modelManager = null;
     }                     
     // 关闭UpdateTopic                                                                
     if (consumer != null) { 
       log.info("Shutting down consumer");
       consumer.commitOffsets();  // 注意这里，记录了自己的消费offset
       consumer.shutdown();                                                                
       consumer = null;
     }   
     // 关闭StreamingContext
     if (streamingContext != null) {
       log.info("Shutting down Spark Streaming; this may take some time");                 
       streamingContext.stop(true, true);
       streamingContext = null;                                                            
     }   
   }

注意close函数也是synchronized。

2.1.3. 总结
1. SpeedLayer将InputTopic当作正常的DStream使用，框架封装了Offset的更新等逻辑。
2. UpdateTopic启动了一个单独线程，直接使用kafka的api完成，因此不需要更新zk的Offset记录。
3. BuildUpdate的输出默认输出到UpdateTopic中，并带有”UP”标签。

2.2. BatchLayer

如deploy解释，batchlayer的启动只是调用了对应类的启动命令而已。batch的入口类为com.cloudera.oryx.lambda.batch.BatchLayer。

2.2.1. BatchLayer类定义和主要函数

 /**
  * Main entry point for Oryx Batch Layer.
  *
  * @param  type of key read from input topic
  * @param  type of message read from input topic
  * @param  type of model message written
  */
 public final class BatchLayer<K,M,U> extends AbstractSparkLayer<K,M> {
   public BatchLayer(Config config);

   // 类别标示，实现基类接口
   protected abstract String getConfigGroup();
   protected abstract String getLayerName();

   // 启动停止任务
   public synchronized void start();
   public void await();
   public synchronized void close();

   // 加载Update类
   private BatchLayerUpdate loadUpdateInstance();
 }

2.2.2. 主要函数说明

public BatchLayer(Config config); - 加载重要参数

   public BatchLayer(Config config) {
     super(config);
     // 数据存储使用的类
     this.keyWritableClass = ClassUtils.loadClass(config.getString("oryx.batch.storage.key-writable-class"), Writable.class);
     this.messageWritableClass = ClassUtils.loadClass(config.getString("oryx.batch.storage.message-writable-class"), Writable.class);
     // Update使用的用户类 
     this.updateClassName = config.getString("oryx.batch.update-class");
     // 数据存储位置 
     this.dataDirString = config.getString("oryx.batch.storage.data-dir");
     this.modelDirString = config.getString("oryx.batch.storage.model-dir"); 
     // 数据存储时间      
     this.maxDataAgeHours = config.getInt("oryx.batch.storage.max-age-data-hours");
     Preconditions.checkArgument(!dataDirString.isEmpty());
     Preconditions.checkArgument(!modelDirString.isEmpty());
     Preconditions.checkArgument(maxDataAgeHours >= 0 || maxDataAgeHours == NO_MAX_DATA_AGE);
   }

重载的标示函数 - 用于基类判断子类的类别

   @Override
   protected String getConfigGroup() {
     return "batch";
   }

   @Override
   protected String getLayerName() {
     return "BatchLayer";
   }

public synchronized void start(); - 启动任务

   public synchronized void start() {
     String id = getID();
     if (id != null) {
       log.info("Starting Batch Layer {}", id);
     }

     // 创建StreamingContext
     streamingContext = buildStreamingContext();

     // 开启检查点！这个很重要！
     Path checkpointPath = new Path(new Path(modelDirString), ".checkpoint");
     log.info("Setting checkpoint dir to {}", checkpointPath);
     streamingContext.sparkContext().setCheckpointDir(checkpointPath.toString());

     // 创建InputDStream
     log.info("Creating message stream from topic");
     JavaInputDStream> dStream = buildInputDStream(streamingContext);
     JavaPairDStream pairDStream = dStream.mapToPair(new MMDToTuple2Fn());

     Class keyClass = getKeyClass();
     Class messageClass = getMessageClass();
     // 使用`BatchUpdateFunction`函数类处理数据，内部逻辑是调用用户的具体实现类来进行。
     pairDStream.foreachRDD(new BatchUpdateFunction<>(getConfig(), keyClass, messageClass, keyWritableClass, messageWritableClass, dataDirString, modelDirString, loadUpdateInstance(), streamingContext));

     // 将接收到的数据存入HDFS，数据保存在dataDirString下
     // "Inline" saveAsNewAPIHadoopFiles to be able to skip saving empty RDDs
     pairDStream.foreachRDD(new SaveToHDFSFunction<>(dataDirString + "/oryx", "data", keyClass, messageClass, keyWritableClass, messageWritableClass, streamingContext.sparkContext().hadoopConfiguration()));

     // 更新zk中的offset
     dStream.foreachRDD(new UpdateOffsetsFn(getGroupID(), getInputTopicLockMaster()));

     // 删除HDFS上旧的数据文件，数据保存在dataDirString下
     if (maxDataAgeHours != NO_MAX_DATA_AGE) {
       dStream.foreachRDD(new DeleteOldDataFn>(streamingContext.sparkContext().hadoopConfiguration(), dataDirString, maxDataAgeHours));
     }

     log.info("Starting Spark Streaming");

     // 启动streaming处理
     streamingContext.start();
   }

可以看到具体逻辑是调用用户的处理逻辑，同时保存一份数据到HDFS下，供后续迭代当作窗口数据使用。

BatchUpdateFunction - 用户处理逻辑的封装类

 /**
  * Framework for executing the batch layer update, and storing data to persistent storage,
  * in the context of a streaming framework.
  *
  * @param  type of key read from input topic
  * @param  type of message read from input topic
  * @param  type of model message written
  */
 final class BatchUpdateFunction implements Function2,Time,Void> {
   ...
   // 主要调用逻辑
   @Override
   public Void call(JavaPairRDD newData, Time timestamp) throws IOException, InterruptedException {
     if (newData.isEmpty()) {
       log.info("No data in current generation's RDD; nothing to do");
       return null;
     }

     log.info("Beginning update at {}", timestamp);

     Configuration hadoopConf = sparkContext.hadoopConfiguration();
     if (hadoopConf.getResource("core-site.xml") == null) {
       log.warn("Hadoop config like core-site.xml was not found; " + "is the Hadoop config directory on the classpath?");
     }

     // 读取窗口数据，创建窗口RDD
     JavaPairRDD pastData;
     Path inputPathPattern = new Path(dataDirString + "/*/part-*");
     FileSystem fs = FileSystem.get(inputPathPattern.toUri(), hadoopConf);
     FileStatus[] inputPathStatuses = fs.globStatus(inputPathPattern);
     if (inputPathStatuses == null || inputPathStatuses.length == 0) {
       log.info("No past data at path(s) {}", inputPathPattern);
       pastData = null;
     } else {
       log.info("Found past data at path(s) like {}", inputPathStatuses[0].getPath());
       Configuration updatedConf = new Configuration(hadoopConf);
       updatedConf.set(FileInputFormat.INPUT_DIR, joinFSPaths(fs, inputPathStatuses));

       // 读取窗口数据
       @SuppressWarnings("unchecked")
       JavaPairRDD pastWritableData = (JavaPairRDD)sparkContext.newAPIHadoopRDD(updatedConf, SequenceFileInputFormat.class, keyWritableClass, messageWritableClass);
       // 转换为KVPair格式 
       pastData = pastWritableData.mapToPair(new WritableToValueFunction<>(keyClass, messageClass, keyWritableClass, messageWritableClass));
     }

     // 执行用户逻辑，这里由用户决定推送哪些给producer
     if (updateTopic == null || updateBroker == null) {
       log.info("Not producing updates to update topic since none was configured");
       updateInstance.runUpdate(sparkContext, timestamp.milliseconds(), newData, pastData, modelDirString, null);
     } else {
       // This TopicProducer should not be async; sends one big model generally and
       // needs to occur before other updates reliably rather than be buffered
       try (TopicProducer producer = new TopicProducerImpl<>(updateBroker, updateTopic, false)) {
         updateInstance.runUpdate(sparkContext, timestamp.milliseconds(), newData, pastData, modelDirString, producer);
       }
     }

     return null;
   }
   ...
 }

SaveToHDFSFunction - 保存到HDFS功能

 /**
  * Function that saves RDDs to HDFS -- only if they're non empty, to prevent creation
  * of many small empty files if data is infrequent but the model interval is short.
  */
 final class SaveToHDFSFunction implements Function2,Time,Void> {
   @Override
   public Void call(JavaPairRDD rdd, Time time) {
     if (rdd.isEmpty()) {
       log.info("RDD was empty, not saving to HDFS");
     } else {
       // 保存文件到`prefix-{timestemp}.suffix/`目录下
       String file = prefix + "-" + time.milliseconds() + "." + suffix;
       log.info("Saving RDD to HDFS at {}", file);
       // 转换KVPair到Writable对象，并保存到HDFS中
       rdd.mapToPair(new ValueToWritableFunction<>(keyClass, messageClass, keyWritableClass, messageWritableClass)
            ).saveAsNewAPIHadoopFile(file, keyWritableClass, messageWritableClass, SequenceFileOutputFormat.class, hadoopConf);
     }
     return null;
   }
 }

DeleteOldDataFn - 删除过期数据

 /**
  * Function that deletes old data, if applicable, at each batch interval.
  *
  * @param  unused
  */
 public final class DeleteOldDataFn<T> implements Function<JavaRDD<T>,Void> {
   @Override
   public Void call(JavaRDD ignored) throws IOException {
     // 构造路径，参照上面的SaveToHDFSFunction
     Path dataDirPath = new Path(dataDirString + "/*");
     FileSystem fs = FileSystem.get(dataDirPath.toUri(), hadoopConf);
     FileStatus[] inputPathStatuses = fs.globStatus(dataDirPath);
     if (inputPathStatuses != null) {
       long oldestTimeAllowed = System.currentTimeMillis() - TimeUnit.MILLISECONDS.convert(maxDataAgeHours, TimeUnit.HOURS);
       for (FileStatus status : inputPathStatuses) {
         if (status.isDirectory()) {
           Path subdir = status.getPath();
           Matcher m = DATA_SUBDIR_PATTERN.matcher(subdir.getName());

           // 查看目录时间是否过期，并删除过期目录
           if (m.find() && Long.parseLong(m.group(1)) < oldestTimeAllowed) {
             log.info("Deleting old data at {}", subdir);
             try {
               fs.delete(subdir, true);
             } catch (IOException e) {
               log.warn("Unable to delete {}; continuing", subdir, e);
             }
           }
         }
       }
     }
     return null;
   }
 }

ValueToWritableFunction, WritableToValueFunction, ValueWritableConverter这几个类用作类型转换。
TopicProducerImpl - Kafka的对接类

 /**
  * Wraps access to a Kafka message topic {@link Producer}.
  *
  * @param  key type to send
  * @param  message type to send
  */
 public final class TopicProducerImpl<K,M> implements TopicProducer<K,M> {

   private final String updateBroker;
   private final String topic;
   private final boolean async;
   private Producer producer;

   public TopicProducerImpl(String updateBroker, String topic, boolean async) {
     this.updateBroker = updateBroker;
     this.topic = topic;
     this.async = async;
   }

   @Override
   public String getUpdateBroker() {
     return updateBroker;
   }

   @Override
   public String getTopic() {
     return topic;
   }

   // 生成一个新的KafkaProducer。注意其中的`"producer.type", async ? "async" : "sync",`决定了是否是异步。
   private synchronized Producer getProducer() {
     // Lazy init; also handles case where object has been serialized and Producer
     // needs to be recreated
     if (producer == null) {
       producer = new Producer<>(new ProducerConfig(ConfigUtils.keyValueToProperties(
           "metadata.broker.list", updateBroker,
           "serializer.class", StringEncoder.class.getName(),
           "producer.type", async ? "async" : "sync",
           "queue.buffering.max.ms", 1000, // Make configurable?
           "batch.num.messages", 100,
           "compression.codec", "gzip",
           "compressed.topics", topic
       )));
     }
     return producer;
   }

   @Override
   public void send(K key, M message) {
     getProducer().send(new KeyedMessage<>(topic, key, message));
   }

   @Override
   public synchronized void close() {
     if (producer != null) {
       producer.close();
     }
   }
 }

2.2.3. 总结

BatchLayer使用了SparkStreaming模式，因此可以接入Kafka。
BatchLayer将窗口数据缓存在HDFS上，自行管理过期。为什么不使用Streaming本身的Window？Streaming本身的Window数据全部缓存在内存中，这样对内存压力太大。
BatchLayer并没有利用起来SparkCore模式，其实可以利用起来这种模式，提供的接口并不会改变，只不过缓存数据的工作需要另起一个streamingjob来进行。

3. ServingLayer

简单来说，用户继承AbstractServingModelManager实现自己的类，ServingLayer会启动Tomcat，同时启动一个消费Kafka的UpdateTopic线程，执行用户的处理类的consume函数。在请求获取model的时候，会执行用户类的getModel函数获取。

待补充

3. app

3.1. WordCount例子

3.1.1. SpeedLayer

 /**
  * Also counts and emits counts of number of distinct words that occur with words.
  * Listens for updates from the Batch Layer, which give the current correct count at its
  * last run. Updates these counts approximately in response to the same data stream
  * that the Batch Layer sees, but assumes all words seen are new and distinct, which is only
  * approximately true. Emits updates of the form "word,count".
  */
 public final class ExampleSpeedModelManager implements SpeedModelManager<String,String,String> {
   private final Map distinctOtherWords = Collections.synchronizedMap(new HashMap());

   @Override
   // 消费UpdateTopic的数据，并更新自己的数据Base 
   public void consume(Iterator> updateIterator, Configuration hadoopConf) throws IOException {
     while (updateIterator.hasNext()) {
       KeyMessage km = updateIterator.next();
       String key = km.getKey();
       String message = km.getMessage();
       switch (key) {
         case "MODEL":
           @SuppressWarnings("unchecked")
           Map model = (Map) new ObjectMapper().readValue(message, Map.class);
           distinctOtherWords.keySet().retainAll(model.keySet());
           for (Map.Entry entry : model.entrySet()) {
             distinctOtherWords.put(entry.getKey(), entry.getValue());
           }
           break;
         case "UP":
           // ignore
           break;
         default:
           throw new IllegalArgumentException("Unknown key " + key);
       }
     }
   }

   @Override
   // 流式计算新数据
   public Iterable buildUpdates(JavaPairRDD newData) {
     List updates = new ArrayList<>();
     for (Map.Entry entry : ExampleBatchLayerUpdate.countDistinctOtherWords(newData).entrySet()) {
       String word = entry.getKey();
       int count = entry.getValue();
       int newCount;
       synchronized (distinctOtherWords) {
         Integer oldCount = distinctOtherWords.get(word);
         newCount = oldCount == null ? count : oldCount + count;
         distinctOtherWords.put(word, newCount);
       }
       updates.add(word + "," + newCount);
     }
     // 返回的是发送到UpdateTopic的数据集合
     return updates;
   }

   @Override
   public void close() {
     // do nothing
   }
 }

3.1.2. BatchLayer

 /**
  * Input keys are ignored. Values are treated as lines of space-separated text. The job
  * counts, for each word, the number of distinct other words that co-occur in some line
  * of text in the input. These are written as a "MODEL" update, where the word-count mapping
  * is written as a JSON string.
  */
 public final class ExampleBatchLayerUpdate implements BatchLayerUpdate<String,String,String> {

   @Override
   // 创建Batch数据更新
   public void runUpdate(JavaSparkContext sparkContext,
                         long timestamp,
                         JavaPairRDD newData,
                         JavaPairRDD pastData,
                         String modelDirString,
                         TopicProducer modelUpdateTopic) throws IOException {
     JavaPairRDD allData = pastData == null ? newData : newData.union(pastData);
     String modelString;
     try {
       modelString = new ObjectMapper().writeValueAsString(countDistinctOtherWords(allData));
     } catch (JsonProcessingException jpe) {
       throw new IOException(jpe);
     }

     // 发送到UpdateTopic，注意MODEL对应SpeedLayer的consume函数
     modelUpdateTopic.send("MODEL", modelString);
   }

   // 具体逻辑，使用DStream的API
   public static Map countDistinctOtherWords(JavaPairRDD data) {
     return data.values().flatMapToPair(new PairFlatMapFunction() {
       @Override
       public Iterable> call(String line) {
         List> result = new ArrayList<>();
         Set distinctTokens = new HashSet<>(Arrays.asList(line.split(" ")));
         for (String a : distinctTokens) {
           for (String b : distinctTokens) {
             if (!a.equals(b)) {
               result.add(new Tuple2<>(a, b));
             }
           }
         }
         return result;
       }
     }).distinct().groupByKey().mapValues(new Function,Integer>() {
       @Override
       public Integer call(Iterable values) {
         int count = 0;
         for (String v : values) {
           count++;
         }
         return count;
       }
     }).collectAsMap();
   }
 }

3.1.3 ServingLayer

 /**
  * Reads models and updates produced by the Batch Layer and Speed Layer. Models are maps, encoded as JSON
  * strings, mapping words to count of distinct other words that appear with that word in an input line.
  * Updates are "word,count" pairs representing new counts for a word. This class manages and exposes the
  * mapping to the Serving Layer applications.
  */
 public final class ExampleServingModelManager extends AbstractServingModelManager<String> {
   private final Map distinctOtherWords = Collections.synchronizedMap(new HashMap());

   public ExampleServingModelManager(Config config) {
     super(config);
   }

   @Override
   // 从UpdateTopic中消费Batch和Speed产出的数据，并更新Model
   public void consume(Iterator> updateIterator, Configuration hadoopConf) throws IOException {
     while (updateIterator.hasNext()) {
       KeyMessage km = updateIterator.next();
       String key = km.getKey();
       String message = km.getMessage();
       switch (key) {
         case "MODEL":
           @SuppressWarnings("unchecked")
           Map model = (Map) new ObjectMapper().readValue(message, Map.class);
           distinctOtherWords.keySet().retainAll(model.keySet());
           for (Map.Entry entry : model.entrySet()) {

             distinctOtherWords.put(entry.getKey(), entry.getValue());
           }
           break;
         case "UP":
           String[] wordCount = message.split(",");
           distinctOtherWords.put(wordCount[0], Integer.valueOf(wordCount[1]));
           break;
         default:
           throw new IllegalArgumentException("Unknown key " + key);
       }
     }
   }

   @Override
   // 获取Model数据
   public ServingModel getModel() {
     return new ExampleServingModel(distinctOtherWords);
   }
 }

other

资料汇总

oryx官网
oryx配置文件说明

中间件复习（java向，示例代码为java），所有问题都会有链接单独解析搞不懂语言的程序员重拾java 中间件中间件 java 开发语言
根据近些年情况整理的Java服务常用中间件及面试复习指南（每个中间件10个以上问题+实战模拟）一、核心中间件清单（2020-2023高频使用）中间件分类典型中间件核心应用场景RPC框架Dubbo3.x、gRPC、SpringCloudOpenFeign微服务通信、跨语言调用消息队列Kafka、RocketMQ、RabbitMQ异步解耦、削峰填谷、顺序消息缓存Redis（集群/Redisson）、C
Android笔记（十五）ContentProvider源码浅析 jametang25 andorid
ContentProvider作为四大组件之一，由于业务上用到的地方不多,目前业务是系统界面，属于系统应用，最适合使用ContentProvider来进行少量数据存储，我们业务中涉及到的Settings.system和Settings.Secure等数据库，就是通过ContentProvider来封装、用ContentResolver来访问的//通过ContentResolver来访问Settin
学习三维动画心得 2501_92205961 开发语言青少年编程
在大二学年的三维动画设计学习进程中，我围绕3dsMax和Blender两大核心软件展开深入钻研，并在此基础上探索技术应用与创新。不仅熟练掌握了基础操作，还深入到代码编写与复杂技术问题解决领域，逐步构建起系统的三维动画设计知识与技能体系，以下是详细的学习总结。一、3dsMax的深度学习与技术实践（一）高级建模与脚本优化在3dsMax的学习中，基础建模掌握后，我开始挑战高级建模技术。利用NURBS建模
Python网安-zip文件暴力破解（仅供学习） Whoisshutiao python网安 python 开发语言网络安全
目录源码在这里需要的模块准备一个密码本和需要破解的ZIP文件一行一行地从密码文件中读取每个密码。核心部分注意，需要修改上段代码注释里的这段具有编码问题的代码：源码在这里https://github.com/Wist-fully/Attack/tree/cracker需要的模块fromtqdmimporttqdmimportzipfileimportpyzipper准备一个密码本和需要破解的ZIP文
Python网安-ftp服务暴力破解（仅供学习） Whoisshutiao python 网络安全开发语言
目录源码在这里需要导入的模块连接ftp，并设置密码本和线程核心代码设置线程源码在这里https://github.com/Wist-fully/Attack/tree/cracker需要导入的模块importftplibfromthreadingimportThreadimportqueue连接ftp，并设置密码本和线程host="192.168.6.6"user="student"port=21
string s = new string(“java“)这个几个对象？扣棣编程 #面试复习 java spring boot 开发语言
(❁´◡`❁)您的点赞➕评论➕收藏⭐是作者创作的最大动力支持我：点赞+收藏⭐️+留言欢迎留言讨论（源码+调试运行+问题答疑）有兴趣可以联系我文末有往期免费源码，直接领取获取（无删减，无套路）在Java中，代码Strings=newString("java");（注意：正确的类名是String，首字母大写）会创建1个或2个对象，具体取决于字符串常量池（StringPool）的当前状态。以下是详细分析
基于springboot的社会志愿者管理系统 QQ242219979 spring boot 后端 java
目录部分效果实现截图本系统介绍关于我开发技术详细介绍开发思路核心代码参考示例基于springboot的社会志愿者管理系统论文提纲参考系统测试源码获取详细视频演示或者查看其他版本：文章底部获取博主联系方式！部分效果实现截图本系统介绍基于springboot的社会志愿者管理系统采用的开发工具：IntelliJIDEA，VScode；数据库管理软件：Navicat；服务器运行平台：Tomcat；开发技术
【收藏】 Kafka监控组件大全 weixin_34038652 大数据操作系统 netty
本文使用Burrow和Telegraf搭建Kafka的监控体系。然后，简单介绍一下其他的，比如KafkaManager，KafkaEagle，ConfluentControlCenter等。如果你对kafka比较陌生，请参考：Kafka基础知识索引Burrow依赖路径使用Burrow拉取kafka的监控信息，然后通过telegraf进行收集，最后写入到influxdb中。使用grafana进行展示
spark写入hive表问题 qq_42265026 spark hive 大数据
1、httpclient发送post请求，当返回的数据过大时，报错socketclosed这个原因是客户端主动将连接关闭，根本原因是将httpclient。execute的返回结果closeableResponse作为a方法的返回结果，在b方法中进行解析虽然在b方法中没有关闭closeableResponse，但是在a方法中返回closeableResponse后，会进行httppost.real
arm交叉编译qt应用中含opengl问题解决 m0_55576290 青泥何盘盘 qt arm开发 qt 开发语言
问题是采用正点原子方案中，用虚拟机交叉编译含opengl的qt程序会出现编译失败问题，因为正点原子中的交叉编译qt源码时没有编opengl。野火似乎有解决：https://doc.embedfire.com/linux/rk356x/Qt/zh/latest/lubancat_qt/install/install_arm_2.html
Burrow - Kafka 消费者滞后检查工具虞耀炜
Burrow-Kafka消费者滞后检查工具BurrowKafkaConsumerLagChecking项目地址:https://gitcode.com/gh_mirrors/bu/Burrow项目基础介绍和主要编程语言Burrow是一个由LinkedIn开发的开源项目，旨在为ApacheKafka提供消费者滞后检查服务。该项目的主要编程语言是Go，利用Go语言的高效性能和并发处理能力，Burrow
探索Kafka监控新维度：Burrow深度解析孙爽知Kody
探索Kafka监控新维度：Burrow深度解析BurrowKafkaConsumerLagChecking项目地址:https://gitcode.com/gh_mirrors/bu/Burrow项目介绍在大数据领域，ApacheKafka作为实时数据流处理的领军者，其稳定性和性能备受赞誉。然而，对于消费者端的监控始终是一个挑战。这时，LinkedIn开源的Burrow应运而生，它是一款专为Kaf
spark解析压缩包数据，写入到hive表中 dbbigdata spark 大数据 hive
spark解析xxxxx.tar.gz形式的压缩包。压缩包里面是一个个的json文件或者zip的文件，zip里面是json文件。先用spark读取tar.gz的路径，然后开流传给newTarArchiveInputStream(newGZIPInputStream(file))去处理，大概的代码如下defmain(args:Array[String]):Unit={valroot:String=a
【Bluedroid】蓝牙启动之BTM_reset_complete源码解析 byte轻骑兵 Android c++Android Bluedroid
当蓝牙控制器完成硬件重置后，协议栈需通过一系列初始化操作恢复各模块状态。本文深入分析BTM_reset_complete核心函数及其调用链，详解L2CAP连接清理、安全模块重置、扫描参数恢复、BLE隐私功能初始化等关键流程，揭示蓝牙设备在重置后如何通过标准化状态恢复确保互操作性、隐私安全与连接能力。一、概述蓝牙控制器重置（如硬件重启、故障恢复）后，协议栈需完成以下核心初始化工作。1.1L2CAP层
ifconfig工具源码分析 weixin_34357887 操作系统数据结构与算法
ifconfig是linux中用于显示或配置网络设备（网络接口卡）的命令，英文全称是networkinterfacesconfiguring。同netstat一样，ifconfig源码也位于net-tools中。源码位于net-tools工具包中，这是linux网络的基本工具包，此外还有arp,hostname,route等命令。项目链接：http://net-tools.sourceforge.
Qt：QCustomPlot库简介十秒耿直拆包选手 C and C++Qt and Pyside QCustomPlot学习 qt c++QCustomPlot
QCustomPlot是一个基于Qt框架的轻量级C++绘图库，专为高效绘制二维图表（如曲线图、柱状图、金融图表等）而设计。相比QtCharts模块，它以高性能和高度可定制性著称，尤其适合需要实时数据可视化的科学计算、工业监控和金融分析场景。核心特性概览特性说明轻量高效仅需2个头文件+1个源码文件，零外部依赖实时性能优化处理百万级数据点，支持OpenGL加速多图层系统支持无限图层叠加，独立坐标系交互
C51单片机控制OLED显示屏反白显示SPI通信例程草莓味儿柠檬
本文还有配套的精品资源，点击获取简介：本文档详细介绍0.96英寸OLED显示屏、C51系列单片机、SPI接口及反白显示技术的原理与应用，并提供一套完整的例程源码，指导开发者如何使用C51单片机通过SPI接口控制OLED显示屏实现反白显示效果。文档内容包括硬件连接、初始化SPI、配置OLED显示参数、绘制像素和实现反白显示等关键步骤，旨在帮助初学者学习嵌入式系统开发，并理解相关硬件和软件工作流程。1
SeaTunnel2.1.1源码解析 Adobee Chen 大数据知识点 seaTunnel 大数据
目录一：启动脚本解析二：源码解析入口2.execute()核心方法1.其中BaseSource、BaseTransform、BaseSink都是接口、都实现Plugin接口。他们的实现类就是对应的插件类型2.execute()方法向下走，创建一个执行环境。3.调用plugin.prepare(env)4.最后启动execution.start(sources,transforms,sinks);5
Apache SeaTunnel Flink引擎执行流程源码分析 Code Monkey’s Lab 源码分析 Flink flink 大数据架构 seatunnel
目录1.任务启动入口2.任务执行命令类：FlinkTaskExecuteCommand3.FlinkExecution的创建与初始化3.1核心组件初始化3.2关键对象说明4.任务执行：FlinkExecution.execute()5.Source处理流程5.1插件初始化5.2数据流生成6.Transform处理流程6.1插件初始化6.2转换执行7.Sink处理流程7.1插件初始化7.2数据输出执
修罗论坛二开模板仿网盘资源社优化指南（附源码部署与功能增强方案） wuyoula php源码
修罗论坛二开模板仿网盘资源社优化指南（附源码部署与功能增强方案）https://whct.lanzoue.com/i9dhj2wnteij
深入剖析 Linux 内核网络核心：sock.c 源码解析 109702008 编程 #C语言网络 linux 网络人工智能
作为Linux网络子系统的基石，sock.c承载着协议无关的核心功能。本文将深入分析其关键实现，揭示高性能网络通信背后的设计哲学。一、Socket生命周期管理1.1初始化与分配sock_init_data()是socket的初始化入口，负责设置核心回调函数和默认参数：voidsock_init_data(structsocket*sock,structsock*sk){sk->sk_state=T
我的世界模组开发进阶教程——机械动力的数据生成（2） lemon_sjdk 我的世界模组开发 java
==这篇文字继续来看看机械动力的数据生成==Create源码AssetLookupAssetLookup是Minecraft模组开发中用于简化数据生成的工具类，专注于自动处理方块（Block）和物品（Item）的模型（Model）文件路径生成与状态映射。其核心功能是根据规则动态构造资源路径，并适配不同状态（如供电状态、指示器数值）的模型。以下从两个维度详细解析：一、String...语法：Java
Launcher3源码分析(CellLayout) pnying
CellLayout是workspace的屏幕。CellLayout中的一些重要属性:intmCellWidth;intmCellHeight;//每一个屏幕的行列数intmCountX;//每一行的item个数intmCountY;//每一列的item个数//item之间的距离intmWidthGap;//item之间的宽度intmHeightGap;//item之间的高度构造方法publicC
分享16个精美网站后台登录注册页面源码总有几款适合你全栈软件开发源码分享登录页面下载登录页源码
内容目录一、详细介绍二、效果展示1.部分代码2.效果图展示三、学习资料下载一、详细介绍在开发网站后台系统时，登录注册页面作为用户与系统交互的第一步，其设计的好坏直接影响用户体验。一个美观、易用的登录注册页面能够提升用户对系统的好感度和信任度。今天，就给大家分享16个不同风格的网站后台登录注册页面源码，希望能为你的项目开发提供灵感和帮助。二、效果展示1.部分代码代码如下（示例）：LTRRTLLogi
Hibernate ORM 映射深度解析后端
在Java持久层技术体系中，Hibernate作为经典的ORM（对象关系映射）框架，通过自动化对象与数据库表的映射关系，显著提升了数据访问层的开发效率。本文从核心映射机制、高级特性、性能优化及面试高频问题四个维度，结合源码与工程实践，系统解析Hibernate的ORM映射原理与最佳实践。一、核心映射机制1.1基础映射类型映射类型描述示例注解实体映射将Java类映射到数据库表@Entity,@Tab
弹幕系统开发实战：QT框架与VS2015源码解析 Paula-柒月拾
本文还有配套的精品资源，点击获取简介：本源码项目融合了三个关键技术领域：弹幕系统设计、Qt框架开发和VisualStudio2015集成。它详细阐述了弹幕系统的核心功能实现，包括弹幕数据结构、渲染、碰撞检测和用户交互。同时，本项目介绍了如何利用Qt5的信号与槽机制、GUI组件和绘图系统来开发弹幕效果，并展示了如何在VisualStudio2015中进行项目管理、编辑、调试和构建。此项目提供了全面的
开心消消乐源码-cocos creator 顾盼珣
开心消消乐源码-cocoscreator【下载地址】开心消消乐源码-cocoscreator这是一个基于cocoscreator开发的开心消消乐游戏开源项目，完全免费提供源码和美术资源。该项目完整实现了经典消除游戏的玩法，通过交换相邻元素的位置，让玩家体验消除的乐趣。源码结构清晰，适合有一定cocoscreator基础的开发者学习和研究。你可以轻松下载并导入项目，根据需求进行二次开发和优化。无论是
cocos creator 3.8 - 精品源码 -《文字大师》(移一笔变新字) 战斗生活小游戏 cocos 精品源码文字游戏文字大师移动变新字移动汉字汉字益智 cocos 汉字精品小游戏
cocoscreator3.8-精品源码-超级文字大师游戏介绍功能介绍免费体验下载开发环境游戏截图免费体验游戏介绍《文字大师》(移一笔变新字)是一款汉字类型的益智游戏，通过移动汉字的笔画变成新的汉字即可完成挑战。游戏看似简单但具有很强的挑战性，游戏有丰富的关卡需要您挑战，许多文字都能够相互变化，让您了解汉字的魅力。功能介绍移动笔画变成新的字游戏有丰富的关卡需要您挑战关卡以及难度系数可以设置coco
Windows系统部署YOLOv5 v6.1版本的训练与推理环境保姆级教程 lujx_1024 windows YOLO
文章目录一·概述二·依赖环境(`prerequisites`)2.1硬件环境2.2软件环境三·环境安装3.1创建并激活虚拟环境3.2安装`Pytorch`与`torchvision`3.3校验`Pytorch`安装3.4下载`YOLOv5``v6.1`源码3.5安装`YOLOv5`依赖3.6下载预训练模型3.7安装其他依赖3.8测试环境安装3.9测试训练流程四·参考链接一·概述本文档主要记录使用工
cocos creator 3.8 - 精品源码 - 挪车超人(挪车消消乐) 战斗生活 cocos 精品源码小游戏挪车 cocos creator cocos小游戏 cocos游戏源码移车游戏挪车3d 挪车冲冲冲
@[TOC](cocoscreator3.8-精品源码-挪车超人(挪车消消乐))游戏介绍《挪车超人》小游戏是一款令人着迷的游戏，作为一名挪车高手，您的主要重点是解决停车场堵塞的问题。开动脑筋发散你的思维，通过火眼金睛来帮助众多小车挪出停车场。功能介绍挪车所有车辆把所有车辆移除停车场游戏有丰富的关卡需要您挑战关卡以及难度系数可以设置cocoscreator3.8版本免费体验下载cocoscreato
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，