【Hudi】Filnk Sink 端链路源码解读（Insert、Update、Upsert）

1 基本概念

注：本文基于的源码版本为 Hudi 0.13-SNAPSHOT。

Hoodie 的所有操作都是基于文件的读写，整个文件组织可以分为两类：

数据文件：parquet（列存）和 arvo（行存）格式，COW（Copy On Write）表的话每次写的时候做合并，只存在 parquet，MOR（Merge On Read）则会有 base file（parquet）和增量 log file（arvo），本文里我们主要聊的是 MOR：
时间轴文件：根据时间线（instant time）记录对应的操作（compaction、delta commit 等）以及该操作当前处于的状态（REQUESTED、INFLIGHT、COMPLETED），文件里会记录该次操作关联的数据文件。
Partition Path + File Id 定位一个 File Group => File Group Id = Partition Path + File IdFile Group + Base Instant Time 定位一个 File Slice.

2 Flink+Hudi 执行流程

Hudi 在 HUDI-4397 中将 Rebalance 优化为 Hash 以避免压缩的时候出现并发冲突。

3 HoodieTableFactoryKeyGeneratorOptionsFlinkOptions

3.1 配置 Options

基于表定义设置配置，比如：

设置 hoodie record key 的获取策略（即怎么从 record 里拿到 hoodie record key）；
设置 compaction 相关的配置；
设置 hive 相关的配置；
设置读相关的配置；
设置写相关的配置；
设置 source avro schema 的配置;
设置 hoodie record key 和 partition key 相关的配置;
......
最优先的是主键，如果 table 设置了主键，则以主键作为 FlinkOptions.RECORD_KEY_FIELD 的值：

if (pkColumns.size() > 0) {
  // the PRIMARY KEY syntax always has higher priority than option FlinkOptions#RECORD_KEY_FIELD
  String recordKey = String.join(",", pkColumns);
  conf.setString(FlinkOptions.RECORD_KEY_FIELD, recordKey);
}

Partitioned By 语法指定的 partition key 优先于 table properties：

if (partitionKeys.size() > 0) {
  // the PARTITIONED BY syntax always has higher priority than option FlinkOptions#PARTITION_PATH_FIELD
  conf.setString(FlinkOptions.PARTITION_PATH_FIELD, String.join(",", partitionKeys));
}

如果只有一个 partition key 或没 partition key：

if (partitions.length == 1) {
  final String partitionField = partitions[0];
    // 没分区键，则设置 NonpartitionedAvroKeyGenerator 作为 FlinkOptions.KEYGEN_CLASS_NAME:
  if (partitionField.isEmpty()) {
    conf.setString(FlinkOptions.KEYGEN_CLASS_NAME, NonpartitionedAvroKeyGenerator.class.getName());
    LOG.info("Table option [{}] is reset to {} because this is a non-partitioned table",
             FlinkOptions.KEYGEN_CLASS_NAME.key(), NonpartitionedAvroKeyGenerator.class.getName());
    return;
  }
  // 获取分区字段
  DataType partitionFieldType = table.getSchema().getFieldDataType(partitionField)
    .orElseThrow(() -> new HoodieValidationException("Field " + partitionField + " does not exist"));
  // 检查分区字段 类型以及主键是否是联合主键，如果主键是某个字段且分区字段是日期类型，则设置 FlinkOptions.KEYGEN_CLASS_NAME 的值为时间相关
  if (pks.length <= 1 && DataTypeUtils.isDatetimeType(partitionFieldType)) {
    // timestamp based key gen only supports simple primary key
    setupTimestampKeygenOptions(conf, partitionFieldType);
    return;
  }
}

如果分区字段个数大于一个或主键包含字段大于一个（且 FlinkOptions.KEYGEN_CLASS_NAME 尚未被配置过），则设置 ComplexAvroKeyGenerator 作为 FlinkOptions.KEYGEN_CLASS_NAME 的配置值。

4 HoodieTableSinkHoodieRecord

大体结构如下：

4.1 RowDataToHoodieFunction

public void open(Configuration parameters) throws Exception {
  super.open(parameters);
  this.avroSchema = StreamerUtil.getSourceSchema(this.config);
  // 根据 rowType 递归创建 converter, 即 RowDataToAvroConverter
  this.converter = RowDataToAvroConverters.createConverter(this.rowType);
  // 创建 ComplexAvroKeyGenerator
  this.keyGenerator =
    HoodieAvroKeyGeneratorFactory
    .createKeyGenerator(flinkConf2TypedProperties(this.config));
  this.payloadCreation = PayloadCreation.instance(config);
}

RowDataToAvroConverter
将 Flink SQL 的 RowData 转为 Hudi Record（Arvo 格式）。
ComplexAvroKeyGenerator
核心方法是 getKey，getRecordKeyFieldNames 从 TypedProperties 获取 hoodie.datasource.write.recordkey.field（即 FlinkOptions.RECORD_KEY_FIELD）对应的值。

return KeyGenUtils.getRecordKey(record, getRecordKeyFieldNames(), isConsistentLogicalTimestampEnabled());

因此可知，有主键情况下，Hoodie Record 的 key 即数据主键，或无主键情况下，用户在 DDL With 里设置的 hoodie.datasource.write.recordkey.field。

4.2 BucketAssignFunction

计算每个 HoodieRecord 该写到哪个 File Group 里，即该 HoodieRecord 对应的 HoodieRecordLocation，由于 PartitionPath 在之前已计算得到，因此只需计算该 HoodieRecord 在确定的 PartitionPath 下会分到哪个 FileGroup，在计算过程中，Hoodie 将每个 FileGroup 抽象成一个 Bucket，因此这里也可以说是一个分桶的过程。

4.2.1 处理流程

这里的基本思路如下：

如果这条 HoodieRecord 来过，从状态里拿出老记录，对比新老的 PartitionPath 有没有变化，如果 PartitionPath 没变化，那么直接定位到之前对应的 FileGroup；
如果 PartitionPath 发生了变化，那么要重新计算这条 HoodieRecord 对应的 FileGroup（即 File Id）；
如果这条 HoodieRecord 第一次来，获取分区下的所有 BaseFile，筛选小于“小文件阈值”（org.apache.hudi.config.HoodieCompactionConfig#PARQUET_SMALL_FILE_LIMIT 指定，默认是 100 MB）的 BaseFile，根据 File Id 筛选哪些 FileGroup 属于当前 SubTask KeyGroup Range 的处理范围；
在第二步的基础上遍历获取到的 FileGroup 数组对 HoodieRecord 尝试进行分配（类似数组遍历），如果当前指向 FileGroup 还能够写入数据，那么就将 HoodieRecord 分配给该 FileGroup，否则就指向下一个 FileGroup：
```
public boolean assign() {
  if (noSpace) {
 return false;
  }
  SmallFileAssignState state = states[assignIdx];
  while (!state.canAssign()) {
 assignIdx += 1;
 if (assignIdx >= states.length) {
   noSpace = true;
   return false;
 }
 // move to next slot if possible
 state = states[assignIdx];
  }
  state.assign();
  return true;
}
```
如果这些 FileGroup 都写满了，那么创建一个新的 File Id（org.apache.hudi.sink.partitioner.BucketAssigner#createFileIdOfThisTask），将这条 HoodieRecord 分配给新的 FileGroup。

4.2.2 核心结构

4.2.2.1 BuckerAssignFunction

indexState：KeyedState，记录了当前该记录对应的分区信息（在此之前有过一次对于 hoodie record key 的 hash）；
isChangingRecords：标记改作业数据的写模式是追加写还是可更新，如果 isChangingRecords 是 false，代表该作业只支持追加写，那么直接标记该记录为 INSERT；
bucketAssigner：BucketAssigner，专用于计算该条记录分哪个桶（FileGroup）。

4.2.2.2 BucketAssigner

smallFileAssignMap：存储 PartitionPath 和已有的小文件集合的映射；

newFileAssignStates：存储 PartitionPath 和新创建的小文件的映射；bucketInfoMap：存储 BucketID（PartitionPath_FileId）和 BucketInfo（PartitionPath + File Id + Bucket Type）的映射。如果该 partition path 对应的小文件都已写到阈值，那就需要创建新的小文件。

public BucketInfo addInsert(String partitionPath) {
// for new inserts, compute buckets depending on how many records we have for each partition
SmallFileAssign smallFileAssign = getSmallFileAssign(partitionPath);

// first try packing this into one of the smallFiles
if (smallFileAssign != null && smallFileAssign.assign()) {
  return new BucketInfo(BucketType.UPDATE, smallFileAssign.getFileId(), partitionPath);
}

// if we have anything more, create new insert buckets, like normal
if (newFileAssignStates.containsKey(partitionPath)) {
  NewFileAssignState newFileAssignState = newFileAssignStates.get(partitionPath);
  if (newFileAssignState.canAssign()) {
    newFileAssignState.assign();
    final String key = StreamerUtil.generateBucketKey(partitionPath, newFileAssignState.fileId);
    if (bucketInfoMap.containsKey(key)) {
      // the newFileAssignStates is cleaned asynchronously when received the checkpoint success notification,
      // the records processed within the time range:
      // (start checkpoint, checkpoint success(and instant committed))
      // should still be assigned to the small buckets of last checkpoint instead of new one.

      // the bucketInfoMap is cleaned when checkpoint starts.

      // A promotion: when the HoodieRecord can record whether it is an UPDATE or INSERT,
      // we can always return an UPDATE BucketInfo here, and there is no need to record the
      // UPDATE bucket through calling #addUpdate.
      return bucketInfoMap.get(key);
    }
    return new BucketInfo(BucketType.UPDATE, newFileAssignState.fileId, partitionPath);
  }
}
BucketInfo bucketInfo = new BucketInfo(BucketType.INSERT, createFileIdOfThisTask(), partitionPath);
final String key = StreamerUtil.generateBucketKey(partitionPath, bucketInfo.getFileIdPrefix());
bucketInfoMap.put(key, bucketInfo);
NewFileAssignState newFileAssignState = new NewFileAssignState(bucketInfo.getFileIdPrefix(), writeProfile.getRecordsPerBucket());
newFileAssignState.assign();
newFileAssignStates.put(partitionPath, newFileAssignState);
return bucketInfo;
}

通过 BucketAssigner 计算该条数据对应的 BucketInfo 信息：

调用 getSmallFileAssign 获取指定分区的所有小文件，并根据并行度和最大并行度计算分给当前 subtask 的小文件集合（SmallFileAssign），这一块逻辑可以类比 Flink 对 Key 进行 Hash Shuffle；
调用 SmallFileAssign 检查这些小文件集合是否还能写入数据（这些小文件类似一个链式的结构（实际用数组存），从头到尾检查是否还有空间允许数据写入），如果能，则标记 bucketType 为 UPDATE，每个 bucket 对应一个 FileGroup；
查看 PartitionPath 对应的已创建的 newFileAssignStates 还能否写入数据，能的话返回对应 BucketInfo，不能的话创建新的小文件；
更新映射信息的 map。

5 StreamWriteFunction

5.1 Buffer 机制

在为这些数据分完桶后，会先按桶的 ID（BucketID）hash，再由不同的 subtask 进行写入。一条一条写对 HDFS 的网络请求和文件I/O都是负担，因此这里采用了 buffer 机制，以 Bucket 为单位写一次。
Hudi 为这个 Buffer 机制设计了两层：

每个 Bucket 可缓存的数据量（默认256 MB）；
所有 Bucket 一共可缓存的数据量（默认 1G）。

每处理一条记录时，根据 BucketID 放到对应的桶里，并判断这个桶是否已装满数据，如果装满则写出并清空。
如果该桶没装满，计算所有桶的数据加起来是否超出设定阈值，如果超出，则把存数据量最大的桶写出并清空，否则就缓存该数据不做操作。

计算 Bucket 是否装满数据是按数据的大小总量而非条数来预估的，这里调用了 jol-core (java object layout) 来计算对象的实际占用空间，但由于涉及到一些对操作系统的调用开销，因此没有对每条 HoodieRecord 都进行严格计算，而是通过采样的方式预估该条数据大小：创建一个 [0,99] 的随机数，当这个随机数等于 1 的时候计算一次当前 HoodieRecord 的大小，直到下一次随机数等于 1 之前，都使用这个值作为后面 HoodieRecord 大小的预估值。经调研，jol-core 和 Oracle JDK8 存在不兼容的情况，

5.2 HoodieFlinkWriteClient

每个 checkpoint 可以对应为一次 delta commit 或 compaction，因此每次写数据之前需要读取 .aux/ckp_metadata 目录下的 checkpoint 元数据，以获取该次 delta commit 的 instant time（与 base instant time 不同）。
拿到 instant time 后，Hudi 会对相同 Hoodie Record Key 的数据进行预合并（precombine），之后 HoodieFlinkWriteClient 创建了 FlinkAppendHandle，FlinkAppendHandle 封装了对一个 FileGroup 的所有 I/O 操作，并保存了要写的 records 的迭代器，然后调用 BaseFlinkCommitActionExecutor.execute(List> inputRecords) 方法：

public HoodieWriteMetadata> execute(List> inputRecords) {
  HoodieWriteMetadata> result = new HoodieWriteMetadata<>();

  List writeStatuses = new LinkedList<>();
  final HoodieRecord record = inputRecords.get(0);
  final String partitionPath = record.getPartitionPath();
  final String fileId = record.getCurrentLocation().getFileId();
  final BucketType bucketType = record.getCurrentLocation().getInstantTime().equals("I")
    ? BucketType.INSERT
    : BucketType.UPDATE;
  handleUpsertPartition(
    instantTime,
    partitionPath,
    fileId,
    bucketType,
    inputRecords.iterator())
    .forEachRemaining(writeStatuses::addAll);
  setUpWriteMetadata(writeStatuses, result);
  return result;
}

这里又使用了模板方法设计模式，handleUpsertPartition 里面根据 Bucket 标识，主要调用两个方法：handleInsert 和 handlerUpdate，最终逻辑由 BaseFlinkDeltaCommitActionExecutor 实现并执行。

5.2.1 Update

public Iterator> handleUpdate(String partitionPath, String fileId, Iterator> recordItr) {
  FlinkAppendHandle appendHandle = (FlinkAppendHandle) writeHandle;
  appendHandle.doAppend();
  List writeStatuses = appendHandle.close();
  return Collections.singletonList(writeStatuses).iterator();
}handleUpdate 的逻辑很简单，其实就是调用 FlinkAppendHandle 的 doAppend 方法：public void doAppend() {
  while (recordItr.hasNext()) {
    HoodieRecord record = recordItr.next();
    init(record);
    flushToDiskIfRequired(record, false);
    writeToBuffer(record);
  }
  appendDataAndDeleteBlocks(header, true);
  estimatedNumberOfBytesWritten += averageRecordSize * numberOfRecords;
}

遍历数据并对每条数据按如下步骤进行处理：

做一些初始化操作（只会执行一次）：拉取最新的 FileSlice 信息，如果没有，则新建一个 FileSlice；初始化 writeStatus（写入结果的统计信息）;HUDI-1517（创建一个 marker）;初始化 HoodieLogFormatWriter：用于把数据写到 LogFile 中，因此创建时会指向一个具体的 LogFile，初始化时获取最新一个 LogFile。
检查缓冲区的数据量是否达到阈值，是的话刷到磁盘：将这一批数据组装为一个 HoodieLogBlock（具体实现为 HoodieAvroDataBlock）；并把这些 block 刷到对应的 LogFile 中，这里调用 HoodieLogFormatWriter 的 appendBlocks 方法；这里就连上 hadoop 提供的文件读写 API，最终利用 FSDataOutputStream 按一定格式将数据落盘到 hdfs 中；如果数据落盘后超出 log 文件大小，那么更新其拥有的文件句柄（LogFile），即自增 log version；更新 writeStatus：
```
// org.apache.hudi.io.HoodieAppendHandle#updateWriteStatus
private void updateWriteStatus(HoodieDeltaWriteStat stat, AppendResult result) {
  updateWriteStat(stat, result);
  updateWriteCounts(stat, result);
  updateRuntimeStats(stat);
  statuses.add(this.writeStatus);
}
```
将该条数据写入到缓冲区。遍历完数据后，缓冲区中可能仍存在数据，因此最后需要再刷一次盘，最后更新下 estimatedNumberOfBytesWritten（该次 append 阶段数据写入量的预估值，在写 MOR 场景下似乎不需要）。

5.2.2 Insert

与 update 不同的是，处理 Insert Bucket 的数据时采用了类似懒触发的模型，其实就是在原先数据的迭代器上包了一层 FlinkLazyInsertIterable，当调到其 computeNext（上面的 forEachRemaining 最终会调到这里）方法创建了 HoodieExecutor（Hudi 默认使用 SimpleExecutor），做了两件事：做了一次 transform，根据 ExecutorFactory 的类型，判断是使用原先数据的引用还是原先数据的拷贝；如果是 BOUNDED_IN_MEMORY 或 DISRUPTOR，那么将数据通过生产消费者模式进行异步处理，否则就普通的遍历处理（默认）：

public E execute() {
  try {
    LOG.info("Starting consumer, consuming records from the records iterator directly");
    while (itr.hasNext()) {
      O payload = transformFunction.apply(itr.next());
      consumer.consume(payload);
    }

    return consumer.finish();
  } catch (Exception e) {
    LOG.error("Failed consuming records", e);
    throw new HoodieException(e);
  }
}

至于 doWrite 方法，可以看做 doAppend 的单次处理逻辑，最终在 consumer.finish() 时再确保将所有数据刷出落盘。

思考：为什么 Insert 和 Update 的数据处理逻辑会有不同？

6 Compaction

做 Compaction 的流程大体可以分为四步：

调度 compaction：主要的作用是生成一个base instant time，这个时间点就是下一个 file slice 的基准时间；
基于第一步调度的 compaction 生成 compaction 执行计划（每个 file group 1 个），发送给下游；
下游算子负责执行 compaction，将 base file 和 log file 进行合并生成一个新的 base file，并将 compaction 结果发送给下游；
当收到所有 file group 的 compaction 结果，如果都压缩成功了则提交 compaction 结果。

6.1 调度 Compaction

由 StreamWriteOperatorCoodinator 负责发起（notifyCheckpointComplete），需要满足两个条件：该表为 MOR；开启 compaction.schedule.enabled（默认为 true）。最终执行逻辑在方法 ScheduleCompactionActionExecutor#execute：

public Option execute() {
  ValidationUtils.checkArgument(this.table.getMetaClient().getTableType() == HoodieTableType.MERGE_ON_READ,
                                "Can only compact table of type " + HoodieTableType.MERGE_ON_READ + " and not "
                                + this.table.getMetaClient().getTableType().name());
  if (!config.getWriteConcurrencyMode().supportsOptimisticConcurrencyControl()
      && !config.getFailedWritesCleanPolicy().isLazy()) {
    // TODO(yihua): this validation is removed for Java client used by kafka-connect.  Need to revisit this.
    if (config.getEngineType() == EngineType.SPARK) {
      // if there are inflight writes, their instantTime must not be less than that of compaction instant time
      table.getActiveTimeline().getCommitsTimeline().filterPendingExcludingMajorAndMinorCompaction().firstInstant()
        .ifPresent(earliestInflight -> ValidationUtils.checkArgument(
          HoodieTimeline.compareTimestamps(earliestInflight.getTimestamp(), HoodieTimeline.GREATER_THAN, instantTime),
          "Earliest write inflight instant time must be later than compaction time. Earliest :" + earliestInflight
          + ", Compaction scheduled at " + instantTime));
    }
    // Committed and pending compaction instants should have strictly lower timestamps
    List conflictingInstants = table.getActiveTimeline()
      .getWriteTimeline().filterCompletedAndCompactionInstants().getInstantsAsStream()
      .filter(instant -> HoodieTimeline.compareTimestamps(
        instant.getTimestamp(), HoodieTimeline.GREATER_THAN_OR_EQUALS, instantTime))
      .collect(Collectors.toList());
    ValidationUtils.checkArgument(conflictingInstants.isEmpty(),
                                  "Following instants have timestamps >= compactionInstant (" + instantTime + ") Instants :"
                                  + conflictingInstants);
  }

  HoodieCompactionPlan plan = scheduleCompaction();
  Option option = Option.empty();
  if (plan != null && nonEmpty(plan.getOperations())) {
    extraMetadata.ifPresent(plan::setExtraMetadata);
    try {
      if (operationType.equals(WriteOperationType.COMPACT)) {
        HoodieInstant compactionInstant = new HoodieInstant(HoodieInstant.State.REQUESTED,
                                                            HoodieTimeline.COMPACTION_ACTION, instantTime);
        table.getActiveTimeline().saveToCompactionRequested(compactionInstant,
                                                            TimelineMetadataUtils.serializeCompactionPlan(plan));
      } else {
        HoodieInstant logCompactionInstant = new HoodieInstant(HoodieInstant.State.REQUESTED,
                                                               HoodieTimeline.LOG_COMPACTION_ACTION, instantTime);
        table.getActiveTimeline().saveToLogCompactionRequested(logCompactionInstant,
                                                               TimelineMetadataUtils.serializeCompactionPlan(plan));
      }
    } catch (IOException ioe) {
      throw new HoodieIOException("Exception scheduling compaction", ioe);
    }
    option = Option.of(plan);
  }

  return option;
}

做一些校验，比如不能有比该 instant 比当前 compaction 更加新的已完成的 compaction；
根据预设的 compaction 策略判断当前是否该生成 compaction，如 delta commit 次数是否达到阈值；获取 table 的所有分区，并从每个分区下获取所有最新的 flie slice（每个 file group 有好几个 file slice，获取 instant time 最大的一个），为每个 file slice 生成一个 HoodieCompactionOperation，将这些 HoodieCompactionOperation 包装成一个 HoodieCompactionPlan；
将序列化后的结果分别记录到 .aux 目录和 .hoodie 目录下，文件名为 .compaction.requested。
```
// org.apache.hudi.common.table.timeline.HoodieActiveTimeline#saveToCompactionRequested(org.apache.hudi.common.table.timeline.HoodieInstant, org.apache.hudi.common.util.Option, boolean)
public void saveToCompactionRequested(HoodieInstant instant, Option content, boolean overwrite) {
  ValidationUtils.checkArgument(instant.getAction().equals(HoodieTimeline.COMPACTION_ACTION));
  // Write workload to auxiliary folder
  createFileInAuxiliaryFolder(instant, content);
  createFileInMetaPath(instant.getFileName(), content, overwrite);
}
```
思考：.hoodie 目录和 .axu 目录都存有执行 compaction 需要的元数据，看起来是冗余的，为什么每次先写 .aux 再写 .hoodie？有两次文件 I/O 操作，似乎是一个多余的开销？
根据HUDI-546：We need to stop writing compaction plans in .aux folder as we have stopped doing renames in timeline folder. THis is not done in 0.5.1 to preserve backwards compatibility between 0.5.0 and 0.5.1 for readers and writers. The PR (linked above) provides support to handle the case when future writers stop writing compaction plan. Once, the PR is released, we need a follow-up step to stop reading and writing to .aux folder.
hudi 的老版本中 .hoodie 目录下的文件可能被重命名，因此额外使用了 .aux 存取 compaction 需要的元数据。

6.2 生成 Compaction Plan

org.apache.hudi.sink.compact.CompactionPlanOperator，生成 CompactionPlanEvent，发送给下游执行 Compaction：

从 Active Timeline 里找到最老的 REQUESTED 状态的 instant time（从 .hoodie 目录下读相应文件），这里是考虑到可能调度了多个 compaction 都尚未执行，那么先执行最早的 compaction；

根据 instant time 计算得到文件名，从 basePath/.aux 里读取相应文件（如果找不到对应文件，则再从 .hoodie 目录下读），并反序列化得到 HoodieCompactionPlan，里面包含一系列 HoodieCompactionOperation，每个 HoodieCompactionOperation 标识该压缩操作对应的 file slice 信息；目前代码已经做了兼容，如果 .aux 目录读不到，就从 .hoodie 目录读。

public Option readCompactionPlanAsBytes(HoodieInstant instant) {
  try {
 // Reading from auxiliary path first. In future release, we will cleanup compaction management
 // to only write to timeline and skip auxiliary and this code will be able to handle it.
 return readDataFromPath(new Path(metaClient.getMetaAuxiliaryPath(), instant.getFileName()));
  } catch (HoodieIOException e) {
 // This will be removed in future release. See HUDI-546
 if (e.getIOException() instanceof FileNotFoundException) {
   return readDataFromPath(new Path(metaClient.getMetaPath(), instant.getFileName()));
 } else {
   throw e;
 }
  }
}

将该 compaction 的状态从 REQUESTED 更新为 INFLIGHT，即在 .hoodie 目录下创建 .compaction.inflight
List 经过转换得到 List ，将每个 CompactionOperation 包装成 CompactionPlanEvent 下发给下游算子（其实就是增加了 instant time 字段标识该次压缩时间）。

6.3 执行 Compaction

将 BaseFile 和 LogFiles 合并，并将压缩结果（CompactionCommitEvent）下发，这里的压缩结果里记录的是该操作的一些结果信息而非实际数据，比如数据写到了哪个分区的哪个 FileGroup，写了多少条数据等等。

6.4 提交 Compaction 结果

从 CompactionCommitEvent 读取到 InstantTime；

读取 InstantTime 对应的 Compaction 元数据，检查是否所有的 CompactionCommitEvent 到齐；

HoodieCompactionPlan compactionPlan = compactionPlanCache.computeIfAbsent(instant, k -> {
  try {
 return CompactionUtils.getCompactionPlan(
   this.writeClient.getHoodieTable().getMetaClient(), instant);
  } catch (Exception e) {
 throw new HoodieException(e);
  }
});

boolean isReady = compactionPlan.getOperations().size() == events.size();

如果有任意一个 CompactionCommitEvent 标记失败，rollback 回滚；

将压缩结果写到元数据表里:

Writer implementation backed by an internal hudi table. Partition and file listing are saved within an internal MOR table called Metadata Table. This table is created by listing files and partitions (first time) and kept in sync using the instants on the main dataset.Hoodie 新版本用一个 MOR 表存储整个表的元数据信息（_metadata）。
更新该次 compaction 从 INFLIGHT 到 COMPLETED，即在 .hoodie 下创建 .commit 文件，写入压缩结果。

提交过程并不会删除 .aux 目录下的文件

你可能感兴趣的:(flink数据湖)

Flink sql-clinet 查询报错 lhfmqc sql-clinet 运行问题查询报错 flink
Flinksql-clinet查询报错运行后进行select'helloworld’报以下错误，couldnotexecutesqlstatementjava.net.NoRouteToHostException:Noroutetohost在关闭防火墙之后仍无法解决这个时候你需要进入flinkconf配置中查看flink-conf.yaml文件，查看jobmanager.rpc.address该地

数据湖Iceberg、Hudi和Paimon比较_数据湖框架对比(1) 2301_79098963 程序员知识图谱人工智能
4.Schema变更支持对比项ApacheIcebergApacheHudiApachePaimonSchemaEvolutionALLback-compatibleback-compatibleSelf-definedschemaobjectYESNO(spark-schema)NO（我理解，不准确）SchemaEvolution：指schema变更的支持情况，我的理解是hudi仅支持添加可选列

SpringBoot集成Flink-CDC，实现对数据库数据的监听 rkmhr_sef 面试学习路线阿里巴巴 spring boot flink 数据库
一、什么是CDC？CDC是ChangeDataCapture（变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入、更新以及删除等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。二、Flink-CDC是什么？CDCConnectorsforApacheFlink是一组用于ApacheFlink的源连接器，使用变更数据捕获(CDC)从

深入解析Flink Kafka Connector的分布式流数据采集架构与底层实现数据与算法架构提升之路 #Flink flink kafka conector 源码
目录1.FlinkKafka连接器的分布式流采集架构1.1架构组成1.2分布式流模型2.数据分区分配策略3.为什么重写序列化和偏移量管理3.1与Flink分布式架构集成3.2与Flink检查点机制集成同时承接多级并行架构3.3OffsetsInitializer与细粒度偏移量控制3.4与Flink的Source接口统一4.版本兼容性管理5.有界流处理支持5.1实现原理5.2API使用示例5.3多种

Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推

flink作业访问zk出现acl报错问题分析 spring208208 大数据组件线上问题分析 flink zookeeper 大数据
#问题现象向yarn集群提交flink作业的时候会出现zkacl的异常经确认：1.zk相关acl密码没有更改过2.重新部署客户端配置后提交任务同样报错3.修改flink的zk目录，重启后可以正常运行任务(在zk重新生了新的znode节点)#问题分析1.首先确认是否是权限的问题，即程序中zk用户没有权限操作zk上的flink节点目录确认集群上zookeeper的flink的acl权限，确认为flin

Flink Cdc TiDB详解 24k小善 flink 大数据 java
1.什么是FlinkTiDBCDC？简单说就是用Flink实时抓取TiDB数据库的数据变化（比如新增、修改、删除），并将这些变化数据以流的形式处理，用于实时分析、同步到其他系统等场景。TiDB本身是分布式数据库，而Flink是流处理引擎，两者的结合适合需要高吞吐、低延迟的大规模数据处理场景[7][8]。2.底层原理TiDB侧：通过TiCDC组件（TiDB的变更数据捕获工具）捕获数据变更，类似MyS

Flink CDC 与 SeaTunnel CDC 简单对比窝窝和牛牛 flink 大数据 cdc SeaTunnel
FlinkCDC与SeaTunnelCDC简单对比CDC技术概述变更数据捕获（ChangeDataCapture，简称CDC）是一种用于捕获数据库中数据变更的技术，能够实时识别、捕获并输出数据库中的插入、更新和删除操作。CDC技术在现代数据架构中扮演着至关重要的角色，特别是在实时数据集成、数据同步和事件驱动架构等场景中。CDC的工作原理CDC主要通过以下几种方式捕获数据变更：基于日志的CDC：直接

Flink相关面试题努力的搬砖人. 面试 java 后端 flink
以下是150道ApacheFlink面试题及其详细回答，涵盖了Flink的基础知识、核心架构、API使用、性能调优等多个方面，每道题目都尽量详细且简单易懂：Flink基础概念类1.什么是ApacheFlink？ApacheFlink是一个开源的流处理和批处理框架，能够实现快速、可靠、可扩展的大数据处理。它既可以处理无界的数据流，也可以处理有界的数据批，提供了低延迟和高吞吐量的实时数据处理能力。Fl

【数据治理】数据湖治理实践：腾讯云数据湖元数据实践指南菜鸟蜀黍数据治理大数据
最近数据湖非常的火，但是一旦没弄好，就会变成“数据沼泽”。如何避免“数据湖”变成“数据沼泽”呢？最好的办法就是治理先行。本文的内容主要包括四部分：1、数据湖背景概述，介绍腾讯数据湖的整体架构；2、数据湖统一元数据模块的详细架构实现；3、介绍腾讯云上元数据多租户的设计模式；4、介绍统一元数据的两大核心能力：在线数据目录和离线数据治理的功能。01什么是数据湖随着Snowflake公司股价高歌猛进和各大

LakeHouse湖仓一体成为下一站灯塔，数仓、数据湖架构即将退出群聊科杰科技大数据数据仓库
摘要：当前的大数据技术应用趋势表明，客户对单一的数据湖和数仓架构并不满意。近年来几乎所有的数据仓库都增加了对Parquet和ORC格式的外部表支持，这使数仓用户可以从相同的SQL引擎查询数据湖表，但它不会使数据湖表更易于管理，也不会消除仓库中数据的ETL复杂性、陈旧性和高级分析挑战。KeenDataLakeHouse（湖仓一体）作为新一代大数据技术架构，将逐渐取代单一数据湖和数仓架构，成为大数据架

Flink命令行启动Job任务平凡的运维之路 linux 程序人生
Flink非交互式运行Job任务Flink命令行启动Job任务具体命令flink参数说明-c,--class-d,--detached后台运行-p,--parallelism并行度[test@xxx~]$flinkrun-d-cclass_nameJob-p3./flink-statics-1.0.jar-zookeeper"10.130.41.51:2181,10.130.41.52:2181,

快速启动flink项目 for your wish flink java 大数据
按照这个步骤1分钟内创建完成idea-----File----new---Project------Maven----Createfromarchetype----AddArchetype弹出框：GroupId填org.apache.flinkArtifactId填flink-quickstart-javaVersion填1.14.0选中刚刚添加的Archetype，点Next填写你要创建的这个f

【Flink】flink启动任务，taskmanager.out 文件增涨非常快九师兄 flink 大数据
1.概述flink启动任务，taskmanager.out文件增涨非常快，这个文件大小怎么限定？测试了很多办法发现都不起作用这个问题可以试试：【Flink】Flink1.11.2onYARN滚动日志配置但是后面我发现不是这个导致的，是slf4j依赖冲突，jar包删除就可以了

IDEA本地启动flink 任务 Direction_Wind intellij-idea flink java
1pom中添加org.apache.flinkflink-clients_${scala.binary.version}${flink.version}org.apache.flinkflink-runtime-web_${scala.binary.version}${flink.version}2下载flink-dist包并3打印日志中搜索localhost可以找到flink的管理页面

Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发

FlinkCDC实战：将 MySQL 数据同步至 ES 小DuDu flink mysql
当前需要处理的业务场景:将订单表和相关联的表(比如:商品表、子订单表、物流信息表)组织成宽表,放入到ES中,加速订单数据的查询.同步数据到es.概述1.什么是CDC2.什么是FlinkCDC3.FlinkCDCConnectors和Flink的版本映射实战1.宽表查询1.1创建mysql表1.2启动Flink集群和FlinkSQLCLI1.3在FlinkSQLCLI中使用FlinkDDL创建表1.

Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re

数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，

数据湖：Apache Iceberg在腾讯的探索和实践学而知之@ 数据库腾讯大数据 java 编程语言
摘要：今天分享的是ApacheIceberg在腾讯内部的探索和实践。本文结合腾讯大数据技术分享内容和2020全球软件开发大会分享内容进行整理，主要内容包括：1、数据湖技术概述2、ApacheIceberg的简介3、腾讯为什么选择ApacheIceberg4、腾讯看点万亿数据下的业务痛点5、ApacheIceberg在看点实践6、ApacheIceberg读写和删除ApacheIceberg新一代数

Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式

flink从kafka读取数据写入clickhouse本地表的实现 Breatrice_li kafka flink 分布式大数据
实现功能因为直接写clickhouse的分布式表在数据量比较大的时候会有各种问题，所以做了一个flink读取kafka数据然后路由写入到相应的本地表节点，并且关于不同的表的配置信息可以随时更改并设置生效时间。实现流程首先从kafka将数据读取过来然后进行相应的处理及逻辑判断写入到对应的clickhouse表格中最后根据CDC读取来的配置信息进行相应节点的hash路由，直接写入本地表读取kafka数

demo flink写入kafka_Flink 写入数据到 Kafka ONES Piece demo flink写入kafka
Flink写入数据到Kafka前言通过Flink官网可以看到Flink里面就默认支持了不少sink，比如也支持Kafkasinkconnector(FlinkKafkaProducer)，那么这篇文章我们就来看看如何将数据写入到Kafka。准备Flink里面支持Kafka0.8、0.9、0.10、0.11.这里我们需要安装下Kafka，请对应添加对应的FlinkKafkaconnector依赖的版

Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇

使用 DingoDB 创建自查询检索器的实战演示 fgayif python
DingoDB深入解析与实战演示DingoDB是一种分布式多模向量数据库，它结合了数据湖和向量数据库的特点，能够存储任何类型和大小的数据（如Key-Value、PDF、音频、视频等）。它具有实时低延迟处理能力，可以快速获取洞察并响应，还能高效进行即时分析和处理多模数据。在本教程中，我们将演示如何使用DingoDB向量存储来创建一个自查询检索器。技术背景介绍DingoDB的设计结合了数据湖的灵活性和

中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但

Flink实践：通过Flink SQL进行SFTP文件的读写操作 kkk1622245 flink sql 大数据
在大数据处理领域，ApacheFlink出类拔萃，它是一个高性能、易扩展、用于处理有界和无界数据流的分布式处理引擎。FlinkSQL是ApacheFlink提供的一种声明式API，允许开发者以SQL的形式，轻松实现复杂的数据流和批处理分析。本文将重点探讨如何通过FlinkSQL来实现对SFTP文件的读写操作，这是在实际应用中经常遇到的一种场景。Flink与SFTP文件的读写在很多实际应用场景中，数

Flink流式计算系统 xyzkenan Flink 大数据大数据开发
本文将以这些概念为基础，逐一介绍Flink的发展背景、核心概念、时间推理与正确性工具、安装部署、客户端操作、编程API等内容，让开发人员对Flink有较为全面的认识并拥有一些基础操作与编程能力。一、发展背景1.1数据处理架构在流处理器出现之前，数据处理架构主要由批处理器组成，其是对无限数据的有限切分，具有吞吐量大、数据较为准确的特点。然而我们知道，批处理器在时间切分点附近仍然无法保证数据结果的真实

Flink 初体验：从 Hello World 到实时数据流处理小诸葛IT课堂 flink 大数据
在大数据处理领域，ApacheFlink以其卓越的流批一体化处理能力脱颖而出，成为众多企业构建实时数据应用的首选框架。本文将带领你迈出Flink学习的第一步，从基础概念入手，逐步引导你编写并运行第一个Flink程序——经典的WordCount，让你亲身感受Flink在实时数据流处理方面的强大魅力。一、Flink基础概念速览1.1什么是FlinkFlink是一个分布式流批一体化开源平台，旨在对无界和

时间语义与窗口操作：Flink 流式计算的核心逻辑小诸葛IT课堂 flink 大数据
在实时数据流处理中，时间是最为关键的维度之一。Flink通过灵活的时间语义和丰富的窗口类型，为开发者提供了强大的时间窗口分析能力。本文将深入解析Flink的时间语义机制，并通过实战案例演示如何利用窗口操作实现实时数据聚合。一、Flink时间语义详解1.1三种时间概念1.1.1EventTime（事件时间）定义：事件实际发生的时间，由事件本身携带的时间戳决定应用场景：需要准确反映事件真实顺序的场景（

Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性

MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-

Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j

oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select   empno,mgr,ename,sal from e

通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp

SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压

Java Socket 多线程实现文件传输随便小屋 java socket
        高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered

java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE

APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（

JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码;    req.getRequestDispatcher("reg.html

web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置

JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w

【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时

Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"

图片黑色阴影 bozch 图片
.event{ padding:0;    width:460px;    min-width: 460px;    border:0px solid #e4e4e4;    height: 350px;    min-heig

编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op

ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为

[宇宙与天文]在太空采矿,在太空建造 comsci
     我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大....      地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没

ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如

Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后

C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg

presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置：    [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al

java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati

Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没

Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很

CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
   刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core

C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls

Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/

程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙

解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build>           <pluginManagement

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

首页 - 关于我们 - 站内搜索 - Sitemap - 侵权投诉

版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.