Dreammmming Time

Iceberg基于Spark MergeInto语法实现数据的增量写入

SPARK SQL 基本语法

示例SQL如下

MERGE INTO target_table t
USING source_table s
ON s.id = t.id                //这里是JOIN的关联条件
WHEN MATCHED AND s.opType = 'delete' THEN DELETE // WHEN条件是对当前行进行打标的匹配条件
WHEN MATCHED AND s.opType = 'update' THEN UPDATE SET id = s.id, name = s.name
WHEN NOT MATCHED AND s.opType = 'insert' THEN INSERT (key, value) VALUES (key, value)

Source表和target表，先按di列进行JOIN，然后对于关联后的结果集的每一行进行条件判断，如果opType=‘delete’，那么就删除当前行；如果是不匹配而且opType=‘insert’那么，就将source表中的数据插入到目标表。

Spark3.3 中定义的三种数据行的状态

package org.apache.spark.sql.catalyst.util
object RowDeltaUtils {
  // 新旧数据记录，Merge阶段，会为每一个结果行添加一个新的列，其列名就这个常量
  final val OPERATION_COLUMN: String = "__row_operation"
  final val DELETE_OPERATION: Int = 1
  final val UPDATE_OPERATION: Int = 2
  final val INSERT_OPERATION: Int = 3
}

源码跟踪

文章引用的代码来自Iceberg 1.0.x 和Spark 3.3版本。

生成未解析的逻辑计划树

class IcebergSparkSqlExtensionsParser(delegate: ParserInterface) extends ParserInterface with ExtendedParser {
  /**
   * Parse a string to a LogicalPlan.
   */
  override def parsePlan(sqlText: String): LogicalPlan = {
    val sqlTextAfterSubstitution = substitutor.substitute(sqlText)
    if (isIcebergCommand(sqlTextAfterSubstitution)) {
      parse(sqlTextAfterSubstitution) { parser => astBuilder.visit(parser.singleStatement()) }.asInstanceOf[LogicalPlan]
    } else {
      val parsedPlan = delegate.parsePlan(sqlText)
      parsedPlan match {
        case e: ExplainCommand =>
          // 改写EXPLAIN命令
          e.copy(logicalPlan = replaceRowLevelCommands(e.logicalPlan))
        case p =>
          // 改写UPDATE/DELETE/MERGE INTO命令
          replaceRowLevelCommands(p)
      }
    }
  }

  private def replaceRowLevelCommands(plan: LogicalPlan): LogicalPlan = plan resolveOperatorsDown {
    // DELETE命令，支持删除分区
    case DeleteFromTable(UnresolvedIcebergTable(aliasedTable), condition) =>
      DeleteFromIcebergTable(aliasedTable, Some(condition))
    // UPDATE命令，支持更新数据，内部实现为DELETE + INSERT的组合
    case UpdateTable(UnresolvedIcebergTable(aliasedTable), assignments, condition) =>
      UpdateIcebergTable(aliasedTable, assignments, condition)
    // MERGE INTO命令，合并新数据到目标表，内部实现为DELETE + INSERT的组合
    case MergeIntoTable(UnresolvedIcebergTable(aliasedTable), source, cond, matchedActions, notMatchedActions) =>
      // cannot construct MergeIntoIcebergTable right away as MERGE operations require special resolution
      // that's why the condition and actions must be hidden from the regular resolution rules in Spark
      // see ResolveMergeIntoTableReferences for details
      // 构建MERGE INTO的上下文环境
      // cond：对应示例中的ON s.id = t.id
      // matchedActions：对应示例中的WHEN MATCHED AND子句
      // notMatchedActions：对应示例中的WHEN NOT MATCHED AND子句
      val context = MergeIntoContext(cond, matchedActions, notMatchedActions)
      UnresolvedMergeIntoIcebergTable(aliasedTable, source, context)
  }
}

解析Iceberg Table

/**
 * A resolution rule similar to ResolveReferences in Spark but handles Iceberg MERGE operations.
 */
case class ResolveMergeIntoTableReferences(spark: SparkSession) extends Rule[LogicalPlan] {

  private lazy val analyzer: Analyzer = spark.sessionState.analyzer

  override def apply(plan: LogicalPlan): LogicalPlan = plan resolveOperatorsUp {
    case m @ UnresolvedMergeIntoIcebergTable(targetTable, sourceTable, context)
        if targetTable.resolved && sourceTable.resolved && m.duplicateResolved =>
      // 解析新数据匹配上了旧数据时的行为
      val resolvedMatchedActions = context.matchedActions.map {
        // WHEN MATCHED AND s.opType = 'delete' THEN DELETE
        case DeleteAction(cond) =>
          val resolvedCond = cond.map(resolveCond("DELETE", _, m))
          DeleteAction(resolvedCond)
        // WHEN MATCHED AND s.opType = 'update' THEN UPDATE SET id = s.id, name = s.name
        case UpdateAction(cond, assignments) =>
          val resolvedCond = cond.map(resolveCond("UPDATE", _, m))
          // the update action can access columns from both target and source tables
          val resolvedAssignments = resolveAssignments(assignments, m, resolveValuesWithSourceOnly = false)
          UpdateAction(resolvedCond, resolvedAssignments)

        case UpdateStarAction(updateCondition) =>
          val resolvedUpdateCondition = updateCondition.map(resolveCond("UPDATE", _, m))
          val assignments = targetTable.output.map { attr =>
            Assignment(attr, UnresolvedAttribute(Seq(attr.name)))
          }
          // for UPDATE *, the value must be from the source table
          val resolvedAssignments = resolveAssignments(assignments, m, resolveValuesWithSourceOnly = true)
          UpdateAction(resolvedUpdateCondition, resolvedAssignments)

        case _ =>
          throw new AnalysisException("Matched actions can only contain UPDATE or DELETE")
      }
      // 解析新数据没有匹配旧数据记录时的行为
      val resolvedNotMatchedActions = context.notMatchedActions.map {
        case InsertAction(cond, assignments) =>
          // the insert action is used when not matched, so its condition and value can only
          // access columns from the source table
          val resolvedCond = cond.map(resolveCond("INSERT", _, Project(Nil, m.sourceTable)))
          val resolvedAssignments = resolveAssignments(assignments, m, resolveValuesWithSourceOnly = true)
          InsertAction(resolvedCond, resolvedAssignments)

        case InsertStarAction(cond) =>
          // the insert action is used when not matched, so its condition and value can only
          // access columns from the source table
          val resolvedCond = cond.map(resolveCond("INSERT", _, Project(Nil, m.sourceTable)))
          val assignments = targetTable.output.map { attr =>
            Assignment(attr, UnresolvedAttribute(Seq(attr.name)))
          }
          val resolvedAssignments = resolveAssignments(assignments, m, resolveValuesWithSourceOnly = true)
          InsertAction(resolvedCond, resolvedAssignments)

        case _ =>
          throw new AnalysisException("Not matched actions can only contain INSERT")
      }

      val resolvedMergeCondition = resolveCond("SEARCH", context.mergeCondition, m)
      // 返回解析后的MergeIntoIcebergTable逻辑树，方便后续的重写逻辑
      MergeIntoIcebergTable(
        targetTable,
        sourceTable,
        mergeCondition = resolvedMergeCondition,
        matchedActions = resolvedMatchedActions,
        notMatchedActions = resolvedNotMatchedActions)
  }
}

一、重写逻辑计划树

运行时，如果发现当前SQL是MergeIntoIcebergTable，则会生成在生成优化的逻辑计划树时，应用如下的Rule，重写当前的Merge into 逻辑树：

object RewriteMergeIntoTable extends RewriteRowLevelIcebergCommand {
  private final val ROW_FROM_SOURCE = "__row_from_source"
  private final val ROW_FROM_TARGET = "__row_from_target"
  private final val ROW_ID = "__row_id"

  private final val ROW_FROM_SOURCE_REF = FieldReference(ROW_FROM_SOURCE)
  private final val ROW_FROM_TARGET_REF = FieldReference(ROW_FROM_TARGET)
  private final val ROW_ID_REF = FieldReference(ROW_ID)

  override def apply(plan: LogicalPlan): LogicalPlan = plan resolveOperators {
      // ... 跳过其它情况下的匹配
      case m @ MergeIntoIcebergTable(aliasedTable, source, cond, matchedActions, notMatchedActions, None)
        if m.resolved && m.aligned =>

      EliminateSubqueryAliases(aliasedTable) match {
        case r @ DataSourceV2Relation(tbl: SupportsRowLevelOperations, _, _, _, _) =>
          val table = buildOperationTable(tbl, MERGE, CaseInsensitiveStringMap.empty())
          val rewritePlan = table.operation match {
            case _: SupportsDelta =>
              // 构建增量逻辑计划，table指的是Iceberg目标表，source指的是新数据
              buildWriteDeltaPlan(r, table, source, cond, matchedActions, notMatchedActions)
            case _ =>
              // 否则就是COW模式
              buildReplaceDataPlan(r, table, source, cond, matchedActions, notMatchedActions)
          }

          m.copy(rewritePlan = Some(rewritePlan))

        case p =>
          throw new AnalysisException(s"$p is not an Iceberg table")
      }
}

// build a rewrite plan for sources that support row deltas
private def buildWriteDeltaPlan(
    relation: DataSourceV2Relation,
    operationTable: RowLevelOperationTable,
    source: LogicalPlan,
    cond: Expression,
    matchedActions: Seq[MergeAction],  // 通过ResolveMergeIntoTableReferences规则，从merge sql语句中解析出来，merge行为，例如UPDATE关键字对应于UpdateAction
    notMatchedActions: Seq[MergeAction]): WriteDelta = {

  // resolve all needed attrs (e.g. row ID and any required metadata attrs)
  val rowAttrs = relation.output
  val rowIdAttrs = resolveRowIdAttrs(relation, operationTable.operation)
  val metadataAttrs = resolveRequiredMetadataAttrs(relation, operationTable.operation)

  // construct a scan relation and include all required metadata columns
  // operaionTable表示的待写入的目标表，这是会根据关联条件，构建一个目标表的scan relation
  val readRelation = buildRelationWithAttrs(relation, operationTable, rowIdAttrs ++ metadataAttrs)
  val readAttrs = readRelation.output

  // project an extra column to check if a target row exists after the join
  // 为目标表的数据添加一列，表示该行数据来自于目标表
  val targetTableProjExprs = readAttrs :+ Alias(TrueLiteral, ROW_FROM_TARGET)()
  // 生成目标表的输出数据
  val targetTableProj = Project(targetTableProjExprs, readRelation)

  // project an extra column to check if a source row exists after the join
  // 为新的数据添加一列，表示该行数据来自于新的输入
  val sourceTableProjExprs = source.output :+ Alias(TrueLiteral, ROW_FROM_SOURCE)()
  val sourceTableProj = Project(sourceTableProjExprs, source)

  // use inner join if there is no NOT MATCHED action, unmatched source rows can be discarded
  // use right outer join in all other cases, unmatched source rows may be needed
  // also disable broadcasts for the target table to perform the cardinality check
  val joinType = if (notMatchedActions.isEmpty) Inner else RightOuter
  val joinHint = JoinHint(leftHint = Some(HintInfo(Some(NO_BROADCAST_HASH))), rightHint = None)
  // 将从目标表读取的数据，与新的、待写入的来源表的数据进行JOIN，如果决定忽略不匹配的字段（丢弃）那么会使用inner join，
  // 否则使用right join，由于目标表在JOIN左边，因此也就意味着，最终的Join结果是以新数据为基准，如果成功与目标
  // 表的数据行关联，则说明是要update的数据行；没有新数据没有关联到目标表的数据，则说明是该行数据记录属于新增insert的数据行。
  val joinPlan = Join(NoStatsUnaryNode(targetTableProj), sourceTableProj, joinType, Some(cond), joinHint)

  val deleteRowValues = buildDeltaDeleteRowValues(rowAttrs, rowIdAttrs)
  val metadataReadAttrs = readAttrs.filterNot(relation.outputSet.contains)

  val matchedConditions = matchedActions.map(actionCondition)
  // 创建匹配的数据行的输出meta信息，MergeRowsExec会根据这些信息，生成数据行的投影器，并与matchedConditions合并生成一个matchedPairs的二元组，
  // val matchedPairs = matchedPreds zip matchedProjs
  // MergeRowsExec就以此二元组来应用到数据记录上，得到merge后的、带有操作类型的internal row
  val matchedOutputs = matchedActions.map(deltaActionOutput(_, deleteRowValues, metadataReadAttrs))

  val notMatchedConditions = notMatchedActions.map(actionCondition)
  val notMatchedOutputs = notMatchedActions.map(deltaActionOutput(_, deleteRowValues, metadataReadAttrs))
  // 为merge后的数据添加新的一列，即operation_column，用于标记每一行的记录的类型
  // final val OPERATION_COLUMN: String = "__row_operation"
  // final val DELETE_OPERATION: Int = 1
  // final val UPDATE_OPERATION: Int = 2
  // final val INSERT_OPERATION: Int = 3
  val operationTypeAttr = AttributeReference(OPERATION_COLUMN, IntegerType, nullable = false)()
  val rowFromSourceAttr = resolveAttrRef(ROW_FROM_SOURCE_REF, joinPlan)
  val rowFromTargetAttr = resolveAttrRef(ROW_FROM_TARGET_REF, joinPlan)

  // merged rows must contain values for the operation type and all read attrs
  val mergeRowsOutput = buildMergeRowsOutput(matchedOutputs, notMatchedOutputs, operationTypeAttr +: readAttrs)
  // 生成一个MergeRows的逻辑计划节点，joinPlan作为其上游节点，会对应生成MergeRowsExec物理算子
  val mergeRows = MergeRows(
    isSourceRowPresent = IsNotNull(rowFromSourceAttr),
    isTargetRowPresent = if (notMatchedActions.isEmpty) TrueLiteral else IsNotNull(rowFromTargetAttr),
    matchedConditions = matchedConditions,
    matchedOutputs = matchedOutputs,
    notMatchedConditions = notMatchedConditions,
    notMatchedOutputs = notMatchedOutputs,
    // only needed if emitting unmatched target rows
    targetOutput = Nil,
    rowIdAttrs = rowIdAttrs,
    performCardinalityCheck = isCardinalityCheckNeeded(matchedActions),
    emitNotMatchedTargetRows = false,
    output = mergeRowsOutput,
    joinPlan)

  // build a plan to write the row delta to the table
  val writeRelation = relation.copy(table = operationTable)
  val projections = buildMergeDeltaProjections(mergeRows, rowAttrs, rowIdAttrs, metadataAttrs)
  // WriteDelta会对应生成WriteDeltaExec物理算子，写出增量数据到目标表
  WriteDelta(writeRelation, mergeRows, relation, projections)
}

二、Merge rows合并结果集

case class MergeRowsExec(…) {
// 在每一个Partition数据集上进行验证，根据匹配表达式的结果为每一行数据记录添加标记
private def processPartition(rowIterator: Iterator[InternalRow]): Iterator[InternalRow] = {
  val inputAttrs = child.output

  val isSourceRowPresentPred = createPredicate(isSourceRowPresent, inputAttrs)
  val isTargetRowPresentPred = createPredicate(isTargetRowPresent, inputAttrs)

  val matchedPreds = matchedConditions.map(createPredicate(_, inputAttrs))
  val matchedProjs = matchedOutputs.map {
    case output if output.nonEmpty => Some(createProjection(output, inputAttrs))
    case _ => None
  }
  // matchedPreds，即一个或多个predicate用于判定当前行是不是满足 给定的条件
  // matchedProjs，即一个UnsafeProjection的对象，可以将一个InternalRow写出成一个UnsafeRow，并且带有具体的更新类型，UPDATE/INSERT/DELETE
  val matchedPairs = matchedPreds zip matchedProjs

  val notMatchedPreds = notMatchedConditions.map(createPredicate(_, inputAttrs))
  val notMatchedProjs = notMatchedOutputs.map {
    case output if output.nonEmpty => Some(createProjection(output, inputAttrs))
    case _ => None
  }
  val nonMatchedPairs = notMatchedPreds zip notMatchedProjs

  val projectTargetCols = createProjection(targetOutput, inputAttrs)
  val rowIdProj = createProjection(rowIdAttrs, inputAttrs)

  // This method is responsible for processing a input row to emit the resultant row with an
  // additional column that indicates whether the row is going to be included in the final
  // output of merge or not.
  // 1. Found a target row for which there is no corresponding source row (join condition not met)
  //    - Only project the target columns if we need to output unchanged rows
  // 2. Found a source row for which there is no corresponding target row (join condition not met)
  //    - Apply the not matched actions (i.e INSERT actions) if non match conditions are met.
  // 3. Found a source row for which there is a corresponding target row (join condition met)
  //    - Apply the matched actions (i.e DELETE or UPDATE actions) if match conditions are met.
  // 处理每一行数据，注意这里的结果集是来自于target RIGHT OUTER JOIN source的结果，因此如果目标表的数据行没有出现，
  // 说明当前行是不匹配的；如果source表中的行不存在，则说明行是不匹配的；否则就是目标的行和source表中的行都出现了，
  // 说明当前行是匹配的。
  // 总之，对于最终的结果，source表的数据行有三种状态（新增数据），UPDATE/DELETE/INSERT。
  def processRow(inputRow: InternalRow): InternalRow = {
    // 如果忽略不匹配的行或是源数据行不匹配
    if (emitNotMatchedTargetRows && !isSourceRowPresentPred.eval(inputRow)) {
      projectTargetCols.apply(inputRow)
    } else if (!isTargetRowPresentPred.eval(inputRow)) {
      // 如果是不匹配的数据行，生成一个新的row，并带有相应的操作类型，一般是INSERT，作为第一个字段
      applyProjection(nonMatchedPairs, inputRow)
    } else {
      // 如果是匹配的数据行，则生成一个新的row，并带有相应的操作类型，一般是DELETE或是UPDATE，作为第一个字段
      applyProjection(matchedPairs, inputRow)
    }
  }

  var lastMatchedRowId: InternalRow = null

  def processRowWithCardinalityCheck(inputRow: InternalRow): InternalRow = {
    val isSourceRowPresent = isSourceRowPresentPred.eval(inputRow)
    val isTargetRowPresent = isTargetRowPresentPred.eval(inputRow)

    if (isSourceRowPresent && isTargetRowPresent) {
      val currentRowId = rowIdProj.apply(inputRow)
      if (currentRowId == lastMatchedRowId) {
        throw new SparkException(
          "The ON search condition of the MERGE statement matched a single row from " +
          "the target table with multiple rows of the source table. This could result " +
          "in the target row being operated on more than once with an update or delete " +
          "operation and is not allowed.")
      }
      lastMatchedRowId = currentRowId.copy()
    } else {
      lastMatchedRowId = null
    }

    if (emitNotMatchedTargetRows && !isSourceRowPresent) {
      projectTargetCols.apply(inputRow)
    } else if (!isTargetRowPresent) {
      applyProjection(nonMatchedPairs, inputRow)
    } else {
      applyProjection(matchedPairs, inputRow)
    }
  }

  val processFunc: InternalRow => InternalRow = if (performCardinalityCheck) {
    processRowWithCardinalityCheck
  } else {
    processRow
  }

  rowIterator
    .map(processFunc)
    .filter(row => row != null)
}

}

三、增量数据写出

/**
 * Physical plan node to write a delta of rows to an existing table.
 */
case class WriteDeltaExec(
    query: SparkPlan,
    refreshCache: () => Unit,
    projections: WriteDeltaProjections,
    write: DeltaWrite) extends ExtendedV2ExistingTableWriteExec[DeltaWriter[InternalRow]] {

  override lazy val references: AttributeSet = query.outputSet
  override lazy val stringArgs: Iterator[Any] = Iterator(query, write)
  // 创建增量写出数据的任务，详细定义见后面DeltaWithMetadataWritingSparkTask
  override lazy val writingTask: WritingSparkTask[DeltaWriter[InternalRow]] = {
    DeltaWithMetadataWritingSparkTask(projections)
  }

  override protected def withNewChildInternal(newChild: SparkPlan): WriteDeltaExec = {
    copy(query = newChild)
  }
}

case class DeltaWithMetadataWritingSparkTask(
    projs: WriteDeltaProjections) extends WritingSparkTask[DeltaWriter[InternalRow]] {

  private lazy val rowProjection = projs.rowProjection.orNull
  private lazy val rowIdProjection = projs.rowIdProjection
  private lazy val metadataProjection = projs.metadataProjection.orNull
  // InternalRow来自于Merge后的结果，每一行的第一个字段，标记了当前行的操作类型
  override protected def writeFunc(writer: DeltaWriter[InternalRow], row: InternalRow): Unit = {
    val operation = row.getInt(0)

    operation match {
      case DELETE_OPERATION =>
        rowIdProjection.project(row)
        metadataProjection.project(row)
        // 如果当前数据行被 标记为DELETE，那么就执行删除操作，如果数据来自分区表，那么底层调用PartitionedDeltaWriter::delete(…)方法
        writer.delete(metadataProjection, rowIdProjection)

      case UPDATE_OPERATION =>
        rowProjection.project(row)
        rowIdProjection.project(row)
        metadataProjection.project(row)
       // 同上，如果数据来自分区表，那么底层调用PartitionedDeltaWriter::update(…)方法
        writer.update(metadataProjection, rowIdProjection, rowProjection)

      case INSERT_OPERATION =>
        rowProjection.project(row)
        writer.insert(rowProjection)

      case other =>
        throw new SparkException(s"Unexpected operation ID: $other")
    }
  }
}
/** Spark写出任务，公共接口，提供统一的写出过程 */
trait WritingSparkTask[W <: DataWriter[InternalRow]] extends Logging with Serializable {

  protected def writeFunc(writer: W, row: InternalRow): Unit

  def run(
      writerFactory: DataWriterFactory,
      context: TaskContext,
      iter: Iterator[InternalRow],
      useCommitCoordinator: Boolean,
      customMetrics: Map[String, SQLMetric]): DataWritingSparkTaskResult = {
    val stageId = context.stageId()
    val stageAttempt = context.stageAttemptNumber()
    val partId = context.partitionId()
    val taskId = context.taskAttemptId()
    val attemptId = context.attemptNumber()
    val dataWriter = writerFactory.createWriter(partId, taskId).asInstanceOf[W]

    var count = 0L
    // write the data and commit this writer.
    Utils.tryWithSafeFinallyAndFailureCallbacks(block = {
      while (iter.hasNext) { // 遍历RDD中的每一行
        if (count % CustomMetrics.NUM_ROWS_PER_UPDATE == 0) {
          CustomMetrics.updateMetrics(ArraySeq.unsafeWrapArray(dataWriter.currentMetricsValues), customMetrics)
        }

        // Count is here.
        count += 1
        // 即调用DeltaWithMetadataWritingSparkTask::writeFunc(..)方法，执行真正的写出
        writeFunc(dataWriter, iter.next())
      }

      CustomMetrics.updateMetrics(ArraySeq.unsafeWrapArray(dataWriter.currentMetricsValues), customMetrics)
      // 数据写出完成，向Spark中的OutputCommitCoordinator提交
      val msg = if (useCommitCoordinator) {
        val coordinator = SparkEnv.get.outputCommitCoordinator
        val commitAuthorized = coordinator.canCommit(stageId, stageAttempt, partId, attemptId)
        if (commitAuthorized) {
          logInfo(s"Commit authorized for partition $partId (task $taskId, attempt $attemptId, " +
            s"stage $stageId.$stageAttempt)")
          dataWriter.commit()
        } else {
          val commitDeniedException = QueryExecutionErrors.commitDeniedError(
            partId, taskId, attemptId, stageId, stageAttempt)
          logInfo(commitDeniedException.getMessage)
          // throwing CommitDeniedException will trigger the catch block for abort
          throw commitDeniedException
        }

      } else {
        logInfo(s"Writer for partition ${context.partitionId()} is committing.")
        dataWriter.commit()
      }

      logInfo(s"Committed partition $partId (task $taskId, attempt $attemptId, " +
        s"stage $stageId.$stageAttempt)")

      DataWritingSparkTaskResult(count, msg)

    })(catchBlock = {
      // If there is an error, abort this writer
      logError(s"Aborting commit for partition $partId (task $taskId, attempt $attemptId, " +
        s"stage $stageId.$stageAttempt)")
      dataWriter.abort()
      logError(s"Aborted commit for partition $partId (task $taskId, attempt $attemptId, " +
        s"stage $stageId.$stageAttempt)")
    }, finallyBlock = {
      dataWriter.close()
    })
  }
}

四、分区表数据的增量写出

private static class PartitionedDeltaWriter extends DeleteAndDataDeltaWriter {
  private final PartitionSpec dataSpec;
  private final PartitionKey dataPartitionKey;
  private final InternalRowWrapper internalRowDataWrapper;

  PartitionedDeltaWriter(
      Table table,
      SparkFileWriterFactory writerFactory,
      OutputFileFactory dataFileFactory,
      OutputFileFactory deleteFileFactory,
      Context context) {
    super(table, writerFactory, dataFileFactory, deleteFileFactory, context);

    this.dataSpec = table.spec();
    this.dataPartitionKey = new PartitionKey(dataSpec, context.dataSchema());
    this.internalRowDataWrapper = new InternalRowWrapper(context.dataSparkType());
  }

// 删除旧的数据记录，这里是写出position delete file，此方法实际上是在父类当中的定义的，具体的注释，见DeleteAndDataDeltaWriter类的解析
@Override
public void delete(InternalRow meta, InternalRow id) throws IOException {
  int specId = meta.getInt(specIdOrdinal);
  PartitionSpec spec = specs.get(specId);

  InternalRow partition = meta.getStruct(partitionOrdinal, deletePartitionRowWrapper.size());
  StructProjection partitionProjection = deletePartitionProjections.get(specId);
  partitionProjection.wrap(deletePartitionRowWrapper.wrap(partition));

  String file = id.getString(fileOrdinal);
  long position = id.getLong(positionOrdinal);
  delegate.delete(file, position, spec, partitionProjection);
}

  @Override
  public void update(InternalRow meta, InternalRow id, InternalRow row) throws IOException {
    delete(meta, id); // 删除旧的数据记录，这里是写出position delete file
    dataPartitionKey.partition(internalRowDataWrapper.wrap(row));
    // 写入新的数据行，delegate实际上是一个DeleteAndDataDeltaWriter的实例
    delegate.update(row, dataSpec, dataPartitionKey);
  }

  @Override
  public void insert(InternalRow row) throws IOException {
    dataPartitionKey.partition(internalRowDataWrapper.wrap(row));
    delegate.insert(row, dataSpec, dataPartitionKey);
  }
}

DeleteAndDataDeltaWriter：删除和增量更新的抽象基类

private abstract static class DeleteAndDataDeltaWriter extends BaseDeltaWriter {
  protected final PositionDeltaWriter<InternalRow> delegate;
  private final FileIO io;
  private final Map<Integer, PartitionSpec> specs;
  private final InternalRowWrapper deletePartitionRowWrapper;
  private final Map<Integer, StructProjection> deletePartitionProjections;
  private final int specIdOrdinal;
  private final int partitionOrdinal;
  private final int fileOrdinal;
  private final int positionOrdinal;

  private boolean closed = false;

  DeleteAndDataDeltaWriter(
      Table table,
      SparkFileWriterFactory writerFactory,
      OutputFileFactory dataFileFactory,
      OutputFileFactory deleteFileFactory,
      Context context) {
    this.delegate =
        new BasePositionDeltaWriter<>(
            newInsertWriter(table, writerFactory, dataFileFactory, context),
            newUpdateWriter(table, writerFactory, dataFileFactory, context),
            newDeleteWriter(table, writerFactory, deleteFileFactory, context));
    this.io = table.io();
    this.specs = table.specs();

    Types.StructType partitionType = Partitioning.partitionType(table);
    this.deletePartitionRowWrapper = initPartitionRowWrapper(partitionType);
    this.deletePartitionProjections = buildPartitionProjections(partitionType, specs);

    this.specIdOrdinal = context.metadataSparkType().fieldIndex(MetadataColumns.SPEC_ID.name());
    this.partitionOrdinal =
        context.metadataSparkType().fieldIndex(MetadataColumns.PARTITION_COLUMN_NAME);
    this.fileOrdinal = context.deleteSparkType().fieldIndex(MetadataColumns.FILE_PATH.name());
    this.positionOrdinal =
        context.deleteSparkType().fieldIndex(MetadataColumns.ROW_POSITION.name());
  }

  @Override
  public void delete(InternalRow meta, InternalRow id) throws IOException {
    int specId = meta.getInt(specIdOrdinal);
    PartitionSpec spec = specs.get(specId);

    InternalRow partition = meta.getStruct(partitionOrdinal, deletePartitionRowWrapper.size());
    // 得到指定的specId对应的分区投影器
    StructProjection partitionProjection = deletePartitionProjections.get(specId);
    // 通过分区字段的投影器，解析数据行对应的字段值
    partitionProjection.wrap(deletePartitionRowWrapper.wrap(partition));
    // 被删除的数据记录所在的文件路径
    String file = id.getString(fileOrdinal);
    // 被删除的数据记录在文件中的位置（行号）
    long position = id.getLong(positionOrdinal);
    // 最终会调用ClusteredPositionDeleteWriter::delete(…)方法，写出到position delete 文件，
    // 写出信息，(file, position, partitionProject)，会被封装成一个PositionDelete实例，写出到position delete文件，
    // 实际上文件中的一行，因此position delete文件包含的数据行的结构也就很明显了
   // 注意这里的position delete file的数据格式，与Flink模块中的的writer的实现PartitionedDeltaWriter是不同的
    delegate.delete(file, position, spec, partitionProjection);
  }

  @Override
  public WriterCommitMessage commit() throws IOException {
    close();
    // public class WriteResult implements Serializable {
    //   private DataFile[] dataFiles;
    //   private DeleteFile[] deleteFiles;
    //   private CharSequence[] referencedDataFiles;
    // }
    WriteResult result = delegate.result();
    return new DeltaTaskCommit(result);
  }

  @Override
  public void abort() throws IOException {
    close();

    WriteResult result = delegate.result();
    cleanFiles(io, Arrays.asList(result.dataFiles()));
    cleanFiles(io, Arrays.asList(result.deleteFiles()));
  }

  @Override
  public void close() throws IOException {
    if (!closed) {
      delegate.close();
      this.closed = true;
    }
  }

  private PartitioningWriter<InternalRow, DataWriteResult> newInsertWriter(
      Table table,
      SparkFileWriterFactory writerFactory,
      OutputFileFactory fileFactory,
      Context context) {
    long targetFileSize = context.targetDataFileSize();

    if (table.spec().isPartitioned() && context.fanoutWriterEnabled()) {
      return new FanoutDataWriter<>(writerFactory, fileFactory, table.io(), targetFileSize);
    } else {
      return new ClusteredDataWriter<>(writerFactory, fileFactory, table.io(), targetFileSize);
    }
  }

  private PartitioningWriter<InternalRow, DataWriteResult> newUpdateWriter(
      Table table,
      SparkFileWriterFactory writerFactory,
      OutputFileFactory fileFactory,
      Context context) {
    long targetFileSize = context.targetDataFileSize();

    if (table.spec().isPartitioned()) {
      // use a fanout writer for partitioned tables to write updates as they may be out of order
      return new FanoutDataWriter<>(writerFactory, fileFactory, table.io(), targetFileSize);
    } else {
      return new ClusteredDataWriter<>(writerFactory, fileFactory, table.io(), targetFileSize);
    }
  }

  private ClusteredPositionDeleteWriter<InternalRow> newDeleteWriter(
      Table table,
      SparkFileWriterFactory writerFactory,
      OutputFileFactory fileFactory,
      Context context) {
    long targetFileSize = context.targetDeleteFileSize();
    return new ClusteredPositionDeleteWriter<>(
        writerFactory, fileFactory, table.io(), targetFileSize);
  }
}

你可能感兴趣的:(数据湖,数据存储,spark,3.3,iceberg,1.0.x,MERGE,INTO,UPSERT)

【前端】jQuery数组合并去重方法总结
在jQuery中合并多个数组并去重，推荐使用原生JavaScript的Set对象（高效简单）或$.unique()（仅适用于DOM元素，不适用于普通数组）。以下是完整解决方案：方法1：使用ES6Set（推荐）//定义多个数组constarr1=[1,2,3];constarr2=[2,3,4];constarr3=[3,4,5];//合并数组并用Set去重constmergedArray=[...
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
android查看so路径
之前遇到过一个问题，apk中有一个so无法确定其路径，是由哪个依赖引入的，网上查询一番后这里记录一下。build.gradle中添加如下任务//列出所有包含有so文件的库信息tasks.whenTaskAdded{task->if(task.name=='mergeDebugNativeLibs'){//如果是有多个flavor，则用mergeFlavorDebugNativeLibs的形式tas
[特殊字符] 实时数据洪流突围战：Flink+Paimon实现毫秒级分析的架构革命（附压测报告）——日均百亿级数据处理成本降低60%的工业级方案 Lucas55555555 flink 大数据
引言：流批一体的时代拐点据阿里云2025白皮书显示，实时数据处理需求年增速达240%，但传统Lambda架构资源消耗占比超运维成本的70%。某电商平台借助Flink+Paimon重构实时数仓后，端到端延迟从分钟级压缩至800ms，计算资源节省5.6万核/月。技术红利窗口期：2025年ApachePaimon1.0正式发布，支持秒级快照与湖仓一体，成为替代Iceberg的新范式一、痛点深挖：实时数仓
JavaScript之DOM操作与事件处理详解 AA-代码批发V哥 JavaScript javascript
JavaScript之DOM操作与事件处理详解一、DOM基础：理解文档对象模型二、DOM元素的获取与访问2.1基础获取方法2.2集合的区别与注意事项三、DOM元素的创建与修改3.1创建与插入元素3.2修改元素属性与样式3.2.1属性操作3.2.2样式操作3.3元素内容的修改四、DOM元素的删除与替换4.1删除元素4.2替换元素五、事件处理：实现页面交互5.1事件绑定的三种方式5.1.1HTML属性
InnoDB引擎行存储结构
InnoDB引擎行存储结构文章目录InnoDB引擎行存储结构1.存储引擎2.InnoDB页的概念3.InnoDB行格式3.1指定行格式3.2COMPACT格式3.3REDUNDANT行格式3.4溢出列3.5DYNAMIC行格式和COMPRESSED行格式1.存储引擎[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Y7BY5kOU-1643188470321)(C:\U
【Android】安卓四大组件之内容提供者（ContentProvider）：从基础到进阶 m0_59734531 Android android Java ContentProvider 安卓四大组件
你手机里的通讯录，存储了所有联系人的信息。如果你想把这些联系人信息分享给其他App，就可以通过ContentProvider来实现。。一、什么是ContentProvider‌ContentProvider‌是Android四大组件之一，负责实现‌跨应用程序的数据共享与访问‌，通过统一接口封装数据存储细节，提供标准化操作方式。其中主要功能包括：数据抽象层：将应用内部的数据（如SQLite数据库、文
将多个小型YOLO数据集合并为一个大型数据集梦实学习室 YOLO python YOLO python 机器学习
一、将多个小型YOLO数据集合并为一个大型数据集importosimportshutilimportargparsedefmerge_data(source_dir,target_dir,images_dir,labels_dir):images_target=os.path.join(target_dir,images_dir)labels_target=os.path.join(target_
第三章：网络安全基础——构建企业数字防线阿贾克斯的黎明网络安全 web安全安全
目录第三章：网络安全基础——构建企业数字防线3.1网络协议安全深度解析3.1.1TCP/IP协议栈安全漏洞图谱3.1.2关键安全协议剖析3.2网络攻击全景防御3.2.1OWASPTop102023最新威胁3.2.2高级持续性威胁(APT)防御3.3网络安全设备部署指南3.3.1下一代防火墙(NGFW)配置要点3.3.2IDS/IPS系统部署方案3.4企业网络架构安全设计3.4.1安全分区最佳实践3
四. go 常见数据结构实现原理之 map 苹果香蕉西红柿 #二.Go 常见数据结构实现原理数据结构 golang 哈希算法
目录一.基础hash的基本方案二.map初始化创建map的底层结构hmapbucket桶桶的细节总结minTopHash与是否迁移extra一些重要的常量标志初始化三.插入数据存储数据时key的定位策略四.查询数据五.删除六.扩容扩容策略与扩容大小扩容与数据迁移源码七.总结map底层结构相关问题总结初始化底层总结插入数据底层总结查询数据底层总结扩容底层总结常见问题一.基础在go基础入门十一map集
SpringBoot日志脱敏：敏感信息保护全面指南 Clf丶忆笙 spring boot 后端 java 日志脱敏
文章目录一、日志脱敏概述与核心概念1.1什么是日志脱敏1.2为什么需要日志脱敏1.3常见需要脱敏的敏感信息类型1.4脱敏技术核心原理二、SpringBoot基础日志脱敏实现2.1基于正则表达式的简单脱敏2.2在SpringBoot中集成基础脱敏2.3基础实现的优缺点分析三、基于注解的高级脱敏方案3.1自定义脱敏注解3.2实现自定义JSON序列化器3.3在实体类中应用脱敏注解3.4测试与验证四、Sp
使用ceph-ansible部署分布式存储Ceph-octopus版本降世神童云计算技术专栏分布式 ceph ansible
使用ceph-ansible部署分布式存储Ceph-octopus版本1.Ceph基础概念及部署方式1.1.Ceph基本概念1.2.Ceph部署方式2.系统初始化配置3.Ceph集群部署3.1.Ansible安装与配置3.2.ceph-ansible安装与配置3.2.1.下载ceph-ansible3.2.2.安装ceph-ansible依赖3.2.3.修改ceph配置文件3.3.开始部署ceph
商标备案截图获取全攻略：解锁品牌保护关键证据奔跑吧邓邓子项目攻略商标备案截图获取全攻略
目录一、了解商标备案截图的重要性二、确定获取途径2.1国内商标备案截图获取平台2.2境外商标备案截图获取平台三、国内商标备案截图获取详细步骤3.1进入国家知识产权局商标局官网3.2商标查询入口选择3.3信息填写与搜索3.4进入商标详情页截图四、境外商标备案截图获取示例（以美国为例）4.1访问美国专利商标局（USPTO）官网4.2选择商标查询系统4.3进行检索操作4.4截图保存五、获取商标备案截图的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
2 STM32单片机-蜂鸣器驱动书山有路勤为径~ 物联网-单片机单片机 stm32 嵌入式硬件
系列文章目录文章目录系列文章目录前言1硬件连接2目录结构3软件编写3.1main.c3.2beep_driver3.2.1beep_driver.c3.2.2beep_driver.h3.3board_config3.3.1board_config.c3.3.2board_config.h3.4utils3.4.1system_config.h总结前言在各种单片机中，都离不开蜂鸣器。蜂鸣器可以作为
SQL server Merge into MERGE 语句试图多次更新或删除同一行。目标行与多个源行匹配时会出现这种情况。MERGE 语句无法多次更新/删除目标表的同一行。请简化 ON 子句， Favor_Yang SQL调优及高级SQL语法编写 Merge Into SQL sqlserver
SQLserverMergeinto的用法在匹配Using源表时，有时候会报异常消息8672，级别16，状态1，第1行MERGE语句试图多次更新或删除同一行。目标行与多个源行匹配时会出现这种情况。MERGE语句无法多次更新/删除目标表的同一行。请简化ON子句，针对这问题的解决办法一般是确保源表的on字段是唯一的。因为我们可以用distinct关键字，保证源表的On字段的唯一性。 mergeinto
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
Spring Boot使用Redis常用场景蹦跑的蜗牛 spring boot redis 后端
SpringBoot使用Redis常用场景一、概述：Redis是什么？为什么要用它？Redis（RemoteDictionaryServer）是一个内存中的数据存储系统（类似一个“超级大字典”），它能存各种类型的数据（字符串、列表、哈希等），而且读写速度极快（因为数据存在内存里）。简单说，Redis就像电脑的“缓存抽屉”：当你的程序需要频繁读取或修改某些数据时（比如用户登录信息、商品销量），直接从
Spring Boot Docker容器监控 - 容器化环境监控方案全面指南 Clf丶忆笙 spring boot docker 后端
文章目录一、容器监控基础概念与重要性1.1为什么需要容器监控1.2容器监控与传统监控的区别1.3核心监控指标分类二、SpringBoot与Docker监控基础集成2.1SpringBootActuator基础配置2.2基础Docker监控配置2.3监控数据可视化基础三、高级监控方案实现3.1多维度JVM监控3.2自定义业务指标3.3容器资源限制与监控四、全链路监控方案4.1集成Prometheus
SpringBoot 与 JPA 整合全解析：架构优势、应用场景、集成指南与最佳实践 hdsoft_huge SpringBoot教程 spring boot 架构 java
文章目录一、SpringBoot与JPA技术概述1.1SpringBoot核心特性1.2JPA核心价值二、SpringBoot+JPA架构优势2.1开发效率提升2.2代码可维护性增强2.3测试便利性2.4生产就绪特性三、SpringBoot+JPA适用场景3.1企业级应用开发3.2RESTfulAPI开发3.3微服务架构3.4数据密集型应用四、SpringBoot与JPA集成步骤4.1项目初始化4
如何通过YashanDB数据库保障数据合规性数据库
存储和管理数据的合规性是现代业务面临的重大挑战。特别是在数据隐私和安全方面，企业必须遵循严格的法律、法规和行业标准。数据合规性不仅涉及数据存储和访问的安全性，还包括对数据的监控、审计和管理。YashanDB作为一款高度可定制的数据库解决方案，具备多种内置特性，可以有效帮助企业保障数据合规性。核心技术点解析数据加密YashanDB支持表空间级和表级的透明数据加密(TDE)，这一机制在数据写入存储介质
Cursor 使用教程：自定义AI规则引擎-贴合企业规范的代码生成程序员岳彬全栈开发人工智能开发语言 AI编程后端 java ai
文章目录一、引言二、CursorAI核心功能与入门实践2.1快速上手：生成基础代码结构2.2规则引擎配置：统一企业开发规范三、自定义规则引擎核心技术解析3.1领域特定语言（DSL）设计3.2MyBatis-PlusCRUD规则实现3.2.1实体类生成规则3.2.2Mapper接口生成规则3.3异常处理规则设计3.3.1全局异常处理器生成3.3.2业务异常重试规则四、企业级实践：MyBatis-Pl
Java 与 MySQL 性能优化：MySQL连接池参数优化与性能提升程序员岳彬 Java 与 MySQL 性能优化 mysql 数据库性能优化服务器后端 java
文章目录引言一、连接池的基本概念与作用二、关键连接参数详解2.1max_connections2.2wait_timeout2.3interactive_timeout2.4connect_timeout2.5thread_cache_size三、连接池参数不合理导致的性能问题3.1连接耗尽3.2响应变慢3.3连接失效3.4资源浪费四、连接池参数优化方法与策略4.1max_connections的
【Zephyr开发实践系列】06_存储块设备驱动开发（Nand Flash） jz-炸芯片的zero Zephyr实践开发驱动开发单片机嵌入式硬件 linux iot mcu 物联网
文章目录前言一、Flash驱动模型介绍1.1核心基础应用API（必须）1.2高级功能应用API（可选）1.3设置数据结构1.4硬件初始化1.5设备实例化二、数据结构定义2.1获取Flash块与页大小三、核心API函数实现3.1擦除函数3.2读取函数3.3写入函数4.4layout函数4.5坏区检测函数总结前言在嵌入式系统中，常见的Flash存储模块根据接口类型和用途可分为NOR、NAND、EMMC
【行为型模式】责任链模式陈宝子设计模式 java 设计模式责任链模式
文章目录1、简介2、结构3、实现方式3.1、案例引入3.2、结构分析3.3、具体实现4、责任链优缺点5、应用场景1、简介责任链模式(ChainofResponsibility)是一种行为型设计模式，它允许对象在链上依次处理请求，用户只需要将请求发送到责任链上即可，无须关心请求的处理细节和请求的传递,从而避免了请求发送者和接收者之间的直接耦合。具体来说，当一个请求进入责任链时，每个对象都有机会对该请
单稳态触发器Multisim电路仿真——硬件工程师笔记逼子歌单片机语音识别嵌入式硬件硬件工程师真题硬件工程师硬件工程触发器
目录1单稳态触发器基础知识1.1工作原理1.2电路结构1.3特点1.4应用1.5设计考虑1.6总结2555定时器实现的单稳态触发器2.1电路配置2.2工作原理2.3特点2.4应用2.5设计考虑2.6总结3反相器和与非门实现积分型单稳态触发器3.1电路结构3.2工作原理3.3特点3.4应用3.5设计考虑3.6总结4反相器和与非门实现微分型单稳态触发器4.1电路结构4.2工作原理4.3特点4.4应用4
完整解读YashanDB数据库的架构与设计理念数据库
在当今数据驱动的世界中，数据库技术的挑战愈发明显。扩展性不足、性能瓶颈、数据一致性和高可用性需求等问题，成为企业IT架构面临的重要考验。为了应对这些挑战，许多数据库系统采用了创新的设计理念和架构，以提供高效、稳健的解决方案。YashanDB作为一款现代数据库，凭借其完善的体系架构与设计思路，为用户提供了高效的数据存储与管理能力。本文旨在深入探讨YashanDB的体系架构及其设计理念，帮助技术人员和
通过YashanDB提升大数据处理能力的指南数据库
数据的急剧增长给数据库技术领域带来了诸多挑战，包括性能瓶颈、数据一致性问题及处理效率低下等。为了应对这些挑战，企业需采取有效的技术手段来提升大数据处理能力。YashanDB作为一款高性能的数据库产品，通过其先进的体系架构、优化的数据存储形式以及强大的并发控制能力，有效地提升了大数据环境下的处理性能。本文旨在为技术人员和决策者提供深入的技术分析和可操作的建议，通过YashanDB的功能特性来实现大数
vue3+js+element plus 合并table表格还是没有昵称叭 javascript vue.js 前端
mergeColumns数组：这个数组列出了需要合并的列的属性名。只有这些列会被考虑进行合并。spanMethod函数：这个函数是el-table组件的span-method属性的回调函数，用于控制表格中单元格的合并。参数：row:当前行的数据对象。column:当前列的数据对象。rowIndex:当前行的索引。columnIndex:当前列的索引。逻辑：首先检查当前列的property是否在me
Ceph集群管理实战 wespten OpenStack vSphere 虚拟化云平台 SDN 数据库存储块存储文件存储对象存储分布式网络存储 linux 运维服务器
配置完Ceph集群后，我们即可对Ceph集群进行数据存储。在后续使用过程中，Ceph提供了常用的命令对Ceph集群进行必要的运维。常见的集群状态查看、磁盘使用率查看、添加磁盘、删除坏盘等操作。详情可参考：WelcometoCeph—CephDocumentation1、Ceph的常用命令本节给出的Ceph常用命令可以作为最基本的集群运维命令。1）查看集群状态命令。[root@installer~]
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS