DataFlow范式

Delta Lake - 数据写入的旅程

在《Delta Lake 事务日志实现的源码剖析》文章中，我们已经从源码层面大致熟悉了 Delta Lake 事务日志的实现过程。

最近不少读者反馈，希望笔者从 Delta Lake 增删改等方面展开深入研究。其实这也是笔者正在研究的方向，总体上都已经过了一遍。那么，在本篇文章中，笔者将从数据写入开始，因为这也是真正踏入 Delta Lake 世界的第一步。

回顾 Quickstart

以 Scala 编程语言举例，实现批量写和实时流写入：

批量写：


     
     
     
     
      
      
      
      val data = spark.range(0, 5)
      
      
      
      data.write.format("delta").save("/tmp/delta-table")

实时流式数据写入：


     
     
     
     
      
      
      
      val streamingDf = spark.readStream.format("rate").load()
      
      
      
      val stream = streamingDf.select($"value"as"id").writeStream.format("delta").option("checkpointLocation", "/tmp/checkpoint").start("/tmp/delta-table")

这里只是带着大家回顾一下，详细的内容请回顾之前的文章《Delta Lake - 数据湖的开放标准》，里面有关于上面两种数据写入方式的实战案例，同时也是为了更好地理解本篇文章的内容。

数据写入旅程

因为 Delte Lake 是完全兼容 Apache Spark API，所以可以非常容易地以 The Spark Way 进行数据写入。

笔者一般会把一个问题自始至终讲清楚，也是方便大家读有所学，学而思之。笔者不会贴一堆无头无脑的源码，那么大家看了半天都不知道到底是什么鬼东西。

1. 初始化

当我们开始使用 Delta Lake 时，如果使用命令行方式，是不是会执行如下代码：


     
     
     
     
      
      
      
      spark-shell --packages io.delta:delta-core_2.11:0.4.0
      
      
      
      ...
      
      
      
      scala> val data = spark.range(0, 5)
      
      
      
      data: org.apache.spark.sql.Dataset[Long] = [id: bigint]
      
      
      
      
      
      
      
      scala> data.write.format("delta").save("/user/deltalake/dcoe/delta-table")

只是启动 spark-shell 客户端，为啥这里可以使用 delta 存储格式呢？

因为指定了--package了，指定了就可以使用 delta 吗？

我们知道 Delta Lake 是开源的存储引擎层，与 Spark 支持的其他存储引擎一样，比如 parqet，sequence等， Delta Lake 实现了 delta 存储格式。

其实如果对 Spark 比较熟悉的读者应该知道，Spark 定义一个 trait，如下：org.apache.spark.sql.sources.DataSourceRegister


     
     
     
     
      
      
      
      trait DataSourceRegister{
      
      
      
      
      
      
      
      /**
      
      
      
       * The string that represents the format that this data source provider uses. This is
      
      
      
       * overridden by children to provide a nice alias for the data source. For example:
      
      
      
       *
      
      
      
       * {{{
      
      
      
       * override def shortName(): String = "parquet"
      
      
      
       * }}}
      
      
      
       *
      
      
      
       * @since 1.5.0
      
      
      
       */
      
      
      
      def shortName(): String
      
      
      
      }

数据源需要实现此 trait，以便可以向其数据源注册一个别名（比如 delta ），允许用户将数据源别名作为完全类名的格式类型。这个类的一个新实例将在每次 DDL 调用时被实例化，这样才可以在上面的命令行中使用。另外 Delta Lake 还实现 Spark 的批量以及流式数据写入等接口，这部分内容我们不细说，因为涉及到 Spark 很多内容，三言两语很难说清楚，以后如果有必要会单独介绍 Spark 实现的各种存储格式。

Scala trait：

简单说明：Scala 的 trait 和 Java 的 interface 类似，在 Scala 中类继承 trait，必须实现其中的抽象方法，不支持多继承类，支持多继承 trait，使用 with 关键字。

2. 数据写入的入口

看一下 Delta Lake 的代码结构，因为数据写入涉及数据源，所以不妨来看一下 org.apache.spark.sql.delta.sources 包下面的代码。

读者还是将代码都打开，点点看，看看注释，看看代码层次。


     
     
     
     
      
      
      
      data.write.format("delta").save("/user/deltalake/dcoe/delta-table")

当我们执行上面的代码时，底层到底调用什么呢？

可能细心的读者打开 DeltaDataSource 类时发现一丝线索：


     
     
     
     
      
      
      
      class DeltaDataSource
      
      
      
       extends RelationProvider
      
      
      
       with StreamSourceProvider
      
      
      
       with StreamSinkProvider
      
      
      
       with CreatableRelationProvider
      
      
      
       with DataSourceRegister
      
      
      
       with DeltaLogging {
      
      
      
      ...
      
      
      
      }

其实执行 data.write.format("delta").save("/user/deltalake/dcoe/delta-table") 时，调用了 DeltaDataSource 类，而 Delta Lake 使用 Spark DataSource V1 版本的 API 实现的一种新的数据源，用于将 Delta 集成到 Spark SQL 批处理和流式 API，是不是可以和文章刚开始的问题联系上。

从 DeltaDataSource 的实现上来看，实现了 Delta Lake 批量数据写入和流式数据写入。这里可以简单看几个 Spark 定义的 trait，接口定义的非常清晰明了。比如 StreamSourceProvider：


     
     
     
     
      
      
      
      /**
      
      
      
       * ::Experimental::
      
      
      
       * Implemented by objects that can produce a streaming `Source` for a specific format or system.
      
      
      
       *
      
      
      
       * @since 2.0.0
      
      
      
       */
      
      
      
      @Experimental
      
      
      
      @InterfaceStability.Unstable
      
      
      
      trait StreamSourceProvider {
      
      
      
      
      
      
      
      /**
      
      
      
       * Returns the name and schema of the source that can be used to continually read data.
      
      
      
       * @since 2.0.0
      
      
      
       */
      
      
      
      def sourceSchema(
      
      
      
       sqlContext: SQLContext,
      
      
      
       schema: Option[StructType],
      
      
      
       providerName: String,
      
      
      
       parameters: Map[String, String]): (String, StructType)
      
      
      
      
      
      
      
      /**
      
      
      
       * @since 2.0.0
      
      
      
       */
      
      
      
      def createSource(
      
      
      
       sqlContext: SQLContext,
      
      
      
       metadataPath: String,
      
      
      
       schema: Option[StructType],
      
      
      
       providerName: String,
      
      
      
       parameters: Map[String, String]): Source
      
      
      
      }

该功能在 Spark 2.4.2 版本中还是一个实验性质。

再来看一个 trait 为 CreatableRelationProvider：


     
     
     
     
      
      
      
      trait CreatableRelationProvider {
      
      
      
      def createRelation(
      
      
      
       sqlContext: SQLContext,
      
      
      
       mode: SaveMode,
      
      
      
       parameters: Map[String, String],
      
      
      
       data: DataFrame): BaseRelation
      
      
      
      }

这个 trait 定义的方法 createRelation，功能是保存 DataFrame 到指定的路径，路径具体是在 parameters 参数中定义，其实就是批量数据写操作。

由此，DeltaDataSource 实现了批量数据写和流式数据写操作。由于流式数据写目前版本还是实验功能，笔者暂时不进行深入讲解。

不知道到这里，大家有没有发现什么？

对，DeltaDataSource 也实现了 DataSourceRegister。

3. Delta Lake 批量数据写入

通过上面的分析，我们知道 Delta Lake 的入口类 DeltaDataSource 实现了 CreatableRelationProvider 批量数据写入的操作。那我们来看一下具体实现哪些内容。

CreatableRelationProvider 接口其实只定义了一个方法 createRelation，看一下实现代码，笔者就直接在代码上面简单注释，具体细节在代码下方单独说明：org.apache.spark.sql.delta.sources.DeltaDataSource


     
     
     
     
      
      
      
      override def createRelation(
      
      
      
       sqlContext: SQLContext,
      
      
      
       mode: SaveMode,
      
      
      
       parameters: Map[String, String],
      
      
      
       data: DataFrame): BaseRelation= {
      
      
      
       // 获取数据写入的路径，路径不存在抛出 "'path' is not specified"
      
      
      
       val path = parameters.getOrElse("path", {
      
      
      
       throw DeltaErrors.pathNotSpecifiedException
      
      
      
       })
      
      
      
      
      
      
      
       // 获取分区字段
      
      
      
       val partitionColumns = parameters.get(DeltaSourceUtils.PARTITIONING_COLUMNS_KEY)
      
      
      
       .map(DeltaDataSource.decodePartitioningColumns)
      
      
      
       .getOrElse(Nil)
      
      
      
      
      
      
      
       // 用于数据存储在根目录时创建事务日志
      
      
      
       val deltaLog = DeltaLog.forTable(sqlContext.sparkSession, path)
      
      
      
      
      
      
      
       // 开始写数据到 Delta，WriteIntoDelta 这个方法非常重要
      
      
      
       WriteIntoDelta(
      
      
      
       deltaLog = deltaLog,
      
      
      
       mode = mode,
      
      
      
       new DeltaOptions(parameters, sqlContext.sparkSession.sessionState.conf),
      
      
      
       partitionColumns = partitionColumns,
      
      
      
       configuration = Map.empty,
      
      
      
       data = data).run(sqlContext.sparkSession)
      
      
      
      
      
      
      
       // 该 Relation 包含表中存在的所有数据，随着在表中添加或删除文件，此 Relation 将不断更新
      
      
      
       deltaLog.createRelation()
      
      
      
      }

createRelation 方法中传入如下几个参数：

1. sqlContext
Spark SQLContext 实例，不多说。
2. mode 指定保存数据的模式
Delta Lake 支持如下几种方式：


     
     
     
     
      
      
      
      public enum SaveMode {
      
      
      
       Append,
      
      
      
       Overwrite,
      
      
      
       ErrorIfExists,
      
      
      
       Ignore
      
      
      
      }

3. parameters
一个 Map，可以传入多个参数，一般有数据存储的路径、分区字段以及一些 Schema 变更方式。具体参数类型可以查看 DeltaOptions 中的定义。
4. data
实际存储的数据。

createRelation 方法的操作步骤如下：

1. 获取数据存储路径
2. 获取分区字段
3. deltaLog 初始化操作，这部分涉及内容比较多，接下来详细说明

forTable 方法如下：


     
     
     
     
      
      
      
      def forTable(spark: SparkSession, dataPath: String): DeltaLog= {
      
      
      
       apply(spark, new Path(dataPath, "_delta_log"), new SystemClock)
      
      
      
      }

具体看一下 apply 方法：


     
     
     
     
      
      
      
      def apply(spark: SparkSession, rawPath: Path, clock: Clock= new SystemClock): DeltaLog = {
      
      
      
       val hadoopConf = spark.sessionState.newHadoopConf()
      
      
      
       val fs = rawPath.getFileSystem(hadoopConf)
      
      
      
       val path = fs.makeQualified(rawPath)
      
      
      
      
      
      
      
       val cached = try {
      
      
      
       deltaLogCache.get(path, new Callable[DeltaLog] {
      
      
      
       override def call(): DeltaLog= recordDeltaOperation(
      
      
      
       null, "delta.log.create", Map(TAG_TAHOE_PATH -> path.getParent.toString)) {
      
      
      
       AnalysisHelper.allowInvokingTransformsInAnalyzer {
      
      
      
       new DeltaLog(path, path.getParent, clock)
      
      
      
       }
      
      
      
       }
      
      
      
       })
      
      
      
       } catch {
      
      
      
       case e: com.google.common.util.concurrent.UncheckedExecutionException=>
      
      
      
       throw e.getCause
      
      
      
       }
      
      
      
      
      
      
      
       if(cached.snapshot.version == -1|| cached.isValid()) {
      
      
      
       cached
      
      
      
       } else {
      
      
      
       deltaLogCache.invalidate(path)
      
      
      
       apply(spark, path)
      
      
      
       }
      
      
      
      }

deltaLog 实例化过程中，读取所有的事务日志（存储在deltalog目录下），构建最新事务日志的最新快照，获取到最新数据的版本。笔者在以前的文章中介绍 deltaLog 初始化过程时，成本较高。所以 deltaLog 实例化后就会被缓存到 deltaLogCache 中，如下实现：


     
     
     
     
      
      
      
      /**
      
      
      
       * We create only a single [[DeltaLog]] for any given path to avoid wasted work
      
      
      
       * in reconstructing the log.
      
      
      
       */
      
      
      
      private val deltaLogCache = {
      
      
      
       val builder = CacheBuilder.newBuilder()
      
      
      
       .expireAfterAccess(60, TimeUnit.MINUTES)
      
      
      
       .removalListener(new RemovalListener[Path, DeltaLog] {
      
      
      
       override def onRemoval(removalNotification: RemovalNotification[Path, DeltaLog]) = {
      
      
      
       val log = removalNotification.getValue
      
      
      
       try log.snapshot.uncache() catch {
      
      
      
       case _: java.lang.NullPointerException=>
      
      
      
       // Various layers will throw null pointer if the RDD is already gone.
      
      
      
       }
      
      
      
       }
      
      
      
       })
      
      
      
       sys.props.get("delta.log.cacheSize")
      
      
      
       .flatMap(v => Try(v.toLong).toOption)
      
      
      
       .foreach(builder.maximumSize)
      
      
      
       builder.build[Path, DeltaLog]()
      
      
      
      }

看源码就会发现，缓存是使用 Guava 的 CacheBuilder 类实现。代码设置了 expireAfterAccess(60,TimeUnit.MINUTES)，即缓存有效期为60分钟，缓存大小可以通过 delta.log.cacheSize 参数进行设置。 deltaLogCache.get 根据数据的路径判断，如果数据路径一致，就可以直接从之前缓存的 deltaLog 中获取。如果之前缓存的 deltaLog 由于过期或无效被清理，就需要再次初始化。

4. WriteIntoDelta 初始化操作


     
     
     
     
      
      
      
      case class WriteIntoDelta(
      
      
      
       deltaLog: DeltaLog,
      
      
      
       mode: SaveMode,
      
      
      
       options: DeltaOptions,
      
      
      
       partitionColumns: Seq[String],
      
      
      
       configuration: Map[String, String],
      
      
      
       data: DataFrame)
      
      
      
       extends RunnableCommand
      
      
      
       with ImplicitMetadataOperation
      
      
      
       with DeltaCommand{
      
      
      
       ...
      
      
      
      }

WriteIntoDelta 扩展 RunnableCommand trait。WriteIntoDelta 用于将 DataFrame 写入 Delta 表。针对表的类型，定义不同语义操作：


     
     
     
     
      
      
      
      1. 新表语义
      
      
      
        - 使用 DataFrame 的 schema 初始化表。
      
      
      
        - 分区列将用于对表进行分区。
      
      
      
      
      
      
      
      2. 现有表语义
      
      
      
       - SaveMode 将控制如何处理现有数据（overwrite、append等）。
      
      
      
       - 检查 DataFrame 的 schema，如果存在新列，则将它们添加到表的 schema 中；
      
      
      
       如果存在冲突的列（比如 INT 和 STRING 类型）将会导致抛出异常。
      
      
      
       - 分区列（如果存在）将根据现有元数据进行验证。如果不存在，那么将考虑表的分区。

可以看出，Delta Lake 中表的更新、删除等都会涉及这个类。

然后调用 run 方法，执行数据写入操作。WriteIntoDelta 的 run 方法实现如下：


     
     
     
     
      
      
      
      override def run(sparkSession: SparkSession): Seq[Row] = {
      
      
      
       deltaLog.withNewTransaction { txn =>
      
      
      
       val actions = write(txn, sparkSession)
      
      
      
       val operation = DeltaOperations.Write(mode, Option(partitionColumns), options.replaceWhere)
      
      
      
       txn.commit(actions, operation)
      
      
      
       }
      
      
      
       Seq.empty
      
      
      
      }

deltaLog.withNewTransaction 开启一个事务，Delta Lake 数据写入需要在事务中操作。既然这里涉及到事务，我们就先阅读一下代码，以后再深度分析，withNewTransaction 实现如下：


     
     
     
     
      
      
      
      /**
      
      
      
       * Execute a piece of code within a new [[OptimisticTransaction]]. Reads/write sets will
      
      
      
       * be recorded for this table, and all other tables will be read
      
      
      
       * at a snapshot that is pinned on the first access.
      
      
      
       *
      
      
      
       * @note This uses thread-local variable to make the active transaction visible. So do not use
      
      
      
       * multi-threaded code in the provided thunk.
      
      
      
       */
      
      
      
      def withNewTransaction[T](thunk: OptimisticTransaction=> T): T = {
      
      
      
       try {
      
      
      
       update()
      
      
      
       val txn = new OptimisticTransaction(this)
      
      
      
       OptimisticTransaction.setActive(txn)
      
      
      
       thunk(txn)
      
      
      
       } finally {
      
      
      
       OptimisticTransaction.clearActive()
      
      
      
       }
      
      
      
      }

大致分几个步骤：

1. update()
通过应用新的 delta 文件（如果有）来更新 ActionLog。在开启事务前，需要更新当前表事务的快照，因为在执行写数据之前，该包可能已经被修改。因此执行 update 操作之后，就可以拿到当前表的最新版本。
2. new OptimisticTransaction(this)
获取表的最新版本后，就可以初始化乐观事务锁对象。
3. OptimisticTransaction.setActive(txn)
紧接着，激活并开启事务。
4. thunk(txn)
thunk: OptimisticTransaction
事务下操作，具体实现在 deltaLog.withNewTransaction{txn=>...}

我们继续看 WriteIntoDelta 的 run 方法的代码：


     
     
     
     
      
      
      
      deltaLog.withNewTransaction { txn =>
      
      
      
       val actions = write(txn, sparkSession)
      
      
      
       val operation = DeltaOperations.Write(mode, Option(partitionColumns), options.replaceWhere)
      
      
      
       txn.commit(actions, operation)
      
      
      
      }

这里就是执行数据写入的操作，write 方法就是核心方法，代码有点多，仔细看看，还是有所收获的，至少比 Java 代码实现简洁很多。由于代码比较多，注解就直接写在源码中了，方便查看：


     
     
     
     
      
      
      
      def write(txn: OptimisticTransaction, sparkSession: SparkSession): Seq[Action] = {
      
      
      
       import sparkSession.implicits._
      
      
      
       // 如果表未被初始化或 commit 时间戳未知等情况，那么 version = -1
      
      
      
       // 如果表存在，判断 insert 的模式是否符合条件
      
      
      
       if (txn.readVersion > -1) {
      
      
      
       // This table already exists, check if the insert is valid.
      
      
      
       // 数据存在时，抛出异常
      
      
      
       if (mode == SaveMode.ErrorIfExists) {
      
      
      
       throw DeltaErrors.pathAlreadyExistsException(deltaLog.dataPath)
      
      
      
       } else if (mode == SaveMode.Ignore) {
      
      
      
       // 数据存在时，忽略，不变更
      
      
      
       return Nil
      
      
      
       } else if (mode == SaveMode.Overwrite) {
      
      
      
       // 数据存在时，覆盖
      
      
      
       deltaLog.assertRemovable()
      
      
      
       }
      
      
      
       }
      
      
      
      
      
      
      
       // 更新表的元数据，包括是否覆盖操作或 Schema 的变更操作等
      
      
      
       updateMetadata(txn, data, partitionColumns, configuration, isOverwriteOperation)
      
      
      
      
      
      
      
       // Validate partition predicates
      
      
      
       // 写数据的时候可能会指定某个分区进行覆盖
      
      
      
       val replaceWhere = options.replaceWhere
      
      
      
       // 判断是否定义分区过滤条件
      
      
      
       val partitionFilters = if (replaceWhere.isDefined) {
      
      
      
       val predicates = parsePartitionPredicates(sparkSession, replaceWhere.get)
      
      
      
       if (mode == SaveMode.Overwrite) {
      
      
      
       verifyPartitionPredicates(
      
      
      
       sparkSession, txn.metadata.partitionColumns, predicates)
      
      
      
       }
      
      
      
       Some(predicates)
      
      
      
       } else {
      
      
      
       None
      
      
      
       }
      
      
      
      
      
      
      
       // 首次数据写入时，需要创建事务日志的目录
      
      
      
       if (txn.readVersion < 0) {
      
      
      
       // Initialize the log path
      
      
      
       deltaLog.fs.mkdirs(deltaLog.logPath)
      
      
      
       }
      
      
      
      
      
      
      
       // 初次写入数据，将数据写入到存储目录中
      
      
      
       // 数据写入操作成功后，获取新增的文件列表 AddFile
      
      
      
       val newFiles = txn.writeFiles(data, Some(options))
      
      
      
       // 数据写入成功后，获取需要删除的文件 RemoveFile
      
      
      
       val deletedFiles = (mode, partitionFilters) match {
      
      
      
       case (SaveMode.Overwrite, None) =>
      
      
      
       // 逻辑标记删除
      
      
      
       txn.filterFiles().map(_.remove)
      
      
      
       case (SaveMode.Overwrite, Some(predicates)) =>
      
      
      
       // 检查以确保我们写出的文件确实有效
      
      
      
       val matchingFiles = DeltaLog.filterFileList(
      
      
      
       txn.metadata.partitionColumns, newFiles.toDF(), predicates).as[AddFile].collect()
      
      
      
       val invalidFiles = newFiles.toSet -- matchingFiles
      
      
      
       if (invalidFiles.nonEmpty) {
      
      
      
       val badPartitions = invalidFiles
      
      
      
       .map(_.partitionValues)
      
      
      
       .map { _.map { case(k, v) => s"$k=$v"}.mkString("/") }
      
      
      
       .mkString(", ")
      
      
      
       throw DeltaErrors.replaceWhereMismatchException(replaceWhere.get, badPartitions)
      
      
      
       }
      
      
      
      
      
      
      
       txn.filterFiles(predicates).map(_.remove)
      
      
      
       case _ => Nil
      
      
      
       }
      
      
      
      
      
      
      
       newFiles ++ deletedFiles
      
      
      
      }

上面代码多次对 txn.readVersion 进行判断，这是从 snapshot 中获取的版本号，用于判断表是否第一次写入数据，实现源代码：


     
     
     
     
      
      
      
      /**
      
      
      
       * An initial snapshot with only metadata specified. Useful for creating a DataFrame from an
      
      
      
       * existing parquet table during its conversion to delta.
      
      
      
       * @param logPath the path to transaction log
      
      
      
       * @param deltaLog the delta log object
      
      
      
       * @param metadata the metadata of the table
      
      
      
       */
      
      
      
      class InitialSnapshot(
      
      
      
       val logPath: Path,
      
      
      
       override val deltaLog: DeltaLog,
      
      
      
       override val metadata: Metadata)
      
      
      
       extends Snapshot(logPath, -1, None, Nil, -1, deltaLog, -1)

如果 version = -1，表明第一次写数据到 Delta 表。

另外， val newFiles=txn.writeFiles(data,Some(options))是最终通过 Spark 把数据写入 Delta 表中，都是事务操作，具体操作如下：org.apache.spark.sql.delta.files.TransactionalWrite


     
     
     
     
      
      
      
      /**
      
      
      
       * Writes out the dataframe after performing schema validation. Returns a list of
      
      
      
       * actions to append these files to the reservoir.
      
      
      
       */
      
      
      
      def writeFiles(
      
      
      
       data: Dataset[_],
      
      
      
       writeOptions: Option[DeltaOptions],
      
      
      
       isOptimize: Boolean): Seq[AddFile] = {
      
      
      
       hasWritten = true
      
      
      
      
      
      
      
       // SparkSession
      
      
      
       val spark = data.sparkSession
      
      
      
       // 分区 schema
      
      
      
       val partitionSchema = metadata.partitionSchema
      
      
      
       // 写入数据的路径
      
      
      
       val outputPath = deltaLog.dataPath
      
      
      
      
      
      
      
       // 规范化 Schema，并返回需要被执行的 QueryExecution
      
      
      
       val (queryExecution, output) = normalizeData(data, metadata.partitionColumns)
      
      
      
       val partitioningColumns =
      
      
      
       getPartitioningColumns(partitionSchema, output, output.length < data.schema.size)
      
      
      
      
      
      
      
       // new DelayedCommitProtocol("delta", outputPath.toString, None)
      
      
      
       // 将文件写到`path`并在`addedStatuses`中返回它们的列表。
      
      
      
       val committer = getCommitter(outputPath)
      
      
      
      
      
      
      
       // 可以在 Delta 表上定义的不变量列表，这样在对表进行更改时可以执行验证检查，以确保 data hygiene（数据卫生），笔者简单理解为数据质量，应用一些规则，比如字段不为 null
      
      
      
       // 如果遇到不识别的，可能和 Spark 版本不匹配，升级 Spark 版本
      
      
      
       val invariants = Invariants.getFromSchema(metadata.schema, spark)
      
      
      
      
      
      
      
       // New ExecutionId，用于执行计划
      
      
      
       SQLExecution.withNewExecutionId(spark, queryExecution) {
      
      
      
       val outputSpec = FileFormatWriter.OutputSpec(
      
      
      
       outputPath.toString,
      
      
      
       Map.empty,
      
      
      
       output)
      
      
      
      
      
      
      
       // 生成物理计划
      
      
      
       val physicalPlan = DeltaInvariantCheckerExec(queryExecution.executedPlan, invariants)
      
      
      
      
      
      
      
       // 调用 write，将数据写入 Delta 表
      
      
      
       FileFormatWriter.write(
      
      
      
       sparkSession = spark,
      
      
      
       plan = physicalPlan,
      
      
      
       fileFormat = snapshot.fileFormat, // TODO doesn't support changing formats.
      
      
      
       committer = committer,
      
      
      
       outputSpec = outputSpec,
      
      
      
       hadoopConf = spark.sessionState.newHadoopConfWithOptions(metadata.configuration),
      
      
      
       partitionColumns = partitioningColumns,
      
      
      
       bucketSpec = None,
      
      
      
       statsTrackers = Nil,
      
      
      
       options = Map.empty)
      
      
      
       }
      
      
      
      
      
      
      
       // addedStatuses = new ArrayBuffer[AddFile]
      
      
      
       // 添加新增文件到 AddFile case class 中并返回
      
      
      
       committer.addedStatuses
      
      
      
      }

不知道大家还记不记得，我们之前在实战中，查看过 AddFile 记录相关的信息，它们都存储在事务日志里面，笔者带领大家再来看一下：


     
     
     
     
      
      
      
      $ hdfs dfs -cat /delta/mydelta.db/user_info/_delta_log/00000000000000000000.json
      
      
      
      
      
      
      
      {"commitInfo":{"timestamp":1571824795230,"operation":"WRITE","operationParameters":{"mode":"ErrorIfExists","partitionBy":"[]"},"isBlindAppend":true}}
      
      
      
      {"protocol":{"minReaderVersion":1,"minWriterVersion":2}}
      
      
      
      {"metaData":{"id":"44f7e591-cc4c-4121-b0f2-53fb41bf92ec","format":{"provider":"parquet","options":{}},"schemaString":"{\"type\":\"struct\",\"fields\":[{\"name\":\"uid\",\"type\":\"string\",\"nullable\":true,\"metadata\":{}},{\"name\":\"name\",\"type\":\"string\",\"nullable\":true,\"metadata\":{}},{\"name\":\"age\",\"type\":\"string\",\"nullable\":true,\"metadata\":{}}]}","partitionColumns":[],"configuration":{},"createdTime":1571824794341}}
      
      
      
      {"add":{"path":"part-00000-f504c7cc-7599-4253-8265-5767b86fe133-c000.snappy.parquet","partitionValues":{},"size":797,"modificationTime":1571824795183,"dataChange":true}}

其中 add 部分的 json 格式的内容就是 AddFile 记录的内容，包括新增文件的路径，分区值，文件大小等。

那么如果针对 remove 操作呢，其实也是有对应的事务记录日志，以后文章再说。

再回到 WriteIntoDelta.write方法：


     
     
     
     
      
      
      
      val newFiles = txn.writeFiles(data, Some(options))
      
      
      
      val deletedFiles = (mode, partitionFilters) match {
      
      
      
       case (SaveMode.Overwrite, None) =>
      
      
      
       txn.filterFiles().map(_.remove)
      
      
      
       case (SaveMode.Overwrite, Some(predicates)) =>
      
      
      
       // Check to make sure the files we wrote out were actually valid.
      
      
      
       val matchingFiles = DeltaLog.filterFileList(
      
      
      
       txn.metadata.partitionColumns, newFiles.toDF(), predicates).as[AddFile].collect()
      
      
      
       val invalidFiles = newFiles.toSet -- matchingFiles
      
      
      
       if (invalidFiles.nonEmpty) {
      
      
      
       val badPartitions = invalidFiles
      
      
      
       .map(_.partitionValues)
      
      
      
       .map { _.map { case(k, v) => s"$k=$v"}.mkString("/") }
      
      
      
       .mkString(", ")
      
      
      
       throw DeltaErrors.replaceWhereMismatchException(replaceWhere.get, badPartitions)
      
      
      
       }
      
      
      
      
      
      
      
       txn.filterFiles(predicates).map(_.remove)
      
      
      
       case _ => Nil
      
      
      
      }
      
      
      
      
      
      
      
      newFiles ++ deletedFiles

数据写入成功后，我们可以发现 write 方法最后返回的值为：


     
     
     
     
      
      
      
      newFiles ++ deletedFiles

即返回新增的文件和需要删除的文件，并全部记录到 Delta 事务日志中，刚才笔者也查看了对应的事务日志内容。

总结

笔者从源码层面分析了 Delta Lake 批量数据写入的整个流程，大部分内容都详细地进行了解说，大家可以根据源码进行查看，加深印象。对于 Delta Lake 流式数据写入，笔者暂未更新，以后再续。

你可能感兴趣的:(Delta Lake - 数据写入的旅程)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite