菜鸟蜀黍

【Hudi】数据湖（四）：Hudi与Spark整合

Hudi与Spark整合

一、向Hudi插入数据

默认Spark操作Hudi使用表类型为Copy On Write模式。Hudi与Spark整合时有很多参数配置，可以参照https://hudi.apache.org/docs/configurations.html配置项来查询，此外，整合时有几个需要注意的点，如下:

Hudi这里使用的是0.8.0版本，其对应使用的Spark版本是2.4.3+版本
Spark2.4.8使用的Scala版本是2.12版本，虽然2.11也是支持的，建议使用2.12。
maven导入包中需要保证httpclient、httpcore版本与集群中的Hadoop使用的版本一致，不然会导致通信有问题。检查Hadoop使用以上两个包的版本路径为：$HADOOP_HOME/share/hadoop/common/lib。
在编写代码过程中，指定数据写入到HDFS路径时直接写“/xxdir”不要写“hdfs://mycluster/xxdir”,后期会报错“java.lang.IllegalArgumentException: Not in marker dir. Marker Path=hdfs://mycluster/hudi_data/.hoodie.temp/2022xxxxxxxxxx/default/c4b854e7-51d3-4a14-9b7e-54e2e88a9701-0_0-22-22_20220509164730.parquet.marker.CREATE, Expected Marker Root=/hudi_data/.hoodie/.temp/2022xxxxxxxxxx”,可以将对应的hdfs-site.xml、core-site.xml放在resources目录下，直接会找HDFS路径。

1、创建项目，修改pom.xml为如下内容

<properties>
  <project.build.sourceEncoding>UTF-8project.build.sourceEncoding>
  <scala.version>2.12.14scala.version>
  <spark.version>2.4.8spark.version>
properties>

<dependencies>
  
  <dependency>
    <groupId>org.scala-langgroupId>
    <artifactId>scala-libraryartifactId>
    <version>${scala.version}version>
  dependency>
  
  <dependency>
      <groupId>org.apache.httpcomponentsgroupId>
      <artifactId>httpclientartifactId>
      <version>4.5.2version>
  dependency>
  
  <dependency>
      <groupId>org.apache.httpcomponentsgroupId>
      <artifactId>httpcoreartifactId>
      <version>4.4.4version>
  dependency>
  
  <dependency>
    <groupId>org.apache.sparkgroupId>
    <artifactId>spark-core_2.12artifactId>
    <version>${spark.version}version>
    <exclusions>
      <exclusion>
        <groupId>org.apache.httpcomponentsgroupId>
        <artifactId>httpclientartifactId>
      exclusion>
      <exclusion>
          <groupId>org.apache.httpcomponentsgroupId>
          <artifactId>httpcoreartifactId>
      exclusion>
    exclusions>
  dependency>

  <dependency>
    <groupId>org.apache.sparkgroupId>
    <artifactId>spark-sql_2.12artifactId>
    <version>${spark.version}version>
  dependency>

  <dependency>
    <groupId>org.apache.sparkgroupId>
    <artifactId>spark-avro_2.12artifactId>
    <version>${spark.version}version>
  dependency>

  
  <dependency>
    <groupId>org.apache.sparkgroupId>
    <artifactId>spark-hive_2.12artifactId>
    <version>${spark.version}version>
  dependency>

  
  <dependency>
    <groupId>org.apache.hivegroupId>
    <artifactId>hive-jdbcartifactId>
    <version>1.2.1version>
  dependency>

  <dependency>
    <groupId>org.apache.hudigroupId>
    <artifactId>hudi-spark-bundle_2.12artifactId>
    <version>0.8.0version>
  dependency>


dependencies>
<build>
  <plugins>
    
    <plugin>
      <groupId>org.scala-toolsgroupId>
      <artifactId>maven-scala-pluginartifactId>
      <version>2.15.2version>
      <executions>
        <execution>
          <goals>
            <goal>compilegoal>
            <goal>testCompilegoal>
          goals>
        execution>
      executions>
    plugin>

    
    <plugin>
      <artifactId>maven-assembly-pluginartifactId>
      <version>2.4version>
      <configuration>
        
        
        <descriptorRefs>
          <descriptorRef>jar-with-dependenciesdescriptorRef>
        descriptorRefs>
        <archive>
          <manifest>
            <mainClass>com.xxxmainClass>
          manifest>
        archive>
      configuration>
      <executions>
        <execution>
          <id>make-assemblyid>
          <phase>packagephase>
          <goals>
            <goal>assemblygoal>
          goals>
        execution>
      executions>
    plugin>
  plugins>
build>

2、编写向Hudi插入数据代码

val session: SparkSession = SparkSession.builder().master("local").appName("insertDataToHudi")
      .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
      .getOrCreate()

    //关闭日志
//    session.sparkContext.setLogLevel("Error")

    //创建DataFrame
    val insertDF: DataFrame = session.read.json("file:///D:\\2022IDEA_space\\SparkOperateHudi\\data\\jsondata.json")


    //将结果保存到hudi中
    insertDF.write.format("org.apache.hudi")//或者直接写hudi
      //设置主键列名称
      .option(DataSourceWriteOptions.RECORDKEY_FIELD_OPT_KEY,"id")
      //当数据主键相同时，对比的字段，保存该字段大的数据
      .option(DataSourceWriteOptions.PRECOMBINE_FIELD_OPT_KEY,"data_dt")S
      //并行度设置，默认1500
      .option("hoodie.insert.shuffle.parallelism","2")
      .option("hoodie.upsert.shuffle.parallelism", "2")
      //表名设置
      .option(HoodieWriteConfig.TABLE_NAME,"person_infos")
      .mode(SaveMode.Overwrite)
      //注意：这里要选择hdfs路径存储，不要加上hdfs://mycluster//dir
      //将hdfs 中core-site.xml 、hdfs-site.xml放在resource目录下，直接写/dir路径即可，否则会报错：java.lang.IllegalArgumentException: Not in marker dir. Marker Path=hdfs://mycluster/hudi_data/.hoodie\.temp/20220509164730/default/c4b854e7-51d3-4a14-9b7e-54e2e88a9701-0_0-22-22_20220509164730.parquet.marker.CREATE, Expected Marker Root=/hudi_data/.hoodie/.temp/20220509164730
      .save("/hudi_data/person_infos")

二、指定分区向hudi中插入数据

向Hudi中存储数据时，如果没有指定分区列，那么默认只有一个default分区，我们可以保存数据时指定分区列，可以在写出时指定“DataSourceWriteOptions.PARTITIONPATH_FIELD_OPT_KEY”选项来指定分区列，如果涉及到多个分区列，那么需要将多个分区列进行拼接生成新的字段，使用以上参数指定新的字段即可。

1、指定一个分区列

insertDF.write.format("org.apache.hudi")
  .option(DataSourceWriteOptions.RECORDKEY_FIELD_OPT_KEY, "id")
  .option(DataSourceWriteOptions.PRECOMBINE_FIELD_OPT_KEY, "data_dt")
  //指定分区列
  .option(DataSourceWriteOptions.PARTITIONPATH_FIELD_OPT_KEY, "loc")
  .option("hoodie.insert.shuffle.parallelism", "2")
  .option("hoodie.upsert.shuffle.parallelism", "2")
  .option(HoodieWriteConfig.TABLE_NAME, "person_infos")
  .mode(SaveMode.Overwrite)
  .save("/hudi_data/person_infos")

2、指定分区为多个列时，可以先拼接，后指定拼接字段当做分区列：

指定两个分区，需要拼接

//导入函数，拼接列
import org.apache.spark.sql.functions._
val endDF: DataFrame = insertDF.withColumn("partition_key", concat_ws("-", col("data_dt"), col("loc")))
endDF.write.format("org.apache.hudi")
  .option(DataSourceWriteOptions.RECORDKEY_FIELD_OPT_KEY, "id")
  .option(DataSourceWriteOptions.PRECOMBINE_FIELD_OPT_KEY, "data_dt")
  //指定分区列,这里是拼接的列
  .option(DataSourceWriteOptions.PARTITIONPATH_FIELD_OPT_KEY, "partition_key")
  .option("hoodie.insert.shuffle.parallelism", "2")
  .option("hoodie.upsert.shuffle.parallelism", "2")
  .option(HoodieWriteConfig.TABLE_NAME, "person_infos")
  .mode(SaveMode. )
   .save("/hudi_data/person_infos")

三、读取Hudi数据

使用SparkSQL读取Hudi中的数据，无法使用读取表方式来读取，需要指定HDFS对应的路径来加载，指定的路径只需要指定到*.parquet当前路径或者上一层路径即可，路径中可以使用“*”来替代任意目录和数据。

读取数据返回的结果中除了原有的数据之外，还会携带Hudi对应的列数据，例如：hudi的主键、分区、提交时间、对应的parquet名称。

Spark读取Hudi表数据代码如下：

val session: SparkSession = SparkSession.builder().master("local").appName("queryDataFromHudi")
  .getOrCreate()
//读取的数据路径下如果有分区，会自动发现分区数据,需要使用 * 代替，指定到parquet格式数据上层目录即可。
val frame: DataFrame = session.read.format("org.apache.hudi").load("/hudi_data/person_infos/*/*")
frame.createTempView("personInfos")

//查询结果
val result = session.sql(
  """
    | select * from personInfos
  """.stripMargin)

result.show(false)

四、更新Hudi数据

向Hudi中更新数据有如下几个特点

同一个分区内，向Hudi中更新数据是用主键来判断数据是否需要更新的，这里判断的是相同分区内是否有相同主键，不同分区内允许有相同主键。
更新数据时，如果原来数据有分区，一定要指定分区，不然就相当于是向相同表目录下插入数据，会生成对应的“default”分区。
向Hudi中更新数据时，与向Hudi中插入数据一样，但是写入的模式需要指定成“Append”，如果指定成“overwrite”，那么就是全覆盖了。建议使用时一直使用“Append”模式即可。
当更新完成之后，再一次从Hudi中查询数据时，会看到Hudi提交的时间字段为最新的时间。

这里将原有的三条数据改成如下三条数据:

#修改之前
{"id":1,"name":"zs1","age":18,"loc":"beijing","data_dt":"20210709"}
{"id":2,"name":"zs2","age":19,"loc":"shanghai","data_dt":"20210709"}
{"id":3,"name":"zs3","age":20,"loc":"beijing","data_dt":"20210709"}

#修改之后
{"id":1,"name":"ls1","age":40,"loc":"beijing","data_dt":"20210709"} --更新数据
{"id":2,"name":"ls2","age":50,"loc":"shanghai","data_dt":"20210710"} --更新数据
{"id":3,"name":"ls3","age":60,"loc":"ttt","data_dt":"20210711"}  --相当于是新增数据

更新Hudi数据代码如下:

val session: SparkSession = SparkSession.builder().master("local").appName("updataDataToHudi")
  .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
  .getOrCreate()

//读取修改数据
val updateDataDF: DataFrame = session.read.json("file:///D:\\2022IDEA_space\\SparkOperateHudi\\data\\updatedata.json")

//向Hudi 更新数据
updateDataDF.write.format("org.apache.hudi") //或者直接写hudi
  .option(DataSourceWriteOptions.RECORDKEY_FIELD_OPT_KEY, "id")
  .option(DataSourceWriteOptions.PRECOMBINE_FIELD_OPT_KEY, "data_dt")
  .option(DataSourceWriteOptions.PARTITIONPATH_FIELD_OPT_KEY,"loc")
  .option("hoodie.insert.shuffle.parallelism", "2")
  .option("hoodie.upsert.shuffle.parallelism", "2")
  .option(HoodieWriteConfig.TABLE_NAME, "person_infos")
  .mode(SaveMode.Append)
  .save("/hudi_data/person_infos")


//查询数据
val frame: DataFrame = session.read.format("org.apache.hudi").load("/hudi_data/person_infos/*/*")
frame.createTempView("personInfos")
//查询结果
val result = session.sql(
  """
    | select * from personInfos
  """.stripMargin)
result.show(false)

五、增量查询Hudi数据

Hudi可以根据我们传入的时间戳查询此时间戳之后的数据，这就是增量查询，需要注意的是增量查询必须通过以下方式在Spark中指定一个时间戳才能正常查询：

option(DataSourceReadOptions.BEGIN_INSTANTTIME_OPT_KEY,timestamp)

例如：原始数据如下：

我们可以查询“20210709220335”之后的数据，查询结果如下：

代码如下：

val session: SparkSession = SparkSession.builder().master("local").appName("updataDataToHudi")
  .getOrCreate()

//关闭日志
session.sparkContext.setLogLevel("Error")

//导入隐式转换
import session.implicits._

//查询全量数据,查询对应的提交时间，找出倒数第二个时间
val basePath = "/hudi_data/person_infos"
session.read.format("hudi").load(basePath+"/*/*").createTempView("personInfos")

val df: DataFrame = session.sql("select distinct(_hoodie_commit_time) as commit_time from personInfos order by commit_time desc")
//这里获取由大到小排序的第二个值
val dt: String = df.map(row=>{row.getString(0)}).collect()(1)

//增量查询
val result:DataFrame = session.read.format("hudi")
/**
  * 指定数据查询方式，有以下三种：
  * val QUERY_TYPE_SNAPSHOT_OPT_VAL = "snapshot"    -- 获取最新所有数据 , 默认
  * val QUERY_TYPE_INCREMENTAL_OPT_VAL = "incremental"  --获取指定时间戳后的变化数据
  * val QUERY_TYPE_READ_OPTIMIZED_OPT_VAL = "read_optimized"  -- 只查询Base文件中的数据
  *
  * 1) Snapshot mode (obtain latest view, based on row & columnar data)
  * 2) incremental mode (new data since an instantTime)
  * 3) Read Optimized mode (obtain latest view, based on columnar data)
  *
  * Default: snapshot
  */
  .option(DataSourceReadOptions.QUERY_TYPE_OPT_KEY,DataSourceReadOptions.QUERY_TYPE_INCREMENTAL_OPT_VAL)
  //必须指定一个开始查询的时间，不指定报错
  .option(DataSourceReadOptions.BEGIN_INSTANTTIME_OPT_KEY,dt)
  .load(basePath+"/*/*")

result.show(false)

六、指定时间范围查询Hudi数据

Hudi还可以通过指定开始时间和结束时间来查询时间范围内的数据。如果想要查询最早的时间点到某个结束时刻的数据，开始时间可以指定成“000”。

1、向原有Hudi表“person_infos”中插入两次数据

目前hudi表中的数据如下：

先执行两次新的数据插入，两次插入数据之间的间隔时间至少为1分钟，两次插入数据代码如下:

//以下代码分两次向 HDFS /hudi_data/person_infos 路径中插入数据，两次运行至少1分钟以上
val session: SparkSession = SparkSession.builder().master("local").appName("PointTimeQueryHudi")
  .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
  .getOrCreate()

//读取第一个文件，向Hudi中插入数据
val df1: DataFrame = session.read.json("file:///D:\\2022IDEA_space\\SparkOperateHudi\\data\\appendData1.json")
val df2: DataFrame = session.read.json("file:///D:\\2022IDEA_space\\SparkOperateHudi\\data\\appendData2.json")

//向Hudi中插入数据
df2.write.format("hudi")
  .option(DataSourceWriteOptions.RECORDKEY_FIELD_OPT_KEY, "id")
  .option(DataSourceWriteOptions.PRECOMBINE_FIELD_OPT_KEY, "data_dt")
  .option(DataSourceWriteOptions.PARTITIONPATH_FIELD_OPT_KEY, "loc")
  .option("hoodie.insert.shuffle.parallelism", "2")
  .option("hoodie.upsert.shuffle.parallelism", "2")
  .option(HoodieWriteConfig.TABLE_NAME, "person_infos")
  .mode(SaveMode.Append)
  .save("/hudi_data/person_infos")

import org.apache.spark.sql.functions._
//查询数据
session.read.format("hudi").load("/hudi_data/person_infos/*/*")
  .orderBy(col("_hoodie_commit_time"))
  .show(100,false)

此时，数据如下：

2、指定时间段查询Hudi中的数据

代码如下：

val session: SparkSession = SparkSession.builder().master("local").appName("PointTimeQueryHudi")
      .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
      .getOrCreate()
    //指定时间段，查询hudi中的数据
//    val beginTime = "000"
    val beginTime = "20210710002148"
    val endTime = "20210710002533"

    val result: DataFrame = session.read.format("hudi")
      //指定增量查询
      .option(DataSourceReadOptions.QUERY_TYPE_OPT_KEY, DataSourceReadOptions.QUERY_TYPE_INCREMENTAL_OPT_VAL)
      //指定查询开始时间（不包含），“000”指定为最早时间
      .option(DataSourceReadOptions.BEGIN_INSTANTTIME_OPT_KEY, beginTime)
      //指定查询结束时间（包含）
      .option(DataSourceReadOptions.END_INSTANTTIME_OPT_KEY, endTime)
      .load("/hudi_data/person_infos/*/*")

    result.createTempView("temp")
    session.sql(
      """
        | select * from temp order by _hoodie_commit_time
      """.stripMargin).show(100,false)

开始时间为“000”，相当于是从头开始查询到endTime的数据：

开始时间为“20210710002148”：

七、删除Hudi数据

我们准备对应的主键及分区的数据，将Hudi中对应的主键及分区的数据进行删除，在删除Hudi中的数据时，需要指定option(OPERATION_OPT_KEY,“delete”)配置项，并且写入模式只能是Append，不支持其他写入模式，另外，设置下删除执行的并行度，默认为1500个，这里可以设置成2个。

原始数据如下：

准备要删除的数据如下：

{"id":11,"loc":"beijing"}
{"id":12,"loc":"beijing"}
{"id":13,"loc":"beijing"}
{"id":14,"loc":"shenzhen"}
{"id":15,"loc":"tianjian"}  --此条数据对应的主键一致，但是分区不一致，不能在Hudi中删除

编写代码如下:

val session: SparkSession = SparkSession.builder().master("local").appName("DeleteHudiData")
  .config("spark.serializer","org.apache.spark.serializer.KryoSerializer")
  .getOrCreate()

//读取需要删除的数据，只需要准备对应的主键及分区即可，字段保持与Hudi中需要删除的字段名称一致即可
//读取的文件中准备了一个主键在Hudi中存在但是分区不再Hudi中存在的数据，此主键数据在Hudi中不能被删除，需要分区和主键字段都匹配才能删除
val deleteData: DataFrame = session.read.json("file:///D:\\2022IDEA_space\\SparkOperateHudi\\data\\deleteData.json")

//将删除的数据插入到Hudi中
deleteData.write.format("hudi")
  //指定操作模式为delete
  .option(DataSourceWriteOptions.OPERATION_OPT_KEY,"delete")
  //指定主键
  .option(DataSourceWriteOptions.RECORDKEY_FIELD_OPT_KEY,"id")
  //指定分区字段
  .option(DataSourceWriteOptions.PARTITIONPATH_FIELD_OPT_KEY,"loc")
  //指定表名，这里的表明需要与之前指定的表名保持一致
  .option(HoodieWriteConfig.TABLE_NAME,"person_infos")
  //设置删除并行度设置，默认1500并行度
  .option("hoodie.delete.shuffle.parallelism", "2")
  .mode(SaveMode.Append)
  .save("/hudi_data/person_infos")

//执行完成之后，查询结果
import org.apache.spark.sql.functions._
session.read.format("hudi").load("/hudi_data/person_infos/*/*")
  .orderBy(col("_hoodie_commit_time")).show(100,false)

结果如下：

八、更新Hudi某个分区数据

如果我们想要更新Hudi某个分区的数据，其他分区数据正常使用，那么可以通过配置option(DataSourceWriteOptions.OPERATION_OPT_KEY,“insert_overwrite”)选项，该选项“insert_overwrite”可以直接在元数据层面上操作，直接将写入某分区的新数据替换到该分区内，原有数据会在一定时间内删除，相比upsert更新Hudi速度要快。

1、删除person_infos对应的目录，重新插入数据，代码如下

val session: SparkSession = SparkSession.builder().master("local").appName("InsertOverWrite")
  .config("spark.serializer","org.apache.spark.serializer.KryoSerializer")
  .getOrCreate()

//创建DataFrame
val insertDF: DataFrame = session.read.json("file:///D:\\2022IDEA_space\\SparkOperateHudi\\data\\jsondata.json")
insertDF.write.format("org.apache.hudi")
  .option(DataSourceWriteOptions.RECORDKEY_FIELD_OPT_KEY, "id")
  .option(DataSourceWriteOptions.PRECOMBINE_FIELD_OPT_KEY, "data_dt")
  .option(DataSourceWriteOptions.PARTITIONPATH_FIELD_OPT_KEY, "loc")
  .option("hoodie.insert.shuffle.parallelism", "2")
  .option("hoodie.upsert.shuffle.parallelism", "2")
  .option(HoodieWriteConfig.TABLE_NAME, "person_infos")
  .mode(SaveMode.Append)
  .save("/hudi_data/person_infos")

//写入完成之后，查询hudi 数据：
val person_infos: DataFrame = session.read.format("hudi").load("/hudi_data/person_infos/*/*")
person_infos.show(100,false)

2、读取更新分区数据，插入到Hudi preson_infos表中

读取数据如下：

{"id":1,"name":"s1","age":1,"loc":"beijing","data_dt":"20210710"}
{"id":100,"name":"s2","age":2,"loc":"beijing","data_dt":"20210710"}
{"id":200,"name":"s3","age":3,"loc":"beijing","data_dt":"20210710"}
{"id":8,"name":"w1","age":4,"loc":"chongqing","data_dt":"20210710"}
{"id":300,"name":"w2","age":5,"loc":"chongqing","data_dt":"20210710"}

代码如下：

val session: SparkSession = SparkSession.builder().master("local").appName("InsertOverWrite")
      .config("spark.serializer","org.apache.spark.serializer.KryoSerializer")
      .getOrCreate()

    //读取需要替换的数据,将beijing分区数据替换成2条，将chognqing分区数据替换成1条
    val overWritePartitionData: DataFrame = session.read.json("file:///D:\\2022IDEA_space\\SparkOperateHudi\\data\\overWrite.json")

    //写入hudi表person_infos，替换分区
    overWritePartitionData.write.format("hudi")
      .option(DataSourceWriteOptions.OPERATION_OPT_KEY,"insert_overwrite")
      //设置主键列名称
      .option(DataSourceWriteOptions.RECORDKEY_FIELD_OPT_KEY, "id")
      //当数据主键相同时，对比的字段，保存该字段大的数据
      .option(DataSourceWriteOptions.PRECOMBINE_FIELD_OPT_KEY, "data_dt")
      //指定分区列
      .option(DataSourceWriteOptions.PARTITIONPATH_FIELD_OPT_KEY, "loc")
      //并行度设置
      .option("hoodie.insert.shuffle.parallelism", "2")
      .option("hoodie.upsert.shuffle.parallelism", "2")
      //表名设置
      .option(HoodieWriteConfig.TABLE_NAME, "person_infos")
      .mode(SaveMode.Append)
      .save("/hudi_data/person_infos")

    //写入完成之后，查询hudi 数据：
    val person_infos: DataFrame = session.read.format("hudi").load("/hudi_data/person_infos/*/*")
    person_infos.show(100,false)

九、覆盖Hudi整个表数据

如果我们想要替换Hudi整个表数据，可以在向Hudi表写入数据时指定配置option(DataSourceWriteOptions.OPERATION_OPT_KEY,“insert_overwrite_table”)选项，该选项“insert_overwrite_table”可以直接在元数据层面上操作，直接将数据写入表，原有数据会在一定时间内删除，相比删除原有数据再插入更方便。

1、删除Hudi表person_infos对应的HDFS路径，重新插入数据

val session: SparkSession = SparkSession.builder().master("local").appName("InsertOverWrite")
      .config("spark.serializer","org.apache.spark.serializer.KryoSerializer")
      .getOrCreate()

    //创建DataFrame
    val insertDF: DataFrame = session.read.json("file:///D:\\2022IDEA_space\\SparkOperateHudi\\data\\jsondata.json")
    insertDF.write.format("org.apache.hudi")
      .option(DataSourceWriteOptions.RECORDKEY_FIELD_OPT_KEY, "id")
      .option(DataSourceWriteOptions.PRECOMBINE_FIELD_OPT_KEY, "data_dt")
      .option(DataSourceWriteOptions.PARTITIONPATH_FIELD_OPT_KEY, "loc")
      .option("hoodie.insert.shuffle.parallelism", "2")
      .option("hoodie.upsert.shuffle.parallelism", "2")
      .option(HoodieWriteConfig.TABLE_NAME, "person_infos")
      .mode(SaveMode.Append)
      .save("/hudi_data/person_infos")

    //写入完成之后，查询hudi 数据：
    val person_infos: DataFrame = session.read.format("hudi").load("/hudi_data/person_infos/*/*")
    person_infos.show(100,false)

2、读取新数据，覆盖原有Hudi表数据

覆盖更新的数据如下：

{"id":1,"name":"s1","age":1,"loc":"beijing","data_dt":"20210710"}
{"id":100,"name":"s2","age":2,"loc":"beijing","data_dt":"20210710"}
{"id":200,"name":"s3","age":3,"loc":"beijing","data_dt":"20210710"}
{"id":8,"name":"w1","age":4,"loc":"chongqing","data_dt":"20210710"}
{"id":300,"name":"w2","age":5,"loc":"chongqing","data_dt":"20210710"}

代码如下：

val session: SparkSession = SparkSession.builder().master("local").appName("InsertOverWrite")
      .config("spark.serializer","org.apache.spark.serializer.KryoSerializer")
      .getOrCreate()

    //读取需要替换的数据,覆盖原有表所有数据
    val overWritePartitionData: DataFrame = session.read.json("file:///D:\\2022IDEA_space\\SparkOperateHudi\\data\\overWrite.json")

    //写入hudi表person_infos，替换分区
    overWritePartitionData.write.format("hudi")
      .option(DataSourceWriteOptions.OPERATION_OPT_KEY,"insert_overwrite_table")
      //设置主键列名称
      .option(DataSourceWriteOptions.RECORDKEY_FIELD_OPT_KEY, "id")
      //当数据主键相同时，对比的字段，保存该字段大的数据
      .option(DataSourceWriteOptions.PRECOMBINE_FIELD_OPT_KEY, "data_dt")
      //指定分区列
      .option(DataSourceWriteOptions.PARTITIONPATH_FIELD_OPT_KEY, "loc")
      //并行度设置
      .option("hoodie.insert.shuffle.parallelism", "2")
      .option("hoodie.upsert.shuffle.parallelism", "2")
      //表名设置
      .option(HoodieWriteConfig.TABLE_NAME, "person_infos")
      .mode(SaveMode.Append)
      .save("/hudi_data/person_infos")

    //写入完成之后，查询hudi 数据：
    val person_infos: DataFrame = session.read.format("hudi").load("/hudi_data/person_infos/*/*")
    person_infos.show(100,false)

十、Spark操作Hudi Merge On Read 模式

默认Spark操作Hudi使用Copy On Write模式，也可以使用Merge On Read 模式，通过代码中国配置如下配置来指定：

option(DataSourceWriteOptions.TABLE_TYPE_OPT_KEY,DataSourceWriteOptions.MOR_TABLE_TYPE_OPT_VAL)

代码操作如下：

删除原有person_infos对应的HDFS路径
读取数据向Hudi表person_info中插入数据

读取的数据如下：

{"id":1,"name":"zs1","age":18,"loc":"beijing","data_dt":"20210709"}
{"id":2,"name":"zs2","age":19,"loc":"shanghai","data_dt":"20210709"}
{"id":3,"name":"zs3","age":20,"loc":"beijing","data_dt":"20210709"}
{"id":4,"name":"zs4","age":21,"loc":"tianjin","data_dt":"20210709"}
{"id":5,"name":"zs5","age":22,"loc":"shenzhen","data_dt":"20210709"}
{"id":6,"name":"zs6","age":23,"loc":"hainai","data_dt":"20210709"}
{"id":7,"name":"zs7","age":24,"loc":"beijing","data_dt":"20210709"}
{"id":8,"name":"zs8","age":25,"loc":"chongqing","data_dt":"20210709"}
{"id":9,"name":"zs9","age":26,"loc":"shandong","data_dt":"20210709"}
{"id":10,"name":"zs10","age":27,"loc":"hunan","data_dt":"20210709"}

代码如下：

//1.读取json格式数据
val insertDf: DataFrame = session.read.json("file:///D:\\2022IDEA_space\\SparkOperateHudi\\data\\jsondata.json")

//2.将结果使用Merge on Read 模式写入到Hudi中,并设置分区
insertDf.write.format("hudi")
  //设置表模式为 mor
  .option(DataSourceWriteOptions.TABLE_TYPE_OPT_KEY,DataSourceWriteOptions.MOR_TABLE_TYPE_OPT_VAL)
  .option(DataSourceWriteOptions.RECORDKEY_FIELD_OPT_KEY,"id")
  .option(DataSourceWriteOptions.PARTITIONPATH_FIELD_OPT_KEY,"loc")
  .option(DataSourceWriteOptions.PRECOMBINE_FIELD_OPT_KEY,"data_dt")
  //并行度设置
  .option("hoodie.insert.shuffle.parallelism", "2")
  .option("hoodie.upsert.shuffle.parallelism", "2")
  //表名设置
  .option(HoodieWriteConfig.TABLE_NAME, "person_infos")
  .mode(SaveMode.Append)
  .save("/hudi_data/person_infos")

更新Hudi表person_info数据

这里更新“beijing”、“shanghai”、“ttt”分区数据，更新数据如下：

{"id":1,"name":"ls1","age":40,"loc":"beijing","data_dt":"20210709"}
{"id":2,"name":"ls2","age":50,"loc":"shanghai","data_dt":"20210710"}
{"id":3,"name":"ls3","age":60,"loc":"ttt","data_dt":"20210711"}

代码如下：

//3.读取更新数据，并执行插入更新
val updateDf: DataFrame = session.read.json("file:///D:\\2022IDEA_space\\SparkOperateHudi\\data\\updatedata.json")

updateDf.write.format("hudi")
  //设置表模式为 mor
  .option(DataSourceWriteOptions.TABLE_TYPE_OPT_KEY,DataSourceWriteOptions.MOR_TABLE_TYPE_OPT_VAL)
  .option(DataSourceWriteOptions.RECORDKEY_FIELD_OPT_KEY,"id")
  .option(DataSourceWriteOptions.PARTITIONPATH_FIELD_OPT_KEY,"loc")
  .option(DataSourceWriteOptions.PRECOMBINE_FIELD_OPT_KEY,"data_dt")
  //并行度设置
  .option("hoodie.insert.shuffle.parallelism", "2")
  .option("hoodie.upsert.shuffle.parallelism", "2")
  //表名设置
  .option(HoodieWriteConfig.TABLE_NAME, "person_infos")
  .mode(SaveMode.Append)
  .save("/hudi_data/person_infos")

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-C8ysQGwo-1655007786956)(https://ask.qcloudimg.com/http-save/1159019/738d1e7a3a1220020f06ee6a56a33903.png?imageView2/2/w/1620)]

增量查询Hudi表中的数据

Snapshot 模式查询，这种模式对于COW或者MOR模式都是查询到当前时刻全量的数据，如果有更新，那么就是更新之后全量的数据：

//4.使用不同模式查询 MOR 表中的数据
/**
  * 指定数据查询方式，有以下三种：
  * val QUERY_TYPE_SNAPSHOT_OPT_VAL = "snapshot"    -- 获取最新所有数据 , 默认
  * val QUERY_TYPE_INCREMENTAL_OPT_VAL = "incremental"  --获取指定时间戳后的变化数据
  * val QUERY_TYPE_READ_OPTIMIZED_OPT_VAL = "read_optimized"  -- 只查询Base文件中的数据
  *
  * 1) Snapshot mode (obtain latest view, based on row & columnar data)
  * 2) incremental mode (new data since an instantTime)
  * 3) Read Optimized mode (obtain latest view, based on columnar data)
  *
  * Default: snapshot
  */
//4.1 Snapshot 模式查询
session.read.format("hudi")
  .option(DataSourceReadOptions.QUERY_TYPE_OPT_KEY,DataSourceReadOptions.QUERY_TYPE_SNAPSHOT_OPT_VAL)
  .load("/hudi_data/person_infos/*/*")
  .show(100,false)

incremental 模式查询，这种模式需要指定一个时间戳，查询指定时间戳之后的新增数据：

//4.2 incremental 模式查询，查询指定时间戳后的数据
session.read.format("hudi")
  .option(DataSourceReadOptions.QUERY_TYPE_OPT_KEY,DataSourceReadOptions.QUERY_TYPE_INCREMENTAL_OPT_VAL)
  //必须指定一个开始查询的时间，不指定报错
  .option(DataSourceReadOptions.BEGIN_INSTANTTIME_OPT_KEY,"20210710171240")
  .load("/hudi_data/person_infos/*/*")
  .show(100,false)

Read Optimized 模式查询，这种模式只查询Base中的数据，不会查询MOR中Log文件中的数据，代码如下：

//4.3 Read Optimized 模式查询，查询Base中的数据，不会查询log中的数据
session.read.format("hudi")
  .option(DataSourceReadOptions.QUERY_TYPE_OPT_KEY,DataSourceReadOptions.QUERY_TYPE_READ_OPTIMIZED_OPT_VAL)
  .load("/hudi_data/person_infos/*/*")
  .show(100,false)

十一、测试COW模式parquet文件删除与MOR模式Parquet文件与log文件Compact

COW默认情况下，每次更新数据Commit都会基于之前parquet文件生成一个新的Parquet Base文件数据，默认历史parquet文件数为10，当超过10个后会自动删除旧的版本，可以通过参数“hoodie.cleaner.commits.retained”来控制保留的FileID版本文件数，默认是10。测试代码如下：

val session: SparkSession = SparkSession.builder().master("local").appName("insertDataToHudi")
      .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
      .getOrCreate()
    //创建DataFrame
    val insertDF: DataFrame = session.read.json("file:///D:\\2022IDEA_space\\SparkOperateHudi\\data\\test\\insertdata1.json")
//    val insertDF: DataFrame = session.read.json("file:///D:\\2022IDEA_space\\SparkOperateHudi\\data\\test\\insertdata2.json")
//    val insertDF: DataFrame = session.read.json("file:///D:\\2022IDEA_space\\SparkOperateHudi\\data\\test\\insertdata3.json")
//    val insertDF: DataFrame = session.read.json("file:///D:\\2022IDEA_space\\SparkOperateHudi\\data\\test\\insertdata4.json")
//    val insertDF: DataFrame = session.read.json("file:///D:\\2022IDEA_space\\SparkOperateHudi\\data\\test\\insertdata5.json")
//    val insertDF: DataFrame = session.read.json("file:///D:\\2022IDEA_space\\SparkOperateHudi\\data\\test\\insertdata6.json")
//    val insertDF: DataFrame = session.read.json("file:///D:\\2022IDEA_space\\SparkOperateHudi\\data\\test\\insertdata7.json")
//    val insertDF: DataFrame = session.read.json("file:///D:\\2022IDEA_space\\SparkOperateHudi\\data\\test\\insertdata8.json")
//    val insertDF: DataFrame = session.read.json("file:///D:\\2022IDEA_space\\SparkOperateHudi\\data\\test\\insertdata9.json")
//    val insertDF: DataFrame = session.read.json("file:///D:\\2022IDEA_space\\SparkOperateHudi\\data\\test\\insertdata10.json")

    insertDF.write.format("org.apache.hudi")
      //设置cow模式
      .option(DataSourceWriteOptions.TABLE_TYPE_OPT_KEY,DataSourceWriteOptions.COW_TABLE_TYPE_OPT_VAL)
      //根据commit提交次数计算保留多少个fileID版本文件，默认10。
      .option("hoodie.cleaner.commits.retained","3")
      //设置主键列名称
      .option(DataSourceWriteOptions.RECORDKEY_FIELD_OPT_KEY, "id")
      //当数据主键相同时，对比的字段，保存该字段大的数据
      .option(DataSourceWriteOptions.PRECOMBINE_FIELD_OPT_KEY, "data_dt")
      //并行度设置，默认1500并行度
      .option("hoodie.insert.shuffle.parallelism", "2")
      .option("hoodie.upsert.shuffle.parallelism", "2")
      //表名设置
      .option(HoodieWriteConfig.TABLE_NAME, "person_infos")
      .mode(SaveMode.Append)
      .save("/hudi_data/test_person")

    //查询结果数据
    session.read.format("hudi")
      //全量读取
      .option(DataSourceReadOptions.QUERY_TYPE_OPT_KEY,DataSourceReadOptions.QUERY_TYPE_SNAPSHOT_OPT_VAL)
      .load("/hudi_data/test_person/*/*").show()

测试注意：每次运行代码，读取新的一个数据文件，并查看Hudi表对应的HDFS路径，每次读取都会生成一个新的Parquet文件，当达到指定的3个历史版本时（不包含最新Parquet文件），再插入数据生成新的Parquet文件时，一致会将之前的旧版本删除，保存4个文件。

MOR模式下，如果有新增数据会直接写入Base Parquet文件，这个Parquet文件个数的控制也是由“hoodie.cleaner.commits.retained”控制，默认为10。当对应的每个FlieSlice（Base Parquet文件+log Avro文件）中有数据更新时，会写入对应的log Avro文件，那么这个文件何时与Base Parquet文件进行合并，这个是由参数“hoodie.compact.inline.max.delta.commits”决定的，这个参数意思是在提交多少次commit后触发压缩策略，默认是5，也就是当前FlieSlice中如果有5次数据更新就会两者合并生成全量的数据，当前FlieSlice还是这个FileSlice名称，只不过对应的parquet文件中是全量数据，再有更新数据还是会写入当前FileSlice对应的log日志文件中。使“hoodie.compact.inline.max.delta.commits”参数起作用，默认必须开启“hoodie.compact.inline”，此值代表是否完成提交数据后进行压缩，默认是false。

测试代码如下：

#注意代码中设置参数如下：
//根据commit提交次数计算保留多少个fileID版本文件，默认10。
.option("hoodie.cleaner.commits.retained","3")
//默认false：是否在一个事务完成后内联执行压缩操作
.option("hoodie.compact.inline","true")
//设置提交多少次后触发压缩策略,默认5
.option("hoodie.compact.inline.max.delta.commits","2")

#完整代码如下：
val session: SparkSession = SparkSession.builder().master("local").appName("insertDataToHudi")
      .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
      .getOrCreate()
    //创建DataFrame ，新增
//    val insertDF: DataFrame = session.read.json("file:///D:\\2022IDEA_space\\SparkOperateHudi\\data\\test\\insertdata1.json")

    //创建DataFrame ，更新
    val insertDF: DataFrame = session.read.json("file:///D:\\2022IDEA_space\\SparkOperateHudi\\data\\test\\update11.json")

    insertDF.write.format("org.apache.hudi") //或者直接写hudi
      .option(DataSourceWriteOptions.TABLE_TYPE_OPT_KEY,DataSourceWriteOptions.MOR_TABLE_TYPE_OPT_VAL)
      //根据commit提交次数计算保留多少个fileID版本文件，默认10。
      .option("hoodie.cleaner.commits.retained","3")
      //默认false：是否在一个事务完成后内联执行压缩操作
      .option("hoodie.compact.inline","true")
      //设置提交多少次后触发压缩策略,默认5
      .option("hoodie.compact.inline.max.delta.commits","2")
      //设置主键列名称
      .option(DataSourceWriteOptions.RECORDKEY_FIELD_OPT_KEY, "id")
      //当数据主键相同时，对比的字段，保存该字段大的数据
      .option(DataSourceWriteOptions.PRECOMBINE_FIELD_OPT_KEY, "data_dt")
      //并行度设置，默认1500并行度
      .option("hoodie.insert.shuffle.parallelism", "2")
      .option("hoodie.upsert.shuffle.parallelism", "2")
      //表名设置
      .option(HoodieWriteConfig.TABLE_NAME, "person_infos")
      .mode(SaveMode.Append)
      .save("/hudi_data/test_person")

    //查询结果数据
    session.read.format("hudi")
      //全量读取
      .option(DataSourceReadOptions.QUERY_TYPE_OPT_KEY,DataSourceReadOptions.QUERY_TYPE_SNAPSHOT_OPT_VAL)
      .load("/hudi_data/test_person/*/*").show()

第一次运行插入数据，commit，路径对应数据目录如下：

第一次运行更新数据，commit，路径对应数据目录如下：

第二次运行更新数据,commit，路径对应的数据目录如下：

第三次运行更新数据，commit,路径对应的数据目录如下：

第四次运行更新数据，commit,路径对应的数据目录如下：

第五次运行更新数据，commit,路径对应的目录数据如下：

本文分享自作者个人站点/博客：https://lansonli.blog.csdn.net/复制

如有侵权，请联系本人

删除。

你可能感兴趣的:(Apache,Hudi,spark,big,data,hadoop)

1.线性神经网络--线性回归温柔济沧海深度学习神经网络线性回归 python
1.1从零实现线性回归importrandomimporttorch#fromd2limporttorchasd2limportmatplotlib.pyplotaspltdeftrain_data_make(batch_size,X,y):num_examples=len(X)idx=list(range(num_examples))#生成0-999random.shuffle(idx)#样本需
MapReduce数据处理过程2万字保姆级教程大模型大数据攻城狮 mapreduce 大数据 yarn cdh hadoop 大数据面试 shuffle
目录1.MapReduce的核心思想：分而治之的艺术2.HadoopMapReduce的架构：从宏观到微观3.WordCount实例：从代码到执行的完整旅程4.源码剖析：Job.submit的魔法5.Map任务的执行：从分片到键值对6.Shuffle阶段：MapReduce的幕后英雄7.Reduce任务的执行：从数据聚合到最终输出8.Combiner的魔法：提前聚合的性能利器9.Partition
阿里云瑶池数据库 Data Agent for Meta 正式发布，让 AI 更懂你的业务！数据库观点资讯人工智能
背景随着生成式人工智能（GenerativeAI）从概念验证迈向规模化商业落地，AIAgent已成为企业核心业务流程的重要组成部分。然而，当模型调用日益便捷时，核心痛点已不再是模型本身，而是集中在一个关键要素上：数据。AIAgent的落地瓶颈已从技术能力转向高质量、高相关性、安全合规的数据供给。企业面临的核心挑战在于：数据孤岛导致知识库分散，通用大模型难以理解专业业务传统数据管理依赖人工开发维护，
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
ESP32-S3驱动RGB屏幕显示飘移问题
为什么驱动RGBLCD屏幕时出现偏移（显示画面整体漂移）？原因PCLK设置过高，PSRAM带宽跟不上。Listitem受写flash操作影响，期间PSRAM被禁用。配置方面提高PSRAM和flash带宽，设置flash为QIO120M，PSRAM为Octal120M。开启CONFIG_COMPILER_OPTIMIZATION_PERF。降低data_cache_line_size到32Byte。
MyChrome.exe与Selenium联动避坑指南：User Data目录冲突解决方案龙潜月七 selenium 测试工具
在自动化测试与网络数据采集场景中，MyChrome.exe与Selenium的联动能发挥强大作用，但二者的UserData目录配置若处理不当，易引发冲突。下面我将重点围绕该问题，详细阐述联动的注意事项。MyChrome.exe与Selenium联动避坑指南：UserData目录冲突解决方案在自动化测试与网络数据采集的领域中，MyChrome.exe与Selenium的组合常常是开发者的得力助手。M
若 VSCode 添加到文件夹内右键菜单中显示小妖666 vscode ide 编辑器
若VSCode添加到文件夹内右键菜单中显示（通过reg文件方式）-CSDN博客手动注册方式如下：win键+R键，输出regedit，打开注册表找到\HKEY_CLASSES_ROOT\Directory\Background\shell新建项vscode，并设置默认值为VSCode打开然后在vscode下在新建项command，默认值设为"C:\Users\huyun\AppData\Local\
subversion安装、备份、安全认证实践笔记——宋轶聪 etune subversion svn apache tortoisesvn 工作存储
在windows上配置svn的方法在linux10.117.100.130上安装svnsvn库的导入导出查看svn服务器版本SVN备份策略Svn服务配置和维护常用命令linux下启动和停止win下启动和停止svn把svn加为系统服务配置apache通过http访问svnsvn命令行====================================在windows上的配置方法=========
SVN介绍（三）--SVN启动方式小蘑菇二号 SVN 快速入门 SVN
目录1.StandaloneServerMode（独立服务器模式）2.ApacheHTTPServerMode（与Apache结合模式）3.EmbeddinginApplicationMode（嵌入应用程序模式）4.FileSystemMode（文件系统模式）选择合适的模式Subversion（SVN）可以以不同的方式启动其服务器组件，以适应不同的部署需求。以下是几种常见的SVN服务器启动模式及其
Github 2025-07-05 Rust开源项目日报Top10 老孙正经胡说 github rust 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2025-07-05统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Rust项目10TypeScript项目1uv:极快的Python软件包安装程序和解析器创建周期：147天开发语言：Rust协议类型：ApacheLicense2.0Star数量：7066个Fork数量：200次关注人数：7066人贡献人数：45人O
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
【机器学习笔记 Ⅱ】10 完整周期
机器学习的完整生命周期（End-to-EndPipeline）机器学习的完整周期涵盖从问题定义到模型部署的全过程，以下是系统化的步骤分解和关键要点：1.问题定义（ProblemDefinition）目标：明确业务需求与机器学习任务的匹配性。关键问题：这是分类、回归、聚类还是强化学习问题？成功的标准是什么？（如准确率>90%、降低10%成本）输出：项目目标文档（含评估指标）。2.数据收集（DataC
数据仓库技术及应用（Hive 产生背景与架构设计，存储模型与数据类型）娟恋无暇数据仓库笔记 hive
1.Hive产生背景传统Hadoop架构存在的一些问题：MapReduce编程必须掌握Java，门槛较高传统数据库开发、DBA、运维人员学习门槛高HDFS上没有Schema的概念，仅仅是一个纯文本文件Hive的产生：为了让用户从一个现有数据基础架构转移到Hadoop上现有数据基础架构大多基于关系型数据库和SQL查询Facebook诞生了Hive2.Hive是什么官网：https://hive.ap
未来数据库硬件-网络篇数据库云计算架构
本文在绿泡泡“狗哥琐话”首发于2025.2.17<-关注不走丢。最近看到一篇不错的文章，叫做“ModernHardwareforFutureDatabases”，里面从几个方向讲了下现在数据库的硬件发展趋势，今天先来说说网络篇。内容中，一位大佬对（获过图灵奖的大佬）OLTP系统进行了一些基准测试，发现TCP-IP协议栈对于总体CPU使用率是占在47～68%。如果使用的网络带宽增加，这个开销还会提升
深入解析Spring Boot与Kafka集成：构建高效消息驱动应用
深入解析SpringBoot与Kafka集成：构建高效消息驱动应用引言在现代分布式系统中，消息队列技术扮演着至关重要的角色。ApacheKafka作为一款高性能、分布式的消息队列系统，被广泛应用于实时数据处理、日志收集、事件驱动架构等场景。本文将深入探讨如何在SpringBoot应用中集成Kafka，构建高效的消息驱动应用。1.Kafka简介ApacheKafka是一个分布式流处理平台，具有高吞吐
深入解析Spring Boot与Kafka集成：构建高效消息驱动微服务 Uranus^ Java Spring Boot Kafka 微服务消息队列
深入解析SpringBoot与Kafka集成：构建高效消息驱动微服务引言在现代微服务架构中，消息队列扮演着至关重要的角色，尤其是在处理高并发、异步通信和解耦系统组件时。ApacheKafka作为一款高性能的分布式消息队列系统，被广泛应用于实时数据处理和事件驱动架构中。本文将深入探讨如何在SpringBoot应用中集成Kafka，构建高效的消息驱动微服务。1.Kafka简介ApacheKafka是一
深入解析Spring Boot与Kafka集成：构建高性能消息驱动应用 Uranus^ Java Spring Boot Kafka 消息队列分布式系统
深入解析SpringBoot与Kafka集成：构建高性能消息驱动应用引言在现代分布式系统中，消息队列是实现异步通信和解耦的关键组件之一。ApacheKafka作为一种高性能、分布式的消息队列系统，被广泛应用于大数据处理、实时流处理以及事件驱动的架构中。本文将深入探讨如何在SpringBoot应用中集成Kafka，构建高性能的消息驱动应用。Kafka简介ApacheKafka是一个分布式流处理平台，
oracle操作xml笔记 chushiyunen oracle xml 笔记
文章目录第一个例子EXTRACTVALUE()方法oracle这么成熟的数据库，肯定对xml有很好的支持了。第一个例子创建表：CREATETABLExml_table(idNUMBERPRIMARYKEY,xml_dataXMLType);插入数据：INSERTINTOxml_table(id,xml_data)VALUES(1,XMLType('Value'));查询：SELECTEXTRACT
【Note】《Kafka: The Definitive Guide》第5章：深入 Kafka 内部结构，理解分布式日志系统的核心奥秘
《Kafka:TheDefinitiveGuide》第5章：深入Kafka内部结构，理解分布式日志系统的核心奥秘ApacheKafka在表面上看似只是一个“分布式消息队列”，但其背后的存储架构、分区机制、复制策略与高性能设计，才是它在千万级TPS场景中立足的根本。一、Kafka的核心逻辑结构Kafka是一个分布式日志服务（distributedcommitlog），核心概念有以下几类：TopicK
XML 笔记 ddfa1234 xml 服务器
换行在XML中，用于定义一个CDATA节（CharacterDataSection）。CDATA节是用于将一段文本标记为不应当被解析器解析的字符数据。这意味着，在CDATA节内部的所有内容，包括特殊字符如,&等，都不会被当作标记来处理，而是作为纯文本数据对待。CDATA节的主要用途：包含大量特殊字符：当你需要在XML文档中包含大量的特殊字符（比如,&），而不想对这些字符进行转义时（例如<,&
第一章Pandas快速入门 Hajo_ 深入浅出Pandas学习代码 python pandas
《深入浅出Pandas》第一章代码数据来源：https://www.gairuo.com/file/data/dataset/team.xlsximportnumpyasnpimportpandasaspdfile_path='E:\\Data_python\\anconda_code\\Dive_into_Pandas\\data_files\\'team_path='team.xlsx'tea
element ui表格data搜索重置功能 q249859693 elementui vue.js 前端
elementui表格搜索重置功能本地1.html搜索重置...2.datadata(){return{tabledata:[{name:1,id:1},{name:2,id:2}],//你的数据tabledata2:[],//空数据，后面会把筛选的数据加进去loading:false,//重置出现loading加载}}3.methodsgetsearch(){this.tabledata2=th
数据库连接池的作用是什么？破碎的天堂鸟学习教程数据库 oracle sql
数据库连接池（DatabaseConnectionPool）是一种核心的数据库资源管理技术，通过预先创建、复用和管理数据库连接，显著提升应用程序的性能、稳定性和资源利用率。其作用可归纳为以下核心维度：一、核心作用：提升系统性能与效率减少连接创建/销毁开销数据库连接的建立涉及TCP三次握手、身份验证、内存分配等操作，耗时约数十至数百毫秒。连接池在初始化时创建固定数量的连接（如minIdle），后续请
Libigl在编译时常见错误与解决方法 hunjinYang C++库配置 windows
在VS2019中编译Libigl报错错误一：LNK1104无法打开文件“…\lib\Debug\igl.lib”详细描述错误C1075“{”:未找到匹配令牌igl_core错误C2001常量中有换行符igl_core错误C2001常量中有换行符igl_core错误LNK1104无法打开文件“…\lib\Debug\igl.lib”405_AsRigidAsPossible解决方法：打开triang
VUE2双向绑定的原理许先森森 VUE2 javascript 前端 vue.js vue双向绑定 vue
文章目录VUE2双向绑定的原理1.什么是双向绑定2.双向绑定的原理2.1ViewModel的重要作用2.2双向绑定的流程3.双向绑定的实现3.1data响应化处理3.2Compile编译3.3依赖收集VUE2双向绑定的原理1.什么是双向绑定讲双向绑定先讲单项绑定，啥叫单项绑定，就是一句话就是通过Model去改变View，再直白点，就是通过js代码把数据改变后，html视图也跟着变化那双项绑定就很好
用PyTorch实现MNIST手写数字识别
MNIST包含70,000张手写数字图像:60,000张用于培训，10,000张用于测试。图像是灰度的，28x28像素的，并且居中的，以减少预处理和加快运行。1、导入相关库importtorchimporttorchvisionfromtorch.utils.dataimportDataLoaderimporttorch.nnasnnimporttorch.nn.functionalasFimpo
Kafka 小熊哥^--^ kafka 分布式
一、什么是Kafka？Kafka的主要用途？Kafka是一个分布式流处理平台，是Apache的一个顶级项目，它被设计用于高吞吐量，分布式、持久性的数据流处理。Kafka实现了一套非常高效的一种发布订阅模型，应用场景非常广泛，比如日志聚合（收集日志）、数据流处理、数据仓库集成（传输数据到数据仓库）、应用程序集成（作为消息中间件来实现异步通信）、流媒体处理（列如实时监控，事件驱动的应用程序）二、top
vue3 el-table设置选中 D_Fortune 前端前端 javascript 开发语言
consttableData=ref([])consttableRef=ref()constgetTableData=()=>{tableData.value=data;nextTick(()=>{if(result.length){for(leti=0;i
Spring IO 与企业级应用开发_构建标准化项目的最佳实践
1.前言1.1SpringIO的诞生背景与定位随着Spring生态的不断扩展，Java开发者在使用SpringBoot、SpringData、SpringSecurity等模块时，常常面临一个痛点：不同模块之间版本不一致、依赖冲突频发、升级困难。为了解决这一问题，Spring推出了SpringIOPlatform，它是一个统一版本管理平台，提供了一套经过验证的模块版本组合（BOM），帮助开发者快速
：style响应式，computed函数监听，循环遍历传参一万句的秘密 windows
computed:{getData(){returnJSON.parse(JSON.stringify(this.data));},computedStyle(){return(i)=>{return{display:this.getData.list[i].options.flex?"flex":"",alignItems:this.getData.list[i].options.flexAli
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

【Hudi】数据湖（四）：Hudi与Spark整合

Hudi与Spark整合

一、向Hudi插入数据

1、创建项目，修改pom.xml为如下内容

2、编写向Hudi插入数据代码

二、指定分区向hudi中插入数据

1、指定一个分区列

2、指定分区为多个列时，可以先拼接，后指定拼接字段当做分区列：

三、 读取Hudi数据

四、更新Hudi数据

五、 增量查询Hudi数据

六、指定时间范围查询Hudi数据

1、向原有Hudi表“person_infos”中插入两次数据

2、指定时间段查询Hudi中的数据

七、删除Hudi数据

八、更新Hudi某个分区数据

1、删除person_infos对应的目录，重新插入数据，代码如下

2、读取更新分区数据，插入到Hudi preson_infos表中

九、覆盖Hudi整个表数据

1、删除Hudi表person_infos对应的HDFS路径，重新插入数据

2、读取新数据，覆盖原有Hudi表数据

十、Spark操作Hudi Merge On Read 模式

十一、测试COW模式parquet文件删除与MOR模式Parquet文件与log文件Compact

你可能感兴趣的:(Apache,Hudi,spark,big,data,hadoop)

三、读取Hudi数据

五、增量查询Hudi数据