小明同学YYDS

数据湖之Hudi基础：入门介绍和编译部署

主要记录下Hudi的概述和打包编译等内容，方便参考

文章目录

简介
- 官网
- 发展历史
- Hudi特性
- 使用场景
安装部署
- 编译环境准备
编译hudi
- 1.源码包上传到服务器
- 2.修改pom文件
- 3.修改源码兼容hadoop3
- 4.手动安装kafka依赖（非必须）
- 5.解决spark模块依赖冲突
- 6.执行编译
- 7.测试hudi-client
简单测试编译后spark包可用性

简介

Apache Hudi（Hadoop Upserts Delete and Incremental）是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服务、数据集群/压缩优化和并发，同时保持数据的开源文件格式。

Apache Hudi不仅非常适合于流工作负载，而且还允许创建高效的增量批处理管道。

Apache Hudi可以轻松地在任何云存储平台上使用。Hudi的高级性能优化，使分析工作负载更快的任何流行的查询引擎，包括Apache Spark、Flink、Presto、Trino、Hive等。

官网

https://hudi.apache.org/

Apache Hudi（Hadoop Upserts Delete and Incremental）是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服务、数据集群/压缩优化和并发，同时保持数据的开源文件格式。

Apache Hudi不仅非常适合于流工作负载，而且还允许创建高效的增量批处理管道。

发展历史

2015 年：发表了增量处理的核心思想/原则（O’reilly 文章）。

2016 年：由 Uber 创建并为所有数据库/关键业务提供支持。

2017 年：由 Uber 开源，并支撑 100PB 数据湖。

2018 年：吸引大量使用者，并因云计算普及。

2019 年：成为 ASF 孵化项目，并增加更多平台组件。

2020 年：毕业成为 Apache 顶级项目，社区、下载量、采用率增长超过 10 倍。

2021 年：支持 Uber 500PB 数据湖，SQL DML、Flink 集成、索引、元服务器、缓存。

Hudi特性

可插拔索引机制支持快速Upsert/Delete。
支持增量拉取表变更以进行处理。
支持事务提交及回滚，并发控制。
支持Spark、Presto、Trino、Hive、Flink等引擎的SQL读写。
自动管理小文件，数据聚簇，压缩，清理。
流式摄入，内置CDC源和工具。
内置可扩展存储访问的元数据跟踪。
向后兼容的方式实现表结构变更的支持。

使用场景

近实时写入

减少碎片化工具的使用。
CDC 增量导入 RDBMS 数据。
限制小文件的大小和数量。

近实时分析

相对于秒级存储（Druid, OpenTSDB），节省资源。
提供分钟级别时效性，支撑更高效的查询。
Hudi作为lib，非常轻量。

增量 pipeline

区分arrivetime和event time处理延迟数据。
更短的调度interval减少端到端延迟（小时 -> 分钟） => Incremental Processing。

增量导出

替代部分Kafka的场景，数据导出到在线服务存储 e.g. ES。

安装部署

hudi是以lib包的形式提供功能，不同版本对spark、flink支持的依赖包不一样，具体要看官网对应版本的版本支持说明

本文会做的测试的环境如下

Linux Centos7

组件	版本
Hudi	0.12.1
Hadoop	3.2.4
Hive	3.1.3
Flink	1.14 scala-2.12
Spark	3.2.2 scala-2.12

hudi官网只提供了源码，需要自己编译

编译环境准备

linux环境编译

部署maven并配置环境变量

这个简单就不贴了

maven版本最好3.6以上别太低

这里贴下指定阿里仓库

修改setting.xml，指定为阿里仓库地址

vim $MAVEN_HOME/conf/settings.xml 


<mirror>
        <id>nexus-aliyunid>
        <mirrorOf>centralmirrorOf>
        <name>Nexus aliyunname>
        <url>http://maven.aliyun.com/nexus/content/groups/publicurl>
mirror>

编译hudi

1.源码包上传到服务器

源码下载：https://dlcdn.apache.org/hudi/0.12.1/hudi-0.12.1.src.tgz

将hudi-0.12.1.src.tgz上传到/opt/software，并解压

tar -zxvf /opt/software/hudi-0.12.1.src.tgz -C /opt/software

2.修改pom文件

vim /opt/software/hudi-0.12.1/pom.xml

新增repository加速依赖下载

<repository>
        <id>nexus-aliyunid>
        <name>nexus-aliyunname>
        <url>http://maven.aliyun.com/nexus/content/groups/public/url>
        <releases>
            <enabled>trueenabled>
        releases>
        <snapshots>
            <enabled>falseenabled>
        snapshots>
repository>

修改Hive/Hadoop依赖的组件版本

<hadoop.version>3.2.4hadoop.version>
<hive.version>3.1.3hive.version>

3.修改源码兼容hadoop3

要兼容hadoop3，除了修改版本，还需要修改如下代码：

vim /opt/software/hudi-0.12.1/hudi-common/src/main/java/org/apache/hudi/common/table/log/block/HoodieParquetDataBlock.java

修改第110行，增加一个入参 null

vim 进入末行模式，然后输入set nu回车就可以看到行号

110行原先代码try (FSDataOutputStream outputStream = new FSDataOutputStream(baos)) {

修改后：try (FSDataOutputStream outputStream = new FSDataOutputStream(baos, null)) {

110     try (FSDataOutputStream outputStream = new FSDataOutputStream(baos, null)) {
111       try (HoodieParquetStreamWriter<IndexedRecord> parquetWriter = new HoodieParquetStreamWriter<>(outputStream, avroParquetConfig)) {
112         for (IndexedRecord record : records) {
113           String recordKey = getRecordKey(record).orElse(null);
114           parquetWriter.writeAvro(recordKey, record);
115         }
116         outputStream.flush();
117       }
118     }

4.手动安装kafka依赖（非必须）

0.12.0似乎是有这个问题，我这0.12.1编译没有这个问题

如果编译报错：common-utils-5.3.4.jar、common-config-5.3.4.jar、kafka-avro-serializer-5.3.4.jar、kafka-schema-registry-client-5.3.4.jar这几个jar找不到，那就要单独下载并install到你的maven仓库。

下载地址：http://packages.confluent.io/archive/5.3/confluent-5.3.4-2.12.zip

解压后找到以上报错找不到的jar包，上传服务器，并install

mvn install:install-file -DgroupId=io.confluent -DartifactId=common-config -Dversion=5.3.4 -Dpackaging=jar -Dfile=./common-config-5.3.4.jar
mvn install:install-file -DgroupId=io.confluent -DartifactId=common-utils -Dversion=5.3.4 -Dpackaging=jar -Dfile=./common-utils-5.3.4.jar
mvn install:install-file -DgroupId=io.confluent -DartifactId=kafka-avro-serializer -Dversion=5.3.4 -Dpackaging=jar -Dfile=./kafka-avro-serializer-5.3.4.jar
mvn install:install-file -DgroupId=io.confluent -DartifactId=kafka-schema-registry-client -Dversion=5.3.4 -Dpackaging=jar -Dfile=./kafka-schema-registry-client-5.3.4.jar

5.解决spark模块依赖冲突

修改了Hive版本为3.1.3，其携带的jetty是0.9.3，hudi本身用的jetty是0.9.4，存在依赖冲突。

不改可以编译通过，但是运行spark向hudi里插入数据会报错

个人测试是编译OK，但是执行插入数据就报如下错误

java.lang.NoSuchMethodError: org.apache.hudi.org.apache.jetty.server.session.SessionHandler.setHttpOnly(Z)V

修改hudi-spark-bundle的pom文件，排除低版本jetty，添加hudi指定版本的jetty

vim /opt/software/hudi-0.12.1/packaging/hudi-spark-bundle/pom.xml

大概369行位置开始的hive-service、hive-jdbc、hive-metastore、hive-common

增加下方的...部分


    <dependency>
      <groupId>${hive.groupid}groupId>
      <artifactId>hive-serviceartifactId>
      <version>${hive.version}version>
      <scope>${spark.bundle.hive.scope}scope>
      <exclusions>
        <exclusion>
          <artifactId>guavaartifactId>
          <groupId>com.google.guavagroupId>
        exclusion>
        <exclusion>
          <groupId>org.eclipse.jettygroupId>
          <artifactId>*artifactId>
        exclusion>
        <exclusion>
          <groupId>org.pentahogroupId>
          <artifactId>*artifactId>
        exclusion>
      exclusions>
    dependency>

 <dependency>
      <groupId>${hive.groupid}groupId>
      <artifactId>hive-jdbcartifactId>
      <version>${hive.version}version>
      <scope>${spark.bundle.hive.scope}scope>
      <exclusions>
        <exclusion>
          <groupId>javax.servletgroupId>
          <artifactId>*artifactId>
        exclusion>
        <exclusion>
          <groupId>javax.servlet.jspgroupId>
          <artifactId>*artifactId>
        exclusion>
        <exclusion>
          <groupId>org.eclipse.jettygroupId>
          <artifactId>*artifactId>
        exclusion>
      exclusions>
    dependency>

 <dependency>
      <groupId>${hive.groupid}groupId>
      <artifactId>hive-metastoreartifactId>
      <version>${hive.version}version>
      <scope>${spark.bundle.hive.scope}scope>
      <exclusions>
        <exclusion>
          <groupId>javax.servletgroupId>
          <artifactId>*artifactId>
        exclusion>
        <exclusion>
          <groupId>org.datanucleusgroupId>
          <artifactId>datanucleus-coreartifactId>
        exclusion>
        <exclusion>
          <groupId>javax.servlet.jspgroupId>
          <artifactId>*artifactId>
        exclusion>
        <exclusion>
          <artifactId>guavaartifactId>
          <groupId>com.google.guavagroupId>
        exclusion>
      exclusions>
    dependency>

    <dependency>
        <groupId>${hive.groupid}groupId>
        <artifactId>hive-commonartifactId>
        <version>${hive.version}version>
        <scope>${spark.bundle.hive.scope}scope>
        <exclusions>
            <exclusion>
                <groupId>org.eclipse.jetty.orbitgroupId>
                <artifactId>javax.servletartifactId>
            exclusion>
            <exclusion>
                <groupId>org.eclipse.jettygroupId>
                <artifactId>*artifactId>
            exclusion>
        exclusions>
    dependency>

在此文件增加依赖


    <dependency>
      <groupId>org.eclipse.jettygroupId>
      <artifactId>jetty-serverartifactId>
      <version>${jetty.version}version>
    dependency>
    <dependency>
      <groupId>org.eclipse.jettygroupId>
      <artifactId>jetty-utilartifactId>
      <version>${jetty.version}version>
    dependency>
    <dependency>
      <groupId>org.eclipse.jettygroupId>
      <artifactId>jetty-webappartifactId>
      <version>${jetty.version}version>
    dependency>
    <dependency>
      <groupId>org.eclipse.jettygroupId>
      <artifactId>jetty-httpartifactId>
      <version>${jetty.version}version>
    dependency>

修改hudi-utilities-bundle的pom文件，排除低版本jetty，添加hudi指定版本的jetty

解决的是：使用DeltaStreamer工具向hudi表插入数据时，也会报Jetty的错误使用DeltaStreamer工具向hudi表插入数据时，也会报Jetty的错误

vim /opt/software/hudi-0.12.1/packaging/hudi-utilities-bundle/pom.xml

hudi依赖相关：搜索找到hudi-common位置

hudi-0.12.1中，此包使用的是maven-shade-plugin插件进行include hudi相关依赖，故我们也是用相同方式进行exclude

在的下一级（与同级）增加

<excludes>
    <exclude>org.eclipse.jetty:*exclude>
excludes>

另外：如果是hudi-0.12.0版本，可能不是使用maven-shade-plugin插件进行include hudi相关依赖，而使用的是正常depency的依赖引入，那么需要做如下几个依赖的exclude

hudi-common和hudi-client-common增加exclude项【hudi-0.12.1不用此操作】

<exclusions>
        <exclusion>
          <groupId>org.eclipse.jettygroupId>
          <artifactId>*artifactId>
        exclusion>
      exclusions>

Hive依赖相关：搜索hive-service的依赖位置，对如下几个依赖进行处理

hive-service增加exclude项

<exclusions>
		<exclusion>
          <artifactId>servlet-apiartifactId>
          <groupId>javax.servletgroupId>
        exclusion>
        <exclusion>
          <artifactId>guavaartifactId>
          <groupId>com.google.guavagroupId>
        exclusion>
        <exclusion>
          <groupId>org.eclipse.jettygroupId>
          <artifactId>*artifactId>
        exclusion>
        <exclusion>
          <groupId>org.pentahogroupId>
          <artifactId>*artifactId>
        exclusion>
      exclusions>

hive-jdbc增加exclude

	<exclusions>
        <exclusion>
          <groupId>javax.servletgroupId>
          <artifactId>*artifactId>
        exclusion>
        <exclusion>
          <groupId>javax.servlet.jspgroupId>
          <artifactId>*artifactId>
        exclusion>
        <exclusion>
          <groupId>org.eclipse.jettygroupId>
          <artifactId>*artifactId>
        exclusion>
      exclusions>

hive-metastore增加exclude项

<exclusions>
        <exclusion>
          <groupId>javax.servletgroupId>
          <artifactId>*artifactId>
        exclusion>
        <exclusion>
          <groupId>org.datanucleusgroupId>
          <artifactId>datanucleus-coreartifactId>
        exclusion>
        <exclusion>
          <groupId>javax.servlet.jspgroupId>
          <artifactId>*artifactId>
        exclusion>
        <exclusion>
          <artifactId>guavaartifactId>
          <groupId>com.google.guavagroupId>
        exclusion>
      exclusions>

hive-common

<exclusions>
        <exclusion>
          <groupId>org.eclipse.jetty.orbitgroupId>
          <artifactId>javax.servletartifactId>
        exclusion>
        <exclusion>
          <groupId>org.eclipse.jettygroupId>
          <artifactId>*artifactId>
        exclusion>
      exclusions>

增加jetty单独依赖


    <dependency>
      <groupId>org.eclipse.jettygroupId>
      <artifactId>jetty-serverartifactId>
      <version>${jetty.version}version>
    dependency>
    <dependency>
      <groupId>org.eclipse.jettygroupId>
      <artifactId>jetty-utilartifactId>
      <version>${jetty.version}version>
    dependency>
    <dependency>
      <groupId>org.eclipse.jettygroupId>
      <artifactId>jetty-webappartifactId>
      <version>${jetty.version}version>
    dependency>
    <dependency>
      <groupId>org.eclipse.jettygroupId>
      <artifactId>jetty-httpartifactId>
      <version>${jetty.version}version>
    dependency>

6.执行编译

mvn clean package -DskipTests -Dspark3.2 -Dflink1.14 -Dscala-2.12 -Dhadoop.version=3.2.4 -Pflink-bundle-shade-hive3

编译完成后，相关的包在packaging目录的各个模块中的target里：

[root@m1 packaging]# pwd
/opt/software/hudi-0.12.1/packaging
[root@m1 packaging]# ls
hudi-aws-bundle           hudi-hadoop-mr-bundle      hudi-presto-bundle           hudi-utilities-bundle
hudi-datahub-sync-bundle  hudi-hive-sync-bundle      hudi-spark-bundle            hudi-utilities-slim-bundle
hudi-flink-bundle         hudi-integ-test-bundle     hudi-timeline-server-bundle  README.md
hudi-gcp-bundle           hudi-kafka-connect-bundle  hudi-trino-bundle

7.测试hudi-client

/opt/software/hudi-0.12.1/hudi-cli/hudi-cli.sh

出现如下即OK

Main called
===================================================================
*         ___                          ___                        *
*        /\__\          ___           /\  \           ___         *
*       / /  /         /\__\         /  \  \         /\  \        *
*      / /__/         / /  /        / /\ \  \        \ \  \       *
*     /  \  \ ___    / /  /        / /  \ \__\       /  \__\      *
*    / /\ \  /\__\  / /__/  ___   / /__/ \ |__|     / /\/__/      *
*    \/  \ \/ /  /  \ \  \ /\__\  \ \  \ / /  /  /\/ /  /         *
*         \  /  /    \ \  / /  /   \ \  / /  /   \  /__/          *
*         / /  /      \ \/ /  /     \ \/ /  /     \ \__\          *
*        / /  /        \  /  /       \  /  /       \/__/          *
*        \/__/          \/__/         \/__/    Apache Hudi CLI    *
*                                                                 *
===================================================================
10137 [main] INFO  org.apache.hudi.cli.Main [] - Starting Main v0.12.1 using Java 1.8.0_181 on m1 with PID 6681 (/opt
/software/hudi-0.12.1/hudi-cli/target/hudi-cli-0.12.1.jar started by root in /opt/software/hudi-0.12.1/packaging)
10145 [main] INFO  org.apache.hudi.cli.Main [] - No active profile set, falling back to 1 default profile: "default"
Table command getting loaded
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/opt/software/hudi-0.12.1/hudi-cli/target/lib/log4j-slf4j-impl-2.17.2.jar!/org/slf4
j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/opt/software/hudi-0.12.1/hudi-cli/target/lib/slf4j-reload4j-1.7.35.jar!/org/slf4j/
impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]
11689 [main] WARN  org.jline [] - The Parser of class org.springframework.shell.jline.ExtendedDefaultParser does not 
support the CompletingParsedLine interface. Completion with escaped or quoted words won't work correctly.
11768 [main] INFO  org.apache.hudi.cli.Main [] - Started Main in 2.031 seconds (JVM running for 11.806)
hudi->

简单测试编译后spark包可用性

需要有hadoop环境和spark

1.部署好hadoop集群、spark组件

这里不过多赘述如何安装这俩，spark只需要解压就行

spark下载：https://dlcdn.apache.org/spark/spark-3.2.2/spark-3.2.2-bin-hadoop3.2.tgz

2.拷贝编译好的包到spark的jars目录

cp /opt/software/hudi-0.12.1/packaging/hudi-spark-bundle/target/hudi-spark3.2-bundle_2.12-0.12.1.jar /opt/module/spark-3.2.2/jars

3.启动hadoop

4.spark-shell方式测试

启动spark-shell

spark-shell \
  --conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' \
  --conf 'spark.sql.catalog.spark_catalog=org.apache.spark.sql.hudi.catalog.HoodieCatalog' \
  --conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension'

执行如下scala代码

// 设置表名，基本路径和数据生成器
import org.apache.hudi.QuickstartUtils._
import scala.collection.JavaConversions._
import org.apache.spark.sql.SaveMode._
import org.apache.hudi.DataSourceReadOptions._
import org.apache.hudi.DataSourceWriteOptions._
import org.apache.hudi.config.HoodieWriteConfig._

val tableName = "hudi_trips_cow"
val basePath = "file:///tmp/hudi_trips_cow"
val dataGen = new DataGenerator

// 插入数据
val inserts = convertToStringList(dataGen.generateInserts(10))
val df = spark.read.json(spark.sparkContext.parallelize(inserts, 2))
df.write.format("hudi").
  options(getQuickstartWriteConfigs).
  option(PRECOMBINE_FIELD_OPT_KEY, "ts").
  option(RECORDKEY_FIELD_OPT_KEY, "uuid").
  option(PARTITIONPATH_FIELD_OPT_KEY, "partitionpath").
  option(TABLE_NAME, tableName).
  mode(Overwrite).
  save(basePath)

// 查询数据
val tripsSnapshotDF = spark.
  read.
  format("hudi").
  load(basePath)
tripsSnapshotDF.createOrReplaceTempView("hudi_trips_snapshot")
spark.sql("select fare, begin_lon, begin_lat, ts from  hudi_trips_snapshot where fare > 20.0").show()

也可以去/tmp/hudi_trips_cow/目录下查看是否有数据文件

执行示例

[root@m3 spark3]# bin/spark-shell   --conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer'   --conf 'spark.sql.catalog.spark_catalog=org.apache.spark.sql.hudi.catalog.HoodieCatalog'   --conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension'
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
2023-01-16 01:40:40,221 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Spark context Web UI available at http://m3:4040
Spark context available as 'sc' (master = local[*], app id = local-1673851241535).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.2.2
      /_/

Using Scala version 2.12.15 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_181)
Type in expressions to have them evaluated.
Type :help for more information.

scala> import org.apache.hudi.QuickstartUtils._
import org.apache.hudi.QuickstartUtils._

scala> import scala.collection.JavaConversions._
import scala.collection.JavaConversions._

scala> import org.apache.spark.sql.SaveMode._
import org.apache.spark.sql.SaveMode._

scala> import org.apache.hudi.DataSourceReadOptions._
import org.apache.hudi.DataSourceReadOptions._

scala> import org.apache.hudi.DataSourceWriteOptions._
import org.apache.hudi.DataSourceWriteOptions._

scala> import org.apache.hudi.config.HoodieWriteConfig._
import org.apache.hudi.config.HoodieWriteConfig._

scala> val tableName = "hudi_trips_cow"
tableName: String = hudi_trips_cow

scala> val basePath = "file:///tmp/hudi_trips_cow"
basePath: String = file:///tmp/hudi_trips_cow

scala> val dataGen = new DataGenerator
dataGen: org.apache.hudi.QuickstartUtils.DataGenerator = org.apache.hudi.QuickstartUtils$DataGenerator@2b2bcb4a

scala> val inserts = convertToStringList(dataGen.generateInserts(10))
inserts: java.util.List[String] = [{"ts": 1673839191417, "uuid": "0b652f6a-1349-444e-8442-976fc149b589", "rider": "rider-213", "driver": "driver-213", "begin_lat": 0.4726905879569653, "begin_lon": 0.46157858450465483, "end_lat": 0.754803407008858, "end_lon": 0.9671159942018241, "fare": 34.158284716382845, "partitionpath": "americas/brazil/sao_paulo"}, {"ts": 1673565741975, "uuid": "20e0932b-5baa-4c74-a423-8e72a3c1dcef", "rider": "rider-213", "driver": "driver-213", "begin_lat": 0.6100070562136587, "begin_lon": 0.8779402295427752, "end_lat": 0.3407870505929602, "end_lon": 0.5030798142293655, "fare": 43.4923811219014, "partitionpath": "americas/brazil/sao_paulo"}, {"ts": 1673405567377, "uuid": "2417e9e6-c5a7-4399-b7a1-4b6e2fb90372", "rider": "rider-213", "driver"...

scala> val df = spark.read.json(spark.sparkContext.parallelize(inserts, 2))
warning: one deprecation (since 2.12.0)
warning: one deprecation (since 2.2.0)
warning: two deprecations in total; for details, enable `:setting -deprecation' or `:replay -deprecation'
df: org.apache.spark.sql.DataFrame = [begin_lat: double, begin_lon: double ... 8 more fields]

scala> df.write.format("hudi").
     |   options(getQuickstartWriteConfigs).
     |   option(PRECOMBINE_FIELD_OPT_KEY, "ts").
     |   option(RECORDKEY_FIELD_OPT_KEY, "uuid").
     |   option(PARTITIONPATH_FIELD_OPT_KEY, "partitionpath").
     |   option(TABLE_NAME, tableName).
     |   mode(Overwrite).
     |   save(basePath)
warning: one deprecation; for details, enable `:setting -deprecation' or `:replay -deprecation'
2023-01-16 01:41:57,422 WARN config.DFSPropertiesConfiguration: Cannot find HUDI_CONF_DIR, please set it as the dir of hudi-defaults.conf
2023-01-16 01:41:57,443 WARN config.DFSPropertiesConfiguration: Properties file file:/etc/hudi/conf/hudi-defaults.conf not found. Ignoring to load props file
2023-01-16 01:41:57,471 WARN hudi.HoodieSparkSqlWriter$: hoodie table at file:/tmp/hudi_trips_cow already exists. Deleting existing data & overwriting with new data.
2023-01-16 01:41:58,404 WARN metadata.HoodieBackedTableMetadata: Metadata table was not found at path file:/tmp/hudi_trips_cow/.hoodie/metadata

scala> val tripsSnapshotDF = spark.
     |   read.
     |   format("hudi").
     |   load(basePath)
tripsSnapshotDF: org.apache.spark.sql.DataFrame = [_hoodie_commit_time: string, _hoodie_commit_seqno: string ... 13 more fields]

scala> tripsSnapshotDF.createOrReplaceTempView("hudi_trips_snapshot")

scala> spark.sql("select fare, begin_lon, begin_lat, ts from  hudi_trips_snapshot where fare > 20.0").show()
+------------------+-------------------+-------------------+-------------+
|              fare|          begin_lon|          begin_lat|           ts|
+------------------+-------------------+-------------------+-------------+
| 64.27696295884016| 0.4923479652912024| 0.5731835407930634|1673405567377|
| 93.56018115236618|0.14285051259466197|0.21624150367601136|1673491795155|
| 27.79478688582596| 0.6273212202489661|0.11488393157088261|1673772916404|
| 33.92216483948643| 0.9694586417848392| 0.1856488085068272|1673347004963|
|34.158284716382845|0.46157858450465483| 0.4726905879569653|1673839191417|
| 66.62084366450246|0.03844104444445928| 0.0750588760043035|1673613988097|
|  43.4923811219014| 0.8779402295427752| 0.6100070562136587|1673565741975|
| 41.06290929046368| 0.8192868687714224|  0.651058505660742|1673298206656|
+------------------+-------------------+-------------------+-------------+

如果插入时报错：java.lang.NoSuchMethodError: org.apache.hudi.org.apache.jetty.server.session.SessionHandler.setHttpOnly(Z)V

去看下上文：解决spark依赖冲突小节解决

你可能感兴趣的:(大数据,Hudi,大数据,Hudi,数据湖,数据仓库,Apache,Hudi)

JMeter中变量如何使用？测试者家园智能化测试性能测试 JMeter jmeter 智能化测试性能测试软件测试质量效能软件开发和测试持续测试
在性能测试的世界中，ApacheJMeter是一把利器，凭借其强大的可扩展性与图形化操作界面，在工业界和开源社区中广受青睐。而“变量的使用”作为JMeter中提高测试灵活性、可维护性和复用性的关键技术点，却常常被初学者忽略或误用。本文将从变量的定义方式、作用域、典型应用场景到高级技巧全面展开剖析，并结合实际案例为读者提供具有启发性的思维视角。一、什么是变量？为什么JMeter离不开它？JMeter
凌晨の3点，线程池竟在服务器里偷偷···· 山海上的风 Java 服务器 java-ee 线程池
凌晨の3点，线程池の竟在服务器里偷偷榨干CPU····⚡️CPU：JAVAKing为窝发声,HELPME⚡️JAVAKING今天将揭露线程池的罪恶行为⚡️《线程池：OH,YES》线程池到底对项目做了什么想象一下：每次点外卖都新雇一个厨师‍，吃完就开除——这就是裸奔线程的日常！在高并发三巨头（电商秒杀、金融交易、大数据处理）中：1️⃣CPU哭诉：90%时间在面试线程，10%干活（线程切换开销）2️⃣
解决报错：org.apache.catalina.connector.ClientAbortException: java.io.IOException: Broken pipe 天黑请闭眼 Java异常处理 java
目录一、场景二、报错信息三、原因四、解决一、场景1、前端调用后端接口报错2、接口功能为导出excel二、报错信息org.apache.catalina.connector.ClientAbortException:java.io.IOException:Brokenpipeatorg.apache.catalina.connector.OutputBuffer.realWriteBytes(Out
Burrow - Kafka 消费者滞后检查工具虞耀炜
Burrow-Kafka消费者滞后检查工具BurrowKafkaConsumerLagChecking项目地址:https://gitcode.com/gh_mirrors/bu/Burrow项目基础介绍和主要编程语言Burrow是一个由LinkedIn开发的开源项目，旨在为ApacheKafka提供消费者滞后检查服务。该项目的主要编程语言是Go，利用Go语言的高效性能和并发处理能力，Burrow
探索Kafka监控新维度：Burrow深度解析孙爽知Kody
探索Kafka监控新维度：Burrow深度解析BurrowKafkaConsumerLagChecking项目地址:https://gitcode.com/gh_mirrors/bu/Burrow项目介绍在大数据领域，ApacheKafka作为实时数据流处理的领军者，其稳定性和性能备受赞誉。然而，对于消费者端的监控始终是一个挑战。这时，LinkedIn开源的Burrow应运而生，它是一款专为Kaf
说说自己Python 代码优化实践 chilavert318 大数据 linux 运维 python
今年上半年在外省做一个大数据相关的项目，在review项目组成员的代码时，发现一段处理大数据集的模块存在明显性能瓶颈：10万条数据的清洗流程耗时近20分钟，CPU占用率却始终在30%以下。深入分析后发现，看似简洁的Python代码背后，隐藏着诸多可以优化的细节——这并非个例，我们的程序在追求代码可读性时，往往忽略了Python特有的性能陷阱。今天抽点时间，从我实践中的代码就python开发，从内存
基于python的公众号文章爬取思路（总结版）大数据小学僧 python 开发语言爬虫微信公众平台
目录一、技术方案分类1.接口直连模式（推荐）2.网页解析模式3.第三方API模式二、核心技术栈三、爬虫实现步骤1.接口直连模式（微信公众平台API）2.网页解析模式（搜狗微信搜索）3.第三方API模式（如清博大数据）四、可视化界面实现五、数据存储方案六、高级技巧七、注意事项八、推荐工具链一、技术方案分类1.接口直连模式（推荐）2.网页解析模式3.第三方API模式二、核心技术栈三、爬虫实现步骤1.接
TDengine 运维全攻略：五种备份与恢复方法深度解析（2025 最新版） TDengine （老段） TDengine 运维 tdengine 运维大数据涛思数据物联网时序数据库数据库
备份与还原是数据库运维的核心环节，TDengine提供了五种主流数据备份方法，覆盖不同场景需求。本文将详细解析各方法的特性与操作要点。1.taosdump介绍taosdump是TDengine社区版首选的数据备份工具（企业版同样支持），其核心特点是操作简便、支持多线程处理，且备份文件采用ApacheAvro格式（大数据领域通用数据交换格式），便于向其他系统共享数据。工具支持跨平台连接远程服务器执行
Flink项目基础配置指南 Edingbrugh.南空 flink 大数据 flink 大数据
在大数据处理领域，ApacheFlink凭借强大的实时流处理和批处理能力，成为众多开发者的首选工具。在日常工作中，开发FlinkJar任务是常见需求，但每次都需重复配置日志、梳理pom依赖、设置打包插件等，流程繁琐且易出错。为提升开发效率，减少重复劳动，将这些基础配置进行整理归纳十分必要。本文将围绕Flink项目的本地日志配置、pom依赖及插件配置展开详细介绍，为开发者提供一套可直接复用的基础配置
Apache SeaTunnel Flink引擎执行流程源码分析 Code Monkey’s Lab 源码分析 Flink flink 大数据架构 seatunnel
目录1.任务启动入口2.任务执行命令类：FlinkTaskExecuteCommand3.FlinkExecution的创建与初始化3.1核心组件初始化3.2关键对象说明4.任务执行：FlinkExecution.execute()5.Source处理流程5.1插件初始化5.2数据流生成6.Transform处理流程6.1插件初始化6.2转换执行7.Sink处理流程7.1插件初始化7.2数据输出执
大数据智能风控核心：模型 johnny233 读书笔记大数据
概述模型线性判别分析方法，SirRonaldFisher最早提出模型评分的概念。个人FICO模型信用分。巴塞尔委员会发布巴塞尔Ⅱ协议，推出内部评级法（InternalRatingBasedApproach，IRB）。IRB综合考虑客户评级和债项评级，通过违约概率(ProbabilityofDefault,PD)、违约损失率(LossGivenDefault,LGD)、违约风险暴露(Exposure
Python爬虫实战：研究Bleach库相关技术 ylfhpy 爬虫项目实战 python 爬虫 php 开发语言 Bleach
1.引言在大数据时代，网络内容采集已成为信息获取的重要手段。Python凭借其丰富的爬虫库（如Requests、Scrapy）和灵活的数据处理能力，成为网页爬虫开发的首选语言。然而，从互联网获取的内容往往包含恶意脚本、不安全标签等安全隐患，直接使用可能导致XSS(跨站脚本攻击)、数据泄露等风险。Bleach作为专业的HTML净化库，通过白名单机制提供了可靠的内容安全过滤方案。本文将结合实际案例，详
Python爬虫实战：研究untangle库相关技术 ylfhpy 爬虫项目实战 python 爬虫 php 开发语言 untangle
1.引言在大数据时代，网络数据已成为重要的信息资源。XML和HTML作为互联网上最常用的数据表示格式，广泛应用于API接口、网站结构和数据交换等场景。Python凭借其丰富的爬虫库（如Requests、Scrapy）和灵活的数据处理能力，成为网络数据采集的首选语言。然而，从复杂的XML/HTML文档中提取结构化数据仍然面临诸多挑战，如文档结构多样性、动态内容渲染和数据格式转换等问题。Untangl
【头歌】MapReduce基础实战答案 Seven_Two2 头歌大数据实验答案 c#开发语言
本专栏已收集大数据所有答案第1关：成绩统计编程要求使用MapReduce计算班级每个学生的最好成绩，输入文件路径为/user/test/input，请将计算后的结果输出到/user/test/output/目录下。答案：需要先在命令行启动HDFS#命令行start-dfs.sh再在代码文件中写入以下代码#代码文件importjava.io.IOException;importjava.util.S
使用POI导入Excel文件数据处理生活压力大 Java开发 poi java excel
前言最近项目中做了一个Excel模板导入功能，需要将文件中的数据获取后保存，优于Excel文件中表头多行，数据比较凌乱所以采用了POI进行导入。引入jar包我的是maven项目，所以直接在pom文件中引入相关依赖即可，我使用的jar包为3.16：org.apache.poipoi3.16org.apache
Apache POI导入导出excel文件实战小白de成长之路 Java相关 apache excel 前端
文章目录前言技术栈1、引入依赖2、导入代码实现3、导出代码实现3.1、准备导出文件模板3.2、导出代码实现4、代码实现解释5、常见问题前言这两天公司项目业务提出需求，要求在前端上传excel文件然后解析展示，因此写篇文章记录一下实现。技术栈springboot2.6.61、引入依赖maven格式：org.apache.poipoi3.14org.apache.poipoi-ooxml3.142、导
事件驱动架构（EDA）：不止是代码，更是现代运维的灵魂运维开发王义杰系统运维系统架构 aws 架构运维
今天我们来聊一个在云原生时代越来越火热的概念——事件驱动架构（Event-DrivenArchitecture,EDA）。大家可能在浏览AWSEventBridge、ApacheKafka或RabbitMQ的文档时遇到过它。起初，可能会觉得这只是软件工程师在设计微服务时用到的一种模式。但如果我们深入思考就会发现，EDA的精髓早已渗透到现代系统运维的方方面面，甚至可以说，它是一种构建和管理高韧性、高
获取周末及节假日 qiuJun998 获取周末获取节假日
packagecom.testwar.util.testWeekAndJiiejiari.weekAndHolidaySuccess;importorg.apache.commons.collections4.CollectionUtils;importorg.javatuples.Pair;importjava.util.ArrayList;importjava.util.List;import
【pdf】Java代码生成PDF Leslie_Lei #pdf pdf java
目录依赖创建单元格表格数据行辅助添加方法创建表头单元格创建下划线创建带下划线的文字创建PDF依赖com.itextpdfitextpdf5.4.2org.apache.pdfboxpdfbox2.0.13com.itextpdfitext-asian5.2.0创建单元格/***创建单元格**@paramtext显示值*@paramfont字体*@paramhorizontalAlign值水平显示位
Python HTTP日志分析：Nginx/Apache日志的Python解析华科℡云网络协议负载均衡运维
Web服务器日志是监控流量模式、性能瓶颈及安全威胁的关键数据源。Python凭借其丰富的库生态，可高效解析Nginx与Apache的日志格式，实现结构化数据提取与分析。日志格式解析基础Nginx默认采用combined格式，字段包括：$remote_addr（客户端IP）、$time_local（时间戳）、$request（请求方法+URL+协议）、$status（HTTP状态码）、$body_b
电力行业 | 抽水蓄能场景下，百万测点数据如何统一采集与接入？ DolphinDB智臾科技物联网 dolphindb 数据库抽水蓄能电力数据采集数据接入
在电力行业，抽水蓄能是目前最成熟、已经大规模化应用、兼顾发电和储能的一项技术。为了保障电站的平稳运行，借助物联网、大数据等技术，对电站各类运行设备进行实时采集，如机组振动、油压波动、瓦温变化等生产监测数据，已成为电站稳定运维的重要技术手段。在之前的文章储能业|低成本部署！DolphinDB打造抽水蓄能一体化解决方案-CSDN博客中，我们介绍了DolphinDB在抽水蓄能场景中的全链路解决方案。今天
SQLite 数据库在大数据分析中的应用潜力数据库管理艺术数据库 sqlite 数据分析 ai
SQLite数据库在大数据分析中的应用潜力关键词：SQLite、大数据分析、轻量级数据库、嵌入式数据库、数据仓库、OLAP、性能优化摘要：本文深入探讨了SQLite这一轻量级嵌入式数据库在大数据分析领域的应用潜力。我们将从SQLite的核心架构出发，分析其在大数据场景下的优势和限制，并通过实际案例展示如何通过优化策略和扩展技术使SQLite能够处理大规模数据集。文章包含性能对比测试、优化技巧和实际
浅谈HttpClient weixin_34092455 网络
为什么80%的码农都做不了架构师？>>>HttpClient简介HttpClient是ApacheJakartaCommon下的子项目，可以用来提供高效的、最新的、功能丰富的支持HTTP协议的客户端编程工具包，并且它支持HTTP协议最新的版本和建议。HttpClient支持的功能如下：支持Http0.9、Http1.0和Http1.1协议。实现了Http全部的方法（GET,POST,PUT,HEA
利用大数据领域Doris提升企业数据决策效率大数据洞察大数据网络 ai
利用大数据领域Doris提升企业数据决策效率关键词：大数据、Doris、企业数据决策、数据处理、效率提升摘要：本文围绕利用大数据领域的Doris来提升企业数据决策效率展开。首先介绍了背景，包括目的、预期读者、文档结构和相关术语。接着阐述了Doris的核心概念、架构以及与其他系统的联系。详细讲解了Doris的核心算法原理和具体操作步骤，并给出Python代码示例。同时介绍了相关的数学模型和公式。通过
本地搭建WordPress （XAMPP环境） weixin_30577801 数据库运维 php
1，XAMPP是一个流行的PHP开发环境，官网下载：https://www.apachefriends.org/zh_cn/index.html然后安装。官方介绍：XAMPP是最流行的PHP开发环境XAMPP是完全免费且易于安装的Apache发行版，其中包含MariaDB、PHP和Perl。XAMPP开放源码包的设置让安装和使用出奇容易。2，WordPress官网下载：https://cn.wor
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案 mmlihaio 数据库云原生 python
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案1.引言在当今的人工智能和大数据时代，高效的向量检索已成为许多应用场景的关键需求。Tair作为阿里云开发的云原生内存数据库服务，不仅提供了丰富的数据模型和企业级能力，还引入了基于非易失性内存(NVM)存储介质的持久内存优化实例。本文将深入探讨如何利用Tair向量数据库功能，实现高性能的向量存储和检索。2.Tair向量数据库概述Ta
解锁阿里云E-MapReduce：大数据处理的超能力秘籍云资源服务商阿里云云计算人工智能云原生
一、引言在数字化浪潮汹涌澎湃的当下，大数据已然成为推动各行业创新发展的核心驱动力。从电商平台精准的个性化推荐，到金融机构严密的风险评估，再到医疗领域高效的疾病预测，大数据的应用场景无处不在，深刻地改变着我们的生活与工作方式。在这片充满机遇与挑战的大数据领域中，阿里云E-MapReduce宛如一颗璀璨的明星，占据着举足轻重的地位。它凭借强大的大数据处理能力、卓越的性能表现以及丰富的功能特性，为企业和
SnowConvert：自动化数据迁移的技术解析与最佳实践 weixin_30777913 迁移学习数据库运维
SnowConvert是Snowflake生态系统的关键迁移工具，专为将传统数据仓库（如Oracle、Teradata、SQLServer等）的代码资产高效、准确地转换为Snowflake原生语法而设计。以下基于官方文档对其技术原理、工作流程及最佳实践进行深入分析：一、SnowConvert核心技术解析精准的语法映射引擎语言支持：深度解析源系统特有语法（OraclePL/SQL,TeradataB
大数据面试必备：Kafka性能优化 Producer与Consumer配置指南
Kafka面试题-在Kafka中，如何通过配置优化Producer和Consumer的性能?回答重点在Kafka中，通过优化Producer和Consumer的配置，可以显著提高性能。以下是一些关键配置项和策略：1、Producer端优化:batch.size：批处理大小。增大batch.size可以使Producer每次发送更多的消息，但要注意不能无限制增大，否则会导致内存占用过多。linger
图扑软件智慧云展厅，开启数字化展馆新模式智慧园区可视化 5g 人工智能大数据安全云计算
随着疫情的影响以及新兴技术的不断发展，展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段，构建数据共享、信息互通、精准匹配的高精度“云展厅”，突破时空壁垒限制。图扑软件运用HT强大的渲染功能，数字孪生“云展位”，1:1复现实际展厅内部独特的结构造型和建筑特色。也可以第一人称视角漫游，模拟用户在展厅内的参观场景，在保
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul