HUDI 第14页

使用Apache Hudi构建大规模、事务性数据湖

一个近期由HudiPMC&UberSeniorEngineeringManagerNishithAgarwal分享的Talk关于NishithAgarwal更详细的介绍，主要从事数据方面的工作，包括摄取标准化，数据湖原语等。什么是数据湖？数据湖是一个集中式的存储，允许以任意规模存储结构化和非结构化数据。你可以存储原始数据，而不需要先转化为结构化的数据，基于数据湖之上可以运行多种类型的分析，如das

leesf·2020-06-27 21:00

使用Apache Hudi构建大规模、事务性数据湖

一个近期由HudiPMC&UberSeniorEngineeringManagerNishithAgarwal分享的Talk关于NishithAgarwal更详细的介绍，主要从事数据方面的工作，包括摄取标准化，数据湖原语等。什么是数据湖？数据湖是一个集中式的存储，允许以任意规模存储结构化和非结构化数据。你可以存储原始数据，而不需要先转化为结构化的数据，基于数据湖之上可以运行多种类型的分析，如das

leesf·2020-06-27 21:00

恭喜，Apache Hudi 即将成为顶级项目！

美国当地时间2020年05月11日，ApacheHudi项目的共同创始人、PMCVinothChandar给社区发了一封标题为[DISCUSS]GraduateApacheHudi(Incubating)asaTLP[1]的邮件，来投票讨论ApacheHudi毕业成为ApacheTLP项目。2020年05月19日共40人投票赞成[2]，不久社区给Apache董事会申请成为TLP，今天（2020年0

过往记忆·2020-06-27 12:56

Apache Hudi：统一批和近实时分析的存储和服务

分为产生背景、动机、设计、使用案例、demo几个模块讲解。Uber的行程在2018年已经达到700个城市，70个国家，200w+司机的规模。而数据在Uber中可分为摄取和查询，而摄取包括从kafka、hdfs上消费数据；查询则包括使用sparknotebook的数据科学家，使用Hive/Presto进行adhoc查询和dashboard展示，使用Spark/Hive构建数据管道或ETL任务等。引入

过往记忆·2020-06-27 12:56

使用Apache Spark和Apache Hudi构建分析数据湖

1.引入大多数现代数据湖都是基于某种分布式文件系统（DFS），如HDFS或基于云的存储，如AWSS3构建的。遵循的基本原则之一是文件的“一次写入多次读取”访问模型。这对于处理海量数据非常有用，如数百GB到TB的数据。但是在构建分析数据湖时，更新数据并不罕见。根据不同场景，这些更新频率可能是每小时一次，甚至可能是每天或每周一次。另外可能还需要在最新视图、包含所有更新的历史视图甚至仅是最新增量视图上运

大数据技术架构·2020-06-27 01:45

Apache Hudi：云数据湖解决方案

1.引入开源ApacheHudi项目为Uber等大型组织提供流处理能力，每天可处理数据湖上的数十亿条记录。随着世界各地的组织采用该技术，Apache开源数据湖项目已经日渐成熟。ApacheHudi（HadoopUpsertsDeletesandIncrementals）是一个数据湖项目，可在与ApacheHadoop兼容的云存储系统（包括AmazonS3、AliyunOSS）上进行流数据处理。该项

leesf·2020-06-21 12:00

特性速览| Apache Hudi 0.5.3版本正式发布

ApacheHudi0.5.3SourceRelease(asc,sha512)0.5.3版本相关jar包地址：https://repository.apache.org/#nexus-search;quick~hudi2

leesf·2020-06-19 09:00

特性速览| Apache Hudi 0.5.3版本正式发布

ApacheHudi0.5.3SourceRelease(asc,sha512)0.5.3版本相关jar包地址：https://repository.apache.org/#nexus-search;quick~hudi2

leesf·2020-06-19 09:00

使用Apache Spark和Apache Hudi构建分析数据湖

1.引入大多数现代数据湖都是基于某种分布式文件系统（DFS），如HDFS或基于云的存储，如AWSS3构建的。遵循的基本原则之一是文件的“一次写入多次读取”访问模型。这对于处理海量数据非常有用，如数百GB到TB的数据。但是在构建分析数据湖时，更新数据并不罕见。根据不同场景，这些更新频率可能是每小时一次，甚至可能是每天或每周一次。另外可能还需要在最新视图、包含所有更新的历史视图甚至仅是最新增量视图上运

leesf·2020-06-15 09:00

使用Apache Spark和Apache Hudi构建分析数据湖

1.引入大多数现代数据湖都是基于某种分布式文件系统（DFS），如HDFS或基于云的存储，如AWSS3构建的。遵循的基本原则之一是文件的“一次写入多次读取”访问模型。这对于处理海量数据非常有用，如数百GB到TB的数据。但是在构建分析数据湖时，更新数据并不罕见。根据不同场景，这些更新频率可能是每小时一次，甚至可能是每天或每周一次。另外可能还需要在最新视图、包含所有更新的历史视图甚至仅是最新增量视图上运

leesf·2020-06-15 09:00

Uber基于Apache Hudi构建PB级数据湖实践

一年后，我们开源了该解决方案，以使得其他有需要的组织也可以利用Hudi的优势。接着在2019年，我们履行承诺，进一步将其捐赠给了ApacheSoftwareFoun

leesf·2020-06-11 09:00

Uber基于Apache Hudi构建PB级数据湖实践

一年后，我们开源了该解决方案，以使得其他有需要的组织也可以利用Hudi的优势。接着在2019年，我们履行承诺，进一步将其捐赠给了ApacheSoftwareFoun

leesf·2020-06-11 09:00

调优 | Apache Hudi应用调优指南

通过Spark作业将数据写入Hudi时，Spark应用的调优技巧也适用于此。如果要提高性能或可靠性，请牢记以下几点。

leesf·2020-06-06 15:00

调优 | Apache Hudi应用调优指南

通过Spark作业将数据写入Hudi时，Spark应用的调优技巧也适用于此。如果要提高性能或可靠性，请牢记以下几点。

leesf·2020-06-06 15:00

ASF官方正式宣布Apache Hudi成为顶级项目

在投票表决Hudi毕业时，Hudi总共获得了19票binding（其中包括ASF联合创始人JimJagielski的一票），21票non-binding。ApacheHudi（Hado

leesf·2020-06-05 13:00

ASF官方正式宣布Apache Hudi成为顶级项目

在投票表决Hudi毕业时，Hudi总共获得了19票binding（其中包括ASF联合创始人JimJagielski的一票），21票non-binding。ApacheHudi（Hado

leesf·2020-06-05 13:00

实战| 配置DataDog监控Apache Hudi应用指标

leesf·2020-06-03 20:00

实战| 配置DataDog监控Apache Hudi应用指标

leesf·2020-06-03 20:00

Apache Hudi在医疗大数据中的应用

本篇文章主要介绍Hudi在医疗大数据中的应用，主要分为５个部分进行介绍：1.建设背景，2.为什么选择Hudi，3.Hudi数据同步，4.存储类型选择及查询优化，5.未来发展与思考。

leesf·2020-05-29 23:00

Apache Hudi在医疗大数据中的应用

本篇文章主要介绍Hudi在医疗大数据中的应用，主要分为５个部分进行介绍：1.建设背景，2.为什么选择Hudi，3.Hudi数据同步，4.存储类型选择及查询优化，5.未来发展与思考。

leesf·2020-05-29 23:00

Hive 集成 Hudi 实践（含代码）| 可能是全网最详细的数据湖系列

关于数据湖的资料网络上还是比较少的，特别是实践系列，对于新技术来说，基础的入门文档还是很有必要的，所以这一篇希望能够帮助到想使用Hudi的同学入门。

老蒙大数据·2020-05-28 09:00

线上Presto查询Hudi表异常排查

1.引入线上用户反馈使用Presto查询Hudi表出现错误，而将Hudi表的文件单独创建parquet类型表时查询无任何问题，关键报错信息如下40931f6e-3422-4ffd-a692-6c70f75c9380

leesf·2020-05-23 18:00

线上Presto查询Hudi表异常排查

1.引入线上用户反馈使用Presto查询Hudi表出现错误，而将Hudi表的文件单独创建parquet类型表时查询无任何问题，关键报错信息如下40931f6e-3422-4ffd-a692-6c70f75c9380

leesf·2020-05-23 18:00

Apache Hudi典型应用场景知多少？

对于RDBMS摄取，Hudi通过Upserts提供了更快的负载，而非昂贵且低效的批量负载。例如你可以读取MySQLbinlog日志或Sqoop增量导入，并将它们应用在DFS上的Hudi表，这比批量合并

leesf·2020-05-19 18:00

Apache Hudi典型应用场景知多少？

对于RDBMS摄取，Hudi通过Upserts提供了更快的负载，而非昂贵且低效的批量负载。例如你可以读取MySQLbinlog日志或Sqoop增量导入，并将它们应用在DFS上的Hudi表，这比批量合并

leesf·2020-05-19 18:00

PySpark整合Apache Hudi实战

1.准备Hudi支持Spark-2.x版本，你可以点击如下链接安装Spark，并使用pyspark启动#pysparkexportPYSPARK_PYTHON=$(whichpython3)spark-

leesf·2020-05-10 16:00

Apache Hudi又双叕被国内顶级云服务提供商集成了！

是的，最近国内云服务提供商腾讯云在其EMR-V2.2.0版本中优先集成了Hudi0.5.1版本作为其云上的数据湖解决方案对外提供服务ApacheHudi在HDFS的数据集上提供了插入更新和增量拉取的流原语

leesf·2020-05-09 13:00

Apache Hudi又双叕被国内顶级云服务提供商集成了！

是的，最近国内云服务提供商腾讯云在其EMR-V2.2.0版本中优先集成了Hudi0.5.1版本作为其云上的数据湖解决方案对外提供服务ApacheHudi在HDFS的数据集上提供了插入更新和增量拉取的流原语

leesf·2020-05-09 13:00

Apache Hudi集成Apache Zeppelin实战

当前Hive与SparkSQL已经支持查询Hudi的读优化视图和实时视图。所以理论上Zeppelin的n

leesf·2020-04-28 09:00

实战 | 将Apache Hudi数据集写入阿里云OSS

1.引入云上对象存储的廉价让不少公司将其作为主要的存储方案，而Hudi作为数据湖解决方案，支持对象存储也是必不可少。之前AWSEMR已经内置集成Hudi，也意味着可以在S3上无缝使用Hudi。

leesf·2020-04-25 14:00

实战 | 将Apache Hudi数据集写入阿里云OSS

1.引入云上对象存储的廉价让不少公司将其作为主要的存储方案，而Hudi作为数据湖解决方案，支持对象存储也是必不可少。之前AWSEMR已经内置集成Hudi，也意味着可以在S3上无缝使用Hudi。

leesf·2020-04-25 14:00

Apache Hudi的写时复制和读时合并

ApacheHudihttp://hudi.apache.org/http://hudi.apache.org/docs/quick-start-guide.htmlHudi是什么Hudi将流处理带到大数据

21aspnet·2020-04-22 18:41

实战|使用Spark Structured Streaming写入Hudi

1.项目背景传统数仓的组织架构是针对离线数据的OLAP（联机事务分析）需求设计的，常用的导入数据方式为采用sqoop或spark定时作业逐批将业务库数据导入数仓。随着数据分析对实时性要求的不断提高，按小时、甚至分钟级的数据同步越来越普遍。由此展开了基于spark/flink流处理机制的（准）实时同步系统的开发。然而实时同步数仓从一开始就面临如下几个挑战：小文件问题。不论是spark的microba

leesf·2020-04-18 22:00

实战|使用Spark Structured Streaming写入Hudi

1.项目背景传统数仓的组织架构是针对离线数据的OLAP（联机事务分析）需求设计的，常用的导入数据方式为采用sqoop或spark定时作业逐批将业务库数据导入数仓。随着数据分析对实时性要求的不断提高，按小时、甚至分钟级的数据同步越来越普遍。由此展开了基于spark/flink流处理机制的（准）实时同步系统的开发。然而实时同步数仓从一开始就面临如下几个挑战：小文件问题。不论是spark的microba

leesf·2020-04-18 22:00

Apache Hudi 设计与架构最强解读

1.简介ApacheHudi(简称：Hudi)使得您能在hadoop兼容的存储之上存储大量数据，同时它还提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。

leesf·2020-04-16 05:00

Apache Hudi 设计与架构最强解读

1.简介ApacheHudi(简称：Hudi)使得您能在hadoop兼容的存储之上存储大量数据，同时它还提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。

leesf·2020-04-16 05:00

贝拉•塔尔：时间的工作－关于《撒旦探戈》

雅克•朗西埃（JacquesRancière）著，眼睛的故事（HuDi）译（BélaTarr:letravaildutemps）雅克·朗西埃，法国当代著名哲学家，著有《阿尔杜塞的教训》、《无知的大师》、

慧小田哲思学·2020-03-07 02:07

(转)Kudu、Hudi和Delta Lake的比较

目录Kudu、Hudi和DeltaLake的比较存储机制读数据更新数据其他如何选择合适的存储方案Kudu、Hudi和DeltaLake的比较kudu、hudi和deltalake是目前比较热门的支持行级别数据增删改查的存储方案

达微·2020-02-20 17:26

Apache Hudi 0.5.1版本重磅发布

历经大约3个月时间，ApacheHudi社区终于发布了0.5.1版本，这是ApacheHudi发布的第二个Apache版本，该版本中一些关键点如下版本升级将Spark版本从2.1.0升级到2.4.4将Avro版本从1.7.7升级到1.8.2将Parquet版本从1.8.1升级到1.10.1将Kafka版本从0.8.2.1升级到2.0.0，这是由于将spark-streaming-kafkaarti

ApacheHudi·2020-02-01 00:00

Apache Hudi使用问题汇总（一）

1.如何写入Hudi数据集通常，你会从源获取部分更新/插入，然后对Hudi数据集执行写入操作。

ApacheHudi·2020-01-16 15:00

ApacheHudi常见问题汇总

欢迎关注公众号：ApacheHudi1.ApacheHudi对个人和组织何时有用如果你希望将数据快速提取到HDFS或云存储中，Hudi可以提供帮助。

ApacheHudi·2020-01-04 19:00

写入Apache Hudi数据集

这一节我们将介绍使用DeltaStreamer工具从外部源甚至其他Hudi数据集摄取新更改的方法，以及通过使用Hudi数据源的upserts加快大型Spark作业的方法。

ApacheHudi·2019-12-16 20:00

Hudi基本概念

时间轴在它的核心，Hudi维护一条包含在不同的即时时间所有对数据集操作的时间轴，从而提供，从不同时间点出发得到不同的视图下的数据集。Hudi即时包含以下组件操作类型:对数据集执行的

ApacheHudi·2019-12-10 09:00

生产者-消费者模型在Hudi中的应用

介绍生产者-消费者模型用于解耦生产者与消费者，平衡两者之间的能力不平衡，该模型广泛应用于各个系统中，Hudi也使用了该模型控制对记录的处理，即记录会被生产者生产至队列中，然后由消费者从队列中消费，更具体一点

ApacheHudi·2019-11-26 19:00

BloomFilter在Hudi中的应用

BloomFilter在Hudi中的应用介绍BloomFilter可以用于检索一个元素是否在一个集合中。

ApacheHudi·2019-11-25 19:00

使用Amazon EMR和Apache Hudi在S3上插入，更新，删除数据

将数据存储在AmazonS3中可带来很多好处，包括规模、可靠性、成本效率等方面。最重要的是，你可以利用AmazonEMR中的ApacheSpark，Hive和Presto之类的开源工具来处理和分析数据。尽管这些工具功能强大，但是在处理需要进行增量数据处理以及记录级别插入，更新和删除场景时，仍然非常具有挑战。与客户交谈时，我们发现有些场景需要处理对单条记录的增量更新，例如：遵守数据隐私法规，在该法规

ApacheHudi·2019-11-25 12:00

Amazon EMR正式支持Apache Hudi

通过高效管理AmazonS3中数据的布局方式，Hudi允许近乎实时地提取和更新数据。Hudi维护在数据集上所执行的操作的元数据，以确保这些操作的

ApacheHudi·2019-11-22 11:00

推荐频道

HUDI

使用Apache Hudi构建大规模、事务性数据湖

使用Apache Hudi构建大规模、事务性数据湖

恭喜，Apache Hudi 即将成为顶级项目！

Apache Hudi：统一批和近实时分析的存储和服务

使用Apache Spark和Apache Hudi构建分析数据湖

Apache Hudi：云数据湖解决方案

特性速览| Apache Hudi 0.5.3版本正式发布

特性速览| Apache Hudi 0.5.3版本正式发布

使用Apache Spark和Apache Hudi构建分析数据湖

使用Apache Spark和Apache Hudi构建分析数据湖

Uber基于Apache Hudi构建PB级数据湖实践

Uber基于Apache Hudi构建PB级数据湖实践

调优 | Apache Hudi应用调优指南

调优 | Apache Hudi应用调优指南

ASF官方正式宣布Apache Hudi成为顶级项目

ASF官方正式宣布Apache Hudi成为顶级项目

实战| 配置DataDog监控Apache Hudi应用指标

实战| 配置DataDog监控Apache Hudi应用指标

Apache Hudi在医疗大数据中的应用

Apache Hudi在医疗大数据中的应用

Hive 集成 Hudi 实践（含代码）| 可能是全网最详细的数据湖系列

线上Presto查询Hudi表异常排查

线上Presto查询Hudi表异常排查

Apache Hudi典型应用场景知多少？

Apache Hudi典型应用场景知多少？

PySpark整合Apache Hudi实战

Apache Hudi又双叕被国内顶级云服务提供商集成了！

Apache Hudi又双叕被国内顶级云服务提供商集成了！

Apache Hudi集成Apache Zeppelin实战

实战 | 将Apache Hudi数据集写入阿里云OSS

实战 | 将Apache Hudi数据集写入阿里云OSS

Apache Hudi的写时复制和读时合并

实战|使用Spark Structured Streaming写入Hudi

实战|使用Spark Structured Streaming写入Hudi

Apache Hudi 设计与架构最强解读

Apache Hudi 设计与架构最强解读

贝拉•塔尔：时间的工作－关于《撒旦探戈》

(转)Kudu、Hudi和Delta Lake的比较

Apache Hudi 0.5.1版本重磅发布

Apache Hudi使用问题汇总（一）

ApacheHudi常见问题汇总

写入Apache Hudi数据集

Hudi基本概念

生产者-消费者模型在Hudi中的应用

BloomFilter在Hudi中的应用

使用Amazon EMR和Apache Hudi在S3上插入，更新，删除数据

Amazon EMR正式支持Apache Hudi