Hudi 第14页

Hive 集成 Hudi 实践（含代码）| 可能是全网最详细的数据湖系列

关于数据湖的资料网络上还是比较少的，特别是实践系列，对于新技术来说，基础的入门文档还是很有必要的，所以这一篇希望能够帮助到想使用Hudi的同学入门。

老蒙大数据·2020-05-28 09:00

线上Presto查询Hudi表异常排查

1.引入线上用户反馈使用Presto查询Hudi表出现错误，而将Hudi表的文件单独创建parquet类型表时查询无任何问题，关键报错信息如下40931f6e-3422-4ffd-a692-6c70f75c9380

leesf·2020-05-23 18:00

线上Presto查询Hudi表异常排查

1.引入线上用户反馈使用Presto查询Hudi表出现错误，而将Hudi表的文件单独创建parquet类型表时查询无任何问题，关键报错信息如下40931f6e-3422-4ffd-a692-6c70f75c9380

leesf·2020-05-23 18:00

Apache Hudi典型应用场景知多少？

对于RDBMS摄取，Hudi通过Upserts提供了更快的负载，而非昂贵且低效的批量负载。例如你可以读取MySQLbinlog日志或Sqoop增量导入，并将它们应用在DFS上的Hudi表，这比批量合并

leesf·2020-05-19 18:00

Apache Hudi典型应用场景知多少？

对于RDBMS摄取，Hudi通过Upserts提供了更快的负载，而非昂贵且低效的批量负载。例如你可以读取MySQLbinlog日志或Sqoop增量导入，并将它们应用在DFS上的Hudi表，这比批量合并

leesf·2020-05-19 18:00

PySpark整合Apache Hudi实战

1.准备Hudi支持Spark-2.x版本，你可以点击如下链接安装Spark，并使用pyspark启动#pysparkexportPYSPARK_PYTHON=$(whichpython3)spark-

leesf·2020-05-10 16:00

Apache Hudi又双叕被国内顶级云服务提供商集成了！

是的，最近国内云服务提供商腾讯云在其EMR-V2.2.0版本中优先集成了Hudi0.5.1版本作为其云上的数据湖解决方案对外提供服务ApacheHudi在HDFS的数据集上提供了插入更新和增量拉取的流原语

leesf·2020-05-09 13:00

Apache Hudi又双叕被国内顶级云服务提供商集成了！

是的，最近国内云服务提供商腾讯云在其EMR-V2.2.0版本中优先集成了Hudi0.5.1版本作为其云上的数据湖解决方案对外提供服务ApacheHudi在HDFS的数据集上提供了插入更新和增量拉取的流原语

leesf·2020-05-09 13:00

Apache Hudi集成Apache Zeppelin实战

当前Hive与SparkSQL已经支持查询Hudi的读优化视图和实时视图。所以理论上Zeppelin的n

leesf·2020-04-28 09:00

实战 | 将Apache Hudi数据集写入阿里云OSS

1.引入云上对象存储的廉价让不少公司将其作为主要的存储方案，而Hudi作为数据湖解决方案，支持对象存储也是必不可少。之前AWSEMR已经内置集成Hudi，也意味着可以在S3上无缝使用Hudi。

leesf·2020-04-25 14:00

实战 | 将Apache Hudi数据集写入阿里云OSS

1.引入云上对象存储的廉价让不少公司将其作为主要的存储方案，而Hudi作为数据湖解决方案，支持对象存储也是必不可少。之前AWSEMR已经内置集成Hudi，也意味着可以在S3上无缝使用Hudi。

leesf·2020-04-25 14:00

Apache Hudi的写时复制和读时合并

ApacheHudihttp://hudi.apache.org/http://hudi.apache.org/docs/quick-start-guide.htmlHudi是什么Hudi将流处理带到大数据

21aspnet·2020-04-22 18:41

实战|使用Spark Structured Streaming写入Hudi

1.项目背景传统数仓的组织架构是针对离线数据的OLAP（联机事务分析）需求设计的，常用的导入数据方式为采用sqoop或spark定时作业逐批将业务库数据导入数仓。随着数据分析对实时性要求的不断提高，按小时、甚至分钟级的数据同步越来越普遍。由此展开了基于spark/flink流处理机制的（准）实时同步系统的开发。然而实时同步数仓从一开始就面临如下几个挑战：小文件问题。不论是spark的microba

leesf·2020-04-18 22:00

实战|使用Spark Structured Streaming写入Hudi

1.项目背景传统数仓的组织架构是针对离线数据的OLAP（联机事务分析）需求设计的，常用的导入数据方式为采用sqoop或spark定时作业逐批将业务库数据导入数仓。随着数据分析对实时性要求的不断提高，按小时、甚至分钟级的数据同步越来越普遍。由此展开了基于spark/flink流处理机制的（准）实时同步系统的开发。然而实时同步数仓从一开始就面临如下几个挑战：小文件问题。不论是spark的microba

leesf·2020-04-18 22:00

Apache Hudi 设计与架构最强解读

1.简介ApacheHudi(简称：Hudi)使得您能在hadoop兼容的存储之上存储大量数据，同时它还提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。

leesf·2020-04-16 05:00

Apache Hudi 设计与架构最强解读

1.简介ApacheHudi(简称：Hudi)使得您能在hadoop兼容的存储之上存储大量数据，同时它还提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。

leesf·2020-04-16 05:00

贝拉•塔尔：时间的工作－关于《撒旦探戈》

雅克•朗西埃（JacquesRancière）著，眼睛的故事（HuDi）译（BélaTarr:letravaildutemps）雅克·朗西埃，法国当代著名哲学家，著有《阿尔杜塞的教训》、《无知的大师》、

慧小田哲思学·2020-03-07 02:07

(转)Kudu、Hudi和Delta Lake的比较

目录Kudu、Hudi和DeltaLake的比较存储机制读数据更新数据其他如何选择合适的存储方案Kudu、Hudi和DeltaLake的比较kudu、hudi和deltalake是目前比较热门的支持行级别数据增删改查的存储方案

达微·2020-02-20 17:26

Apache Hudi 0.5.1版本重磅发布

历经大约3个月时间，ApacheHudi社区终于发布了0.5.1版本，这是ApacheHudi发布的第二个Apache版本，该版本中一些关键点如下版本升级将Spark版本从2.1.0升级到2.4.4将Avro版本从1.7.7升级到1.8.2将Parquet版本从1.8.1升级到1.10.1将Kafka版本从0.8.2.1升级到2.0.0，这是由于将spark-streaming-kafkaarti

ApacheHudi·2020-02-01 00:00

Apache Hudi使用问题汇总（一）

1.如何写入Hudi数据集通常，你会从源获取部分更新/插入，然后对Hudi数据集执行写入操作。

ApacheHudi·2020-01-16 15:00

ApacheHudi常见问题汇总

欢迎关注公众号：ApacheHudi1.ApacheHudi对个人和组织何时有用如果你希望将数据快速提取到HDFS或云存储中，Hudi可以提供帮助。

ApacheHudi·2020-01-04 19:00

写入Apache Hudi数据集

这一节我们将介绍使用DeltaStreamer工具从外部源甚至其他Hudi数据集摄取新更改的方法，以及通过使用Hudi数据源的upserts加快大型Spark作业的方法。

ApacheHudi·2019-12-16 20:00

Hudi基本概念

时间轴在它的核心，Hudi维护一条包含在不同的即时时间所有对数据集操作的时间轴，从而提供，从不同时间点出发得到不同的视图下的数据集。Hudi即时包含以下组件操作类型:对数据集执行的

ApacheHudi·2019-12-10 09:00

生产者-消费者模型在Hudi中的应用

介绍生产者-消费者模型用于解耦生产者与消费者，平衡两者之间的能力不平衡，该模型广泛应用于各个系统中，Hudi也使用了该模型控制对记录的处理，即记录会被生产者生产至队列中，然后由消费者从队列中消费，更具体一点

ApacheHudi·2019-11-26 19:00

BloomFilter在Hudi中的应用

BloomFilter在Hudi中的应用介绍BloomFilter可以用于检索一个元素是否在一个集合中。

ApacheHudi·2019-11-25 19:00

使用Amazon EMR和Apache Hudi在S3上插入，更新，删除数据

将数据存储在AmazonS3中可带来很多好处，包括规模、可靠性、成本效率等方面。最重要的是，你可以利用AmazonEMR中的ApacheSpark，Hive和Presto之类的开源工具来处理和分析数据。尽管这些工具功能强大，但是在处理需要进行增量数据处理以及记录级别插入，更新和删除场景时，仍然非常具有挑战。与客户交谈时，我们发现有些场景需要处理对单条记录的增量更新，例如：遵守数据隐私法规，在该法规

ApacheHudi·2019-11-25 12:00

Amazon EMR正式支持Apache Hudi

通过高效管理AmazonS3中数据的布局方式，Hudi允许近乎实时地提取和更新数据。Hudi维护在数据集上所执行的操作的元数据，以确保这些操作的

ApacheHudi·2019-11-22 11:00

推荐频道

Hudi

Hive 集成 Hudi 实践（含代码）| 可能是全网最详细的数据湖系列

线上Presto查询Hudi表异常排查

线上Presto查询Hudi表异常排查

Apache Hudi典型应用场景知多少？

Apache Hudi典型应用场景知多少？

PySpark整合Apache Hudi实战

Apache Hudi又双叕被国内顶级云服务提供商集成了！

Apache Hudi又双叕被国内顶级云服务提供商集成了！

Apache Hudi集成Apache Zeppelin实战

实战 | 将Apache Hudi数据集写入阿里云OSS

实战 | 将Apache Hudi数据集写入阿里云OSS

Apache Hudi的写时复制和读时合并

实战|使用Spark Structured Streaming写入Hudi

实战|使用Spark Structured Streaming写入Hudi

Apache Hudi 设计与架构最强解读

Apache Hudi 设计与架构最强解读

贝拉•塔尔：时间的工作－关于《撒旦探戈》

(转)Kudu、Hudi和Delta Lake的比较

Apache Hudi 0.5.1版本重磅发布

Apache Hudi使用问题汇总（一）

ApacheHudi常见问题汇总

写入Apache Hudi数据集

Hudi基本概念

生产者-消费者模型在Hudi中的应用

BloomFilter在Hudi中的应用

使用Amazon EMR和Apache Hudi在S3上插入，更新，删除数据

Amazon EMR正式支持Apache Hudi