Ververica

深度集成 Flink: Apache Iceberg 0.11.0 最新功能解读

‍

在 2021 年 1 月 27 日，Apache Iceberg 发布了 0.11.0 版本[1]。在这个版本中，实现了以下核心功能：

1、Apache Iceberg 在 Core API 层面支持了 partition 的变更；同时还在 Iceberg Format v2 之上新增了 SortOrder 规范，主要用于将那些散列度较高的 column 聚集在少数几个文件内，这样可以大量减少小文件的数量。同时提高读取的效率，因为数据通过 sort 写入后，文件级别和 Page 级别的 min-max 范围将更小，有助于高效的数据过滤。

2、在 Flink 和 Iceberg 的集成方面，社区实现了以下目标：

实现了 Flink Streaming Reader，意味着我们可以通过 Flink 流作业增量地去拉取 Apache Iceberg 中新增数据。对 Apache Iceberg 这样流批统一的存储层来说，Apache Flink 是真正意义上第一个实现了流批读写 Iceberg 的计算引擎，这也标志着 Apache Flink 和 Apache Iceberg 在共同打造流批统一的数据湖架构上开启了新的篇章。
实现了 Flink Streaming/Batch Reader 的 limit pushdown 和 filter pushdown。
实现了 CDC 和 Upsert 事件通过 flink 计算引擎写入 Apache Iceberg，并在中等数据规模上完成了正确性验证。
在 Flink Iceberg Sink 中支持 write.distribution-mode=hash 的方式写入数据，这可以从生产源头上大量减少小文件。

3、在 Spark3 和 Iceberg 的集成方面，社区支持了大量高阶 SQL:

MERGE INTO
DELETE FROM
ALTER TABLE ... ADD/DROP PARTITION
ALTER TABLE ... WRITE ORDERED BY
通过 Call 方式来执行更多的数据管理操作，例如合并小文件、清理过期文件等。

4、在周边生态集成方面，社区实现了以下目标：

引入 AWS module，完成和 AWS S3[2] 以及 Glue Catalog[3] 等云服务的集成；
集成流行的开源 catalog 服务 nessie[4]。

在接下来的内容里，我将说明 Apache Iceberg 0.11.0 在 Apache Flink 集成方面做的一些具体工作。

Apache Flink流式读取

在 Apache Iceberg 0.10.0 版本中，我们已经在 Flink SQL 层面支持了：

流作业写入 Apache Iceberg 表；
批作业写入 Apache Iceberg 表；
批作业读取 Apache Iceberg 表；

在最新的 Apache Iceberg 0.11.0 版本中，我们又成功集成了 Flink 流作业读取 Apache Iceberg 表。有了这个功能，可以很方便地实现不同 Iceberg 表之间的数据流转和 ETL。例如我们有一个原始表 A，需要把表 A 通过一些数据处理或者打宽，处理成一个表 B，那么这个场景是很适合用 Apache Iceberg 的 Streaming Reader 来实现的。

除此之外，Netflix 也提出他们在采用 Flink Streaming Reader 来实现历史数据的 backfill 和 boostrap。当然，这需要未来 iceberg 集成到 FLIP-27，目前 Netflix 提供了他们对这块工作的一些实践经验[5]和设计工作[6]，大家感兴趣可以参考一下。

目前，对这个功能我们提供了 Flink SQL 和 DataStream API 两种使用方式（推荐采用 Flink SQL）。您可以通过阅读文档[7]来启动 Flink SQL 客户端，然后通过如下方式来启动流作业访问 Apache Iceberg 的增量数据:

-- Submit the flink job in streaming mode for current session.SET execution.type = streaming ;
-- Enable this switch because streaming read SQL will provide few job options in flink SQL hint options.SET table.dynamic-table-options.enabled=true;
-- Read all the records from the iceberg current snapshot, and then read incremental data starting from that snapshot.SELECT * FROM sample /*+ OPTIONS('streaming'='true', 'monitor-interval'='1s')*/ ;
-- Read all incremental data starting from the snapshot-id '3821550127947089987' (records from this snapshot will be excluded).SELECT * FROM sample /*+ OPTIONS('streaming'='true', 'monitor-interval'='1s', 'start-snapshot-id'='3821550127947089987')*/ ;

Flink Source 的

Limit Pushdown 和 Filter Pushdown

在 Flink 的 Batch Source 和 Streaming Source 中，我们对接了 Limit 操作和 Filter 操作跟 Iceberg 表的下推实现。这意味着，在读取 Apache Iceberg 表时，碰到这样的 SQL:

SELECT * FROM sample LIMIT 10;

我们可以在存储层面就完成数据过滤，而不需要把数据从存储层面读取出来，再丢给计算引擎。从而大大提高数据的访问效率。

Filter 的下推也是类似，目前我们支持了如下 Filter 的下推，几乎包含了所有常见 filter 的下推操作：

SELECT * FROM sample WHERE data = 'a';SELECT * FROM sample WHERE data != 'a';SELECT * FROM sample WHERE data >= 'a';SELECT * FROM sample WHERE data <= 'a';SELECT * FROM sample WHERE data < 'a';SELECT * FROM sample WHERE data > 'a';SELECT * FROM sample WHERE data = 'a' AND id = 1;SELECT * FROM sample WHERE data = 'a' OR id = 1;SELECT * FROM sample WHERE data IS NULL;SELECT * FROM sample WHERE NOT (id = 1);SELECT * FROM sample WHERE data LIKE 'aaa%';

对 CDC(例如 MySQL Binlog)

和 Upsert 事件的支持

这个功能是 Apache Flink 社区用户呼声特别高的一个功能，主要来自两个核心场景的需求：

用户希望把来自关系型数据库的 binlog 导入到 Apache Iceberg 数据湖中，提供近实时的数据分析能力。
希望把 Flink 流作业 AGG 产生的 upsert stream 导入到 Apache Iceberg 数据湖中，从而借助 Apache Iceberg 的存储能力和 Apache Flink 的分析能力，提供近实时的数据报表。

通常来说，我们能选的开源方案各有不足：选择采用 Hive MR 则只能提供 T+1 的数据时效性；采用 Apache Kudu 则必须面临跟 HDFS 和云端对象存储脱节的尴尬；选择 HBase 则面临行存导致分析能力不足的问题；选择 Spark+delta 则无法充分利用 Apache Flink 在流计算领域的优势。那么，在 Apache Iceberg 的实现中，这些问题将有望解决。

我们把 flink+iceberg 对 CDC/Upsert 工作的集成大致分成了两个阶段：

第一阶段，是指 Flink 可以顺利地把 CDC 和 Upsert 的数据成功写入到 Apache Iceberg，并能读取到一个正确的结果；
第二阶段，是指 Flink+Iceberg 能顺利通过较大数据量的稳定性测试和性能测试，保证整条链路的稳定性和性能，从而达到可以上生产的水准。

那么，目前我们在 0.11.0 版本中，已经实现了第一阶段的目标，流作业已经能够成功地将 CDC/Upsert 数据写入到 Apache Iceberg 中，国内的小伙伴例如汽车之家和 B 站已经帮忙完成中等数据量的正确性验证。

在未来的 Apache Iceberg 0.12.0 版本中，我们规划了一系列的性能和稳定性相关事情，0.12.0 版本将会是 Iceberg CDC/Upsert 功能达到 Production Ready 的一个标志性版本。

支持 write.distribution-mode=hash

方式写入 Apache Iceberg

在 Flink 流作业写文件系统的数据文件时，非常容易碰到小文件的问题。这是因为如果 source 端的数据，不经过任何 shuffle 或者 cluster，就写入到 partition，很容易导致每个 Task 写了大量的 Partition 和 Bucket。这样对一个 Partition 来说，就存在多个 Task 写入，每个 Task 至少产生一个文件。而在 Apache Iceberg 这种数据湖架构中，Flink 的每一次 checkpoint，都将 Roll over file writer 以便提交 txn，那么随着分钟级别的 checkpoint 提交，一定会产生大量的小文件。

目前在 Apache Iceberg 中，将提供 3 中方式来解决小文件问题：

1、在 Iceberg 表中设置 write.distribution-mode=hash 属性，例如：

CREATE TABLE sample (    id BIGINT,    data STRING) PARTITIONED BY (data) WITH (    'write.distribution-mode'='hash');

这样可以保证每一条记录按照 partition key 做 shuffle 之后再写入，每一个 Partition 最多由一个 Task 来负责写入，大大地减少了小文件的产生。但是，这很容易产生另外一个问题，就是数据倾斜的问题。很多业务表都是按照时间字段来做分区的，而产生的新数据都是按照时间写入的，容易导致新数据都写入同一个 partition，造成写入数据热点。目前我们推荐的做法是，在 partition 下面采用 hash 的方式设置 bucket，那么每一个 partition 的数据将均匀地落到每个 bucket 内，每一个 bucket 最多只会由一个 task 来写，既解决了小文件问题，又解决了数据热点问题。

在 Flink 1.11 版本暂时不支持通过 SQL 的方式创建 bucket，但我们可以通过 Java API 的方式将上述按照 data 字段 partition 之后的表添加 bucket。调用方式如下：

    table.updateSpec()
        .addField(Expressions.bucket("id", 32))
        .commit();

2、定期对 Apache Iceberg 表执行 Major Compaction 来合并 Apache iceberg 表中的小文件。这个作业目前是一个 Flink 的批作业，提供 Java API 的方式来提交作业，使用姿势可以参考文档[8]。

3、在每个 Flink Sink 流作业之后，外挂算子用来实现小文件的自动合并。这个功能目前暂未 merge 到社区版本，由于涉及到 format v2 的 compaction 的一些讨论，我们会在 0.12.0 版本中发布该功能。

总结

自 Apache Flink 接入 Apache Iceberg 以来，社区已经成功地发布了两个版本。在这两个版本中，我们已经成功地实现 Flink+Iceberg 的流批读写能力。

到目前为止，Flink+Iceberg 在国内外已经有不少成功的上线案例：

腾讯内部每天都有大量的日志数据通过 Flink 清洗处理后导入到 Iceberg，最大的表日新增几十 TB；
Netflix 则将公司内几乎所有的用户行为数据通过 Flink 流计算导入到 Iceberg，最终存储在 AWS S3 之上，相比 HDFS 的方式， Flink+Iceberg 帮助他们公司节省大量的存储成本；
同程艺龙也在 Flink+Iceberg 之上做了大量探索，之前几乎所有的分析数据都存储在 Hive 上，鉴于 Hive 在 ACID 和历史回溯等方面能力不足，他们调研了 Iceberg，发现 Iceberg 非常适合替换他们的 Hive 存储格式，又由于上层计算生态的良好对接，几乎所有的历史计算作业都不需要做改动，就能方便地切换 Hive 表到 Iceberg 之上。到目前为止同程艺龙已经完成了几十张 Hive 表到 Iceberg 表的迁移；
汽车之家也是成功在生产环境大量替换 Hive 表为 Iceberg 表的公司之一，同时他们也是最早采用社区版 Iceberg 做 CDC 和 Upsert 数据分析 PoC 的公司，也非常期待未来 0.12.0 对 CDC 和 Upsert 场景的更多优化。

在未来的 Apache Iceberg 0.12.0 版本中，我们规划了上图的核心功能。本质上我们将实现 Flink+Iceberg 对 CDC 及 Upsert 场景的更好支持，将在稳定性、性能、易用性三个方面做更多的优化工作。

最后，我想聊一下 Apache Iceberg 在计算生态方面的现状。

随着 Apache Iceberg 0.11.0 新版的发布，Apache Iceberg 作为一个统一通用的数据湖 Table Format，在生态集成方面的优势愈发明显。由于在 Table Format 层面对计算引擎无偏袒，计算引擎的集成呈现出百花齐放的姿态，大数据生态内几乎所有主流计算引擎都跟 Iceberg 有着不同程度的对接：

Netflix、腾讯和 Apple 几家公司的贡献者主力推动 Spark+Iceberg 的集成，腾讯、Netflix 和 Apple 在 Apache Spark 社区有着多位 Spark PMC 和 Spark Committer，在 Spark 社区和 Iceberg 社区的影响力有目共睹。我个人乐观地判断，Apache Iceberg 和 Spark 的集成体验，未来有望比肩 Databricks delta 的商业版体验，大家可以期待下。
阿里巴巴 Flink 团队、Netflix 以及国内外庞大的 Flink 用户群在不断地推动 Flink+Iceberg 的集成，不再赘述；
AWS Presto 团队以及 Trino 团队则在不断推动着 Presto 和 Iceberg 的集成，AWS Presto 团队已经明确将 Iceberg 选型为他们的数据湖 table format。同时，也可以非常明显地看到，AWS 团队在 Iceberg 和 S3 以及 Glue 生态打通方面做的大量工作，Apache Iceberg 已经成为 AWS 数据湖生态中相当重要的一环。
Cloudera 已经明确地选型 Apache Iceberg 来构建他们的商业版数据湖。使用过 Hadoop 的同学一定不会对这家公司陌生，没错，这家公司就是 Hadoop 商业发行版做的最为出色的公司之一。未来，他们将基于 Apache Iceberg 推出公有云服务，将给用户带来完善的 Flink、Spark、Hive、Impala 数据湖集成体验。这里重点说一下 Apache Impala，Cloudera 在交互式分析场景下非常倚重自家开源的 Apache Impala（事实上，在大数据基准测试下 Impala 的性能表现的确要比 Presto 更好），Apache Iceberg 对存储层较为完美的抽象和对多样化计算引擎的包容，是成功打动 Cloudera 选型 Apache Iceberg 最核心的理由之一。

更多关于 Flink 数据湖的讨论，请扫描下方钉群二维码，加入数据湖技术交流钉钉群。我们会定期在群里发布 Apache Iceberg/Hudi 和 Flink 集成的最新进展，我们也非常欢迎大家积极讨论相关话题。

另外阿里云 Flink 团队也一直在寻求大数据计算和数据湖存储方向的人才，这里既有丰富的应用场景等你来挑战，又有相对灵活的空间参与开源社区提升个人影响力。感兴趣的同学可以直接联系：[email protected]。

参考链接：

[1]https://lists.apache.org/x/thread.html/rfa2be6bb85c0cae38ccedcf5c2d8fbfe192bdfccd58ee500e44e665e@%3Cdev.iceberg.apache.org%3E

[2]https://aws.amazon.com/cn/s3/

[3]https://aws.amazon.com/cn/glue/

[4]https://projectnessie.org/

[5]https://www.youtube.com/watch?v=rtz3p_iijP8&ab_channel=NetflixData

[6]https://docs.google.com/document/d/1q6xaBxUPFwYsW9aXWxYUh7die6O7rDeAPFQcTAMQ0GM/edit?ts=601316b0

[7]https://github.com/apache/iceberg/blob/master/site/docs/flink.md#preparation

[8]https://github.com/apache/iceberg/blob/master/site/docs/flink.md#rewrite-files-action

作者简介：

胡争（子毅），Apache Iceberg Committer，Apache HBase PMC 成员，阿里巴巴技术专家。目前主要负责 Flink 数据湖方案的设计和开发工作，Apache Iceberg 及 Apache Flink 项目的长期活跃贡献者，《HBase 原理与实践》作者。

▼ 关注「Flink 中文社区」，获取更多技术干货 ▼

SQL语言的编译原理慕瑶琴包罗万象 golang 开发语言后端
SQL语言的编译原理引言SQL（StructuredQueryLanguage，结构化查询语言）是用于管理和操作关系数据库的一种标准语言。作为一种高级语言，SQL不仅易于使用，而且功能强大。然而，SQL语言本身并不能直接被计算机理解。为了让计算机能够执行SQL语句，我们需要通过编译原理将SQL语句转换为机器能够理解的指令。本文将探讨SQL语言的编译原理，介绍SQL的组成部分、编译过程以及相关的优化
JavaScript相关面试题努力的搬砖人. javascript
以下是150道JavaScript相关面试题及详细答案：JavaScript基础1.JavaScript是什么？JavaScript是一种直译式脚本语言，主要用于网页开发，也可用于服务器端开发（如Node.js）。它是一种动态类型、弱类型、基于原型的语言，支持函数式编程和面向对象编程。2.JavaScript的基本数据类型有哪些？包括Undefined、Null、Boolean、Number、St
原生JavaScript控制页面跳转的几种方式 thinkQuadratic javascript 前端开发语言
在开发一些简单的页面，不需要复杂的单页面应用（SPA）功能的时候。可以使用原生JavaScript的跳转即可满足需求。另外在处理一些需要直接与服务器进行交互的表单提交后跳转，或者在某些浏览器兼容性要求较高的场景下，原生JavaScript的跳转方式更加稳定可靠。正文开始这里本地创建两个html文件进行演示，index.html和home.htmlwindow.location.hrefindex页
python后端常见架构_常见的后端框架 weixin_39622178 python后端常见架构
后端vs前端如果您是Web开发世界的新手，后端和前端开发之间的区别可能不那么明显，但是，了解两者之间的区别很重要。以下是前端开发人员与后端开发人员的一些区别。前端开发：前端开发人员在很大程度上负责用户所看到的内容(即网站页面)，前端开发人员主要使用HTML，CSS和JavaScript。他们的主要关注点是创建出色的用户体验，并确保网站设计和布局或Web应用程序始终具有凝聚力。后端开发：另一方面，后
使用 CryptoJS 实现 AES 解密：动态数据解密示例木觞清 javascript
在现代加密应用中，AES（高级加密标准）是一种广泛使用的对称加密算法。它的安全性高、效率好，适合用于各种加密任务。今天，我们将通过一个实际的示例，展示如何使用CryptoJS实现AES解密，解密动态数据。CryptoJS是一个基于JavaScript的加密库，它支持AES、DES等多种常见的加密算法。本文将详细介绍如何使用CryptoJS解密AES加密的数据。1.引入CryptoJS库首先，确保你
Spark 解析_spark.sparkContext.getConf().getAll() 闯闯桑 spark 大数据分布式
spark.sparkContext.getConf().getAll()是ApacheSpark中的一段代码，用于获取当前Spark应用程序的所有配置项及其值。以下是逐部分解释：代码分解：spark：这是一个SparkSession对象，它是Spark应用程序的入口点，用于与Spark集群进行交互。spark.sparkContext：sparkContext是Spark的核心组件，负责与集群通
Java是值传递先睡 python 开发语言
Java中的参数传递始终是值传递（passbyvalue）。无论是基本数据类型还是对象类型，传递给方法的是变量值的副本，而非变量本身。以下是对这一概念的详细解析：1.基本数据类型的值传递传递机制：传递的是变量的值副本，方法内的修改不影响原始变量。voidmodify(intnum){num=10;//修改的是副本，原变量不受影响}inta=5;modify(a);System.out.printl
Maven 插件先睡 maven java
为Maven插件配置环境变量通常涉及到设置Java环境变量以及Maven相关的环境变量。以下是一些基本步骤：1.设置Java环境变量Maven需要Java运行环境，因此您需要确保Java的环境变量已经正确设置。-**JAVA_HOME**：指向您的Java安装目录。-**PATH**：包含`%JAVA_HOME%\bin`，使得`java`和`javac`命令可以在命令行中直接使用。在Window
python的后端开发框架django，flask，flaskapi myjzwsz python django flask
Django、Flask和Flask-API是Python中流行的后端开发框架，它们在功能、应用场景以及架构上有不同的特点和使用场景。下面我给你详细介绍每个框架的应用示例、区别和应用场景：1.DjangoDjango是一个功能全面的Web开发框架，强调“快速开发”和“无需重新发明轮子”。它自带了很多功能，如认证、ORM（数据库映射）、表单处理、管理后台等。应用示例：社交媒体平台：像Instagra
【Django】【vue】设计一个评论模块患得患失949 后端系统功能面试考题专栏（前后端）django知识 django vue.js 数据库
Django评论模块（前后端分离+点赞+收藏+评论计数）一、功能概述基于Django+DRF设计的评论模块，包含以下功能：基本评论功能（用户可以对文章进行评论，并支持多级回复）评论点赞（支持点赞/取消点赞）评论收藏（支持收藏/取消收藏）评论计数（统计文章的评论数量）嵌套评论（支持多级评论显示）二、后端设计（一）数据库模型（Models）fromdjango.dbimportmodelsfromdj
一招帮你搞定验证码设置不修×蝙蝠后端验证码 session eclipse 前端
目录一、准备环境编辑二、配置环境三、基础方法四、验证码的一些常用类别1.LineCaptcha线段干扰的验证码（Java）2.CircleCaptcha圆圈干扰的验证码（Java）3.ShearCaptcha扭曲干扰验证码4.写出到浏览器输出5.自定义验证码CodeGenerator五、通过实例来简述过程1.一个简易html文件2.创建生成验证码图片的Java文件①定义图形验证码的长、宽、验证码字
详细讲一下webpack中五个优化能力十分强大的插件（1-5） asecretman! webpack 前端 node.js
1.TerserPlugin功能：用于压缩和优化JavaScript代码，支持ES6+语法。安装:npminstallterser-webpack-plugin--save-dev配置constTerserPlugin=require('terser-webpack-plugin');module.exports={mode:'production',//设置为生产模式，启用优化optimizat
JavaScript 异步编程：从回调到 Async/Await 进化 PM简读馆技术杂谈 javascript 开发语言 ecmascript
作者简介：程序员转项目管理领域优质创作者个人邮箱：[[email protected]]PMP资料导航：PM菜鸟（查阅PMP大纲考点）座右铭：上善若水，水善利万物而不争。绿泡泡：PM简读馆（包含更多PM常用免费资料）目录1.回调函数（Callback）2.Promise3.Generator4.Async/Await在JavaScript中，异步编程是一个非常重要的概念，因为JavaScript是
【Java】已解决：`java.sql.SQLSyntaxErrorException: SQL` 屿小夏 java sql 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
Mysql数据库分表实现微笑的曙光（StevenLi）数据库 mysql 分表性能优化 merge
本次主要采用MERGE分表法、对表进行水平拆分；第一步：创建数据库DROPTABLEIFEXISTSstudents;CREATETABLEstudents(idbigint(20)NOTNULLAUTO_INCREMENT,namevarchar(20)DEFAULTNULL,numvarchar(20)DEFAULTNULL,PRIMARYKEY(id))ENGINE=MyISAMAUTO_I
springboot一课一得 POlse springboot
SpringBoot学习之路：从基础到进阶SpringBoot是基于Spring框架的一个开源项目，它通过简化配置、自动化功能以及集成多种开箱即用的技术，使开发者能够更快地开发、测试和部署Java应用程序。它不仅减少了开发者的配置工作量，还为开发者提供了很多与生产环境相关的功能，使得SpringBoot成为现代Web开发、微服务架构和企业级应用开发的首选框架。本文将基于“SpringBoot一课一
MongoDB数据库使用及常见问题微笑的曙光（StevenLi）数据库数据库 mongodb
MongoDB数据库之所以备受青睐，关键在于其独特的优势满足了现代应用的需求。它采用文档型存储，数据结构灵活，无需事先定义表结构，非常适合处理复杂且多变的数据。MongoDB具备高性能和可扩展性，能够轻松应对大数据量和高并发的访问，通过分片技术实现水平扩展，确保系统稳定运行。同时，它提供了强大的数据一致性和可靠性保障，支持多种复制和故障转移机制，确保数据的高可用性和持久性。此外，MongoDB拥有
Java注解陈陈爱java java 开发语言
java基本注解注解注解与注释的区别注释：增强代码的可阅读性，并不会对程序的执行产生任何影响。注解：给编译器或运行时环境提供额外的信息，能够影响程序的编译或运行行为。常见注解@Override明确标记一个方法是覆盖（重写）了父类中的方法。classAnimal{voidmakeSound(){System.out.println("Animalmakesasound");}}classDogext
Java、Spring、SpringBoot 陈陈爱java spring boot java spring
JAVA与Spring不使用Spring的程序UserService.javapublicclassUserService{publicStringgetUserName(){return"JohnDoe";}}Main.javapublicclassMain{publicstaticvoidmain(String[]args){//手动创建UserService实例UserServiceuser
智慧社区2.0 陈陈爱java java
项目亮点1.技术架构层面✅多数据源整合（MySQL+Redis+HDFS+OSS）核心亮点：不仅仅是单一数据库，而是根据数据特性使用MySQL（结构化数据）+Redis（缓存）+HDFS（大数据存储）+OSS（对象存储），提高了系统的数据存储效率和查询速度。面试时可以强调：Redis作为缓存，加速社区热点数据访问，减少MySQL压力。HDFS存储海量日志和AI任务数据，支持后续分析。OSS解决图片
Pandas与PySpark混合计算实战：突破单机极限的智能数据处理方案 Eqwaak00 Pandas pandas 学习 python 科技开发语言
引言：大数据时代的混合计算革命当数据规模突破十亿级时，传统单机Pandas面临内存溢出、计算缓慢等瓶颈。PySpark虽能处理PB级数据，但在开发效率和局部计算灵活性上存在不足。本文将揭示如何构建Pandas+PySpark混合计算管道，在保留Pandas便捷性的同时，借助Spark分布式引擎实现百倍性能提升，并通过真实电商用户画像案例演示全流程实现。一、混合架构设计原理1.1技术栈优势分析维度P
html怎么获取父页面的元素的值,使用JavaScript与jQuery怎么在子窗口中获取父窗口的元素值... weixin_39907658
使用JavaScript与jQuery怎么在子窗口中获取父窗口的元素值发布时间：2021-02-1815:42:20来源：亿速云阅读：115作者：Leah使用JavaScript与jQuery怎么在子窗口中获取父窗口的元素值？针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。js:父窗口：子窗口：curproject=window.op
jquery查找父窗体id_jquery 获取父窗口的元素、父窗口、子窗口 weixin_39781550 jquery查找父窗体id
一、获取父窗口元素：$("#父窗口元素ID",window.parent.document)；对应javascript版本为window.parent.document.getElementById("父窗口元素ID")；取父窗口的元素方法：$(selector,window.parent.document);那么你取父窗口的父窗口的元素就可以用：$(selector,window.parent.
jquery查找父窗体id_JS与jQuery实现子窗口获取父窗口元素值的方法北木南烟 jquery查找父窗体id
这篇文章主要介绍了JS与jQuery实现子窗口获取父窗口元素值的方法,涉及javascript与jQuery操作窗口元素的相关技巧,需要的朋友可以参考下本文实例讲述了JS与jQuery实现子窗口获取父窗口元素值的方法。分享给大家供大家参考，具体如下：功能描述：父窗口有一个input，和一个button，点击button打开子窗口，在子窗口中获取父窗口中input的值，并显示。js:父窗口：子窗口：
【Java教程】Day13-05 正则表达式：贪婪与非贪婪匹配即刻提优 Java教程 java 正则表达式开发语言
在正则表达式中，匹配规则有两种模式：贪婪匹配和非贪婪匹配。默认情况下，正则表达式使用贪婪匹配，即尽可能多地匹配字符。有时，我们希望匹配尽可能少的字符，这时就需要使用非贪婪匹配。本文将通过具体的例子介绍贪婪与非贪婪匹配的区别，并提供如何在Java中实现这些匹配的教程。1.贪婪匹配的默认行为首先，让我们看一个简单的示例：给定一个字符串，判断该数字末尾零的个数。比如："123000"：3个0"10100
【ES6新特性】声明变量关键字：var、let、const详解小钟H呀 ES6新特性学习手册 es6 javascript 开发语言
前言在ES6（ECMAScript2015）之前，JavaScript中只有var关键字用于变量声明。ES6新增了let和const，它们解决了var的一些设计缺陷，使得变量声明更安全、更符合编程直觉。核心特性对比1.作用域（Scope）var：函数作用域（在函数内部声明的变量，只能在函数内部访问）let/const：块级作用域（在{}代码块中声明的变量，只能在块内访问）//var示例functi
神器 Turbo Console Log：让 `console.log` 操作一键搞定！ Judy1623 VS Code 插件 vscode 插件
在前端开发的日常里，尤其是使用VSCode调试JavaScript代码时，console.log堪称我们的“调试好帮手”。但每次都手动输入console.log语句，着实麻烦又浪费时间。今天就给大家安利一款超实用的VSCode插件——TurboConsoleLog，用了它，你会感叹为什么没有早点发现！安装和卸载步骤就不多说了，相信大家都轻车熟路。咱们直接进入重点——这款插件的快捷键使用方法。使用注
3.7 Spring Boot整合Kafka：消息顺序性与消费幂等性保障 Sendingab Spring boot 从入门到精通零基础7天精通Spring Boot linq c#spring boot kafka
在SpringBoot中整合Kafka并保障消息顺序性与消费幂等性，可以通过以下步骤实现：一、消息顺序性保障1.生产者配置相同Key写入同一分区：Kafka保证同一分区内消息的顺序性，生产者发送消息时指定相同Key，确保相关消息进入同一分区。java@AutowiredprivateKafkaTemplatekafkaTemplate;publicvoidsendMessage(Stringkey
Langflow 开源程序是用于构建和部署 AI 驱动的代理和工作流的强大工具。它为开发人员提供了可视化创作体验和内置 API 服务器，该服务器将每个代理转变为 API 终端节点 struggle2025 人工智能
一、软件介绍文末提供程序和源码下载Langflow是用于构建和部署AI驱动的代理和工作流的强大工具。它为开发人员提供了可视化创作体验和内置API服务器，该服务器将每个代理转变为API终端节点，该终端节点可以集成到基于任何框架或堆栈构建的应用程序中。Langflow随附电池，并支持所有主要LLMs的矢量数据库和不断增长的AI工具库。二、突出特点可视化构建器，用于快速入门和迭代。访问Code，以便开发
高级java每日一道面试题-2025年3月05日-微服务篇[Eureka篇]-Eureka在微服务架构中的角色? java我跟你拼了 java每日一道面试题架构 java 微服务架构服务发现健康检查服务注册
如果有遗漏,评论区告诉我进行补充面试官:Eureka在微服务架构中的角色?我回答:在微服务架构中，Eureka作为Netflix开源的服务发现组件，在解决服务间通信的寻址问题方面扮演着至关重要的角色。以下是结合提供的内容对Eureka在微服务架构中的角色进行的详细解析和综合概述：1.服务注册（ServiceRegistration）功能：服务提供者（Provider）启动时向EurekaServe
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后

深度集成 Flink: Apache Iceberg 0.11.0 最新功能解读

你可能感兴趣的:(大数据,hadoop,数据库,java,spark)