Apache Flink

Hive SQL 迁移 Flink SQL 在快手的实践

摘要：本文整理自快手数据架构工程师张芒，阿里云工程师刘大龙，在 Flink Forward Asia 2022 生产实践专场的分享。本篇内容主要分为四个部分：

Flink 流批一体引擎

Flink Batch 生产实践

核心优化解读

未来规划

点击查看原文视频 & 演讲PPT

一、Flink 流批一体引擎

1.1 Lambda 架构

首先，介绍一下我们选择 Flink 作为流批一体引擎的思考。如上图所示，是现在生产应用最广的 Lambda 架构，相信大家已经很熟悉了，大概率也都在使用。Lambda 架构的优势非常明显：

灵活。实时链路和离线链路完全独立，按实际需求开发，互不影响；
容易落地。实时和离线链路都有成熟的解决方案；

当然缺点也很明显，实时计算和离线计算两条链路，存储不能复用，所以资源冗余严重。

然后，两种计算引擎，离线计算一般使用 Spark，实时计算使用 Flink，那么就要学习和维护两套代码，成本较高。

一般实时和离线又是两个团队开发和维护的，那么实现细节和口径难以统一，所以经常会有结果对不上的情况。因此，业务同学也非常希望实现流批的统一。

1.2 引擎统一

我们把流批一体分为两个方面，一个是引擎的统一，另一个是存储的统一。这里主要介绍，引擎的统一。

如果流批引擎统一了，那么用户只需要学习一种引擎，并且开发的代码也可以大量复用。这样极大的降低了开发运维的成本，由于计算逻辑相同，数据质量也就得到了保证。除此之外，快手离线作业切换引擎是非常便捷的。因此我们引擎统一的上线节奏和上线质量很容易把控。

那么使用哪个引擎来作为流批统一的引擎呢？我们对比了主流的大数据引擎之后，选择了 Flink 作为流批统一的引擎。

因为 Flink 作为流计算领域的标杆，在架构设计上已经考虑到了流批融合，同时拥有活跃的社区。并且经过多个版本迭代之后，Batch 已经具备一定可用性了，我们之前在生产上也有过一些业务落地。

二、Flink Batch 生产实践

接下来，重点介绍一下 Flink Batch 生产应用的情况。目前，我们线上稳定运行了 3000+的 Flink Batch 作业，主要是平滑迁移的 Batch SQL。

与此同时，我们为用户提供多种入口选择。其中，Batch SQL 入口，面向传统的离线生产开发使用 Hive 方言，也是我本次分享的重点。

调度平台的 Flink Batch 入口，主要方便熟悉 Flink 的用户直接使用 Flink 方言或 API 开发 Batch 作业，并提供完整的离线调度支持。其他入口是业务方根据自己需要，基于我们平台搭建的业务系统。

如何在生产环境使用好基于 Hive 方言的 Flink Batch 呢？需要解决这几个方面的问题。

明确上线流程和标准。首先要筛选出合适的作业，然后验证数据质量、时效性、资源等各项指标，之后才能上线。
解决和 Hive SQL 的语法兼容问题，接入离线生产的各个系统，比如权限中心，元数据中心等。
保证生产环境的稳定运行，离线环境比实时环境复杂很多，会遇到一些实时场景不存在的问题。
解决和原离线引擎的性能差距；比如后面大龙老师会介绍的动态分区消除 Sort 算子优化。

这几个方面都解决之后，基本就可以推广应用了。

接下来，简单介绍一下快手的离线生产体系。在应用层，一般都是各种开发平台，或者是一些业务系统。在服务层，快手是使用 HiveServer 作为 Batch SQL 的统一入口，统一使用 Hive 方言。

BeaconServer 可以做 SQL 的改写，引擎的路由策略，还有 HBO 优化等。下面引擎层可以自由的切换，所以我们将 Flink 接入离线生产，只需要适配 HiveServer，然后在 BeaconServer 中，加入 Flink 引擎路由规则即可。

我们目前使用 SQL-Client 的方式接入 HiveServer，未来可能会扩展 SQL Gateway 的支持。

解决完如何接入离线体系的问题之后，我们需要明确作业上线的流程。

第一步，筛选出符合要求的 Batch SQL，比如，刚开始我们选择低优先级的简单数据处理作业。
第二步，使用 Flink 对 SQL 进行解析和校验，确定 Flink 是否支持。
第三步，对 Flink 可以运行的 SQL，进行改写，把插入表改成测试库中的表，然后提交运行。
第四步，对比影子作业和线上作业的结果是否一致，以及资源使用情况。
第五步，把前四步都成功的作业切换到 Flink 引擎上来，并且还要继续观察数据质量。

利用第三步提到的双跑能力，只是影子作业使用原来的离线引擎，线上作业使用 Flink，然后对比结果，确保没有预料之外的问题发生。这一步非常重要，能够帮我们及时发现没考虑到的 case。因为线上环境非常复杂，前期上线需要多观察。

目前，这个流程已经做到了自动化。我们的人力主要集中在解决发现的异常 case；

下面会介绍，这个流程的几个关键点，给大家一个参考。

刚开始使用 Flink 校验 SQL 的过程中，发现很多常用的语法都不支持，感觉不太正常。分析后发现，是因为打开方式不对，导致没有真正的用上 Flink HiveParser，通过查看这块的代码逻辑，发现问题所在。在 Flink 里，要真正使用 HiveParser，需要满足两个条件。

使用 Hive 方言。
当前 Catalog 必须是 HiveCatalog，否则会回滚到 FlinkParser。

除此之外，需要确保 HiveModule 是最高优先级。这样 Flink 和 Hive 同名的 Function 才会用 Hive 的实现。

如上图所示，按照右边这种方式实现之后，SQL 校验通过率提高了很多。但仍有很多 Batch 语法不支持，比如 Add Remote JAR 和 insert 目录等等。

在 SQL 改写方面，一般有两种情况。

用户作业里没有目标表的建表语句。我们会使用 CREATE TABLE LIKE 语句，先创建出测试库的目标表。然后，把原始 SQL 修改为写入测试库。
用户作业里带有目标表的建表语句。我们会直接个建表语句，改成创建到测试库。然后，把原始 SQL 修改为写入测试表。

在执行影子作业时，可以使用一个小权限的账号。这个账号只有写测试库的权限，避免 SQL 改写失败把数据写入到线上库。

在质量校验方面，我们的策略如下。首先，根据 HiveServer 记录的作业输入信息，比对输入的数据量和分区数据是否一致。然后，根据作业的统计信息，比对写出的数据量是否一致。最后，比对写出的数据结果是否一致。

我们比对的方式是，把结果数据按列求和，如何所有列的结果都一致，则证明数据质量没问题。在按列求和时，如果是 Number 类型的列，直接求和；如果是非 Number 类型列，先取 Hashcode，然后再求和。

当结果对比一致后，我们会对比资源开销。这里统一使用 YARN 的统计口径，按照每个 Container 使用的资源*Container 运行的时间，最后加和算出资源总量。

上线作业的标准是，数据质量没有问题，并且资源使用增长量，不超过原引擎的 10%，执行时长不超过原引擎 20 分钟。介绍完 Flink Batch 作业上线流程之后，我们看一下接入离线生产还需要做哪些工作？

如上图所示，列出了我们做的一些修改。原来 Flink 的配置由 Flink、Hadoop、Hive 三部分组成，配置管理起来比较复杂也不够清晰。

因为我们通过 HiveServer 接入，HiveServer 在启动 Flink 时，会把 Hive Session 里的配置，都传给 Flink。这里包括用户手动 set 的配置和 Hadoop 相关配置。所以，我们把 Flink 的配置改为两部分，一部分是 Flink 自己的配置，一部分是 Hadoop 和 Hive 的配置。

SQL-Client 会默认会开启单词补全功能，即输入单词的一部分，然后使用 Tab 键来补全单词，这个功能在交互模式下是没问题的。但在使用文件传入 SQL 时，如果 SQL 内容中，刚好有这种情况，就会导致 SQL 发生变化，出现字段找不到的异常。所以从文件输入 SQL 时，需要关闭补全功能。

作业进度汇报，是对用户体验非常重要的功能。不然作业提交后，用户无法像 Hive/Spark 那样看到进度信息，HiveServer 也不知道作业运行是否正常，可能会出现作业一直卡主的情况。所以我们做了进度汇报功能，如果长时间没有汇报进度，HiveServer 就会主动杀掉作业。

最后，监控看板真很有必要。在分析问题时，可以辅助定位，不然只能盲猜。另外，在接入离线生产方面，还有一些和平台产品适配的工作。

比如，空分区发布和 SUCCESS FILE 功能，快手的离线调度平台目前支持 3 种依赖方式。

任务依赖。当上游任务成功之后，才会拉起下游任务。
分区依赖。探测分区元数据是否生成，生成之后就拉起下游任务。
SUCCESS FILE 依赖。根据文件是否存在，决定是否拉起下游任务。

Flink 根据 Sink 写出文件目录，来判断需要发布哪些分区，动态分区情况下没有问题。如果是静态分区写入的任务，同时没有数据生成，Flink 就不会发布分区，这样就可能会导致下游不被拉起。除此之外，如果没有写出 SUCCESS FILE 的话，也会有类似的问题。

在收集统计信息方面，Flink Batch 原来没有统计信息收集，当生成分区后，元数据中心显示数据为 0。用户看到之后，以为作业没有执行成功，就会重跑作业。如果用户配置了数据质量校验，没有统计信息，也会导致校验不通过。

介绍完接入相关内容，我们来看一下在线上运行之后遇到的问题。

我们知道，离线生产一般是 T+1。由于 0 点之后开始处理前一天的数据，所以 0 点之后，会调度起大批的作业，离线资源就会很紧张。这个时候启动的基线作业，可能就拿不到资源。为了保证基线作业按时完成，YARN 会 Kill 掉一些低优作业的 Container，把资源分给基线任务。

Flink 一般会在一段时间内，当 Task 失败总次数达到阈值，作业失败。离线引擎一般是同一个 Task 失败几次，作业才会失败，并且离线引擎不会将平台原因导致的失败计算在内。

Flink Batch 上线之初，就遇到了资源抢占问题。作业会出现运行一段时间就失败，触发调度平台的失败重试，重试几次才会成功。有的作业可能不会失败，但因为 Task 被删除，需要重算数据，所以执行时间被拉长。

要想解决这个问题，又不能简单的把 Task 失败阈值上调。如果遇到业务逻辑导致的 Task 失败，调大失败阈值，会导致异常没有被及时发现，严重的会造成事故。

因此，我们参考离线引擎的做法，在 Task Fail 时拿到具体的失败原因。如果是资源抢占或者机器下线之类的平台原因，不计入失败次数。这样就解决了 Flink 作业频繁失败重试的问题。如果用户觉得运行时间过长，就需要考虑调整作业优先级。

解决了资源抢占问题后，离线集群慢节点问题是另一个稳定性隐患。CPU 利用率过高和 IO 繁忙在离线集群非常常见，个别 Task 长尾会导致整个作业执行时间超长。

解决这个问题的方法很简单，参考离线计算的推测执行即可。在发现 Task 执行时间，超过同 Task 的平均执行时间一段时间后。调度器在其他节点拉起一个镜像 Task，然后哪个 Task 先执行完，就用哪个 Task 的数据。

这个特性是快手和社区共建完成的，这里要特别注意的是，Flink 里数据分片是动态分配的，和 Hive、Spark 的静态机制不同。所以 Source 的推测执行实现复杂度会高很多，并且还要考虑到资源抢占等异常 case。

随着聚合类作业的上线，我们发现一些简单的聚合计算任务执行时间非常不稳定，有时很快，有时异常的慢。仔细分析之后发现，Flink 默认使用 TaskManager 来做 Shuffle，如果 Shuffle 数据没有被下游完全消费，那么 TaskManager 就不能释放。这样就会带来两个问题：

资源浪费。空闲的 TaskManager 不能释放。
如果这时候遇到资源抢占，或者机器下线，TaskManager 被 Kill 了，那么 Shuffle 数据就没了，需要重算这部分数据，这样就导致作业执行时间被拉长。

为了解决这个问题，需要把 Shuffle Service 独立出 TaskManager。有两种实现思路。

类似 Hive 或 Spark，使用基于 Yarn NodeManager 的 Shuffle Service。但 Flink 还没有相关实现，需要我们自行开发。
使用 Remote Shuffle Service。Flink 有开源实现，快手也有自研的 Remote Shuffle Service。

经过调研之后，我们选择了快手自研的 Remote Shuffle Service。因为快手的 Remote Shuffle Service 支持 Push-Based Shuffle。Shuffle Service 会将相同 Shuffle Partition 的数据合并，Task 只需从一个地方就可以读取到全部的 Shuffle 数据，社区的 Remote Shuffle Service 未来也会支持这个功能。

其次，快手的 Remote Shuffle Service 具有端到端数据一致性的校验，对数据质量有很好的保障。

随着迁移作业量的增长，面临一个很棘手的问题，设置的默认并发度对大部分作业来说都不是最优的。

在实时计算场景，作业并发度都是用户自己设置的。但对离线计算来说，用户不需要设置并发度，引擎会根据数据量自动计算出对应的并发度。对我们来说，手动设置并发度是不现实的。由于数据量每天都在变化，不能每天都用同样的并发。

如果需要手动设置并发度，就无法实现平滑迁移 Hive/Spark 作业的目标。这个问题是我们和社区共建解决的，Adaptive Scheduler 根据数据量自动预估合适的并发度，这样我们就无需修改用户作业，实现平滑迁移。

除此之外，合并小文件的并发度 Adaptive Scheduler 暂时不能准确预估，我们通过 Hack 的方式临时解决，后续社区也会针对这种特殊 case 扩展 API 支持。

目前，我们正在逐步上量聚合类的 Batch 作业，遇到了两个比较复杂的问题，正在和社区一起解决。

Hive UDAF 的支持。目前，Flink 只支持 Partial1 和 Final 模式的 Hive UDAF，像 Rank 类函数暂时不能支持。
Hash Agg 的支持。目前，使用 Hive UDAF 的作业都会使用 Sort Agg，相较 Hash Agg 性能差异还是很明显的。

为了方便平滑迁移聚合类作业，Hash Agg 和完整 Hive UDAF 的支持都非常必要。

三、核心优化解读

Flink Batch 在快手落地上线的过程中遇到了诸多问题，包括语法兼容、Hive Connector、稳定性等多个方面。针对这些问题，快手和社区一起合作，共同解决这些问题，成功推进了 Flink Batch 的上线。接下来，给大家介绍一下社区从能用、好用、稳定可用等多个方面做的优化改进工作。

由于 Flink 是标准的 ANSI SQL，Hive SQL 与 ANSI SQL 语法差异较多。为了让 Hive SQL 平迁到 Flink SQL 引擎上，快手选择了使用 Hive Dialect。这样的话，绝大部分的作业都可以迁移，不需要用户修改 SQL。虽然在 Flink 1.16 版本之前，社区在 Hive Dialect 兼容上，已经做了很多工作。但离完全兼容 Hive SQL，仍有差距。快手选定了一批准备迁移的作业后，通过解析验证，发现诸多不支持的语法。

在快手给出 input 后，社区第一优先级做出了支持。如上图所示，我们列出了比较重要且很常用的一些语法，比如 CTAS、ADD JAR、USING JAR、宏命令、Transform 等。

UDF 在 Hive SQL 会经常使用的，用户一般会先在作业中 Add 一个远程的 UDF JAR，然后注册并使用。在 Flink 中，当前不支持 Add JAR，导致很多作业都无法迁移。除此之外，算法同学不喜欢写 Java UDF，他们一般用 python 写脚本，然后通过 transform 来处理数据。通过补全 Hive Dialect 语法，解决了迁移过程中的第一个 block。成功保证了现有的 Hive SQL，能跑在 Flink 引擎上。

社区在 Flink 1.16 版本做了大量工作,补全 Hive 语法。目前，通过 qtest 测试下来，整体兼容度能达到 95%，基本能保证用户现有的 Query 都能迁到 Flink 上来。Flink-25592&Flink-26360，这两个 umbrella issue 在追踪 Flink Batch 相关的工作。由于 CTAS&USING JAR 这两个功能，涉及到 PUBLIC API 的改动，在社区有对应的 FLIP 设计文档，因此接下来我会详细介绍一下这块的设计。

如上图所示，先介绍一下 FLIP-214 Create Function using JAR 功能。由于这个功能涉及到 SQL 模块的 ClassLoader 的改动。因此，有必要给大家介绍一下设计思路，避免大家踩一些 ClassLoader 的坑。

写 SQL 的人都知道，由于业务逻辑五花八门，计算引擎内置的函数往往不能满足需求。在此种情况下，需要用户手写 UDF 满足需求，尤其是 Java 技术栈的大数据引擎。我们会把 UDF 打到 JAR 包里，然后上传到某个远程的 HDFS 地址上，在使用的时候先 Add JAR 或者直接基于 JAR 包创建 UDF。

考虑到该场景以及快手的业务需求，社区在 1.16 支持了 USING JAR 功能。整体的语法部分如 PPT 中红色部分标出的字体，相比于之前，多了 USING JAR 的关键字，并且允许指定 JAR 包的地址，该地址可以是远程的，也可以是 Local 的。目前我们仅 Java&Scala 语言支持该语法。

接下来，我来详细介绍一下如何使用 USING JAR 这个功能，以及其执行机制。首先，注册 UDF，在注册 UDF 的过程中，我们会解析 UDF 的 DDL，先判断函数是否是 temporary。如果不是，则直接注册到 Catalog 中，不做任何其他额外的工作。如果是 temporary，我们会接着判断 JAR 包的地址，是本地文件，还是远程的 HDFS、OSS 地址。

如果是 Local JAR，则会校验 JAR 包是否合法，如果 JAR 包合法，会把 JAR 包地址添加到 ResourceManager 中，同时也添加到 MutableURLClassLoader 中。

这里需要额外的说明一下，为了解决 Flink Table 模块中经常出现的 Connector&Catalog 相关的 ClassLoader 问题。1.16 版本社区在 Table 模块引入了一个 MutableURLClassLoader，每个 TableEnvironment 持有一个该 ClassLoader，允许动态的添加 JAR 包到 ClassLoader 中，这就解决了动态加载 JAR 包的问题。

接下来会把该 JAR 包注册到 FunctionCatalog 中管理。如果 JAR 包是远程的地址，会多一步下载的动作，这个动作由 ResourceManager 来完成，把 JAR 包下载到本地的临时目录，同时加载到 MutableURLClassLoader 中。

第二步是使用 UDF，如果在作业的 Query 中使用了 UDF，在 Query 解析优化的过程中，会先判断该 Function 是 temporary 的还是持久化的。如果是后者，会从 Catalog 中拿出其 JAR 地址信息，先把 JAR 包下载到本地，并加载到 ClassLoader 中，接着进行 Query 的优化，并生成 JobGraph。

生成 JobGraph 之后，第三步则是要把作业部署到集群上运行。我们在 Query 优化的时候需要 JAR 包，同时在集群上运行的时候也需要这些 JAR 包，否则作业运行时就会出现 ClassNotFoundException。那我们是怎么做的呢？

这里我们利用了 Flink 的 BlobServer，在往集群上提交作业时，我们会先把 ResourceManager 中维护的所有的本地 JAR 包，上传到 Flink JobManager 的 BlobServer 中，也就是图中黄色虚线标出的部分；在作业执行时，由 TM 负责从 BlobServer 中拉取这些 JAR 包。

接下来，我们介绍另一个比较常用的功能 CTAS。这个语法在所有大数据计算引擎中都支持，相比 CREATE TABLE 语法，其不同的地方在于文本中红色标出的字体。

该语法的作用是，由引擎基于 SELECT Query 自动推断出目标表的 Schema，并由 Catalog 负责创建；其等效于先创建目标表，再写一个 insert into...select query，其最大的好处是在 Query 比较复杂的时候，避免了用户手写目标表的 DDL，简化了用户的工作量，这个功能在生产环境中是非常有用的。

接下来，介绍一下 CTAS 整体的执行流程。首先，用户写了一个 CTAS Query，在客户端编译优化的过程中，我们会先基于 Query 推导出目标表的 Schema。然后，把对应的 Catalog 序列化。序列化的目的是，为了在 JobManager 上能反序列化，执行建表的动作。同时，我们生成一个钩子对象，由这个钩子在 JobManager 负责调用 Catalog 创建目标表。

第二步就是作业的执行。在作业开始调度前，我们首先在 JobManager 上把钩子对象及 Catalog 对象反序列化回来。接着，由钩子调用 Catalog 先创建目标表。然后，调度作业。

假设作业最终成功执行，则没有额外的动作。如果作业执行失败，或者被手动取消，出于原则性的考虑，我们会通过钩子调用 Catalog 把创建的目标表给 Drop 掉，保证最终没有对外部系统产生副作用。

考虑到 Flink 是一个流批一体的计算引擎，CTAS 语法在流批两种场景都能使用。但一般在流场景下，作业失败时，我们不会手动删除表，而是靠外部系统的更新能力，保证数据的最终一致性。

因此，我们引入了一个原子性相关的 option 由用户来决定是否需要保证数据的原子性。社区在 Flink 1.16 版本只完成了 CTAS 的一个基本功能，还没有支持原子性，这个会在 1.17 完成，更多细节大家可以去看 FLIP-218 的设计文档。

在快手 Flink Batch 实践过程中，我们发现 Hive Connector 诸多方面的问题。比如 Split 计算加速，统计信息收集、小文件合并等等。如上图所示，列出了在使用过程中，相对比较重要的一些功能。

通过这些优化，我们丰富了 Hive Connector 的能力，使其在 Batch 场景下更加好用。接下来，我会详细介绍动态分区写入优化和小文件合并。

不同于静态分区的写入，总是需要用户指定分区列的值。动态分区允许用户在写入数据的时候，不指定分区列的值。

比如，有这样一个分区表：用户可以使用如下的 SQL 语句向该分区表写入数据。

在该 SQL 语句中，用户没有指定分区列的值，这就是一个典型的动态分区写入的例子。

在 Flink 中，对应生成的 plan 是什么呢？如右边执行计划图所示，这里会有四个节点。其中，值得注意的是灰色的 Sort 节点。Flink 在动态分区写入时，会把数据按照动态分区列先做一个排序，然后再一个一个分区的写入数据。

这样带来了一些好处，但也导致作业的执行时间变的更长。因此，针对该现状和快手的业务场景，我们引入了一个选项，在写入动态分区时，允许用户手动关闭 Sort 节点，避免额外的排序，加快下游数据的产出速度。

小文件问题在生产环境中也是一个很常见的问题。在写入 Hive 表的时候，为了保证写入的速度，作业的并发设置较大。虽然加快了写入速度，但也引入了小文件问题。

小文件会增加 HDFS NameNode 压力和 RPC 压力，对下游的读取任务不友好。除此之外，在动态分区写入时，某个并发可能会同时写很多动态分区，导致大量的小文件。基于上述问题，我们在 Hive Batch 写入，支持了自适应合并小文件。

上图是 Batch 模式下，Hive Sink 支持小文件合并的拓扑。我们看到图中有四个节点，分别是 Writer、CompactorCoordinator、Rewriter 和 PartitionCommitter。这里的核心是 CompactorCoordinator 和 Rewriter。

CompactorCoordinator 是单并发节点，上游的 Writer 写完文件后，把文件路径信息告诉 CompactorCoordinator。CompactorCoordinator 拿到上游的所有文件后，判断哪些文件是小文件，需要合并成的目标文件大小，从而决定把哪些小文件合并成一个目标大文件。

然后把这些信息告诉给 Rewriter，由 Rewriter 来完成合并的工作，最后由 PartitionCommitter 提交分区信息。自适应合并小文件带来的收益是减少文件数量，降低 HDFS 的压力；提高用户作业的数据读取效率；加快执行速度。

接下来，讲一讲在使用 UDAF 过程中遇到的性能方面的问题。首先，我先来介绍一下 Sort-Agg 和 Hash-Agg 这两个概念。一般在聚合计算场景，有两种策略，分别是 Sort-Agg 和 Hash-Agg。

Sort-Agg 是在聚合计算之前，根据 group by key，对数据进行全局排序。排序之后，遍历所有数据，遇到相同 key 的数据，就做累加操作。如果遇到不同 key 的数据，意味着上一个 group 的所有数据已经计算完，可以直接往下游发送结果。然后，接着计算新 key 对应的 group 的聚合值。

Hash-Agg 则是指，在内存中构建一个 Hash 表，key 是 group by 的 key，value 是每个 group 的聚合值，一直往上累加。当所有数据遍历完，则最终结果才可输出。一般来说 Hash-Agg 在内存中完成，比较高效，而 Sort-Agg 需要一步外部排序，因此性能相对而言会差。

当前在 Flink 中存在两种聚合计算函数接口，分别是 ImperativeAggregateFunction 和 DeclarativeAggregateFunction。上图左边列举了这两种接口的对应的 UDAF 实现的优缺点。

Hive UDAF 当前只能走 Sort-Agg 策略，整体性能比较差。针对这个问题，经过调研之后，我们决定基于 DeclarativeAggregateFunction 接口，在 Flink 里重新实现 Hive 的一些常用的 UDAF。这里的难点是要做到与 Hive 的行为保持一致。重新实现之后，绝大部分的 Query 都可以使用 Hash-Agg，整体上达到了与内置函数一样的性能。

接下来，讲一下另一个比较重要的功能自适应调度器。写过 Flink 流作业的用户都知道，Flink 作业在上线前都需要设置并发度。对流作业而言，这是一个大家默认接受的事情。但对于批作业而言，情况就复杂很多。

首先，批作业数量很多，动辄成百上千，乃至数万，用户不可能 case by case 的调并发，费时费力。

其次，数据量每日都有可能变化，难以预估。因此，同一个并发度设置对同一个作业，不一定一直适用。无法保证作业的运行时间一直在一个稳定的时间基线范围内，对生产的影响会比较大。

最后，SQL 作业，除了 Source 和 Sink 外，只能配置全局统一的并行度，没法进行细粒度并行度设置，也会遇到资源浪费和额外开销的问题。

为了解决这些问题，社区为 Flink 引入了自适应批处理调度器。通过它框架会根据计算节点需要处理的数据量，自动推导节点的并行度。

这样的并行度配置比较通用，可以适用于大部分作业，无需为每个作业单独配置。自动设置的并行度，能够适配每天不同的数据量。同时，由于在运行时可以采集，各个节点实际需要处理的数据量，所以能够进行细粒度的并行度设置。它的流程大致如下：

当上游逻辑节点的所有执行节点都结束时，我们会采集其产出的数据量大小。
当下游逻辑节点消费的数据量确定后，我们可以通过并行度推导策略组件，为节点计算出合适的并行度。
在逻辑节点并行度确定后，我们会把它的执行节点，加入执行拓扑中，并尝试进行调度和部署。

和传统 Flink 作业执行不一样的地方在于，以往的作业执行拓扑是，在作业提交时就已经构建，是静态的。而自适应批处理调度的作业，执行拓扑是动态生成的。在动态执行拓扑下，一个下游节点可以消费多个 sub-partition，使得上游节点的执行过程，和下游节点的并行度解耦。

自适应批处理调度加上 Hive Source 的并发推导能力，解决了并发度设置的问题。在快手侧拿到的效果主要体现在两个方面：

有了这个功能，无需用户为每个作业单独配置并行度，使得 Flink Batch 更易用，支持细粒度的并行度设置，避免了资源浪费。
根据数据量，自动调整算子的并发，保证作业了在生产环境中稳定运行，保障了产出基线，作业可以平滑的迁移过来并上线。

接下来，介绍一下社区和快手合作在生产稳定性方面，做的一个比较重要的功能推测执行。在生产环境中，热点机器一般都是无法避免的，集群混部、密集回刷数据，都可能导致一台机器的负载变高、IO 繁忙，使得上面运行的 Flink 作业异常缓慢。一些偶发的机器异常，也会导致同样的问题。

这些缓慢的任务会影响整个作业的执行时间，使得作业的产出基线无法得到保障。而推测执行，是一种已经得到普遍的认可、用来解决这类问题的方法。因此社区在 Flink 1.16 版本中引入了这套机制。

开启推测执行后，当框架发现批作业中出现某个 SubTask，明显比其他 SubTask 执行缓慢时，会为其拉起新的执行实例。我们把它叫做影子 Task，部署在正常的机器节点上，而原本的慢任务实例会被保留继续执行。

这些影子任务和对应的原始任务，具有相同的输入和产出。其中，最先完成的任务会被认可，产出的数据可以用来被下游节点消费；其他对应的实例会被取消，产出的数据会被清除。

推测执行的具体流程如图所示，当 SlowTaskDetector 发现存在慢任务时，会通知给推测执行调度器。调度器会把慢任务所在机器识别为热点机器，将其加入黑名单中。然后，如果慢任务的运行中的执行实例数尚未达到上限，调度器就会为其创建新的执行实例，并进行部署。当任意执行实例成功结束后，调度器会取消该实例对应执行节点的其他所有执行实例。

前面我们介绍了框架层面实现的通用的推测执行流程，但是对于 Source 和 Sink，推测执行会有一些特殊之处。对于 Source 节点来说，我们要保证同一个 Source 并发的不同执行实例，总是要读取相同的数据。这样才能保证结果的正确性。这里有几个特殊情况需要考虑。

对于 FLIP-27 新 Source，Source 端 Split 是动态分配的，我们需要保证影子 Task 和原来的慢 Task 处理的是相同的 Split。
原来的慢 Task 已经处理的一部分 Split，影子任务处理的速度比较快，能把前面的 Split 追上来。这时影子任务会请求分配更多的 Split，这个过程也需要原来慢任务处理的也是相同的 Split，这里可能是个相互赛马的过程；最终谁先执行完成，用谁的数据。
由于资源抢占、机器异常等原因，可能会出现影子任务或者慢任务挂掉的情况。如果只挂了一个 Task 可以先不用管；如果两个 Task 都挂了，推测执行调度器判断识别出来后，需要把已经处理的 Split 信息还回来，接着调度新的任务，来处理这些 Split。

大体上来说，就是在框架层加入了一个缓存，来记录各个 Source 并发已经获取到的数据分片，以及其下的所有执行实例已经处理到的分片信息。

对于 Sink 端，由于只是负责写数据，情况则简单很多，只需要保证影子任务和慢任务，最终那个先执行完，就提交那个的数据，同时清理掉另外一个无效 Sink 的数据，避免数据重复。

通过推测执行功能，保证了 Batch 任务执行的稳定，产出时间相对稳定可控，保障了 Flink Batch 在快手生产使用过程中的整体稳定性，为进一步的 Batch 落地打下了良好基础。

以上就是从能用、好用、生产稳定可用等三个方面，介绍了社区和快手合作在 Batch 方面做的一些核心优化改进工作。这些工作保证了 Flink Batch 在快手的上线，并在生产环境中稳定运行。随着快手在 Batch 的进一步推进，未来还会有诸多方面的工作要做。

四、未来规划

如上图所示，我们会在 Flink Batch 方向持续投入。监控指标展示以及 History Server 的可用性需要尽快补全，方便问题的定位和分析，用户就可以自助解决一些简单问题。除此之外，当聚合场景下的相关问题解决后，我们就可以大量迁移聚合类的作业。解决 Join 场景的问题后，将开始迁移复杂 Join 场景作业；

在流批一体存储的探索方面，待引擎能力建设后，开始建设统一的存储服务，给流作业和批作业提供统一的读写 API，解决冗余存储带来的成本问题。

点击查看原文视频 & 演讲PPT

你可能感兴趣的:(hive,flink,hadoop,数据仓库,大数据)

数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
Presto【基础 01】简介+架构+数据源+数据模型 2401_84254343 程序员架构
一个Catalog包含Schema和Connector。例如，配置JMX的Catalog，通过JXMConnector访问JXM信息。当执行一条SQL语句时，可以同时运行在多个Catalog。Presto处理table时，是通过表的完全限定（fully-qualified）名来找到Catalog。例如，一个表的权限定名是hive.test_data.test，则test是表名，test_data是
数据仓库介绍阿龙的代码在报错数据分析数据仓库数据库
数据仓库数据仓库的概念数据仓库的主要特征数据仓库的主流开发语言-sql结构化数据sql语句数据仓库的概念数据仓库（英语：DataWarehouse，简称数仓、DW）,是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境，分析结果为企业提供决策支持（DecisionSupport）。就是数据仓库只分析数据并不产生数据数据仓库的主要特征1、面向主题主题是一个抽象的概念，是
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
全面指南：用户行为从前端数据采集到实时处理的最佳实践数字沉思营销流量运营系统架构前端内容运营大数据
引言在当今的数据驱动世界，实时数据采集和处理已经成为企业做出及时决策的重要手段。本文将详细介绍如何通过前端JavaScript代码采集用户行为数据、利用API和Kafka进行数据传输、通过Flink实时处理数据的完整流程。无论你是想提升产品体验还是做用户行为分析，这篇文章都将为你提供全面的解决方案。设计一个通用的ClickHouse表来存储用户事件时，需要考虑多种因素，包括事件类型、时间戳、用户信
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数