第一片心意

flink-sql查询配置与性能优化参数详解-1.15

1. 版本说明

本文档内容基于 flink-1.15.x，其他版本的整理，请查看本人博客的 flink 专栏其他文章。

2. 查询配置

默认情况下，Table 和 SQL API 已经配置好了可以接受的性能对应的配置。

取决于 table 程序的需要，可能还需要配置一些必要的参数给优化器。比如，无界流程序可能需要确定必要的状态大小上限。

2.1. 概述

在实例化一个 TableEnvironment 对象时，可以通过转化一个 Configuration 对象为 EnviromentSettings 对象，之后 EnviromentSettings 对象转化确定的配置到当前会话中。

另外，在每个表环境中， Tableconfig 对象也提供了选项来配置当前会话。

对于公共和重要的配置选项， TableConfig 对象提供了 getter 和 setter 方法，详情请查看内置文档。

对于更近一步的配置，用户可以直接访问底层的 key-value map 表。下面的章节列出了所有可用的选项，以用于调整 Flink Table 和 SQL API 程序。

注意：因为配置在优化操作期间，可能会在不同的时间点被读取，所以需要在实例化完 table environment 后尽快设置。

java

// 实例化 table environment
Configuration configuration = new Configuration();
// 设置底层 key-value 选项
configuration.setString("table.exec.mini-batch.enabled", "true");
configuration.setString("table.exec.mini-batch.allow-latency", "5 s");
configuration.setString("table.exec.mini-batch.size", "5000");
EnvironmentSettings settings = EnvironmentSettings.newInstance()
        .inStreamingMode().withConfiguration(configuration).build();
TableEnvironment tEnv = TableEnvironment.create(settings);

// 实例化表环境之后访问 flink configuraion
TableConfig tableConfig = tEnv.getConfig();
// 设置底层 key-value 选项
configuration.setString("table.exec.mini-batch.enabled", "true");
configuration.setString("table.exec.mini-batch.allow-latency", "5 s");
configuration.setString("table.exec.mini-batch.size", "5000");

scala

// 实例化 table environment
val configuration = new Configuration;
// 设置底层 key-value 选项
configuration.setString("table.exec.mini-batch.enabled", "true")
configuration.setString("table.exec.mini-batch.allow-latency", "5 s")
configuration.setString("table.exec.mini-batch.size", "5000")
val settings = EnvironmentSettings.newInstance
  .inStreamingMode.withConfiguration(configuration).build
val tEnv: TableEnvironment = TableEnvironment.create(settings)

// 实例化表环境之后访问 flink configuraion
val configuration = tEnv.getConfig().getConfiguration()
// 设置底层 key-value 选项
configuration.setString("table.exec.mini-batch.enabled", "true")
configuration.setString("table.exec.mini-batch.allow-latency", "5 s")
configuration.setString("table.exec.mini-batch.size", "5000")

SQL CLI

Flink SQL> SET table.exec.mini-batch.enabled = true;
Flink SQL> SET table.exec.mini-batch.allow-latency = 5s;
Flink SQL> SET table.exec.mini-batch.size = 5000;

注：下面所有的配置都可以通过 conf/flink-conf.yaml 文件来设置全局配置，具体查看 configuration ，所有配置也可以在实例化 TableEnvironment 之前，通过 EnvironmentSettings 或通过 TableConfig 来进行配置覆盖。

2.2. 任务执行配置

以下选项可用于调优查询执行的性能。

键	默认值	类型	描述
table.exec.async-lookup.buffer-capacity Batch Streaming	100	Integer	异步查找join触发的最大异步i/o操作的数量。
table.exec.async-lookup.timeout Batch Streaming	3 min	Duration	异步操作完成的异步超时时间。
table.exec.deduplicate.insert-update-after-sensitive-enabled Streaming	true	Boolean	设置任务（尤其是 ink）是否对 INSERT 和 UPDATE_AFTER 消息敏感。如果为 false，flink 对第一行数据有时（比如对最后一行去重）会发送 UPDATE_AFTER 而不是 INSERT。如果为 true，flink 会保证对第一行数据发送 INSERT，但会增加额外的开销。默认为 true。
table.exec.deduplicate.mini-batch.compact-changes-enabled Streaming	false	Boolean	设置是否在启用了 mini-batch 时压缩发送到下游的更改数据。如果设置为 true，flink 会压缩更改数据并且只发送最新的更改到下游。注意，如果下游需要所有版本的细节数据，则不可以开启该优化。如果设置为 false，flink 将会发送所有的更改到下游，就像是 mini-batch 没有开启一样。
table.exec.disabled-operators Batch	(none)	String	主要为了测试。用逗号分隔的算子名称列表，买个名称代表一类禁止操作的算子。可以被禁止的算子包括：“NestedLoopJoin”, “ShuffleHashJoin”, “BroadcastHashJoin”, “SortMergeJoin”, “HashAgg”, “SortAgg”。默认不禁止任何算子。
table.exec.legacy-cast-behaviour Batch Streaming	DISABLED	Enum 可用值： ENABLED DISABLED	设置 CAST 时采用之前的实现还是使用新的实现，新的实现修复了各种问题以及性能提升。 ENABLED：CAST 操作将采用之前的实现。 DISABLED：CAST 操作将采用新的实现。
table.exec.mini-batch.allow-latency Streaming	0 ms	Duration	MiniBatch 缓存输入数据的最大延迟时间。MiniBatch 可以优化数据缓存，以减少state状态访问。MiniBatch 在允许的时间间隔内收到最大的缓存数据量时触发。注意：如果table.exec.mini-batch.enabled设置为true，该值必须大于0。
table.exec.mini-batch.enabled Streaming	false	Boolean	是否开启MiniBatch 优化。MiniBatch 可以优化数据缓存，以减少state状态访问。默认false禁用。可以设置为true来开启。注意：如果开启mini-batch，则必须设置’table.exec.mini-batch.allow-latency’和’table.exec.mini-batch.size’。
table.exec.mini-batch.size Streaming	-1	Long	MiniBatch 可以缓存的最大输入数据数量。MiniBatch 可以优化数据缓存，以减少state状态访问。MiniBatch 在允许的时间间隔内收到最大的缓存数据量时触发。注意：如果table.exec.mini-batch.enabled设置为true，该值必须为正值。
table.exec.rank.topn-cache-size Streaming	10000	Long	Rank 操作会缓存不分状态内容以减少状态访问。缓存大小为每个 ranking 任务重的数据数量。
table.exec.resource.default-parallelism Batch Streaming	-1	Integer	设置所有算子的默认并行度（比如aggregate,join,filter）。该配置的优先级高于StreamExecutionEnvironment （实际上，该配置会覆盖StreamExecutionEnvironment 设置的并行度）。-1表示不设置默认并行度，然后使用StreamExecutionEnvironment 设置的并行度。
table.exec.simplify-operator-name-enabled Batch Streaming	true	Boolean	当设置为 true 时，优化器将会简化算子的 name 为 id，并将执行节点类型化，保持描述细节。默认为值 true。
table.exec.sink.keyed-shuffle Streaming	AUTO	枚举可用值： NONE AUTO FORCE	为了最小化用户在将带有主键的数据写入表时遇到的分布式乱序问题，在上游算子和 sink 的并行度不同，并且上游为 append only 时，flink 默认会自动添加一个 keyed shuffle。只有上游确定了多条记录主键的顺序时，上述行为才会工作，否则增加的 shuffle 并不能解决问题（在该方案中，更合适的方法是首先考虑对 source 重复数据的删除操作，或使用具有主键定义的 upsert source，以真正反映记录的演变）。默认情况下，当 sink 的并行度和上游算子不同时，keyed shuffle 将会自动添加。可以设置该值为 shuffle(NONE) 或强制 shuffle(FORCE)。可用值为：NONE、AUTO、FORCE。
table.exec.sink.not-null-enforcer Batch Streaming	ERROR	枚举可用值： ERROR DROP	决定当 NOT NULL 字段遇到 null 值时，flink 怎么处理。可用值： ERROR：NOT NULL 字段遇到 null 值时抛出运行时异常。 DROP：NOT NULL 字段遇到 null 值时直接丢弃数据。
table.exec.sink.type-length-enforcer Batch Streaming	IGNORE	Enum 可用值： IGNORE TRIM_PAD	决定是否对 `CHAR()/VARCHAR()/BINARY()/VARBINARY()` 字段类型值进行切割或补充，对 `CHAR()/BINARY()` 补充，以让他们值的长度匹配他们各自定义的长度。 IGNORE：不接受任何切割或补充，而是忽略 `CHAR/VARCHAR/BINARY/VARBINARY` 的长度定义。 TRIM_PAD：切割或补充字符串或 binary 值以匹配 `CHAR/VARCHAR/BINARY/VARBINARY` 类型定义的长度。
table.exec.sink.upsert-materialize Streaming	AUTO	枚举可用值： NONE AUTO FORCE	由于分布式系统中的 shuffle 会造成 ChalgeLog 数据的乱序，所以 sink 接收到的数据可能在全局的 upsert 中乱序，所以要在 upsert sink 之前添加一个 upsert 物化算子。该算子接收上游 changelog 数据，并且给下游生成一个 upsert 视图。默认情况下，在唯一 key 遇到分布式乱序时，该物化算子会被添加，也可以选择不物化（NONE），或者是强制物化（FORCE）。可选值有：NONE、AUTO、FORCE。
table.exec.sort.async-merge-enabled Batch	true	Boolean	是否异步合并排序的溢出文件。
table.exec.sort.default-limit Batch	-1	Integer	在使用order by语句后，用户没有使用limit语句，则默认使用该设置limit值。-1表示忽略该限制。
table.exec.sort.max-num-file-handles Batch	128	Integer	外部归并排序的最大扇入文件数。该配置限制每个算子操作的文件数量。如果该值设置过小，可能会导致中间合并。但是如果设置过大，则会导致被同时打开的文件数太多，占用内存，并导致随机读取。
table.exec.source.cdc-events-duplicate Streaming	false	Boolean	指定任务中的CDC（更改数据获取）source产生重复更改事件时，框架是否需要进行去重，获取一致性结果。CDC source会产生所有的更改事件，包括：INSERT/UPDATE_BEFORE/UPDATE_AFTER/DELETE。比如：kafka source使用Debezium 格式化。该配置默认值为false。然而，有重复更改事件是一种常见的情况。因为CDC工具（比如Debezium），在遇到失败时，会使用至少一次语义，因此，在异常情况下，Debezium 会交付重复的更改事件到kafka，然后flink将获取到重复的时间。这可能会导致flink查询产生错误的结果，或者是不期望遇到的异常。因此，如果CDC工具设置的至少一次语义，则要求更改此配置。开启该配置要求CDC cource定义PRIMARY KEY主键。主键将用于对更改事件去重，并且生成有状态的changelog流。
table.exec.source.idle-timeout Streaming	0 ms	Duration	当一个source在超时时间内没有接收到任何数据时，它将被标记为临时空闲。这允许下游任务在其空闲时不需要等待来自该source的水印而发送其水印。缺省值为0，表示不开启source空闲检测。
table.exec.spill-compression.block-size Batch	64 kb	MemorySize	溢出数据时用于压缩的内存大小。内存越大，压缩比越高，但是作业消耗的内存资源也更多。
table.exec.spill-compression.enabled Batch	true	Boolean	是否压缩溢出数据。目前，我们只支持对sort、hash-agg和hash-join算子压缩溢出数据。
table.exec.state.ttl Streaming	0 ms	Duration	设置状态保留的最小空闲时间，比如：状态未被更新。状态在空闲时间小于设置的最小时间时永远不会被清除，并且将会在空闲时间超过设置值后被清除，默认为永远不清除状态。注意：清除状态要求状态请求额外的空间时才会发生。默认值为0，表示永远不清除状态。
table.exec.uid.generation Streaming	PLAN_ONLY	Enum	该配置选项在 1.15.2 版本中可用，是为了解决 1.15.0 和 1.15.1 版本中不正确的行为。对新的 pipelines 使用 PLAN_ONLY ，对有状态补丁的版本升级使用 ALWAYS。在状态恢复时为了重新匹配算子的状态，要求 pipeline 算子获取一个分配的 UID，计划器可以生成并分配显式的 UID。如果没有通过计划器设置 UID，uid 将由较底层自动生成，底层会考虑拓扑结构的完整型，并考虑到id的唯一性，可以通过 DataStream API 获取更多信息。推荐专家使用该配置，默认值已经足够大部分用户使用了。默认情况下，只有通过持久化完整的计划生成的 pipeline 才会显示的分配 UID，因此，这些具有相同拓扑的 pipeline 可以任意移动，并且不会影响稳定的 UID。 PLAN_NOLY：要求使用新的 1.15.2+ pipeline。当且仅当通过编译的计划定义 pipeline 时才会设置流转换的 UID，通过没有编译步骤的 API 构建的 pipeline 并不会显式的设置 UID，他可能在多个翻译中不稳定。 ALWAYS：1.15.0 和 1.15.1 版本的默认值，推荐在这些版本中使用。流转换时总会设置 UID。该策略只是为了专家使用。通过没有编译步骤的 API 构建的 pipeline 可能无法正确的从状态中恢复。UID 生成取决于之前声明的 pipeline（可能会使用跨 JVM 的任务）。因此，必须确认一个稳定的环境。通过编译计划生成的 pipeline 可以安全使用。 DISABLED：不设置显式的 UID。
table.exec.window-agg.buffer-size-limit Batch	100000	Integer	设置group window agg算子中使用的窗口元素缓冲区大小限制。

2.3. 优化配置

以下配置可用于调整查询优化器，以获得更好的执行计划。

键	默认值	类型	描述
table.optimizer.agg-phase-strategy Batch Streaming	AUTO	String	AUTO：不指定聚合策略。根据情况选择两阶段聚合或者是一阶段聚合。 TWO_PHASE：指定使用两阶段聚合，两阶段包括：localAggregate和globalAggregate。如果聚合不支持两阶段聚合优化，则会采用一阶段聚合。 ONE_PHASE：指定使用一阶段聚合，只包括：CompleteGlobalAggregate。
table.optimizer.distinct-agg.split.bucket-num Streaming	1024	Integer	配置切分distinct聚合时的bucket桶的总数。该数字用于第一阶段聚合，其用来通过“hash_code(distinct_key)%BUCKET_NUM”计算出额外的分组key，以将数据打散到不同子任务。
table.optimizer.distinct-agg.split.enabled Streaming	false	Boolean	告诉优化器，是否将 distinct 聚合切分为两级，比如：COUNT(DISTINCT COL)、SUM(DISTINCT COL)。第一级聚合会根据 distinct_key 计算出来的 hashcode 值和 bucket 数值将数据进行 shuffle。该优化在 distinct 聚合发生数据倾斜时十分有用，并且可以增加任务的性能。默认为 false。
table.optimizer.join-reorder-enabled Batch Streaming	false	Boolean	在优化器中启用join重新排序。默认为禁用。
table.optimizer.join.broadcast-threshold Batch	1048576	Long	当执行 join 时，可以将表的所有数据广播到所有 worker 节点的最大字节数。设置该值为 -1 可以禁用广播。
table.optimizer.multiple-input-enabled Batch	true	Boolean	当设置为true时，优化器将会合并pipelined shuff 到一个多输入算子，以减少shuff，优化性能。默认值为true。
table.optimizer.reuse-source-enabled Batch Streaming	true	Boolean	当设置为true时，优化器将尝试发现重复的表source，然后重用他们。要启用该设置，必须设置 table.optimizer.reuse-sub-plan-enabled 为true。
table.optimizer.reuse-sub-plan-enabled Batch Streaming	true	Boolean	当设置为true时，优化器将尝试发现重复的子任务，然后重用他们。
table.optimizer.source.aggregate-pushdown-enabled Batch	true	Boolean	当设置为 ture 时，优化器会将本地聚合下推到实现了 SupportsAggregatePushDown 的 TableSource。
table.optimizer.source.predicate-pushdown-enabled Batch Streaming	true	Boolean	当设置为true时，优化器将谓词下推为 FilterableTableSource，默认为true。

2.4. 表配置

以下选项可用于调整表计划器的行为。

键	默认值	类型	描述
table.builtin-catalog-name Batch Streaming	default_catalog	String	实例化 TableEnvironmenet 时创建的初始 catalog 名称。
table.builtin-database-name Batch Streaming	default_database	String	实例化 TableEnvironmenet 时创建的初始数据库名称。
table.dml-sync Batch Streaming	false	Boolean	指定DML任务（比如插入操作）为异步/同步执行。默认为异步执行，因此可以同时提交多个DML任务。如果设置为true，则插入操作会等待任务完成才会结束。
table.dynamic-table-options.enabled Batch Streaming	true	Boolean	是否启用用于动态表的 OPTIONS 提示，如果禁用，则指定 OPTIONS 之后会抛出异常。
table.generated-code.max-length Batch Streaming	4000	Integer	指定一个阈值，将生成的代码拆分为子函数调用。Java的最大方法长度为64kb。如果有必要，则可以通过该参数设置更细的粒度。默认值是 4000 而不是 64KB，因为在默认情况下 JIT 拒绝处理字节代码超过 8K 的方法。
table.local-time-zone Batch Streaming	default	String	定义当前会话的本地时间时区id。该值用于转化或转化为TIMESTAMP WITH LOCAL TIME ZONE时间类型。在内部实现中，timestamps with local time zone通常表示UTC时区（0时区）。然而，当将该类型转化为不包含时区的数据类型（比如TIMESTAMP、TIME、简单的STRING）时，将会用到会话时区设置。该值可以使用完全的名称（比如：“America/Los_Angeles”），也可以使用自定义的时区ID（比如：“GMT+08:00”）。
table.plan.compile.catalog-objects Batch Streaming	ALL	枚举可用值： ALL SCHEMA IDENTIFIER	在编译期间持久化 catalog 对象，比如表、函数或数据类型到计划期的策略，该策略会决定算子恢复期间是否需要提供 catalog 元数据，并影响计划的大小。该配置选项不会影响匿名/内置或临时对象。如果可能，匿名/内置对象将会被完全持久化（包括 schema 和配置），否则编译失败。临时对象只有在恢复期间的会话上下文中需要出现时才会被初始化。 ALL：在编译计划时，所有的元数据都将会被持久化，包括 catalog 表，函数或数据类型。对于 catalog 表，包括表的标识符、schema 和选项配置。对于 catalog 函数，包括函数标识符和 calss 类。对于 catalog 数据类型，包括标识符和完胜的类型结构。使用该策略，在算子恢复期间，不要求 catalog 的元数据必须可用。 SCHEMA：在编译计划期间，除了标识符，catalog 表、函数或数据类型的 schema 信息将会被持久化。在算子恢复期间，schema 允许检测 catalog 中不兼容的更改。然而，所有其他的元数据依然会从 catalog 中检索。 IDENTIFIER：在编译计划期间，只有 catalog 表、函数或数据类型的标识符会被持久化。在算子恢复期间，catalog 的所有元数据都将会从 catalog 中检索。使用该策略，计划器将会减少一些操作。
table.plan.force-recompile Streaming	false	Boolean	如果设置为 false，则输出计划文件已经存在时，COMPILE PLAN 语句将会失败，除非是使用了 IF NOT EXISTS 语句。如果设置为 true，COMPILE PLAN 语句将会覆盖输出计划文件。我们建议只有在调试期间开启该参数。
table.plan.restore.catalog-objects Batch Streaming	ALL	枚举可用值： ALL ALL_ENFORCED IDENTIFIER	使用给定的计划恢复 catalog 对象，比如表、函数或数据类型，以及必要时检索 catalog 的策略。策略会影响表现 catalog 元数据的需要，并丰富部分计划信息。 ALL：读取持久化到计划中的所有元数据，包括 catalog 表、函数或数据类型。该策略会通过标识符执行 catalog 检索以填写丢失的信息或丰富可变选项。在 catalog 中原始对象不再可用时，如果计划中包含了所有的必要信息，pipeline 依然会被恢复。 ALL_ENFORCED：要求 catalog 表、函数或数据类型的所有元数据都被持久化到计划中。该策略不但会通过标识符执行 catalog 检索，而且还会通过 catalog 信息丰富可变选项。如果并不是所有的必要信息都包含在计划中了，则恢复会失败。 IDENTIFIER：只使用 catalog 表、函数或数据类型的标识符，并且永远都会执行 catalog 检索。如果 tagalog 中的原始对象不再可用，则恢复会失败。包含在计划中的其他元数据将会被忽略。
table.sql-dialect Batch Streaming	default	String	定义转化SQL查询的方言。不同的方言支持不同的SQL语法，目前支持default和hive方言。

2.5. SQL Client配置

下面的配置可以调整 sql client 的行为。

键	默认值	类型	描述
sql-client.display.max-column-width Streaming	30	Integer	该参数决定打印到屏幕上的查询结果中的字段值字符个数。该值只会限制流任务结果中的变长字段类型，比如：STRING。批任务中的结果定长字段类型会使用确定的字段长度。
sql-client.execution.max-table-result.rows Batch Streaming	1000000	Integer	设置 table 模式的最大缓存行数。如果数据行数超过了指定的值，则会采用 FIFO 形式提取数据。
sql-client.execution.result-mode Batch Streaming	TABLE	枚举可用值: TABLE CHANGELOG TABLEAU	展示查询结果的模式，可用值为：table、tableau、changelog。 table 模式会在内存中物化结果，并且在一个常规、分页的表视图中展示他们。 changelog 模式不会物化结果，并且会展示连续查询产生的结果流。 tableau 模式更像是一个传统的方式，将结果直接按照 tableau 格式展示到屏幕上。
sql-client.verbose Batch Streaming	false	Boolean	是否输出冗余的输出。如果设置为 true，将会打印异常堆栈信息，否则只会输出异常原因。

3. 性能调整

3.1. 介绍

SQL是数据分析中使用最广泛的语言。Flink的Table API和SQL使用户可以用更少的时间和精力去开发高效的流分析应用程序。
此外，Flink Table API和SQL都被进行了有效的优化，集成了大量查询优化和算子优化实现。但是并不是所有的优化都是默认启用的，所以对于某些查询任务，可以通过开启一些配置来提高性能。

下面我们将介绍一些有用的优化选项和流聚合的内部结构，这些配置在某些情况下会带来很大的性能优化。

下面提到的流聚合优化现在都支持分组聚合和窗口TVF聚合。

3.2. MiniBatch聚合

默认情况下，分组聚合算子会逐个处理输入记录，即：

从state状态读取累加器
将记录累加/撤回到累加器
将累加器写回状态
下一个记录将从(1)再次进行处理。

这种处理模式可能会增加 StateBackend 的开销(特别是 RocksDB StateBackend)。此外，生产中常见的数据倾斜会使问题更加严重，使任务更容易处于反压状态。

MiniBatch 微批处理聚合的核心思想是将大量输入缓存到聚合算子内部的缓冲区中。当输入记录集合被触发进行处理时，每个key只需要访问一次状态。这可以显著减少状态开销并获得更好的吞吐量。
但这可能会增加一些延迟，因为它会先缓冲一些记录而不是立即处理它们。这是吞吐量和延迟之间的权衡。

下图解释了MiniBatch处理聚合如何减少状态操作。

解释：上面是一个记录读取一次状态，写入一次状态。下面是多个相同key的记录缓存之后，访问一次状态，写入一次状态。

默认情况下，分组聚合会禁用 MiniBatch 优化。
为了启用此优化，需要设置 table.exec.mini-batch.enabled、table.exec.mini-batch.allow-latency、table.exec.mini-batch.size。
详情请参阅查询配置页面。

无论上述配置如何，窗口 TVF 聚合始终启用 MiniBatch 优化。窗口 TVF 聚合缓冲区记录在托管内存中，而不是 JVM 堆中，因此没有过载 GC 或 OOM 问题的风险。

下面的示例展示如何启用这些选项。

java

// 实例化 table environment
TableEnvironment tEnv = ...

// 访问 flink 配置
Configuration configuration = tEnv.getConfig().getConfiguration();
// 设置底层 key-value 配置
configuration.setString("table.exec.mini-batch.enabled", "true"); // 开启 mini-batch 优化
configuration.setString("table.exec.mini-batch.allow-latency", "5 s"); // 缓存输入数据 5 秒
configuration.setString("table.exec.mini-batch.size", "5000"); // 每个聚合操作任务可以缓存的最大数据条数为 5000 条

scala

// 实例化 table environment
val tEnv: TableEnvironment = ...

// 访问 flink 配置
val configuration = tEnv.getConfig().getConfiguration()
// 设置底层 key-value 配置
configuration.setString("table.exec.mini-batch.enabled", "true") // 开启 mini-batch 优化
configuration.setString("table.exec.mini-batch.allow-latency", "5 s") // 缓存输入数据 5 秒
configuration.setString("table.exec.mini-batch.size", "5000") // 每个聚合操作任务可以缓存的最大数据条数为 5000 条

sql

set 'table.exec.mini-batch.enabled' = 'true';       -- 启用mini-batch
set 'table.exec.mini-batch.allow-latency' = '5 s';  -- 使用 5s 时间去缓存输入记录
set 'table.exec.mini-batch.size' = '5000';          -- 每个聚合算子任务最多可以缓存的最大记录数量

3.3. Local-Global

local-global 算法通过将分组聚合分为两个阶段来解决数据倾斜问题，即先在上游进行局部聚合，然后在下游进行全局聚合，类似于 MapReduce 中的 Combine + Reduce 模式。例如有以下 SQL：

SELECT color, sum(id)
FROM T
GROUP BY color;

数据流中的记录可能是倾斜的，因此一些聚合算子的实例必须处理比其他实例多得多的记录，这就导致了热点问题。
本地聚合可以在上游先将具有相同键的一定数量的输入积累到单个累加器中，全局聚合将只接收少量的累加器，而不是大量的原始输入。
这可以显著降低网络shuffle和状态访问的成本。本地聚合每次累积的输入记录数量基于微批聚合的时间间隔。这意味着本地聚合依赖于启用微批聚合。

下图显示本地-全局聚合如何提高性能。

解释：左边聚合，聚合算子会收集所有输入，因此上面的聚合算子收到很多原始记录，造成了热点问题。
右边聚合，上游的本地聚合会先将输入在进行和聚合算子相同的操作，将输入根据key来进行聚合，下游的聚合算子只需要接收上游本地聚合之后的累加器即可，因此可以显著减少下游聚合算子的输入数据量。

下面的示例说明如何启用本地-全局聚合。

java

// 实例化 table environment
TableEnvironment tEnv = ...

// 访问 flink 配置
Configuration configuration = tEnv.getConfig().getConfiguration();
// 设置底层 key-value 配置
configuration.setString("table.exec.mini-batch.enabled", "true"); // 本地-全局聚合依赖于开启微批聚合
configuration.setString("table.exec.mini-batch.allow-latency", "5 s");
configuration.setString("table.exec.mini-batch.size", "5000");
configuration.setString("table.optimizer.agg-phase-strategy", "TWO_PHASE"); // 启用两阶段聚合策略，比如：本地-全局聚合

scala

// 实例化 table environment
val tEnv: TableEnvironment = ...

// 访问 flink 配置
val configuration = tEnv.getConfig().getConfiguration()
// 设置底层 key-value 配置
configuration.setString("table.exec.mini-batch.enabled", "true") // 本地-全局聚合依赖于开启微批聚合
configuration.setString("table.exec.mini-batch.allow-latency", "5 s")
configuration.setString("table.exec.mini-batch.size", "5000")
configuration.setString("table.optimizer.agg-phase-strategy", "TWO_PHASE") // 启用两阶段聚合策略，比如：本地-全局聚合

sql

set 'table.exec.mini-batch.enabled' = 'true';           -- 本地-全局聚合依赖于开启微批聚合
set 'table.exec.mini-batch.allow-latency' = '5 s';      -- 使用5s时间去缓存输入记录
set 'table.exec.mini-batch.size' = '5000';              -- 每个聚合算子任务最多可以缓存的最大记录数量
set 'table.optimizer.agg-phase-strategy' = 'TWO_PHASE'; -- 启用两阶段聚合策略，比如：本地-全局聚合

3.4. 切分DISTINCT聚合

本地-全局优化对于一般聚合(SUM、COUNT、MAX、MIN、AVG)的数据倾斜是有效的，但在处理 distinct 聚合时性能并不理想。

例如，如果我们想要分析今天有多少独立用户登录。我们可能会进行以下查询：

SELECT day, COUNT(DISTINCT user_id)
FROM T
GROUP BY day;

COUNT DISTINCT 不擅长于减少记录，如果 DISTINCT 键(即user_id)的值是稀疏的，即使启用了本地-全局优化，也没有多大帮助。
因为累加器仍然包含几乎所有的原始记录，全局聚合将成为瓶颈(大多数重量级累加器都由一个任务处理，即在同一天)。

切分 distinct 聚合优化的思想是将不同的聚合(例如 COUNT(distinct col))分解为两个层次。第一个聚合按分组键和附加的bucket总数进行shuffle。
bucket 键使用 HASH_CODE(distinct_key) % BUCKET_NUM 计算。默认情况下，BUCKET_NUM 是 1024
，可以通过 table.optimizer.distinct-agg.split.bucket-num 配置。
第二个聚合按原始分组键进行 shuffle，并使用 SUM 聚合来自不同 bucket 的 COUNT DISTINCT 值。因为相同的 distinct 字段值只会在相同的bucket中计算，所以转换是等价的。
bucket 键作为一个额外的分组键，分担分组键中热点的负担。bucket键使任务具有可伸缩性，以解决 distinct 聚合中的数据倾斜/热点问题。

拆分不同的聚合后，上面的查询将被自动重写为下面的查询：

SELECT day, SUM(cnt)
FROM (
    SELECT day, COUNT(DISTINCT user_id) as cnt
    FROM T
    GROUP BY day, MOD(HASH_CODE(user_id), 1024)
    )
GROUP BY day;

下图显示分割 distinct 聚合如何提高性能(假设颜色代表天数，字母代表 user_id)。

解释：左图聚合，本地聚合会先对相同键进行聚合，以减少数据量，全局聚合的一个算子也还是会收到所有他所应该聚合的所有同一天的累加器。
右图聚合，agg1 设置 bucket 为4，然后将 map 的输入值通过天的 hash 和 bucket 取余，放到不同的 agg1 并行度，agg1 接收到数据后，进行聚合。
agg2 只需要接收每个 agg1 里不同颜色中 user_id 的数量即可（一个颜色中有两个 user_id，就传递数字 2），然后对接收到的数量进行累加即可。

注意：上例只是一个简单的示例。除此之外，Flink还支持分割更复杂的聚合查询，例如，多个 distinct 聚合具有不同的 distinct 键(例如 COUNT(distinct a)， SUM(distinct b))，
与其他非不同的聚合(例如SUM, MAX, MIN, COUNT)一起使用。

目前，分割优化不支持包含用户自定义的 AggregateFunction 的聚合。

下面的示例演示如何启用分割distinct聚合优化。

java

// 实例化 table 环境
TableEnvironment tEnv = ...

tEnv.getConfig()        // 访问高级配置
  .getConfiguration()   // 设置底层 key-value 配置
  .setString("table.optimizer.distinct-agg.split.enabled", "true");  // 开启 distinct 切分聚合

scala

// 实例化 table 环境
val tEnv: TableEnvironment = ...

tEnv.getConfig         // 访问高级配置
  .getConfiguration    // 设置底层 key-value 配置
  .setString("table.optimizer.distinct-agg.split.enabled", "true")  // 开启 distinct 切分聚合

sql

set 'table.optimizer.distinct-agg.split.enabled' = 'true'   -- 启用distinct聚合分割

3.5. 在DISTINCT上使用FILTER改进

在某些情况下，用户可能需要计算来自不同维度的UV(唯一访问者)的数量，例如来自Android的UV，来自iPhone的UV，来自Web的UV和总UV。很多用户会选择 CASE WHEN 来实现这个需求，例如：

SELECT
    day,
    COUNT(DISTINCT user_id) AS total_uv,
    COUNT(DISTINCT CASE WHEN flag IN ('android', 'iphone') THEN user_id ELSE NULL END) AS app_uv,
    COUNT(DISTINCT CASE WHEN flag IN ('wap', 'other') THEN user_id ELSE NULL END) AS web_uv
FROM T
GROUP BY day;

建议使用 FILTER 语法而不是 CASE WHEN。因为 FILTER 更符合SQL标准，且能获得更大的性能优化。FILTER 是用于聚合函数的修饰符，用于限制聚合中使用的值。将上面的示例替换为 FILTER 修饰符，如下所示：

SELECT
    day,
    COUNT(DISTINCT user_id) AS total_uv,
    COUNT(DISTINCT user_id) FILTER (WHERE flag IN ('android', 'iphone')) AS app_uv,
    COUNT(DISTINCT user_id) FILTER (WHERE flag IN ('wap', 'other')) AS web_uv
FROM T
GROUP BY day

Flink SQL优化器可以识别相同 distinct 键上的不同筛选器参数。例如，在上面的示例中，所有三个 COUNT DISTINCT 都在 user_id 列上。
这样，Flink就可以只使用一个共享状态实例而不是三个状态实例来减少状态访问次数和状态大小。在某些任务中可以获得显著的性能优化。

你可能感兴趣的:(flink,性能优化,flink,sql,flink,配置)

burp suite入门使用没有理想的不伤心常用工具 burp suite web渗透
burpsuite入门使用REF:参考文章遇到的问题https协议场景访问，可能会失败：证书认证问题burpsuite配置问题REF:ERR_HTTP2_PROTOCOL_ERRORcommonerrors
通过ShiftMediaProject生成ffmpeg的DLL和Lib的简要说明 jyl_sh webkit学习 C/C++图形化编程 c++ffmpeg 视频接口 chrome webkit
这是将FFmpeg构建为msvcDLL和lib文件的一个小步骤说明文档。项目包含静态库文件的发布和调试版本（调试/发布）以及动态共享dll文件（DebugDLL/ReleaseDLL）。选择符合您要求的项目配置。注意：FFmpeg需要C99支持才能编译。只有VisualStudio2013或更新的版本才需要C99的功能不支持旧版本。需要VisualStudio2013或更新版本。如果使用旧的不受支
linux 搭建https 服务器（apache） gpstrive linux应用 apache https linux
一、安装准备1.安装Openssl要使Apache支持SSL，需要首先安装Openssl支持。这里使用的是openssl-0.9.8k.tar.gz下载Openssl：http://www.openssl.org/source/tar-zxfopenssl-0.9.8k.tar.gz//解压安装包cdopenssl-0.9.8k//进入已经解压的安装包./config//配置安装。推荐使用默认配置
ASP.NET Core Web API 模板项目推荐余怡桔Solomon
ASP.NETCoreWebAPI模板项目推荐aspnetcore-webapi-templateThisprojectisanWebAPIOpen-SourceBoilerplateTemplatethatincludesASP.NETCore5,WebAPIstandards,cleann-tierarchitecture,GraphQLservice,Redis,Mssql,Mongodat
Kylin入门教程 -龙川- 介绍学习笔记 kylin
引言ApacheKylin是一个开源的分布式分析引擎，提供Hadoop上的多维分析（OLAP）能力，使得超大规模数据集的实时查询和分析成为可能。它通过预计算数据立方体来加速查询，使得复杂查询可以在亚秒级响应。本文将详细介绍Kylin的基本概念、安装与配置、基本操作及高级功能，帮助你全面掌握这款强大的数据分析工具。第一部分：Kylin简介1.1什么是Kylin？Kylin是由eBay开发并捐赠给Ap
MySQL知识大总结（进阶）神秘的t mysql 数据库
一，数据库的约束1，约束类型1notnull非空约束，标记这个字段不可以为空2unique唯一约束，标记这个字段的值是该列唯一的值，在这一列的其他行，不可以与该字段相等3default默认约束，在该字段没有赋值时，使用默认值填充该列4primarykey主键约束，相当于notnull+unique5foreignkey外键约束，与其他表的主键简历联系，在添加或修改数据是，会根据主外键关系检查数据是
麒麟V10系统上安装Oracle 乙龙 oracle ffmpeg 数据库
以下是在麒麟V10系统上安装Oracle数据库的详细步骤：安装前准备检查系统版本：使用uname-a、cat/etc/os-release等命令检查服务器是麒麟V10系统。配置固定IP和本地yum源：挂载麒麟V10的iso文件到/mnt目录，如mount-oloopKylin-Server-10-SP1-Release-Build20-20210518-x86_64.iso/mnt。备份并修改/e
数据复制二(多主复制详解) 风清扬-独孤九剑 mysql 多活多主多数据中心
目录一、多主复制二、多主复制常用的场景三、多主复制处理写冲突四、自定义冲突解决一、多主复制在上一篇文章谈到了主从复制，对于一个超大规模应用，主从往往是不够用的。还需要多个数据中心，这些数据中心可能部署的全球的任何一个位置。每个数据中心都是主从配置，数据中心的主节点对于其他数据中心来说就是从节点。一个数据中心数据发生变化，异步同步到其他的数据中心的主节点。为了容忍整个数据中心级别故障或者更接近用户,
ros2_control 6 自由度机械臂 kuan_li_lyg ROS &ROS2 机器人人工智能 ROS 机械臂控制工程算法
系列文章目录前言ros2_control是一个实时控制框架，专为普通机器人应用而设计。标准的c++接口用于与硬件交互和查询用户定义的控制器命令。这些接口增强了代码的模块化和与机器人无关的设计。具体的应用细节，例如使用什么控制器、机器人有多少个关节以及它们的运动学结构，则通过YAML参数配置文件和通用机器人描述文件（URDF）来指定。最后，通过ROS2启动文件部署ros2_control框架。本教程
mysql gtid 主从_基于GTID搭建主从MySQL 呓人61 mysql gtid 主从
基于gtid搭建主从MySQL一、GTID的使用想让主从之间使用gtid的方式同步数据，需要我们在配置文件中开启mysql对gtid相关的配置信息找到my.cnf，在mysqld模块中加入如下的配置。(主库从库都这样)#on表示开启，OFF表示关闭gtid-mode=ON#下面的两个变量必须开启，否则MySQL拒绝启动#通常情况，从服务器从主服务器接收到的更新不记入它的二进制日志。该选项告诉从服务
mysql开启gtid主从切换_Mysql 基于GTID的主从复制及切换蕲艾唉啊 mysql开启gtid主从切换
参考http://imysql.com/tag/gtidhttp://mysqllover.com/?p=594Mysql基于GTID的主从复制及切换一、主从复制配置两个mysql服务的my.cnf中相关内容配置[mysqld]#从复制数据库表设置replicate-wild-ignore-table=mysql.%,information_schema.%,innodb.%,innodb_log
深入解析：Postgres 和 MySQL 的核心差异与选择建议 zhu hong yu mysql 数据库 postgresql
几十年来，关系数据库为无数应用程序提供了支持，它们仍然是许多现代系统的支柱。说到可用于生产的选项，有两种最为广泛使用的数据库，即PostgreSQL和MySQL。两者都提供了可靠的性能、可靠性和社区支持，但它们在处理数据的方式、功能集和配置难易程度方面存在明显差异。了解这些细微差别可以帮助您根据特定需求选择合适的数据库。何时应该使用PostgreSQL或MySQL？下表概括了一些最大的差异：标准P
MySQL 很重要的库 - 信息字典 shenghuiping2001 网络安全 mysql adb android information
在做owaspSQL注入的时候，有个很重要的库，那就是信息库:这个库就是:information_schema;（准确的说，数据字典)mysql>showdatabases;+--------------------+|Database|+--------------------+|information_schema|下面区这个库里面看看table：mysql>select*fromTABLES
Strus2 @JSON(serialize=false)，过滤不需要的变量 sageparadise struts2 Java s struts2.0 json
在用struts2的Action加@ParentPackage("json-default")注解orstruts.xml配置文件中Action所在的package继承json-default，Action中方法返回json类型的数据时，在没有任何设定的情况下，改类下的所有getter方法的返回值将被包含在返回给客户端的JSON字符串中。需要剔除不需要包含的属性，在类结构结构中需要在getter方
MySQL基于gtid主从复制（一主一从、一主多从、双主一从）晶核高手 mysql mysql 数据库
MySQL基于gtid主从复制（一主一从、一主多从、双主一从）MySQL基于gtid主从复制什么是GTID？全局唯一，一个事务对应一个GTID替代传统的binlog+pos复制；使用master_auto_position=1自动匹配GTID断点进行复制MySQL5.6开始支持在传统的主从复制中，slave端不用开启binlog；但是在GTID主从复制中，必须开启binlogslave端在接受ma
centos下安裝python 白小白的小白 python python centos
更新系统文件yumupdateyuminstallzlib-develbzip2-developenssl-develncurses-develsqlite-develreadline-develtk-devellibffi-develgccmake下载安装包并解压wgethttps://www.python.org/ftp/python/3.7.6/Python-3.7.6.tar.xztar-
Nginx 配置文件基础语法解析计算机毕设定制辅导-无忧学长 #Nginx nginx github 运维
一、Nginx简介在当今的Web服务领域，Nginx无疑是一款备受瞩目的明星产品。它是由IgorSysoev开发的一款高性能的HTTP和反向代理服务器，同时也具备IMAP/POP3/SMTP代理服务功能。自2004年首次发布以来，凭借其卓越的性能、出色的稳定性和极高的灵活性，迅速在Web服务器市场中崭露头角。Nginx的高性能体现在多个方面。其采用了事件驱动和异步非阻塞的架构设计，使得它能够高效地
中型项目下的 MySQL 挑战与应对计算机毕设定制辅导-无忧学长 #MySQL mysql 数据库
中型项目里MySQL面临的挑战数据量增长挑战在中型项目的发展进程中，业务不断拓展，数据量往往会呈现出持续增长的态势，这就给MySQL带来了不小的挑战。要知道，MySQL单表虽然理论上可以存储10亿级的数据，但当数据量达到亿级时，其性能，比如查询速度等方面，就会面临严峻的考验，处理效率会大打折扣，进而影响整个系统的运行效率。例如，在某些项目实例（一主一从）中，曾出现过告警情况，每天凌晨会报SLA报警
MySQL备份还原（多种不同的方式备份还原） obboda 数据库
一、mysqldump+binlog实现完全+增量备份1）素材准备：mysql>createdatabaseschool;QueryOK,1rowaffected(0.01sec)mysql>useschoolDatabasechangedmysql>CREATETABLE`Student`(->`Sno`int(10)NOTNULLCOMMENT'学号',`Sname`varchar(16)NO
利用rsync备份全网服务器数据 obboda 服务器运维
一、项目描述某公司里有一台Web服务器，里面的数据很重要，但是如果硬盘坏了数据就会丢失，现在领导要求把数据做备份，这样Web服务器数据丢失在可以进行恢复，要求如下：1、备份要求每天晚上00点整在Web服务器上打包备份系统配置文件、网站程序目录及访问日志并通过rsync命令推送到Rsync备份服务器上备份保留。2、备份思路可以是先在本地按日期打包，然后再推送到Rsync备份服务器上；NFS存储服务器
httpslocalhostindex 配置的nginx，一刷新就报404了 m0_74824112 nginx 运维
当你的Nginx配置导致页面刷新时报404错误时，通常是由于以下几个原因造成的：静态文件路径配置错误：Nginx没有正确地指向静态文件的目录。前端路由问题：如果是SPA（单页应用），刷新页面时Nginx没有正确地将请求重定向到入口文件（如index.html）。反向代理配置错误：如果Nginx作为反向代理，后端服务可能没有正确处理请求。检查和解决步骤1.检查静态文件路径配置确保Nginx配置文件中
Spring @Transactional注解失效场景重现轻尘× Spring Java基础 MysQL 后端 mysql java spring
环境jdk1.8+springboot2.1.0.RELEASE+mysql8innerDB存储引擎正常在数据插入一条数据抛出checked异常@TransactionalpublicApiResultupdateUser(@RequestBodyUserParamsuser)throwsException{SysUsersysUser=newSysUser();sysUser.setUserNa
学习ASP.NET Core的身份认证（基于JwtBearer的身份认证4） gc_2299 网页编程 JwtBear 身份认证
本文学习并记录builder.Services.AddAuthentication().AddJwtBearer函数中配置类的主要属性及用途。AddJwtBearer函数原型如下图所示，划红线的为常用形式，主要设置JwtBearerOptions类型的常用属性或事件。 JwtBearerOptions类中的属性虽多，但从参考文献的示例来看，大多没有直接设置，主要是对TokenValidati
提高API性能的十个常见优化方法花千树-010 分布式服务器分布式性能优化
在当今数字化时代，API作为软件系统之间交互的关键接口，其性能直接关系到用户体验和业务效率。随着数据量的爆炸性增长和用户对响应速度的极致追求，API性能优化成为了软件开发中至关重要的一环。本文将详细介绍十种常见的API性能优化方法，帮助开发者提升系统性能，满足业务需求。一、缓存缓存是提高API性能的常用手段，尤其适用于读多写少的场景。通过在内存中存储热点数据的副本，减少对后端数据库的直接访问，从而
PostgreSQL - pgvector 插件构建向量数据库并进行相似度查询花千树-010 RAG 数据库 postgresql AI编程
在现代的机器学习和人工智能应用中，向量相似度检索是一个非常重要的技术，尤其是在文本、图像或其他类型的嵌入向量的操作中。本文将介绍如何在PostgreSQL中安装pgvector插件，用于存储和检索向量数据，并展示如何通过Python脚本向数据库插入向量并执行相似度查询。一、安装PostgreSQL并配置pgvector插件1.安装PostgreSQL首先，确保你已经安装了PostgreSQL。可以
全面解析NVIDIA显卡：从入门级到旗舰级显卡详解花千树-010 大模型人工智能算法智能电视
在选择显卡时，了解不同显卡的性能和适用场景是非常重要的。无论你是预算有限的入门用户，还是追求极致性能的游戏玩家，亦或是专业的内容创作者和深度学习研究人员，NVIDIA都有适合你的显卡。本篇博文将详细列举NVIDIA显卡的各项配置，从低到高逐一整理，并给出适用的使用场景。入门级显卡NVIDIAGeForceGT1030CUDA核心数:384基础频率:1227MHz加速频率:1468MHz显存:2GB
FPGA与ASIC：深度解析与职业选择博览鸿蒙 FPGA fpga开发制造
IC（集成电路）行业涵盖广泛，涉及数字、模拟等不同研究方向，以及设计、制造、封测等不同产业环节。其中，FPGA（现场可编程门阵列）和ASIC（专用集成电路）是两种重要的芯片类型，经常让初入行者或转行者面临选择难题。本文将深入剖析FPGA与ASIC的区别，帮助读者更好地理解并做出职业规划。概念辨析FPGA(FieldProgrammableGateArray)：本质上是一种芯片，允许用户通过编程配置
厦门租房信息分析展示（pycharm+python爬虫+pyspark+pyecharts）（踩坑记录）吃西红柿的鸡蛋大数据 hadoop spark python
厦门租房信息分析展示（pycharm+python爬虫+pyspark+pyecharts）（踩坑记录）项目地址http://dblab.xmu.edu.cn/blog/2307/踩坑:Spark分析文件rent_analyse.py改变Spark读取csv文件的写法sparkContext=SparkContext("local","rent_analyse")sqlContext=SQLCon
如何使用wireshark 解密TLS-SSL报文风清扬-独孤九剑 wireshark 测试工具网络
目录前言原理操作前言现在网站都是https或者很多站点都支持http2。这些站点为了保证数据的安全都通过TLS/SSL加密过，用wireshark并不能很好的去解析报文，我们就需要用wireshark去解密这些报文。我主要讲解下mac在chrome怎么配置的，浏览器一定要支持HTTP2。原理获取TLS握手阶段生成的密钥，也就是说通过Chrome浏览器DEBUG日志中的握手信息生成密钥，wiresh
Mysql--实战篇--@Transactional失效场景及避免策略（@Transactional实现原理，失效场景，内部调用问题等） weisian151 Mysql篇 mysql 数据库
在Spring框架中，@Transactional注解用于声明式事务管理，能够简化事务的处理逻辑。然而，在某些情况下，@Transactional可能会失效，导致事务无法按预期工作。了解这些失效场景及其原因，可以帮助你更好地管理和调试事务问题。1、@Transactional失效的常见场景（1）、方法非public访问权限@Transactional注解通常只能应用于public方法上。如果将其应
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情