一瓢一瓢的饮 alanchan

27、Flink 的SQL之SELECT (select、where、distinct、order by、limit、集合操作和去重)介绍及详细示例（1）

Flink 系列文章

1、Flink 部署、概念介绍、source、transformation、sink使用示例、四大基石介绍和示例等系列综合文章链接

13、Flink 的table api与sql的基本概念、通用api介绍及入门示例
14、Flink 的table api与sql之数据类型: 内置数据类型以及它们的属性
15、Flink 的table api与sql之流式概念-详解的介绍了动态表、时间属性配置（如何处理更新结果）、时态表、流上的join、流上的确定性以及查询配置
16、Flink 的table api与sql之连接外部系统: 读写外部系统的连接器和格式以及FileSystem示例（1）
16、Flink 的table api与sql之连接外部系统: 读写外部系统的连接器和格式以及Elasticsearch示例（2）
16、Flink 的table api与sql之连接外部系统: 读写外部系统的连接器和格式以及Apache Kafka示例（3）
16、Flink 的table api与sql之连接外部系统: 读写外部系统的连接器和格式以及JDBC示例（4）

16、Flink 的table api与sql之连接外部系统: 读写外部系统的连接器和格式以及Apache Hive示例（6）

20、Flink SQL之SQL Client: 不用编写代码就可以尝试 Flink SQL，可以直接提交 SQL 任务到集群上

22、Flink 的table api与sql之创建表的DDL
24、Flink 的table api与sql之Catalogs

26、Flink 的SQL之概览与入门示例
27、Flink 的SQL之SELECT (select、where、distinct、order by、limit、集合操作和去重)介绍及详细示例（1）

30、Flink SQL之SQL 客户端（通过kafka和filesystem的例子介绍了配置文件使用-表、视图等）

41、Flink之Hive 方言介绍及详细示例
42、Flink 的table api与sql之Hive Catalog
43、Flink之Hive 读写及详细验证示例
44、Flink之module模块介绍及使用示例和Flink SQL使用hive内置函数及自定义函数详细示例–网上有些说法好像是错误的

文章目录

Flink 系列文章
一、查询
- 1、查询示例
- - 1）、pom.xml
  - 2）、源码
  - 3）、运行结果
- 2、执行查询示例
- - 1）、pom.xml
  - 2）、源码
  - 3）、运行结果
- 3、语法
- 4、操作
二、With子句
- 1、语法
- 2、示例
三、SELECT 与 WHERE 子句
- 1、语法
- 2、示例
四、SELECT DISTINCT
- 1、语法
- 2、示例
五、集合操作
- 1、UNION并集
- 2、INTERSECT交集
- 3、EXCEPT补集
- 4、IN
- 5、EXISTS
六、ORDER BY 语句
七、LIMIT 语句
八、Deduplication去重
- 1、语法
- 2、示例

本文介绍了Flink 的select、where、distinct、order by、limit、集合操作以及去重及具体的运行示例。
本文依赖flink和hadoop集群能正常使用。
本文分为8个部分，即介绍了Flink 查询、with子句、条件、distinct、集合操作、order by、limit和去重，并且每个内容均以验证通过示例进行说明。

一、查询

SELECT 语句和 VALUES 语句是使用 TableEnvironment 的 sqlQuery（）方法指定的。该方法将 SELECT 语句（或 VALUES 语句）的结果作为表返回。表可以在后续的 SQL 和表 API 查询中使用，转换为DataStream或写入 TableSink。SQL 和表 API 查询可以无缝混合，并经过整体优化并转换为单个程序。

为了访问 SQL 查询中的表，必须在TableEnvironment中注册该表。可以从 TableSource、Table、CREATE TABLE 语句、DataStream 注册表。或者，用户也可以在TableEnvironment中注册catalog以指定数据源的位置。

Table.toString() 在其 TableEnvironment 中自动以唯一名称注册表并返回该名称。因此，Table objects可以直接内联到 SQL 查询中，如以下示例所示。

包含不受支持的 SQL 功能的查询会导致表异常。以下各节列出了批处理表和流式处理表上的 SQL 支持的功能。

1、查询示例

以下示例演示如何对已注册表和内联表指定 SQL 查询。

1）、pom.xml

<properties>
		<encoding>UTF-8encoding>
		<project.build.sourceEncoding>UTF-8project.build.sourceEncoding>
		<maven.compiler.source>1.8maven.compiler.source>
		<maven.compiler.target>1.8maven.compiler.target>
		<java.version>1.8java.version>
		<scala.version>2.12scala.version>
		<flink.version>1.17.0flink.version>
	properties>

	<dependencies>
		<dependency>
			<groupId>org.apache.flinkgroupId>
			<artifactId>flink-clientsartifactId>
			<version>${flink.version}version>
		dependency>
		<dependency>
			<groupId>org.apache.flinkgroupId>
			<artifactId>flink-javaartifactId>
			<version>${flink.version}version>
		dependency>
		<dependency>
			<groupId>org.apache.flinkgroupId>
			<artifactId>flink-table-commonartifactId>
			<version>${flink.version}version>
		dependency>
		<dependency>
			<groupId>org.apache.flinkgroupId>
			<artifactId>flink-streaming-javaartifactId>
			<version>${flink.version}version>
		dependency>

		<dependency>
			<groupId>org.apache.flinkgroupId>
			<artifactId>flink-table-api-java-bridgeartifactId>
			<version>${flink.version}version>
			<scope>providedscope>
		dependency> 
		<dependency>
			<groupId>org.apache.flinkgroupId>
			<artifactId>flink-sql-gatewayartifactId>
			<version>${flink.version}version>
		dependency>

		<dependency>
			<groupId>org.apache.flinkgroupId>
			<artifactId>flink-csvartifactId>
			<version>${flink.version}version>
		dependency>
		<dependency>
			<groupId>org.apache.flinkgroupId>
			<artifactId>flink-jsonartifactId>
			<version>${flink.version}version>
		dependency>

 		<dependency>
			<groupId>org.apache.flinkgroupId>
			<artifactId>flink-table-planner_2.12artifactId>
			<version>${flink.version}version>
			<scope>providedscope>
		dependency> 
		
		<dependency>
		    <groupId>org.apache.flinkgroupId>
		    <artifactId>flink-table-api-java-uberartifactId>
		    <version>${flink.version}version>
		dependency>
		

		<dependency>
			<groupId>org.apache.flinkgroupId>
			<artifactId>flink-table-runtimeartifactId>
			<version>${flink.version}version>
		dependency>

	dependencies>

2）、源码

import static org.apache.flink.table.api.Expressions.$;

import java.util.Arrays;

import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.api.java.tuple.Tuple3;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.DataTypes;
import org.apache.flink.table.api.FormatDescriptor;
import org.apache.flink.table.api.Schema;
import org.apache.flink.table.api.Table;
import org.apache.flink.table.api.TableDescriptor;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;
import org.apache.flink.types.Row;

/**
 * @author alanchan
 *
 */
public class TestFirstQuery {

	/**
	 * @param args
	 * @throws Exception 
	 */
	public static void main(String[] args) throws Exception {
		StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
		StreamTableEnvironment tenv = StreamTableEnvironment.create(env);
		
		DataStream<Tuple3<Integer,String,Integer>> dataStream = env.fromCollection(Arrays.asList(
				new Tuple3(1, "alan", 10), 
				new Tuple3(2, "alanchan", 60),
				new Tuple3(3, "alanchanchn", 70), 
				new Tuple3(4, "alanchn", 100)));
		
		Table table = tenv.fromDataStream(dataStream,$("id"), $("name"), $("balance"));
		// 1、以Table对象作为表查询，没有注册成view
		Table queryResult = tenv.sqlQuery("SELECT SUM(balance) FROM " + table + " WHERE balance >=60 ");
		DataStream<Tuple2<Boolean, Row>> result = tenv.toRetractStream(queryResult, Row.class);
		result.print("result：");
		
		//2、 注册成alan_user表进行查询
		tenv.createTemporaryView("alan_user", dataStream, $("id"), $("name"), $("balance"));
		Table tViewQueryResult = tenv.sqlQuery("SELECT SUM(balance) FROM  alan_user  WHERE balance >=60 ");
		DataStream<Tuple2<Boolean, Row>> tVResult = tenv.toRetractStream(tViewQueryResult, Row.class);
		tVResult.print("tVResult：");
		
		//3、创建并注册TableSink
		final Schema schema = Schema.newBuilder()
			    .column("id", DataTypes.INT())
			    .column("name", DataTypes.STRING())
			    .column("balance", DataTypes.INT())
			    .build();
		
		final TableDescriptor sinkDescriptor = TableDescriptor.forConnector("filesystem")
			    .schema(schema)
			    .option("path", "D:\\workspace\\testdata")
			    .format(FormatDescriptor.forFormat("csv")
			        .option("field-delimiter", ",")
			        .build())
			    .build();
		
		tenv.createTemporaryTable("alan_table_sink", sinkDescriptor);
		// 查询alan_user表中的数据插入到alan_table_sink表中
		tenv.executeSql("INSERT INTO alan_table_sink SELECT id,name,balance FROM alan_user WHERE balance >= 10 ");
		Table tableSinkQueryResult = tenv.sqlQuery("SELECT  id,name,balance  FROM  alan_table_sink   ");
//		 tenv.toChangelogStream(tableSinkQueryResult).print();
//		tenv.toDataStream(tableSinkQueryResult).print();
//		DataStream tableSinkResult = tenv.toChangelogStream(tableSinkQueryResult,Schema.newBuilder()
//				.column("id", "INT")
//				.column("name", "STRING")
//				.column("balance", "INT")
//				.build());
//		DataStream tableSinkResult = tenv.toChangelogStream(tableSinkQueryResult);
//		DataStream tableSinkResult = tenv.toChangelogStream(tableSinkQueryResult,schema);
		DataStream<Tuple2<Boolean, Row>> tableSinkResult = tenv.toRetractStream(tableSinkQueryResult,Row.class);
		tableSinkResult.print("tableSinkResult：");

		env.execute();
	}

}

3）、运行结果

tableSinkResult：:4> (true,+I[1, alan, 10])
tableSinkResult：:4> (true,+I[2, alanchan, 60])
tableSinkResult：:4> (true,+I[3, alanchanchn, 70])
tableSinkResult：:4> (true,+I[4, alanchn, 100])
tVResult：:5> (true,+I[60])
tVResult：:8> (false,-U[130])
tVResult：:7> (true,+U[130])
result：:13> (false,-U[60])
result：:12> (true,+I[60])
tVResult：:6> (false,-U[60])
tVResult：:9> (true,+U[230])
result：:16> (true,+U[230])
result：:15> (false,-U[130])
result：:14> (true,+U[130])

2、执行查询示例

通过 TableEnvironment.executeSql（）方法将可执行的 SELECT 语句或 VALUES 语句结果收集到本地。该方法将 SELECT 语句（或 VALUES 语句）的结果作为 TableResult 返回。与 SELECT 语句类似，可以使用 Table.execute（）方法执行 Table 对象，以将查询的内容收集到本地客户端。TableResult.collect（）方法返回一个可关闭的行迭代器。除非收集了所有结果数据，否则选择作业将不会完成。我们应该主动关闭作业，以避免通过 CloseableIterator#close（）方法的资源泄漏。我们还可以通过 TableResult.print（）方法将选择结果打印到客户端控制台。表结果中的结果数据只能访问一次。因此，collect（）和 print（）不能在彼此之后调用。

TableResult.collect（）和 TableResult.print（）在不同的检查点设置下的行为略有不同（要为流式处理作业启用checkpointing，请参阅9、Flink四大基石之Checkpoint容错机制详解及示例（checkpoint配置、重启策略、手动恢复checkpoint和savepoint））。

对于没有checkpointing的批处理作业或流式处理作业，TableResult.collect（）和 TableResult.print（）既没有exactly-once，也没有at-least-once。查询结果在生成后可立即由客户端访问，但在作业失败并重新启动时将引发异常。
对于具有exactly-once checkpointing的流式处理作业，TableResult.collect（）和 TableResult.print（）保证end-to-end exactly-once记录交付。只有在相应的检查点完成后，客户端才能访问结果。
对于具有at-least-once checkpointing的流式处理作业，TableResult.collect（）和 TableResult.print（）保证end-to-end at-least-once记录交付。查询结果在生成后可立即由客户端访问，但同一结果可能会多次传递。

1）、pom.xml

依赖同上

2）、源码


import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.TableResult;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;
import org.apache.flink.types.Row;
import org.apache.flink.util.CloseableIterator;

/**
 * @author alanchan
 *
 */
public class TestExecuteQueryDemo {

	/**
	 * @param args
	 * @throws Exception
	 */
	public static void main(String[] args) throws Exception {
		StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
		StreamTableEnvironment tenv = StreamTableEnvironment.create(env);

		String sql = "CREATE TABLE alan_sink_table (\r\n" + 
				"    id BIGINT, \r\n" + 
				"    name STRING, \r\n" + 
				"    age INT\r\n" + 
				") WITH (\r\n" + 
				"  'connector' = 'filesystem',           \r\n" + 
				"  'path' = 'D:/workspace/testdata/', \r\n" + 
				"  'format' = 'csv'                \r\n" + 
				");";
		tenv.executeSql(sql);

		//execute SELECT statement
		String querySQL = "select * from alan_sink_table";
		TableResult tableResult = tenv.executeSql(querySQL);
		try (CloseableIterator<Row> it = tableResult.collect()) {
		    while(it.hasNext()) {
		        Row row = it.next();
		        System.out.println(row.toString());
		    }
		}
		
		//execute Table
		TableResult tableResultSqlQuery = tenv.sqlQuery(querySQL).execute();
		tableResultSqlQuery.print();
	}

}

3）、运行结果

本示例的数据在上一个示例中已经写入了，故此处直接使用上一个示例中的数据结果，数据内容如下

		DataStream<Tuple3<Integer,String,Integer>> dataStream = env.fromCollection(Arrays.asList(
				new Tuple3(1, "alan", 10), 
				new Tuple3(2, "alanchan", 60),
				new Tuple3(3, "alanchanchn", 70), 
				new Tuple3(4, "alanchn", 100)));

################execute SELECT statement（executeSql）运行结果
+I[1, alan, 10]
+I[2, alanchan, 60]
+I[3, alanchanchn, 70]
+I[4, alanchn, 100]
##################execute Table（sqlQuery）运行结果
+----+----------------------+--------------------------------+-------------+
| op |                   id |                           name |         age |
+----+----------------------+--------------------------------+-------------+
| +I |                    1 |                           alan |          10 |
| +I |                    2 |                       alanchan |          60 |
| +I |                    3 |                    alanchanchn |          70 |
| +I |                    4 |                        alanchn |         100 |
+----+----------------------+--------------------------------+-------------+
4 rows in set

3、语法

Flink 使用 Apache Calcite 解析 SQL，它支持标准 ANSI SQL。

以下 BNF 语法描述了批处理和流式查询中支持的 SQL 功能的超集。具体使用示例将在本专栏下进行介绍，并指示哪些功能仅支持批处理或流式处理查询。

query:
    values
  | WITH withItem [ , withItem ]* query
  | {
        select
      | selectWithoutFrom
      | query UNION [ ALL ] query
      | query EXCEPT query
      | query INTERSECT query
    }
    [ ORDER BY orderItem [, orderItem ]* ]
    [ LIMIT { count | ALL } ]
    [ OFFSET start { ROW | ROWS } ]
    [ FETCH { FIRST | NEXT } [ count ] { ROW | ROWS } ONLY]

withItem:
    name
    [ '(' column [, column ]* ')' ]
    AS '(' query ')'

orderItem:
    expression [ ASC | DESC ]

select:
    SELECT [ ALL | DISTINCT ]
    { * | projectItem [, projectItem ]* }
    FROM tableExpression
    [ WHERE booleanExpression ]
    [ GROUP BY { groupItem [, groupItem ]* } ]
    [ HAVING booleanExpression ]
    [ WINDOW windowName AS windowSpec [, windowName AS windowSpec ]* ]

selectWithoutFrom:
    SELECT [ ALL | DISTINCT ]
    { * | projectItem [, projectItem ]* }

projectItem:
    expression [ [ AS ] columnAlias ]
  | tableAlias . *

tableExpression:
    tableReference [, tableReference ]*
  | tableExpression [ NATURAL ] [ LEFT | RIGHT | FULL ] JOIN tableExpression [ joinCondition ]

joinCondition:
    ON booleanExpression
  | USING '(' column [, column ]* ')'

tableReference:
    tablePrimary
    [ matchRecognize ]
    [ [ AS ] alias [ '(' columnAlias [, columnAlias ]* ')' ] ]

tablePrimary:
    [ TABLE ] tablePath [ dynamicTableOptions ] [systemTimePeriod] [[AS] correlationName]
  | LATERAL TABLE '(' functionName '(' expression [, expression ]* ')' ')'
  | [ LATERAL ] '(' query ')'
  | UNNEST '(' expression ')'

tablePath:
    [ [ catalogName . ] databaseName . ] tableName

systemTimePeriod:
    FOR SYSTEM_TIME AS OF dateTimeExpression

dynamicTableOptions:
    /*+ OPTIONS(key=val [, key=val]*) */

key:
    stringLiteral

val:
    stringLiteral

values:
    VALUES expression [, expression ]*

groupItem:
    expression
  | '(' ')'
  | '(' expression [, expression ]* ')'
  | CUBE '(' expression [, expression ]* ')'
  | ROLLUP '(' expression [, expression ]* ')'
  | GROUPING SETS '(' groupItem [, groupItem ]* ')'

windowRef:
    windowName
  | windowSpec

windowSpec:
    [ windowName ]
    '('
    [ ORDER BY orderItem [, orderItem ]* ]
    [ PARTITION BY expression [, expression ]* ]
    [
        RANGE numericOrIntervalExpression {PRECEDING}
      | ROWS numericExpression {PRECEDING}
    ]
    ')'

matchRecognize:
    MATCH_RECOGNIZE '('
    [ PARTITION BY expression [, expression ]* ]
    [ ORDER BY orderItem [, orderItem ]* ]
    [ MEASURES measureColumn [, measureColumn ]* ]
    [ ONE ROW PER MATCH ]
    [ AFTER MATCH
      ( SKIP TO NEXT ROW
      | SKIP PAST LAST ROW
      | SKIP TO FIRST variable
      | SKIP TO LAST variable
      | SKIP TO variable )
    ]
    PATTERN '(' pattern ')'
    [ WITHIN intervalLiteral ]
    DEFINE variable AS condition [, variable AS condition ]*
    ')'

measureColumn:
    expression AS alias

pattern:
    patternTerm [ '|' patternTerm ]*

patternTerm:
    patternFactor [ patternFactor ]*

patternFactor:
    variable [ patternQuantifier ]

patternQuantifier:
    '*'
  | '*?'
  | '+'
  | '+?'
  | '?'
  | '??'
  | '{' { [ minRepeat ], [ maxRepeat ] } '}' ['?']
  | '{' repeat '}'```

Flink SQL 使用类似于 Java 的标识符（表、属性、函数名）的词法策略：
- 无论是否引用标识符，都会保留标识符的大小写。
- 标识符将区分大小写进行匹配。
- 与Java不同，反引号允许标识符包含非字母数字字符（例如，“从t中选择AS AS my field FROM t”）。

字符串文字必须括在单引号中（例如，SELECT 'Hello World'）。复制单引号进行转义（例如，SELECT 'It''s me'）。

```sql
Flink SQL> SELECT 'Hello World', 'It''s me';
+----+--------------------------------+--------------------------------+
| op |                         EXPR$0 |                         EXPR$1 |
+----+--------------------------------+--------------------------------+
| +I |                    Hello World |                        It's me |
+----+--------------------------------+--------------------------------+
Received a total of 1 row

字符串文本中支持 Unicode 字符。如果需要显式 unicode 代码点，请使用以下语法：

使用反斜杠（\）作为转义字符（默认值）：SELECT U&‘\263A’
使用自定义转义字符：SELECT U&‘#263A’ UESCAPE ‘#’

4、操作

WITH 子句
SELECT & WHERE
SELECT DISTINCT
Windowing TVF（Windowing table-valued functions，窗口化表值函数）
Window Aggregation
Group Aggregation
Over Aggregation
Joins
Set Operations（集合操作）
ORDER BY 子句
LIMIT 子句
Top-N
Window Top-N
Deduplication（重复数据删除）
Pattern Recognition（模式识别）

二、With子句

WITH 子句提供了一种用于更大查询而编写辅助语句的方法。这些编写的语句通常被称为公用表表达式，表达式可以理解为仅针对某个查询而存在的临时视图。

1、语法

WITH <with_item_definition> [ , ... ]
SELECT ... FROM ...;

<with_item_defintion>:
    with_item_name (column_name[, ...n]) AS ( <select_query> )
----------------示例-----------
WITH user_with_avg AS (
    SELECT t_id, t_balance / t_age *10 AS t_avg
    FROM alan_first_table
)
SELECT t_id, ROUND(sum(t_avg),2) AS avg_10_year
FROM user_with_avg
GROUP BY t_id;

2、示例

本示例没有实际意义，仅仅演示with子句的用法

Flink SQL> select * from alan_first_table;
+----+----------------------+--------------------------------+--------------------------------+-------------+
| op |                 t_id |                         t_name |                      t_balance |       t_age |
+----+----------------------+--------------------------------+--------------------------------+-------------+
| +I |                    3 |                    alanchanchn |                          32.23 |          28 |
| +I |                    5 |                  alan_chan_chn |                          52.23 |          38 |
| +I |                    2 |                       alanchan |                          22.23 |          10 |
| +I |                    1 |                           alan |                          12.23 |          18 |
| +I |                    4 |                      alan_chan |                          12.43 |          29 |
+----+----------------------+--------------------------------+--------------------------------+-------------+
Received a total of 5 rows

Flink SQL> WITH user_with_avg AS (
>     SELECT t_id, t_balance / t_age *10 AS t_avg
>     FROM alan_first_table
> )
> SELECT t_id, ROUND(sum(t_avg),2) AS avg_10_year
> FROM user_with_avg
> GROUP BY t_id;

+----+----------------------+--------------------------------+
| op |                 t_id |                    avg_10_year |
+----+----------------------+--------------------------------+
| +I |                    4 |                           4.29 |
| +I |                    1 |                           6.79 |
| +I |                    2 |                          22.23 |
| +I |                    5 |                          13.74 |
| +I |                    3 |                          11.51 |
+----+----------------------+--------------------------------+
Received a total of 5 rows

三、SELECT 与 WHERE 子句

1、语法

SELECT select_list FROM table_expression [ WHERE boolean_expression ]

这里的 table_expression 可以是任意的数据源。它可以是一张已经存在的表、视图或者 VALUES 子句，也可以是多个现有表的关联结果、或一个子查询。这里我们假设 alan_user_table 表在 Catalog 中处于可用状态，那么下面的语句会从 Orders 表中读出所有的行。

2、示例


SELECT * FROM alan_user_table 

Flink SQL> select * from alan_first_table;
+----+----------------------+--------------------------------+--------------------------------+-------------+
| op |                 t_id |                         t_name |                      t_balance |       t_age |
+----+----------------------+--------------------------------+--------------------------------+-------------+
| +I |                    3 |                    alanchanchn |                          32.23 |          28 |
| +I |                    5 |                  alan_chan_chn |                          52.23 |          38 |
| +I |                    2 |                       alanchan |                          22.23 |          10 |
| +I |                    1 |                           alan |                          12.23 |          18 |
| +I |                    4 |                      alan_chan |                          12.43 |          29 |
+----+----------------------+--------------------------------+--------------------------------+-------------+
Received a total of 5 rows

在 select_list 处的 * 表示查询操作将会解析所有列。但是，不鼓励在生产中使用 *，因为它会使查询操作在应对 Catalog 变化的时候鲁棒性降低。相反，可以在 select_list 处指定可用列的子集，或者使用声明的列进行计算。例如，假设 alan_first_table表中有名为t_id 、t_name、t_balance、t_age 的列，那么你可以编写如下查询：

select t_id,t_name,t_balance,t_age from alan_first_table;

Flink SQL> select t_id,t_name,t_balance,t_age from alan_first_table;
+----+----------------------+--------------------------------+--------------------------------+-------------+
| op |                 t_id |                         t_name |                      t_balance |       t_age |
+----+----------------------+--------------------------------+--------------------------------+-------------+
| +I |                    2 |                       alanchan |                          22.23 |          10 |
| +I |                    3 |                    alanchanchn |                          32.23 |          28 |
| +I |                    1 |                           alan |                          12.23 |          18 |
| +I |                    4 |                      alan_chan |                          12.43 |          29 |
| +I |                    5 |                  alan_chan_chn |                          52.23 |          38 |
+----+----------------------+--------------------------------+--------------------------------+-------------+
Received a total of 5 rows

查询操作还可以在 VALUES 子句中使用内联数据。每一个元组对应一行，另外可以通过设置别名来为每一列指定名称。

SELECT t_id, t_balance FROM (VALUES (1, 2.0), (2, 3.1))  AS t (t_id, t_balance);

Flink SQL> SELECT t_id, t_balance FROM (VALUES (1, 2.0), (2, 3.1))  AS t (t_id, t_balance);
+----+-------------+-----------+
| op |        t_id | t_balance |
+----+-------------+-----------+
| +I |           1 |       2.0 |
| +I |           2 |       3.1 |
+----+-------------+-----------+
Received a total of 2 rows

可以根据 WHERE 子句对行数据进行过滤。

select t_id,t_name,t_balance,t_age from alan_first_table where t_name like 'alan%';

Flink SQL> select t_id,t_name,t_balance,t_age from alan_first_table where t_name like 'alan%';
+----+----------------------+--------------------------------+--------------------------------+-------------+
| op |                 t_id |                         t_name |                      t_balance |       t_age |
+----+----------------------+--------------------------------+--------------------------------+-------------+
| +I |                    2 |                       alanchan |                          22.23 |          10 |
| +I |                    3 |                    alanchanchn |                          32.23 |          28 |
| +I |                    1 |                           alan |                          12.23 |          18 |
| +I |                    5 |                  alan_chan_chn |                          52.23 |          38 |
| +I |                    4 |                      alan_chan |                          12.43 |          29 |
+----+----------------------+--------------------------------+--------------------------------+-------------+
Received a total of 5 rows

此外，在任意一行的列上你可以调用内置函数和用户自定义标量函数（user-defined scalar functions）。当然，在使用前用户自定义函数（ user-defined functions）必须已经注册到 Catalog 中。
关于下面的示例，请参考文章：44、Flink之module模块介绍及使用示例和Flink SQL使用hive内置函数及自定义函数详细示例–网上有些说法好像是错误的

Flink SQL> select alan_testdatabase.encryptPhoneNumber("13788889999");
+----+--------------------------------+
| op |                         _o__c0 |
+----+--------------------------------+
| +I |                    137****9999 |
+----+--------------------------------+
Received a total of 1 row

四、SELECT DISTINCT

如果使用”SELECT DISTINCT“查询,所有的复制行都会从结果集(每个分组只会保留一行)中被删除

1、语法

select distinct t_id from alan_first_table;

对于流式查询, 计算查询结果所需要的状态可能会源源不断地增长,而状态大小又依赖不同行的数量.此时,可以通过配置文件为状态设置合适的存活时间(TTL),以防止过大的状态可能对查询结果的正确性的影响.具体配置可参考:查询相关的配置.

2、示例

Flink SQL> select * from alan_first_table;
+----+----------------------+--------------------------------+--------------------------------+-------------+
| op |                 t_id |                         t_name |                      t_balance |       t_age |
+----+----------------------+--------------------------------+--------------------------------+-------------+
| +I |                    4 |                      alan_chan |                          12.43 |          29 |
| +I |                    1 |                           alan |                          12.23 |          18 |
| +I |                    1 |                           alan |                          100.0 |          29 |
| +I |                    3 |                    alanchanchn |                          32.23 |          28 |
| +I |                    2 |                       alanchan |                          22.23 |          10 |
| +I |                    5 |                  alan_chan_chn |                          52.23 |          38 |
+----+----------------------+--------------------------------+--------------------------------+-------------+
Received a total of 6 rows

Flink SQL> select distinct t_id from alan_first_table;
+----+----------------------+
| op |                 t_id |
+----+----------------------+
| +I |                    4 |
| +I |                    2 |
| +I |                    5 |
| +I |                    1 |
| +I |                    3 |
+----+----------------------+
Received a total of 5 rows

五、集合操作

1、UNION并集

UNION 和 UNION ALL 返回在任一表中找到的行。UNION 仅采用不同的行，而 UNION ALL 不会从结果行中删除重复项。

Flink SQL> create view t1(s) as values ('c'), ('a'), ('b'), ('b'), ('c');
Flink SQL> create view t2(s) as values ('d'), ('e'), ('a'), ('b'), ('b');

Flink SQL> (SELECT s FROM t1) UNION (SELECT s FROM t2);
+---+
|  s|
+---+
|  c|
|  a|
|  b|
|  d|
|  e|
+---+

Flink SQL> (SELECT s FROM t1) UNION ALL (SELECT s FROM t2);
+---+
|  c|
+---+
|  c|
|  a|
|  b|
|  b|
|  c|
|  d|
|  e|
|  a|
|  b|
|  b|
+---+

2、INTERSECT交集

INTERSECT 和 INTERSECT ALL 返回在两个表中找到的行。INTERSECT 仅获取不同的行，而 INTERSECT ALL 不会从结果行中删除重复项。

INTERSECT 集合运算对两个输入查询的结果集取其交集，只返回在两个查询结果集中都出现的行。
INTERSECT　ALL集合运算中的ALL关键字也意味着不会删除重复行。但INTERSECT　ALL与UNION　ALL有所不同：INTERSECT　ALL不会返回所有重复行，而只返回重复行数目较少的那个多集的所有重复行。换句话说，INTERSECT　ALL运算不仅关心一个行是否在两个多集同时存在，还关心它在每个多集中出现的次数。就好像这个集合运算会查找每行的每次匹配一样。

Flink SQL> (SELECT s FROM t1) INTERSECT (SELECT s FROM t2);
+---+
|  s|
+---+
|  a|
|  b|
+---+

Flink SQL> (SELECT s FROM t1) INTERSECT ALL (SELECT s FROM t2);
+---+
|  s|
+---+
|  a|
|  b|
|  b|
+---+

Flink SQL> select * from alan_user_t;

+----+----------------------+--------------------------------+-------------+
| op |                 t_id |                         t_name |       t_age |
+----+----------------------+--------------------------------+-------------+
| +I |                    2 |                       alanchan |          19 |
| +I |                    1 |                           alan |          18 |
| +I |                    3 |                    alanchanchn |          18 |
+----+----------------------+--------------------------------+-------------+

Flink SQL> select * from alan_user_t2;

+----+----------------------+--------------------------------+-------------+
| op |                 t_id |                         t_name |       t_age |
+----+----------------------+--------------------------------+-------------+
| +I |                    1 |                           alan |          18 |
| +I |                    1 |                           alan |          18 |
| +I |                    2 |                       alanchan |          18 |
+----+----------------------+--------------------------------+-------------+

Flink SQL>  (SELECT t_id FROM alan_user_t) INTERSECT (SELECT t_id FROM alan_user_t2);

+----+----------------------+
| op |                 t_id |
+----+----------------------+
| +I |                    2 |
| +I |                    1 |
+----+----------------------+

Flink SQL>  (SELECT t_id FROM alan_user_t) INTERSECT ALL (SELECT t_id FROM alan_user_t2);

+----+----------------------+
| op |                 t_id |
+----+----------------------+
| +U |                    1 |
| -U |                    1 |
| +U |                    1 |
| +U |                    2 |
+----+----------------------+

3、EXCEPT补集

EXCEPT 和 EXCEPT ALL 返回在一个表中找到的行，但不返回在另一个表中找到的行。EXCEPT 仅采用不同的行，而 EXCEPT ALL 不会从结果行中删除重复项。

Flink SQL> (SELECT s FROM t1) EXCEPT (SELECT s FROM t2);
+---+
| s |
+---+
| c |
+---+

Flink SQL> (SELECT s FROM t1) EXCEPT ALL (SELECT s FROM t2);
+---+
| s |
+---+
| c |
| c |
+---+
Flink SQL> select * from alan_user_t;

+----+----------------------+--------------------------------+-------------+
| op |                 t_id |                         t_name |       t_age |
+----+----------------------+--------------------------------+-------------+
| +I |                    2 |                       alanchan |          19 |
| +I |                    1 |                           alan |          18 |
| +I |                    3 |                    alanchanchn |          18 |
+----+----------------------+--------------------------------+-------------+

Flink SQL> select * from alan_user_t2;

+----+----------------------+--------------------------------+-------------+
| op |                 t_id |                         t_name |       t_age |
+----+----------------------+--------------------------------+-------------+
| +I |                    1 |                           alan |          18 |
| +I |                    1 |                           alan |          18 |
| +I |                    2 |                       alanchan |          18 |
+----+----------------------+--------------------------------+-------------+

Flink SQL> (SELECT t_id FROM alan_user_t) EXCEPT  (SELECT t_id FROM alan_user_t2);

+----+----------------------+
| op |                 t_id |
+----+----------------------+
| +I |                    3 |
+----+----------------------+

Flink SQL> (SELECT t_id FROM alan_user_t) EXCEPT ALL (SELECT t_id FROM alan_user_t2);

+----+----------------------+
| op |                 t_id |
+----+----------------------+
| +I |                    2 |
| +I |                    1 |
| +I |                    3 |
| -U |                    1 |
| -U |                    2 |
+----+----------------------+

4、IN

如果给定表子查询中存在表达式，则返回 true。子查询表必须由一列组成。此列必须与表达式具有相同的数据类型。

SELECT user, amount
FROM Orders
WHERE product IN (
    SELECT product FROM NewProducts
)

Flink SQL> SELECT *
> FROM alan_user_table
> WHERE u_id IN (
>     SELECT u_id FROM alan_w_user_table
> );
> 
+----+----------------------+--------------------------------+--------------+-------------+
| op |                 u_id |                         u_name |      balance |         age |
+----+----------------------+--------------------------------+--------------+-------------+
| +I |                    1 |                           alan |      12.4000 |          18 |
+----+----------------------+--------------------------------+--------------+-------------+
Received a total of 1 row

优化程序将 IN 条件重写为连接和组操作。对于流式处理查询，计算查询结果所需的状态可能会无限增长，具体取决于不同输入行的数量。您可以为查询配置提供适当的状态生存时间（TTL），以防止状态大小过大。请注意，这可能会影响查询结果的正确性。有关详细信息，请参阅查询配置。

5、EXISTS

SELECT *
FROM alan_user_table
WHERE u_id EXISTS (
    SELECT u_id FROM alan_w_user_table
);

如果子查询返回至少一行，则返回 true。仅当可以在联接和组操作中重写操作时才受支持。

优化程序将 EXISTS 操作重写为联接和组操作。对于流式处理查询，计算查询结果所需的状态可能会无限增长，具体取决于不同输入行的数量。您可以为查询配置提供适当的状态生存时间（TTL），以防止状态大小过大。请注意，这可能会影响查询结果的正确性。有关详细信息，请参阅查询配置。

六、ORDER BY 语句

ORDER BY 子句使结果行根据指定的表达式进行排序。如果两行根据最左边的表达式相等，则根据下一个表达式进行比较，依此类推。如果根据所有指定的表达式它们相等，则它们以与实现相关的顺序返回。

在流模式下运行时，表的主要排序顺序必须按时间属性升序。所有后续的 orders 都可以自由选择。但是批处理模式没有这个限制。

------表结构
Flink SQL> desc alan_fact_order_table2;
+----------+-----------------------------+-------+-----+---------------+-----------+
|     name |                        type |  null | key |        extras | watermark |
+----------+-----------------------------+-------+-----+---------------+-----------+
|     o_id |                      STRING |  true |     |               |           |
| o_amount |                      DOUBLE |  true |     |               |           |
|     u_id |                      BIGINT |  true |     |               |           |
|  item_id |                      BIGINT |  true |     |               |           |
|   action |                      STRING |  true |     |               |           |
|       ts |                      BIGINT |  true |     |               |           |
| proctime | TIMESTAMP_LTZ(3) *PROCTIME* | false |     | AS PROCTIME() |           |
+----------+-----------------------------+-------+-----+---------------+-----------+
7 rows in set

-------表内数据
Flink SQL> select * from alan_fact_order_table2 ;
+----+--------------------------------+--------------------------------+----------------------+----------------------+--------------------------------+----------------------+-------------------------+
| op |                           o_id |                       o_amount |                 u_id |              item_id |                         action |                   ts |                proctime |
+----+--------------------------------+--------------------------------+----------------------+----------------------+--------------------------------+----------------------+-------------------------+
| +I |                              1 |                         123.34 |                    1 |                 8001 |                            'b' |        1693887925763 | 2023-09-08 08:09:38.579 |
| +I |                             30 |                          41.34 |                    5 |                 7001 |                            'c' |        1693874222274 | 2023-09-08 08:09:38.579 |
| +I |                             30 |                          41.34 |                    5 |                 7001 |                            'c' |        1693887926780 | 2023-09-08 08:09:38.579 |
| +I |                             20 |                         321.34 |                    3 |                 9001 |                            'a' |        1693887928801 | 2023-09-08 08:09:38.579 |
| +I |                             50 |                         666.66 |                    2 |                 3001 |                            'd' |        1693887927790 | 2023-09-08 08:09:38.579 |
--------排序 
Flink SQL> select  o_id ,o_amount,u_id,ts,proctime from  alan_fact_order_table2 order by proctime,o_id desc;
+----+--------------------------------+--------------------------------+----------------------+----------------------+-------------------------+
| op |                           o_id |                       o_amount |                 u_id |                   ts |                proctime |
+----+--------------------------------+--------------------------------+----------------------+----------------------+-------------------------+
| +I |                             50 |                         666.66 |                    2 |        1693887927790 | 2023-09-08 08:11:32.712 |
| +I |                             30 |                          41.34 |                    5 |        1693874222274 | 2023-09-08 08:11:32.712 |
| +I |                             30 |                          41.34 |                    5 |        1693887926780 | 2023-09-08 08:11:32.712 |
| +I |                             20 |                         321.34 |                    3 |        1693887928801 | 2023-09-08 08:11:32.712 |
| +I |                              1 |                         123.34 |                    1 |        1693887925763 | 2023-09-08 08:11:32.712 |

注意：排序字段内必须要包含有时间属性的字段，在有时间属性字段的基础上可以带上其他的字段或不带都可以，否则会出现如下提示

Flink SQL> select  o_id ,o_amount,u_id,proctime from  alan_fact_order_table2 order by o_id desc;
[ERROR] Could not execute SQL statement. Reason:
org.apache.flink.table.api.TableException: Sort on a non-time-attribute field is not supported.

七、LIMIT 语句

LIMIT 子句限制 SELECT 语句返回的行数。通常，此子句与 ORDER BY 结合使用，以确保结果是确定性的。

以下示例选择 alan_fact_order_table2 表中的前 3 行。

-----表内全部数据
Flink SQL> select  o_id ,o_amount,u_id,proctime from  alan_fact_order_table2 ;
+----+--------------------------------+--------------------------------+----------------------+-------------------------+
| op |                           o_id |                       o_amount |                 u_id |                proctime |
+----+--------------------------------+--------------------------------+----------------------+-------------------------+
| +I |                              1 |                         123.34 |                    1 | 2023-09-08 08:16:28.791 |
| +I |                             30 |                          41.34 |                    5 | 2023-09-08 08:16:28.791 |
| +I |                             30 |                          41.34 |                    5 | 2023-09-08 08:16:28.791 |
| +I |                             20 |                         321.34 |                    3 | 2023-09-08 08:16:28.791 |
| +I |                             50 |                         666.66 |                    2 | 2023-09-08 08:16:28.791 |

-----查询表内前三行数据
Flink SQL> select  o_id ,o_amount,u_id,proctime from  alan_fact_order_table2 limit 3;
+----+--------------------------------+--------------------------------+----------------------+-------------------------+
| op |                           o_id |                       o_amount |                 u_id |                proctime |
+----+--------------------------------+--------------------------------+----------------------+-------------------------+
| +I |                              1 |                         123.34 |                    1 | 2023-09-08 08:15:27.611 |
| +I |                             30 |                          41.34 |                    5 | 2023-09-08 08:15:27.612 |
| +I |                             30 |                          41.34 |                    5 | 2023-09-08 08:15:27.612 |

八、Deduplication去重

重复数据删除会删除在一组列上重复的行，仅保留第一列或最后一列。在某些情况下，上游 ETL 作业不是 end-to-end exactly-once;这可能会导致在故障转移时接收器中出现重复记录。但是，重复的记录会影响下游分析作业（例如 SUM、COUNT）的正确性，因此在进一步分析之前需要进行重复数据删除。

Flink 使用 ROW_NUMBER（）删除重复项，就像 Top-N 查询的方式一样。理论上，重复数据删除是 Top-N 的一种特例，其中 N 是一个，并按处理时间或事件时间排序。

下面显示了重复数据删除语句的语法：

1、语法

SELECT [column_list]
FROM (
   SELECT [column_list],
     ROW_NUMBER() OVER ([PARTITION BY col1[, col2...]]
       ORDER BY time_attr [asc|desc]) AS rownum
   FROM table_name)
WHERE rownum = 1

ROW_NUMBER（）：为每一行分配一个唯一的序列号，从 1 开始。
PARTITION BY col1[， col2…]：指定分区列，即重复数据删除键。
按time_attr排序 [asc|desc]：指定排序列，它必须是时间属性。目前（截至版本1.17） Flink 支持处理时间属性和事件时间属性。按ASC排序意味着保留第一行，按DESC排序意味着保留最后一行。
WHERE rownum = 1：Flink 需要 rownum = 1 才能识别此查询是重复数据删除。

必须严格遵循上述模式，否则优化程序将无法转换查询。

2、示例

-----1、表结构
Flink SQL> desc alan_fact_order_table2;
+----------+-----------------------------+-------+-----+---------------+-----------+
|     name |                        type |  null | key |        extras | watermark |
+----------+-----------------------------+-------+-----+---------------+-----------+
|     o_id |                      STRING |  true |     |               |           |
| o_amount |                      DOUBLE |  true |     |               |           |
|     u_id |                      BIGINT |  true |     |               |           |
|  item_id |                      BIGINT |  true |     |               |           |
|   action |                      STRING |  true |     |               |           |
|       ts |                      BIGINT |  true |     |               |           |
| proctime | TIMESTAMP_LTZ(3) *PROCTIME* | false |     | AS PROCTIME() |           |
+----------+-----------------------------+-------+-----+---------------+-----------+
7 rows in set

-----2、表内全部数据-示例
Flink SQL> select * from alan_fact_order_table2 ;
+----+--------------------------------+--------------------------------+----------------------+----------------------+--------------------------------+----------------------+-------------------------+
| op |                           o_id |                       o_amount |                 u_id |              item_id |                         action |                   ts |                proctime |
+----+--------------------------------+--------------------------------+----------------------+----------------------+--------------------------------+----------------------+-------------------------+
| +I |                              1 |                         123.34 |                    1 |                 8001 |                            'b' |        1693887925763 | 2023-09-08 08:09:38.579 |
| +I |                             30 |                          41.34 |                    5 |                 7001 |                            'c' |        1693874222274 | 2023-09-08 08:09:38.579 |
| +I |                             30 |                          41.34 |                    5 |                 7001 |                            'c' |        1693887926780 | 2023-09-08 08:09:38.579 |
| +I |                             20 |                         321.34 |                    3 |                 9001 |                            'a' |        1693887928801 | 2023-09-08 08:09:38.579 |
| +I |                             50 |                         666.66 |                    2 |                 3001 |                            'd' |        1693887927790 | 2023-09-08 08:09:38.579 |

----3、去重示例
Flink SQL> SELECT o_id, u_id, proctime, action
> FROM (
>   SELECT *,
>     ROW_NUMBER() OVER (PARTITION BY o_id ORDER BY proctime ASC) AS row_num
>   FROM alan_fact_order_table2)
> WHERE row_num = 1 ;
+----+--------------------------------+----------------------+-------------------------+--------------------------------+
| op |                           o_id |                 u_id |                proctime |                         action |
+----+--------------------------------+----------------------+-------------------------+--------------------------------+
| +I |                              1 |                    1 | 2023-09-08 08:26:21.137 |                            'b' |
| +I |                             30 |                    5 | 2023-09-08 08:26:21.138 |                            'c' |
| +I |                             20 |                    3 | 2023-09-08 08:26:21.138 |                            'a' |
| +I |                             50 |                    2 | 2023-09-08 08:26:21.138 |                            'd' |

以上，介绍了Flink 的select、where、distinct、order by、limit、集合操作以及去重及具体的运行示例。

你可能感兴趣的:(#,Flink专栏,flink,sql,大数据,flink,sql,flink,去重,flink,流批一体化,flink,集合操作)

【Kafka】深入理解 Kafka MirrorMaker2 - 理论篇
文章目录MirrorMaker2架构：不止是一个工具，更是一个框架工作原理揭秘1.远程主题（RemoteTopics）2.消费位移同步（OffsetSync）3.工作流图核心配置参数详解总结实战注意事项与最佳实践最近，我们团队启动了一个新项目，需要从零开始搭建一套高可用的Kafka集群。谈到高可用，异地容灾是绕不开的话题。我们选择了Kafka官方推荐的MirrorMaker2(MM2)作为我们的跨
MySQL 多表关联执行计划全面解析：从 N-LJ 到子查询优化
在实际企业开发中，多表关联查询更为常见，也是导致SQL执行效率低下的重要原因之一。今天，我们将系统性地解析MySQL多表关联查询的执行机制，重点包括：多表关联底层执行机制（N-LJ嵌套循环连接）为什么多表查询容易性能差，以及驱动表的选择有多重要多表查询执行计划分析与优化技巧（附实际案例）一、MySQL多表关联的执行机制：N-LJ嵌套循环连接在MySQL中，多表连接最常见的执行策略就是NestedL
MySQL 大数据量分页查询优化实战：从 90秒到 965毫秒的性能飞跃要阿尔卑斯吗. mysql 数据库分布式架构 java
在日常开发中，我们经常需要对数据库中的数据进行分页展示。特别是当表数据量达到几十万甚至上百万级时，传统的LIMIT分页方式会面临严重的性能瓶颈。今天，我将分享一个真实的性能优化案例，通过模拟大页码查询的现场，从90秒缩短到965毫秒，显著提升了查询效率。本篇文章将从问题出现的原因、索引原理、优化思路和最终实战效果等方面，为你全面讲解如何高效处理MySQL大数据分页查询问题。一、问题背景：大页码分页
马士兵系列——缓存行数据一致性2——缓存行的MESI 公众号【专注CLinuxCloud】缓存 python 开发语言
hello，你好鸭，我是Ethan，西安电子科技大学大三在读，很高兴你能来阅读。✔️目前博客主要更新Java系列、项目案例、计算机必学四件套等。人生之义，在于追求，不在成败，勤通大道。加油呀！个人主页：EthanYankang推荐：史上最强八股文||一分钟看完我的几百篇博客温馨提示：划到文末发现专栏彩蛋点击这里直接传送本篇概览：详细讲解了缓存行的一致性协议之一的MEESI的方方面面。⭕【计算机领域
.NET CORE 分布式事务(四) CAP实现最终一致性精神小伙就是猛 .netcore 分布式架构微服务
目录引言：1.0最终一致性介绍2.0CAP2.0架构预览3.0.NETCORE结合CAP实现最终一致性分布式事务3.1准备工作(数据库，本文使用的是MySql)3.1.1数据模型3.1.2DbContext3.1.3数据库最终生成3.2Nuget引入3.3appsettings.json3.4docker启动一个RabbitMQ3.5Program.cs3.6用户1API控制器3.7用户2API控
用SQLyog连接出现2058错误时处理方法 chilavert318 点点滴滴
win10系统更新安装Mysql8.0，连接SQLyog的时候出现下面错误1.打开cmd：mysql-uroot-p输入密码root2.进入mysql依次执行下面语句ALTERUSER'root'@'localhost'IDENTIFIEDBY'root'PASSWORDEXPIRENEVER;#修改加密规则ALTERUSER'root'@'localhost'IDENTIFIEDWITHmysq
老码农和你一起学AI：Python系列-Pandas大数据处理 chilavert318 熬之滴水穿石 pandas python
今天开始梳理一下pandas的大数据处理，在数据处理领域，Pandas凭借简洁的API和强大的功能成为Python开发者的首选工具。但当面对GB级甚至更大的数据集时，直接读取数据往往会触发“内存不足”的错误——这是因为Pandas默认将数据全部加载到内存中进行处理。此时，分块处理（Out-of-Core）技术就成为解决问题的关键。它通过将大文件拆分为小块，逐块加载并处理，最终整合结果，实现“用有限
关于线上技术学习的一点学习心得 GuangHui
我是**五期学员,和你分享一下我的学习心得,希望能够帮助到你.这是自己对于学习的思考和想法,因为我还在不断的学习和调整中,所以并不能说自己的所想都是正确的.我想即使我实现了成功的转行,也并不代表我说的我所选择的方式都是适合所有人的.每个人还需结合自己的实际情况,找到适合自己的最佳方法.我们一起努力.一.目标篇因为大数据需要学习的内容很多,所以学习过程中,一定要对进行定位,要做到有所取舍.针对自己的
你的博客为什么不更新了？
博客为什么不更新了很久没有写过博客了，为什么呢？因为工作了，成为了一名社畜因为没时间因为没有学习新的东西，所以无法分享因为不思进取…笔者写博客的初衷只是为了总结知识，让我学到的知识能从我这里输出出去，并且别人能看懂。如果结果能帮助更多人了解某个东西，那自然是最好的。三年前写了人生第一篇博客：SQL语句中，MySQL不支持的几种情况。反响平平，两千阅读。之后又陆续发表了几篇博客，数量不多，9篇文章。
aws rds mysql 连接_使用 Amazon RDS 代理连接到 Amazon RDS MySQL 数据库实例或 Aurora MySQL 数据库集群... 仁安同学 aws rds mysql 连接
如何使用AmazonRDS代理连接到我的AmazonRDSMySQL数据库实例或AuroraMySQL数据库集群？上次更新时间：2020年9月21日如何使用AmazonRDS代理连接到运行MySQL的AmazonRelationalDatabaseService(AmazonRDS)数据库实例或AmazonAurora数据库集群？简短描述您可以使用AmazonRDS代理来管理与应用程序之间的连接。
AWS RDS MySQL是否能实现登录限制类需求 shiran小坚果 RDS aws 云计算 database mysql
问题描述：此类问题一般来说在等保中会频繁遇到：对于AWSRDSMySQL5.7和8.0的实例，能否做到如下限制和需求：1.一个连接到数据库的session，超过一段时间以后被RDSMySQL结束的功能：RDSMySQL5.7和8.0中，均可以通过更改参数组中wait_timeout和interactive_timeout参数来设置。当连接空闲并超过参数设置的时长，那么会导致RDSMySQL自动断掉
深入理解Mysql索引底层数据结构与算法桑翔
一.索引的本质索引是帮助MySQL高效获取数据的排好序的数据结构二.索引数据结构1.二叉树2.红黑树3.Hash表4.B-Tree1.叶节点具有相同的深度,叶节点的指针为空2.所有索引元素不重复3.节点中的数据索引从左到右递增排序B-Tree5.B+Tree1.非叶子节点不存储data,可以放更多的索引2.叶子节点包含所有索引字段3.叶子节点用指针连接,提高区间访问的性能(体现在做范围查询的时候)
登基后，疯批皇帝终于娶到白月光(许滢裴知砚)完整版免费阅读_(登基后，疯批皇帝终于娶到白月光)全章节免费在线阅读_许滢裴知砚(登基后，疯批皇帝终于娶到白月光)最新章节在线阅读_许滢裴知砚全章节阅... 笔趣阁官方小说
登基后，疯批皇帝终于娶到白月光(许滢裴知砚)完整版免费阅读_(登基后，疯批皇帝终于娶到白月光)全章节免费在线阅读_许滢裴知砚(登基后，疯批皇帝终于娶到白月光)最新章节在线阅读_许滢裴知砚全章节阅读_许滢裴知砚(登基后，疯批皇帝终于娶到白月光)完整版免费在线阅读_《登基后，疯批皇帝终于娶到白月光》全集在线阅读主角配角：许滢裴知砚简介：烛台上的红烛将幽暗的殿室照亮没等多久，裴知砚便端着膳食回来许滢简单
财富容器笑影Fiona
财富流觉醒营正式课程第二天财富容器，这个词特别形象，当容器不够大，水不够多，太多也会满出来，当源头水流太小，也装不多。扩容，我们要扩容，但我们又要拒绝急功近利，企业扩张太快，成本急剧增加，会让企业死于现金流的崩溃，而人如果急于扩容，而你的基本盘不够大，也会让你空欢喜一场，因为你德不配位。九哥说财富基本盘等于本事*人脉。在本事这个部分，我一直觉得自己没有，但人家整理家务都能成为本事，真的让我打开思路
贝融助手是什么？贝融助手是专业的大数据信用查询平台无忧达人
贝融助手是一个可以快速了解自己信用的工具，是一个生活中非常实用的小助手，信用是现在最重要的一个生活场景，人人都想有一个好的信用，贝融助手就是帮助我们查询自己信用的平台。贝融助手是一个非常专业的平台，贝融助手18年就上线了，到现在已经有很多年的历史了，在信用行业一直都是行业前三的平台，用户量也是非常的大，身边朋友都在用的平台。贝融助手查询入口放在文末了，划到文章结尾就可以看到查询入口贝融助手大数据信
AWS-rds 表主从不一致如何解决与数据交流的路上 AWS mysql mysql sql 数据库
一、背景因为某些修改造成了表的主从不一致，所以需要备份表恢复数据，物理机大家都有很多种做法，但是因为awsrds限制了账户的权限，所以这里用不到普通的办法，想了一阵想到一种可行性的方法，暂时没有发现隐患，或者更好的办法，如果有大佬知道的话，欢迎随时指教二、步骤1.查看主库二进制状态（主库执行）#记录当前的二进制和pos点,mysql-bin.123,111showmasterstatus2.等待一
使用 Amazon RDS Proxy 提升应用程序可用性
AmazonRDSProxy的最大优势，在于显著缩短数据库故障转移之后的应用程序恢复时间。RDSProxy能够同时支持MySQL与PostgreSQL引擎，但在本文中，我们将单纯使用MySQL测试工作负载向大家展示RDSProxy如何在故障转移之后，将AmazonAuroraMySQL客户端的恢复时间缩短达79%，并将AmazonRDSforMySQL的故障恢复时间缩短达32%。本文还将阐述RDS
10.jobManager初始化流程
JobManager初始化流程1.找到入口类StandaloneSessionClusterEntrypoint该类位于Flink源码的以下路径中：flink-runtime/src/main/java/org/apache/flink/runtime/entrypoint/StandaloneSessionClusterEntrypoint.java2.查看main方法/**Entrypoint
高省邀请码怎么弄小心掉坑高省邀请码到底哪个是官方的凌风导师
高省邀请码怎么弄小心掉坑高省邀请码到底哪个是官方的因为高省必要生长必要推广。网上一大批约请码那是再正常不外的了，高省约请码怎么得到？用户必要有约请码才气进入这款软件。而且是布衣化的推广.议决孤单联系关系登岸.高省-各大应用商城下载即可-购物领劵返利高，邀请码切记填999777，凌风高省邀请码999777，全网唯一教你技术的老师码填对码直送2皇冠总裁等级，《凌风导师V:125130414》送价值百万
十大直播培训机构，一起来看看糖葫芦很甜
市场上涌现出了一大批专业的直播培训机构，它们以各自独特的优势，助力学员在直播领域脱颖而出。5星公会，免费加入，一对一指导扶持↓微信在文章底部。苏晟传媒核心竞争力：苏晟传媒直播培训中心注重个性化教学，为每位学员量身定制学习方案。通过小班授课、一对一指导等形式，精准解决学员在直播过程中遇到的问题，加速成长进程。此外，中心还与多家电商平台合作，为优秀学员提供直播带货机会。创新理念：未来直播教育秉承“科技
从AWS MySQL数据库下载备份到S3的完整解决方案 AWS官方合作商数据库 aws mysql
本文将介绍两种主流方法将AWSRDSMySQL数据库备份下载到S3，适用于生产环境需求。方法一：通过RDS快照导出（AWS原生方案）适用场景：全量备份、大数据量、无需额外计算资源流程：创建数据库快照进入AWSRDS控制台→选择目标MySQL实例→点击"操作"→"拍摄快照"输入快照名称（如my-db-snapshot-2024）配置S3导出任务在RDS控制台左侧菜单选择快照→选择刚创建的快照点击"操
C# 读取文件内容的全面指南：从基础到高级技术梦幻南瓜 c#c#开发语言
目录引言1.基础文件读取方法1.1File.ReadAllText-最简单的一次性读取1.2File.ReadAllLines-按行读取为数组1.3File.ReadAllBytes-二进制文件读取2.流式读取方法2.1StreamReader基础用法2.2指定编码方式2.3二进制流读取3.高级文件读取技术3.1异步文件读取3.2内存映射文件(Memory-MappedFiles)3.3管道(Pi
基于ASP.Net Core 开发的纯BS结构的RoadFlow工作流平台
基于ASP.NetCore开发的纯BS结构的RoadFlow工作流平台RoadFlow是一款集成工作流引擎的ASP.NETCOREMVC快速开发框架，由从事多年工作流开发与实施的技术团队开发。该工作流平台是根据多年对企事业单位工作流应用经验总结而成，是一款符合于国情的工作流平台，特别适合于国内无标准，复杂多变的工作审批流转。拥有全浏览器兼容的可视化流程设计器、表单设计器、灵活精细的权限管理等先进设
健康的意愿（沙龙4期）孺子心画
刚才我们在交流分享的时候，有位老师提到说，心流这种活动好是好，但是没什么用。因为很多人根本就不愿意尝试着进入心流，比如说看书好，但人更容易去选择看电视剧，或者是去看小视频，因此你对他讲什么心流，是没有意义的。关于这个问题，我想解释一下。对心流的研究，我觉得至少有两个对我们来说比较有帮助的部分。一个是我们要知道，尽管读书一类的心流活动相比其他非心流活动，似乎比较不容易被选择，但心流体验带来的主观幸福
(新手友好)MySQL学习笔记(11):索引（前缀索引，聚簇索引，覆盖索引，最左前缀原则，索引设计原则，索引使用原则，索引失效的常见场景）李白洗一夜学习笔记
目录前缀索引聚簇索引覆盖索引（索引覆盖）最左前缀原则索引设计原则索引使用原则索引失效的常见场景前缀索引索引开头的部分字符，可以大大节约索引空间，提高索引效率。如TEXT数据类型必须使用前缀索引，因为MySQL不允许索引这些列的完整长度。InnoDB索引最大长度为767字节。最简单的理解就是在索引表中存储的不是索引字段的完整字段值，而是索引字段的前一部分字段值，比如：createindexIn_sn
SQL之常用字符串函数你有柿嘛 sql sql mysql 数据库
1.LOWER()：将字符串中的所有字符转换为小写。selectlower('HelloWorld');--输出：helloworld2.UPPER()：将字符串中的所有字符转换为大写。selectupper('HelloWorld');--输出：HELLOWORLD3.CONCAT()：将两个或多个字符串连接在一起。selectconcat('Hello','','World');--输出：He
一条SQL引发的革命：金仓KES V9 2025如何用“融合”颠覆数据库格局 Loving_enjoy 计算机学科论文创新点机器学习 facebook 课程设计经验分享
>一条SQL，既能查交易记录，又能搜相似图片，还能分析JSON文档——国产数据库正在用“全栈融合”重新定义数据价值“迁移成本太高了！”某银行技术总监看着眼前的Oracle集群摇头叹息。为了部署新的AI风控系统，团队需要在关系数据库、文档数据库和向量数据库之间搭建数据管道——**不仅架构复杂度飙升，维护成本更是翻了三倍**。直到他们遇见了金仓KESV92025。2025年7月15日，中电科金仓发布新
关于基于 LVGL 库实现“注册-登录-跳转页面”功能的代码，适配 800x480 屏幕，并添加了详细注释：
要将“注册-登录-跳转页面”功能整合到已有的main.c工程中，只需按以下步骤操作，核心是复用LVGL和SQLite逻辑，并与现有工程的初始化流程对接：步骤1：整理核心功能代码将之前的功能拆分为独立模块（方便嵌入），创建2个辅助文件：•auth.h：声明注册登录相关函数#ifndefAUTH_H#defineAUTH_H#include"lvgl/lvgl.h"#include"sqlite3.h
opencv、torch、torchvision、tensorflow的区别
一、框架定位与核心差异PyTorch动态计算图：实时构建计算图支持Python原生控制流（如循环/条件），调试便捷。学术主导：2025年工业部署份额24%，适合快速原型开发（如无人机自动驾驶、情绪识别）。TensorFlow静态计算图优化：预编译图结构提升部署效率支持动态图（Eager模式）兼顾灵活性。工业部署首选：市场份额38%，擅长边缘计算（YOLO部署）和大规模项目（工业自动化）-59）。O
泪失禁体质鲤鱼跃龍门
我以前不明白为什么自己那么爱哭，看到飘落的树叶，也会为它伤感，感觉委屈说不出，眼泪就止不住的往出流，我本身并不想哭，可是我总是控制不住自己的眼泪。以前总会幻想着，总有一个人能懂我，沉默寡言背后的苦楚，后来发现，就算是我自己，也未必能懂别人背后的苦楚，有一句名言我很喜欢。“没有人会懂得你的难处，除非你穿上她的鞋子，再在她走过的经历里走来走去。”看到一篇文章，上面说，这就是泪失禁体质，我发现很像自己。
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1