core512

Flink实战四_TableAPI&SQL

接上文：Flink实战三_时间语义

1、Table API和SQL是什么？

接下来理解下Flink的整个客户端API体系，Flink为流式/批量处理应用程序提供了不同级别的抽象：

这四层API是一个依次向上支撑的关系。

Flink API 最底层的抽象就是有状态实时流处理 Stateful Stream Processing，是最底层的Low-Level API。实际上就是基于ProcessFunction提供的一整套API。在上面侧输出流部分，已经接触到了一个示例。这是最灵活，功能最全面的一层客户端API，允许应用程序可以定制复杂的计算过程。但是这一层大部分的常用的功能都已经封装在了上层的Core API当中，大部分的应用都不会需要使用到这一层API。
Core APIs主要是DataStream API以及针对批处理的DataSet API。这是最为常用的一套API。其中，又以DataStream API为主。他们其实就是基于一系列ProcessFunction做的一些高层次的封装，可以极大的简化客户端应用程序的开发。
Table API主要是表(Table)为中心的声明式编程API。他允许应用程序像操作关系型数据库一样对数据进行一些select\join\groupby等典型的逻辑操作，并且也可以通过用户自定义函数进行功能扩展，而不用确切地指定程序指定的代码。当然，Table API的表达能力还是不如Core API灵活。大部分情况下，用户程序应该将Table API和DataStream API混合使用。
SQL是Flink API中最顶层的抽象。功能类似于Table API，只是程序实现的是直接的SQL语句支持。本质上还是基于Table API的一层抽象。

Table API和Flink SQL是一套给Java和Scalal语言提供的快速查询数据的API，在Python语言客户端中也可以使用。他们是集成在一起的一整套API。通过TableAPI，用户可以像操作数据库中的表一样查询流式数据。这里注意Table API主要是针对数据查询操作，而"表"中数据的本质还是对流式数据的抽象。而SQL则是直接在"表"上提供SQL语句支持。

其实这种思路在流式计算中是非常常见的，像kafka Streams中提供了KTable封装，Spark中也提供了SparkSQL进行表操作。

2、如何使用Table API

使用Table API和SQL，需要引入maven依赖。
首先需要引入一个语言包


<dependency>
	<groupId>org.apache.flinkgroupId>
	<artifactId>flink-table-api-java-bridge_2.11artifactId>
	<version>1.12.3version>
	<scope>providedscope>
dependency>

另外也提供了scala语言的依赖版本


<dependency>
	<groupId>org.apache.flinkgroupId>
	<artifactId>flink-table-api-scala-bridge_2.11artifactId>
	<version>1.12.3version>
	<scope>providedscope>
dependency>

然后需要引入一个Planner

<dependency>
	<groupId>org.apache.flinkgroupId>
	<artifactId>flink-table-planner-blink_2.11artifactId>
	<version>1.12.3version>
	<scope>providedscope>
dependency>

接下来如果要使用一些自定义函数的话，还需要引入一个扩展依赖

<dependency>
	<groupId>org.apache.flinkgroupId>
	<artifactId>flink-table-commonartifactId>
	<version>1.12.3version>
	<scope>providedscope>
dependency>

注意下，为什么这些依赖都使用了provided的scope呢？因为这些maven依赖的jara包，在flink的部署环境中都有。如果需要添加一些新的jar包，那就需要手动把jar包复制进去。

3、基础编程框架

Flink中对批处理和流处理的Table API 和SQL 程序都遵循一个相同的模式，都像下面示例中的这种结构。

// create a TableEnvironment for specific planner batch or streaming
TableEnvironment tableEnv = ...;

// create an input Table
tableEnv.executeSql("CREATE TEMPORARY TABLE table1 ... WITH ( 'connector' =
... )");

// register an output Table
tableEnv.executeSql("CREATE TEMPORARY TABLE outputTable ... WITH (
'connector' = ... )");

// create a Table object from a Table API query
Table table2 = tableEnv.from("table1").select(...);

// create a Table object from a SQL query
Table table3 = tableEnv.sqlQuery("SELECT ... FROM table1 ... ");

// emit a Table API result Table to a TableSink, same for SQL result
TableResult tableResult = table2.executeInsert("outputTable");
tableResult...

基本的步骤都是这么几个：

创建TableEnvironment
将流数据转换成动态表 Table
在动态表上计算一个连续查询，生成一个新的动态表
生成的动态表再次转换回流数据

3.1 创建TableEnvironment

TableEnvironment是Table API 和SQL 的核心概念。未来的所有重要操作，例如窗口注册，自定义函数(UDF)注册等，都需要用到这个环境。

对于流式数据，直接通过StreamExecutionEnvironment就可以创建。

final StreamExecutionEnvironment env =StreamExecutionEnvironment.getExecutionEnvironment();
final StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);

在构建Table运行环境时，还可以指定一个配置对象。

final EnvironmentSettings environmentSettings =EnvironmentSettings.newInstance()
	.useBlinkPlanner()
	.withBuiltInCatalogName("default_catalog")
	.withBuiltInDatabaseName("default_database").build();
	
final StreamTableEnvironment tableEnv =
	StreamTableEnvironment.create(env, environmentSettings);

示例中这个配置对象，设置了三个属性，都是取的默认值。

首先关于Planner，Flink从1.11版本开始，就已经将默认的Planner改为了Blink。

然后在配置中指定了Catalog和Database的名字。在Flink中，表对象的层次结构是Catalog -> Database -> Table。这就相当于是MySQL中的schema。示例中指定的两个值就是Flink提供的默认值，也可以自行进行指定。

3.2 将流数据转换成动态表 Table

Flink中的表Table与关系型数据库中的表Table是有区别的。Flink中的表是随时间不短变化的，流中的每条记录都被解释为对结果表的insert操作。而Flink的TableAPI是让应用程序可以像查询静态表一样查询这些动态表。但是基于动态表的查询，其结果也是动态的，这个查询永远不会停止。所以，也需要用一个动态表来接收动态的查询结果。

final URL resource = FileRead.class.getResource("/stock.txt");
	final String filePath = resource.getFile();
	// final DataStreamSource stream =env.readTextFile(filePath);
	final DataStreamSource<String> dataStream = env.readFile(newTextInputFormat(new Path(filePath)), filePath);

final SingleOutputStreamOperator<Stock> stockStream = dataStream.map((MapFunction<String, Stock>) value -> {
			final String[] split = value.split(",");
			return new Stock(split[0],Double.parseDouble(split[1]), split[2], Long.parseLong(split[3]));
});

final Table stockTable = tableEnv.fromDataStream(stockStream);

其实关键的就是最后这一行。将一个DataStream转换成了一个stockTable。接下来，就可以使用Table API来对stockTable进行类似关系型数据库的操作了。

final Table table = stockTable.groupBy($("id"), $("stockName"))
	.select($("id"), $("stockName"),
	$("price").avg().as("priceavg"))
	.where($("stockName").isEqual("UDFStock"));

整个操作过程跟操作一个关系型数据库非常类似。例如示例中的代码，应该一看就能明白。这里需要注意下，对于groupBy，select，where这些操作算子，老版本支持传入字符串，但是在1.12版本中已经标注为过时了。当前版本需要传入一个由$转换成的Expression对象。这个$不是一个特殊的符号，而是Flink中提供的一个静态API。

另外，Flink提供了SQL方式来简化上面的查询过程。

tableEnv.createTemporaryView("stock",stockTable);

String sql = "select id,stockName,avg(price) as priceavg from stock where stockName='UDFStock' group by id,stockName";
	
final Table sqlTable = tableEnv.sqlQuery(sql);

使用SQL需要先注册一个表，然后才能针对表进行SQL查询。注册时，createTemporaryView表示注册一个只与当前任务相关联的临时表。这些临时表在多个Flink会话和集群中都是可见的。

3.3 将Table重新转换为DataStream

通过SQL查询到对应的数据后，通常有两种处理方式：一种是将查询结果转换回DataStream，进行后续的操作。

//转换成流
final DataStream<Tuple2<Boolean, Tuple3<String, String, Double>>>
sqlTableDataStream = tableEnv.toRetractStream(sqlTable,
TypeInformation.of(new TypeHint<Tuple3<String, String, Double>>() {
}));

sqlTableDataStream.print("sql");

另一种是将查询结果插入到另一个表中，并通过另一张表对应Sink将结果输出到目标Sink中。

完整demo：

import org.apache.flink.core.fs.Path;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.DataTypes;
import org.apache.flink.table.api.EnvironmentSettings;
import org.apache.flink.table.api.Table;
import org.apache.flink.table.api.TableSchema;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;
import org.apache.flink.table.catalog.CatalogBaseTable;
import org.apache.flink.table.catalog.CatalogTableImpl;
import org.apache.flink.table.catalog.GenericInMemoryCatalog;
import org.apache.flink.table.catalog.ObjectPath;

import java.net.URL;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import static org.apache.flink.table.api.Expressions.$;

/**
 * @author roy
 * @date 2021/9/12
 * @desc
 */
public class FileTableDemo {
    public static void main(String[] args) throws Exception {
        //1、读取数据
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        final URL resource = FileRead.class.getResource("/stock.txt");
        final String filePath = resource.getFile();
        final DataStreamSource<String> dataStream = env.readFile(new TextInputFormat(new Path(filePath)), filePath);
        final SingleOutputStreamOperator<Stock> stockStream = dataStream
                .map((MapFunction<String, Stock>) value -> {
                    final String[] split = value.split(",");
                    return new Stock(split[0], Double.parseDouble(split[1]), split[2], Long.parseLong(split[3]));
                });

        //2、创建StreamTableEnvironment catalog -> database -> tablename
        final EnvironmentSettings environmentSettings = EnvironmentSettings.newInstance()
                .useBlinkPlanner()
                .withBuiltInCatalogName("default_catalog")
                .withBuiltInDatabaseName("default_database").build();
        final StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env, environmentSettings);

        //3、基于流创建表
        final Table stockTable = tableEnv.fromDataStream(stockStream);

        final Table table = stockTable.groupBy($("id"), $("stockName"))
                .select($("id"), $("stockName"), $("price").avg().as("priceavg"))
                .where($("stockName").isEqual("UDFStock"));
        //转换成流
        final DataStream<Tuple2<Boolean, Tuple3<String, String, Double>>> tableDataStream =
                tableEnv.toRetractStream(table, TypeInformation.of(new TypeHint<Tuple3<String, String, Double>>() {
                }));
        tableDataStream.print("table");

        env.execute("FileTableDemo");
    }
}

stock.txt内容：

stock_277,70.3760055422398,SYSStock,1631002964777
stock_578,22.141256900167285,UDFStock,1631002965778
stock_578,1.238164914104345,UDFStock,1631002966779
stock_578,92.19084433119833,UDFStock,1631002967779
stock_483,20.029404720792922,SYSStock,1631002968779
stock_578,15.347261600178431,SYSStock,1631002969780

4、扩展编程框架

4.1 临时表与永久表

在3.2章节注册动态表时，可以选择注册为临时表或者是永久表。临时表只能在当前任务中访问。任务相关的所有Flink的会话Session和集群Cluster都能够访问表中的数据。但是任务结束后，这个表就会删除。

而永久表则是在Flink集群的整个运行过程中都存在的表。所有任务都可以像访问数据库一样访问这些永久表，直到这个表被显示的删除。

表注册完成之后，可以将Table对象中的数据直接插入到表中。

//创建临时表
tableEnv.createTemporatyView("Order",orders)

//创建永久表
Table orders = tableEnv.from("Orders");
orders.executeInsert("OutOrders");

如下com.flink.table.FileTableDemo，演示了一个基于文件的永久表：

import com.roy.flink.beans.Stock;
import com.roy.flink.streaming.FileRead;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.common.typeinfo.TypeHint;
import org.apache.flink.api.common.typeinfo.TypeInformation;
import org.apache.flink.api.java.io.TextInputFormat;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.api.java.tuple.Tuple3;
import org.apache.flink.core.fs.Path;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.EnvironmentSettings;
import org.apache.flink.table.api.Table;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;

import java.net.URL;


public class PermanentFileTableDemo {
    public static void main(String[] args) throws Exception {
        //1、读取数据
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        final URL resource = FileRead.class.getResource("/stock.txt");
        final String filePath = resource.getFile();
//        final DataStreamSource stream = env.readTextFile(filePath);
        final DataStreamSource<String> dataStream = env.readFile(new TextInputFormat(new Path(filePath)), filePath);
        final SingleOutputStreamOperator<Stock> stockStream = dataStream
                .map((MapFunction<String, Stock>) value -> {
                    final String[] split = value.split(",");
                    return new Stock(split[0], Double.parseDouble(split[1]), split[2], Long.parseLong(split[3]));
                });
        //2、创建StreamTableEnvironment catalog -> database -> tablename
        final EnvironmentSettings environmentSettings = EnvironmentSettings.newInstance()
                .useBlinkPlanner()
                .withBuiltInCatalogName("default_catalog")
                .withBuiltInDatabaseName("default_database").build();
        final StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env, environmentSettings);

        String sql = "create table stock(" +
                "            id varchar," +
                "            price double," +
                "            stockName varchar," +
                "            `timestamp` bigint" +
                "          ) with (" +
                "            'connector.type' = 'filesystem'," +
                "            'format.type' = 'csv'," +
                "            'connector.path' = 'D://flinktable'" +
                "          )";
        tableEnv.executeSql(sql);
        //创建临时表。计算任务结束时，表就会回收。
//        tableEnv.createTemporaryView("stock",stockStream);
        //创建永久表。表在显示删除之前一直可以查询。
        final Table table = tableEnv.fromDataStream(stockStream);
        table.executeInsert("stock");

//        String sql = "select id,stockName,avg(price) as priceavg from stock where stockName='UDFStock' group by id,stockName";
        sql = "select id,stockName,avg(price) as priceavg from stock where stockName='UDFStock' group by id,stockName";
        final Table sqlTable = tableEnv.sqlQuery(sql);
        //转换成流
        final DataStream<Tuple2<Boolean, Tuple3<String, String, Double>>> sqlTableDataStream = tableEnv.toRetractStream(sqlTable, TypeInformation.of(new TypeHint<Tuple3<String, String, Double>>() {
        }));
        sqlTableDataStream.print("sql");

        env.execute("FileConnectorDemo");
    }
}

Flink的永久表需要一个catalog来维护表的元数据。一旦永久表被创建，任何连接到这个catalog的Flink会话都可见并且持续存在。直到这个表被明确删除。也就是说，永久表是在Flink的会话之间共享的。

而临时表则通常保存于内存中，并且只在创建他的Flink会话中存在。这些表对于其他会话是不可见的。他们也不需要与catalog绑定。临时表是不共享的。

在Table对象中也能对表做一些结构化管理的工作，例如对表中的列进行增加、修改、删除、重命名等操作，但是通常都不建议这样做。原因还是因为Flink针对的是流式数据计算，他的表保存的应该只是计算过程中的临时数据，频繁的表结构变动只是增加计算过程的复杂性。

最后，当一个会话里有两个重名的临时表和永久表时，将会只有临时表生效。如果临时表没有删除，那么永久表就无法访问。这个特性在做开发测试时是非常好用的。可以很容易的做Shadowing影子库测试。

4.2 AppendStream和RetractStream

在3.3章节将Table转换成为DataStream时，我们用的是tableEnv.toRetractStream方法。另外还有一个方法是tableEnv.toAppendStream方法。这两个方法都是将Table转换成为DataStream。但是在我们这个示例com.flink.table.FileTableDemo中如果使用toAppendStream方法，则会报错：

//代码
final DataStream<Tuple3<String, String, Double>> tuple3DataStream
= tableEnv.toAppendStream(sqlTable, TypeInformation.of(new
TypeHint<Tuple3<String, String, Double>>() {}));

//异常
Exception in thread "main" org.apache.flink.table.api.TableException:
toAppendStream doesn't support consuming update changes which is produced by
node GroupAggregate(groupBy=[id, stockName], select=[id, stockName,
AVG(price) AS priceavg])

异常信息很明显，groupby语句不支持toAppendStream。这是为什么呢？要理解这个异常，就要从这两种结果流模式说起。

我们现在的代码虽然看起来是在用SQL处理批量数据，但是本质上，数据依然是流式的，是一条一条不断进来的。这时，当处理增量数据时，将表的查询结果转换成DataStream时，就有两种不同的方式。

一种是将新来的数据作为新数据，不断的追加到Flink的表中。这种方式就是
toApppendStream。

另一种方式是用新来的数据覆盖Flink表中原始的数据。这种方式就是toRestractStream。在他的返回类型中可以看到，他会将boolean与原始结果类型拼装成一个Tuple2组合。前面的这个boolean结果就表示这条数据是覆盖还是插入。true表示插入，false表示覆盖。

很显然，经过groupby这种统计方式后，我们需要的处理结果是分组计算后的一个统计值。这个统计值只能覆盖，不能追加，所以才会有上面的错误。

4.3 内置函数与自定义函数

在SQL操作时，我们经常会调用一些函数，像count()、max()等等。 Flink也提供了非常丰富的内置函数。这些函数即可以在Table API中调用，也可以在SQL中直接调用。调用的方式跟平常在关系型数据库中调用方式差不多。

具体内置函数就不再一一梳理了，可以参见官方文档 https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/table/functions/systemFunctions.html

我们这里重点介绍下自定义函数，UDF。这些自定义函数显著扩展了查询的表达能力。使用自定义函数时需要注意以下两点：

1、大多数情况下，用户自定义的函数需要先注册，然后才能在查询中使用。 注册的方法有两种

//注册一个临时函数
tableEnv.createTemporaryFunction(String path, Class<? extends
UserDefinedFunction> functionClass);

//注册一个临时的系统函数
tableEnv.createTemporarySystemFunction(String name, Class<? extends
UserDefinedFunction> functionClass);

这两者的区别在于，用户函数只在当前Catalog和Database中生效。而系统函数能由独立于Catalog和Database的全局名称进行标识。所以使用系统函数可以继承Flink的一些内置函数，比如trim,max等

**2、自定义函数需要按照函数类型继承一个Flink中指定的函数基类。**Flink中有有以
下几种函数基类：

标量函数 org.apache.flink.table.functions.ScalarFunction。标量函数可以将0个或者多个标量值，映射成一个新的标量值。例如常见的获取当前时间、字符串转大写、加减法、多个字符串拼接，都是属于标量函数。例如下面定义一个hash方法

public static class HashCode extends ScalarFunction {
	private int factor = 13;
	public HashCode(int factor) {
		this.factor = factor;
	}
	
public int eval(String s) {
	return s.hashCode() * factor;
	}
}

完整示例代码：

import com.roy.flink.beans.Stock;
import com.roy.flink.streaming.FileRead;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.common.typeinfo.TypeHint;
import org.apache.flink.api.common.typeinfo.TypeInformation;
import org.apache.flink.api.java.io.TextInputFormat;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.api.java.tuple.Tuple3;
import org.apache.flink.core.fs.Path;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.EnvironmentSettings;
import org.apache.flink.table.api.Table;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;
import org.apache.flink.table.functions.ScalarFunction;

import java.net.URL;

public class ScalarUDFDemo {
    public static void main(String[] args) throws Exception {
        //1、读取数据
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        final URL resource = FileRead.class.getResource("/stock.txt");
        final String filePath = resource.getFile();
//        final DataStreamSource stream = env.readTextFile(filePath);
        final DataStreamSource<String> dataStream = env.readFile(new TextInputFormat(new Path(filePath)), filePath);
        final SingleOutputStreamOperator<Stock> stockStream = dataStream
                .map((MapFunction<String, Stock>) value -> {
                    final String[] split = value.split(",");
                    return new Stock(split[0], Double.parseDouble(split[1]), split[2], Long.parseLong(split[3]));
                });
        //2、创建StreamTableEnvironment catalog -> database -> tablename
        final EnvironmentSettings environmentSettings = EnvironmentSettings.newInstance()
                .useBlinkPlanner()
                .withBuiltInCatalogName("default_catalog")
                .withBuiltInDatabaseName("default_database").build();
        final StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env, environmentSettings);
//        final StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);

        //3、基于流创建表
        final Table stockTable = tableEnv.fromDataStream(stockStream);
        tableEnv.createTemporaryView("stock",stockTable);
        // 注册UDF函数
        tableEnv.createTemporaryFunction("myConcate",new MyConcate());
        String sql = "select id,stockName,myConcate(stockName,price) as stockinfo from stock where stockName='UDFStock'";
        final Table sqlTable = tableEnv.sqlQuery(sql);

        //转换成流
        final DataStream<Tuple2<Boolean, Tuple3<String, String, String>>> sqlTableDataStream =
                tableEnv.toRetractStream(sqlTable, TypeInformation.of(new TypeHint<Tuple3<String, String, String>>() {}));
        sqlTableDataStream.print("sql");

        env.execute("ScalarUDFDemo");
    }

    public static class MyConcate extends ScalarFunction{
        //必须实现一个public的eval函数，参数不能是Object，返回类型和参数类型不确定，根据实际情况定。
        // 这是目前版本完全没有道理的实现方式。
        public String eval(String a,Double b){
            return a.toString()+"_"+b.toString();
        }
    }
}

表函数 org.apache.flink.table.functions.TableFunction表函数同样以0个或者多个标量作为输入，但是他可以返回任意数量的行作为输出，而不是单个值。例如下面这个简单的字符串拆分函数

public class Split extends TableFunction<String> {
	private String separator = ",";
	public Split(String separator) {
		this.separator = separator;
	}
	
public void eval(String str) {
	for (String s : str.split(" ")) {
		collect(s); // use collect(...) to emit an output row
	}
	}
}

完整示例：

import com.roy.flink.beans.Stock;
import com.roy.flink.streaming.FileRead;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.common.typeinfo.TypeHint;
import org.apache.flink.api.common.typeinfo.TypeInformation;
import org.apache.flink.api.java.io.TextInputFormat;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.api.java.tuple.Tuple4;
import org.apache.flink.core.fs.Path;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.annotation.DataTypeHint;
import org.apache.flink.table.annotation.FunctionHint;
import org.apache.flink.table.api.EnvironmentSettings;
import org.apache.flink.table.api.Table;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;
import org.apache.flink.table.functions.TableFunction;
import org.apache.flink.types.Row;

import java.net.URL;

import static org.apache.flink.table.api.Expressions.$;
import static org.apache.flink.table.api.Expressions.call;


public class TableUDFDemo {
    public static void main(String[] args) throws Exception {
        //1、读取数据
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        final URL resource = FileRead.class.getResource("/stock.txt");
        final String filePath = resource.getFile();
//        final DataStreamSource stream = env.readTextFile(filePath);
        final DataStreamSource<String> dataStream = env.readFile(new TextInputFormat(new Path(filePath)), filePath);
        final SingleOutputStreamOperator<Stock> stockStream = dataStream
                .map((MapFunction<String, Stock>) value -> {
                    final String[] split = value.split(",");
                    return new Stock(split[0], Double.parseDouble(split[1]), split[2], Long.parseLong(split[3]));
                });
        //2、创建StreamTableEnvironment catalog -> database -> tablename
        final EnvironmentSettings environmentSettings = EnvironmentSettings.newInstance()
                .useBlinkPlanner()
                .withBuiltInCatalogName("default_catalog")
                .withBuiltInDatabaseName("default_database").build();
        final StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env, environmentSettings);
//        final StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);

        //3、基于流创建表
        final Table stockTable = tableEnv.fromDataStream(stockStream);
        tableEnv.createTemporaryView("stock",stockTable);

        //注册TableFunction
        tableEnv.createTemporaryFunction("splitId",new SplitFunction());
        //table方式调用
        final Table tableRes
                = tableEnv.from("stock")
                .joinLateral(call(SplitFunction.class, $("id")))
                .select($("id"), $("word"), $("length"), $("price"));
        tableEnv.toAppendStream(tableRes,TypeInformation.of(new TypeHint<Tuple4<String, String, Integer , Double>>(){})).print("tableres");

            //sql中调用
//        String sql = "select id,word,length from stock LEFT JOIN LATERAL TABLE(splitId(id))";
        String sql = "select id,word,length,price from stock ,LATERAL TABLE(splitId(id))";
        final Table sqlTable = tableEnv.sqlQuery(sql);
        //转换成流
        final DataStream<Tuple2<Boolean, Tuple4<String, String, Integer,Double>>> sqlTableDataStream =
                tableEnv.toRetractStream(sqlTable, TypeInformation.of(new TypeHint<Tuple4<String, String, Integer, Double>>() {}));
        sqlTableDataStream.print("sql");



        env.execute("TableUDFDemo");
    }

    @FunctionHint(output = @DataTypeHint("ROW"))
    public static class SplitFunction extends TableFunction<Row> {

        public void eval(String str){
            for (String s : str.split("_")) {
                // use collect(...) to emit a row
                collect(Row.of(s, s.length()));
            }
        }
    }

    /*
    将一条stock_578,22.141256900167285,UDFStock,1631002965778数据拆分成两条数据
    stock_578,stock,5,22.141256900167285,UDFStock,1631002965778
    stock_578,578,3,22.141256900167285,UDFStock,1631002965778
     */
}

聚合函数 org.apache.flink.table.functions.AggregateFunction聚合函数可以把一个表中一列的数据，聚合成一个标量值。例如常用的max、min、count这些都是聚合函数。定义聚合函数时，首先需要定义个累加器Accumulator，用来保存聚合中间结果的数据结构，可以通过
createAccumulator()方法构建空累加器。然后通过accumulate()方法来对每一个输入行进行累加值更新。最后调用getValue()方法来计算并返回最终结果。例如下面是一个计算字符串出现次数的count方法。

public static class CountFunction extends AggregateFunction<String,
CountFunction.MyAccumulator> {
	public static class MyAccumulator {
		public long count = 0L;
	}
	
	public MyAccumulator createAccumulator() {
	return new MyAccumulator();
	}
	
	public void accumulate(MyAccumulator accumulator, Integer i) {
		if (i != null) {
			accumulator.count += i;
		}
	}
	
	public String getValue(MyAccumulator accumulator) {
		return "Result: " + accumulator.count;
	}
}

常用的自定义函数这些，Flink中也还提供了其他一些函数基类，有兴趣可以再深入了解。另外，这些函数基类都是实现了UserDefinedFunction这个接口，也就是说，应用程序完全可以基于UserDefinedFunction接口进行更深入的函数定制。这里就不再多做介绍了。

另外也可以通过aggregate()函数进行一些聚合操作，例如sum 、max等等。这样将获得一个AggregatedTable。例如

tab.aggregate(call(MyAggregateFunction.class, $("a"), $("b")).as("f0", "f1",
"f2")).select($("f0"), $("f1"));

4.4 基于Connector进行数据流转

由于Flink中的流数据，大部分情况下，都是映射的一个外部的数据源，所以，通常创建表时，也需要通过connector映射外部的数据源。关于Connector，之前已经介绍过。基于Connector来注册表的通用方式是这样：

tableEnv
.connect(...) // 定义表的数据来源，和外部系统建立连接
.withFormat(...) // 定义数据格式化方法
.withSchema(...) // 定义表结构
.createTemporaryTable("MyTable"); // 创建临时表

例如，针对文本数据

tableEnv
.connect(
new FileSystem().path(“YOUR_Path/sensor.txt”)
) // 定义到文件系统的连接
.withFormat(new Csv()) // 定义以csv格式进行数据格式化
.withSchema( new Schema()
.field("id", DataTypes.STRING())
.field("timestamp", DataTypes.BIGINT())
.field("temperature", DataTypes.DOUBLE())
) // 定义表结构
.createTemporaryTable("sensorTable"); // 创建临时表

针对kafka数据

tableEnv.connect(
new Kafka()
.version("0.11")
.topic("sinkTest")
.property("zookeeper.connect", "localhost:2181")
.property("bootstrap.servers", "localhost:9092")
)
.withFormat( new Csv() )
.withSchema( new Schema()
.field("id", DataTypes.STRING())
.field("temp", DataTypes.DOUBLE())
)
.createTemporaryTable("kafkaOutputTable");

针对ES数据：需要引入相应的connector依赖

tableEnv.connect(
	new Elasticsearch()
	.version("6")
	.host("localhost", 9200, "http")
	.index("stock")
	.documentType("temp")
	)
.inUpsertMode()
.withFormat(new Json())
.withSchema( new Schema()
	.field("id", DataTypes.STRING())
	.field("count", DataTypes.BIGINT())
	)
.createTemporaryTable("esOutputTable");
aggResultTable.insertInto("esOutputTable");

或者针对MySQL，可以直接用SQL语句来管理

String sinkDDL=
"create table jdbcOutputTable (" +
" id varchar(20) not null, " +
" cnt bigint not null " +
") with (" +
" 'connector.type' = 'jdbc', " +
" 'connector.url' = 'jdbc:mysql://localhost:3306/test', " +
" 'connector.table' = 'sensor_count', " +
" 'connector.driver' = 'com.mysql.jdbc.Driver', " +
" 'connector.username' = 'root', " +
" 'connector.password' = '123456' )";
tableEnv.executeSql(sinkDDL) // 执行 DDL创建表
//操作表。
aggResultSqlTable.executeInsert("jdbcOutputTable");

另外，也可以直接将DataStream转换成表

DataStream<Tuple2<String, Long>> stream = ...
//直接创建一个与stream结构相同的表。
Table table = fsTableEnv.from("stream");
//或者进行一些列名转换
Table table = tableEnv.fromDataStream(
	stream,
	$("f1"), // 使用原有的列名 (f1是tuple中的第二列)
	$("rowtime").rowtime(), // 增加一个rowtime列，列的值是当前事件的EventTime
	$("f0").as("name") // 转换一个列名 (f0是tuple中的第一列)
);

将结果输出到另一张动态表的操作也在上面的文档中有介绍。可以直接使用insertinto方法。例如

Table orders = tableEnv.from("Orders");
orders.executeInsert("OutOrders");
//老版本的insertInto方法已经过期，不建议使用。

4.5 Flink Table API&SQL的时间语义

Flink对于时间语义的定义和处理是非常惊艳的，整个时间语义机制对于乱序数据流的处理非常有力。但是在Table API和SQL这一部分，时间语义似乎没有什么太大的作用。通常并不会对一个表进行开窗处理。所以在Flink的Table API&SQL这一部分，对于时间语义的处理思想就比较简单。就是将时间语义作为Table中的一个字段引入进来，由应用程序去决定要怎么使用时间。关于这一部分的时间语义，就不再去做过多深入的分析，只关注最常用的情况，使用EventTime事件时间机制，将Watermark添加到Table中。

在DataStream转换成为Table时，可以用.rowtime后缀在定义Schema时定义。这种方式一定需要在DataStream上已经定义好时间戳和watermark。使用.rowtime修饰的，可以是一个已有的字段，也可以是一个不存在的字段。如果不存在，会在schema的结尾追加一个新的字段。然后就可以像使用一个普通的Timestamp类型的字段一样使用这个字段。不管在哪种情况下，事件时间字段的值都是DataStream中定义的事件时间。

// Option 1：
// 基于 stream 中的事件产生时间戳和watermark
DataStream<Tuple2<String, String>> stream =
inputStream.assignTimestampsAndWatermarks(...);

// 声明一个额外的逻辑字段作为事件时间属性
Table table = tEnv.fromDataStream(stream, $("user_name"), $("data"),
$("user_action_time").rowtime());

// Option 2:
// 从第一个字段获取事件时间，并且产生watermark
DataStream<Tuple3<Long, String, String>> stream =
inputStream.assignTimestampsAndWatermarks(...);

// 第一个字段已经用作事件时间抽取了，不用再用一个新的字段表示事件时间了
Table table = tEnv.fromDataStream(stream, $("user_action_time").rowtime(),
$("user_name"), $("data"));

完整demo：

import com.roy.flink.beans.Stock;
import com.roy.flink.window.WindowAssignerDemo;
import javafx.scene.control.Tab;
import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.common.typeinfo.TypeHint;
import org.apache.flink.api.common.typeinfo.TypeInformation;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.api.java.tuple.Tuple3;
import org.apache.flink.api.java.tuple.Tuple4;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.EnvironmentSettings;
import org.apache.flink.table.api.Table;
import org.apache.flink.table.api.TableEnvironment;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;

import java.sql.Timestamp;
import java.time.Duration;

import static org.apache.flink.table.api.Expressions.$;

/**

 * @desc 在DataStream转为Table时定义事件时间。
 */
public class TableWatermarkDemo2 {
    public static void main(String[] args) throws Exception {
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        final EnvironmentSettings environmentSettings = EnvironmentSettings.newInstance()
                .useBlinkPlanner()
                .withBuiltInCatalogName("default_catalog")
                .withBuiltInDatabaseName("default_database").build();
        final StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env, environmentSettings);
        //如果从文件读取，数据一次就处理完了。
        String filePath = WindowAssignerDemo.class.getResource("/stock.txt").getFile();
        final DataStreamSource<String> dataStream = env.readTextFile(filePath, "UTF-8");
        final SingleOutputStreamOperator<Stock> stockStream = dataStream.map(new MapFunction<String, Stock>() {
            @Override
            public Stock map(String value) throws Exception {
                final String[] split = value.split(",");
                return new Stock(split[0], Double.parseDouble(split[1]), split[2], Long.parseLong(split[3]));
            }
        });
        //KEY1：定义一个WatermarkStrategy。Watermark延迟2秒
        WatermarkStrategy<Stock> watermarkStrategy= WatermarkStrategy.<Stock>forBoundedOutOfOrderness(Duration.ofMillis(2))
                .withTimestampAssigner(((element, recordTimestamp) -> element.getTimestamp()));
        final SingleOutputStreamOperator<Stock> etStream = stockStream.assignTimestampsAndWatermarks(watermarkStrategy);
        //将事件时间定义成一个新的字段 eventtime
        final Table table = tableEnv.fromDataStream(etStream, $("id"), $("price"),$("stockName"), $("eventtime").rowtime());
//        final Table selectedTable = table.groupBy($("stockName"))
//                .select($("stockName"), $("price").max().as("maxPrice"));
//
//        tableEnv.toRetractStream(selectedTable, TypeInformation.of(new TypeHint>(){}))
//                .print("selectedTable");
        //查找eventtime字段。
        final Table selectedTable = table
                .select($("id"), $("price"),$("eventtime"));
//
//        tableEnv.toRetractStream(selectedTable, TypeInformation.of(new TypeHint>(){}))
//                .print("selectedTable");
        tableEnv.toAppendStream(selectedTable,TypeInformation.of(new TypeHint<Tuple3<String, Double, Timestamp>>(){}))
                .print("selectedTable");


        env.execute("TableWatermarkDemo2");
    }
}

4.6 查看SQL执行计划

最后补充一个查看SQL执行计划的API

final String explaination = tableEnv.explainSql(sql);
System.out.println(explaination);

在explainSql方法中，还可以传入一组可选的ExplainDetail参数，以展示更多的执行计划的细节。这是一个枚举值

/** ExplainDetail defines the types of details for explain result. */
@PublicEvolving
public enum ExplainDetail {
/**
* The cost information on physical rel node estimated by optimizer.
e.g. TableSourceScan(...,
* cumulative cost = {1.0E8 rows, 1.0E8 cpu, 2.4E9 io, 0.0 network, 0.0
memory}
*/
ESTIMATED_COST,
/**
* The changelog mode produced by a physical rel node. e.g.
GroupAggregate(...,
* changelogMode=[I,UA,D])
*/
CHANGELOG_MODE

总结：

Flink的Table API&SQL这一部分是提供了一组高级的抽象API，最常用的场景还是用在简化对流式数据的检索过程。但是，在示例用的1.12版本以及最新的1.13版本中，这一组抽象API还都处在活跃开发期，很多高级特性以及API都会经常发生变动。很多在1.11版本还非常实用的API，到当前1.12版本就被移除或者标记为过时，不建议使用。所以在学习这一章节时，即要理解这一组API的实现思路，也要学会如何查看API。至少要学会如何去尝试客户端API的使用方式。而他的功能，都可以DataStream/DataSet API来实现，并且在大部分的场景下，这种功能转换并不会太难。因此，在生产环境中，还不建议进行深度的使用。

你可能感兴趣的:(Flink,实战,flink,sql,tableAPI,SQL,实战)

Spark从入门到熟悉（篇三）小新学习屋数据分析 spark 大数据分布式
本文介绍Spark的DataFrame、SparkSQL，并进行SparkSQL实战，加强对编程的理解，实现快速入手知识脉络包含如下7部分内容：RDD和DataFrame、SparkSQL的对比创建DataFrameDataFrame保存成文件DataFrame的API交互DataFrame的SQL交互SparkSQL实战参考资料RDD和DataFrame、SparkSQL的对比RDD对比Data
【Python GUI框架全解析】六大主流工具对比与实战指南满怀1015 python 开发语言 GUI开发 PyQt wxPython Kivy
目录前言️技术背景与价值当前技术痛点️解决方案概述目标读者说明一、技术原理剖析核心框架对比图框架定位分析关键技术指标️二、实战演示⚙️环境配置核心代码实现案例1：PyQt5现代化窗口案例2：wxPython文件管理器案例3：Kivy移动风格界面案例4：DearPyGui实时仪表盘✅运行结果验证⚡三、性能对比测试方法论量化数据对比结果分析四、最佳实践✅框架选型建议❌常见误区️调试技巧五、应用场景扩展
【Docker项目实战】使用Docker部署Caddy+vaultwarden密码管理工具(详细教程）江湖有缘 Docker部署项目实战合集 docker 容器运维
【Docker项目实战】使用Docker部署vaultwarden密码管理工具前言一、vaultwarden介绍1.1vaultwarden简介1.2主要特点二、本次实践规划2.1本地环境规划2.2本次实践介绍三、本地环境检查3.1检查Docker服务状态3.2检查Docker版本3.3检查dockercompose版本四、拉取镜像五、部署vaultwarden服务5.1创建部署目录5.2编辑部署
Swift concurrency 10 — AsyncStream 和 AsyncThrowingStream：用异步流优雅处理事件技术拾光 Swift Concurrency swift ios AsyncStream
SwiftConcurrency带来了现代化的异步编程体验。在处理异步事件流时，AsyncStream和AsyncThrowingStream提供了优雅的方式来消费和控制异步值序列。本文将全面讲解这两个API的用途、用法、底层机制和实战场景。什么是AsyncStream与AsyncThrowingStream？类型描述AsyncStream产生异步值序列，不支持抛出错误AsyncThrowingS
DAY 45 Tensorboard使用介绍 HINOTOR_ Python训练营 python 开发语言
目录DAY45Tensorboard使用介绍1.tensorboard的发展历史和原理2.tensorboard的常见操作3.tensorboard在cifar上的实战：MLP和CNN模型作业：对resnet18在cifar10上采用微调策略下，用tensorboard监控训练过程。DAY45Tensorboard使用介绍1.tensorboard的发展历史和原理2.tensorboard的常见操
Python 爬虫实战：12306 订单记录爬取（登录态保持 + 订单数据可视化）西攻城狮北 python 爬虫信息可视化
引言在大数据驱动的今天，12306作为国内最重要的铁路出行平台，积累了海量的出行数据。对于广大用户而言，能够方便地查看和分析自己的出行订单记录，不仅有助于行程管理，还能为未来的出行规划提供有力参考。本文将详细讲解如何利用Python爬虫技术实现12306的模拟登录，爬取个人订单记录，并通过数据可视化技术直观展示出行情况。一、环境搭建与准备工作（一）Python环境配置确保本地已安装Python3.
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
关于Makefile LZA185 linux 编辑器
目录引言：为什么需要Makefile？一、Makefile基本概念1.1Make与Makefile的关系1.2三个关键概念二、Makefile基础语法2.1基本规则结构2.2变量定义与使用2.3常用特殊变量三、Makefile高级特性3.1模式规则（PatternRules）3.2函数的使用3.3条件判断与递归调用四、实战案例：构建一个简单项目完整Makefile实现五、Makefile最佳实践5
千亿参数大模型轻量化实战：手机端LLM推理加速300%方案
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《千亿参数大模型轻量化实战：手机端LLM推理加速300%方案》副标题：2025实测骁龙8Gen4+FP4稀疏量化技术，70B模型推理延迟低至127ms，重构移动端AI天花板封面图：[高通骁龙8Gen4芯片显微照片与Llama3-70B手机端运行界面对比图，右上角标注「实测延迟：127ms/tok
提名 Apache ShardingSphere Committer，说说方法
优质资源分享学习路线指引（点击解锁）知识定位人群定位Python实战微信订餐小程序进阶级本课程是pythonflask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。Python量化交易实战入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统文章首发在公众号（龙台的技术笔记），之后同步到博客园和个人网站：xiaomage.info就在前几天，收到了ApacheS
【SpringBoot初级篇】JdbcTemplate常用方法李少谦 spring boot 数据库 sql
【SpringBoot初级篇】JdbcTemplate常用方法JdbcTemplate查询JdbcTemplate插入、更新、删除插入单条数据批量插入更新单条数据批量更新删除单条数据批量操作execute执行任意的SQLNamedParameterJdbcTemplate函数场景说明update(Stringsql,@NullableObject…args)增，删，改queryForObject(
MyBatis SQL 执行过程原理分析（附源码）代理层：Mapper 接口动态代理路由层：MapperMethod 分发核心引擎：SqlSession 执行夜雨hiyeyu.com mybatis sql 数据库数据库架构 java spring boot db
MyBatisSQL执行过程原理分析（附源码）1.代理层：Mapper接口动态代理2.路由层：MapperMethod分发3.核心引擎：SqlSession执行4.执行器：Executor调度5.处理器层：StatementHandler执行6.结果映射：ResultSetHandler转换核心执行流程图关键设计亮点性能优化建议MyBatis的SQL执行过程可以分为6个核心阶段，我们将通过源码逐层
【Python基础】07 实战：批量视频压缩的实现智算菩萨 python 服务器开发语言
前言在数字化时代，视频内容已成为信息传播的主要载体。无论是个人用户还是企业，都面临着大量视频文件存储和传输的挑战。视频文件通常体积庞大，占用大量存储空间，同时在网络传输时也会消耗大量带宽。因此，一个高效、易用的视频压缩工具变得尤为重要。本文将详细介绍一个基于Python开发的批量视频压缩工具，该工具结合了现代图形界面设计和强大的FFmpeg视频处理能力，为用户提供了一站式的视频压缩解决方案。通过本
【实时Linux实战系列】实时Linux项目的部署与维护
在实时Linux项目的开发过程中，开发阶段的工作仅仅是开始，生产环境中的部署与维护同样至关重要。实时Linux系统广泛应用于工业自动化、航空航天、智能交通等对实时性和稳定性要求极高的领域。例如，在工业自动化中，实时系统的部署可能涉及复杂的硬件配置和多节点的协同工作；在智能交通系统中，系统的长期稳定运行需要定期维护和及时更新。掌握实时Linux项目的部署与维护技能，对于开发者而言，不仅能够确保系统顺
【Django开发】前后端分离django美多商城项目第3篇：用户注册业务实现,用户注册前端逻辑【附代码文档】
教程总体简介：欢迎来到美多商城！项目需求分析1.项目主要页面介绍2.归纳项目主要模块3.知识要点项目架构设计1.项目开发模式2.项目运行机制项目介绍创建工程1.准备项目代码仓库3.创建美多商城工程配置开发环境1.新建配置文件2.指定开发环境配置文件配置Jinja2模板引擎1.安装Jinja2扩展包配置MySQL数据库3.安装PyMySQL扩展包配置Redis数据库1.安装django-redis扩
Redis 集群与分布式实现：从原理到实战一切皆有迹可循 redis redis 分布式数据库后端缓存
前言在大数据与高并发场景下，单节点Redis的容量与可用性已无法满足需求。Redis通过集群与分布式技术，实现了数据的分片存储与高可用部署，成为分布式系统的核心组件。本文将深入解析Redis集群的底层原理、架构模式与实战经验，结合代码示例与最佳实践，帮助开发者构建高性能、高可用的分布式缓存系统。一、集群基础架构与核心原理1.数据分片机制Redis集群采用哈希槽（HashSlot）实现数据分片，共有
SQL SELECT INTO语句 Lu鹿夫人 sql 数据库 sqlserver
SQLSELECTINTO语句通过SQL，您可以从一个表复制信息到另一个表。SELECTINTO语句从一个表复制数据，然后把数据插入到另一个新表中。SQLSELECTINTO语句注意：MYSQL数据库不支持SELECT…INTO语句，但支持INSERTINTO…SELECT。可以使用以下语句来拷贝表结构及数据：CREATETABLE新表ASSELECT*FROM旧表SQLSELECTINTO语法1
嵌入模型 vs 大语言模型：语义理解能力的本质区别与应用场景 chenkangck50 AI大模型语言模型人工智能机器学习
嵌入模型vs大语言模型：语义理解能力的本质区别与应用场景（实战视角）一句话总结嵌入模型的“理解”是向量表示和相似性匹配，适合做召回；大语言模型的“理解”是上下文+逻辑+世界知识综合判断，适合做分析与生成。重点是可以结合prompt和本身具有的知识两类模型的本质区别能力项嵌入模型（如BGE、SBERT）大语言模型（如GPT、GLM、DeepSeek）输出形式向量（如768维）自然语言文本（如答案、解
ECS抽象层与模块封装：构建可维护的高性能架构 NocturnalSky Unity unity
文章目录ECS抽象层与模块封装：构建可维护的高性能架构模块化设计的必要性分层抽象架构接口设计准则模块注册机制依赖管理策略性能优化技巧实战应用示例模块热重载实现性能影响分析设计权衡建议ECS抽象层与模块封装：构建可维护的高性能架构模块化设计的必要性问题诊断：大型ECS项目易陷入"系统膨胀"——数百个无关联系统导致代码混乱封装目标：将相关系统/组件组合为功能模块（如AI、物理、库存）核心原则：模块间通
小红书笔记详情API接口实战：内容数据获取与分析的利器
在数字化时代，数据成为了一种无形的财富，其背后的价值越来越被重视。小红书，作为国内知名的社区分享平台，聚集了大量优质的内容和用户数据。对于企业、个人或者研究机构而言，获取并分析小红书上的笔记详情数据，不仅可以了解用户的行为和兴趣，还可以为决策提供有力的数据支持。本文将介绍如何通过小红书的API接口获取笔记详情数据，并对其进行深入分析，同时附上实战代码，帮助读者更好地理解和应用。二、小红书API接口
SQL SELECT语句的基本用法 Mnioc 学习 SQL
SQLSELECT语句的基本用法表S有三个字段:学生学号Sno，课程号Cno，成绩score。求每个学生的总分。这是一个很简单的问题，这篇博客就是源于这个问题，博主是一个大三即将入坑的菜鸟，进入公司实习的第一天，就被几个SQL查询问题难倒了。通过这篇文章复习一下数据库基本的SELECT语句，仅供参考，如有错误或不当之处还望大神们告知。这里使用的是SQLFiddle，一款在线的SQL语句练习网站链接
服务器性能调优实战：如何在高负载下维持系统稳定性？ Clownseven 服务器运维
更多云服务器知识，尽在hostol.com当服务器遭遇高负载时，它就像一个拼命运转的发动机，任何小小的波动都可能导致系统崩溃。你也许会看到CPU突然飙升、内存紧张、响应延迟增加，甚至进程挂掉。而这一切往往发生得悄无声息，直到你收到用户的投诉：网站慢了，应用崩了。你是不是觉得，这一切似乎都来得太突然，难以控制？好消息是，你不是无力的。通过一系列有效的调优措施，你可以确保服务器即使在高负载环境下，也能
C#测试实战：从集成到端到端——代码级深度解析与工程化实践墨夶 C#学习资料 c#开发语言
——零侵入框架设计、自动化工具链与真实场景模拟为什么需要“测试金字塔”？在微服务架构下，C#应用的复杂性呈指数级增长。集成测试（IntegrationTesting）和端到端测试（E2ETesting）是保障系统稳定性的两大核心防线：集成测试：验证模块间协作，定位接口与依赖问题端到端测试：模拟真实用户场景，确保全链路流程无误本文通过代码实战，从依赖注入模拟到浏览器自动化，构建一个企业级测试框架，并
.NET 8/9异步编程黄金法则：零缺陷与性能飞跃实战
——从“未等待任务”到线程池优化的深度避坑指南异步编程的“暗礁”与.NET8/9的破局之道在.NET应用中，异步编程是提升响应性和资源利用率的核心技术，但不当使用可能导致线程死锁、内存泄漏、未捕获异常等致命问题。.NET8/9通过托管线程池优化、服务器GC改进和编译器增强，为开发者提供了更安全高效的异步编程环境。本文将通过10个真实场景、20段代码示例和深度性能分析，手把手教你规避异步开发的常见陷
突破反爬防线：Python3反爬虫原理与绕过策略深度解析程序员威哥爬虫网络 scrapy python 开发语言
在信息化时代，数据已成为互联网的重要资产。为了保护数据的安全和防止恶意抓取，越来越多的网站开始采用反爬虫技术。然而，随着反爬虫技术的不断演化，爬虫开发者面临的挑战也在日益增大。如何理解反爬虫原理并有效绕过这些防护措施，是每个爬虫开发者必须掌握的技能。本文将全面解析Python3在爬虫开发中的应用，深入探讨常见的反爬虫原理，并提供绕过反爬策略的实战经验。通过结合实际案例，帮助开发者掌握应对复杂反爬措
从0到1构建智能招聘数据引擎：基于 Python 的 BOSS直聘信息采集实战与反爬破解指南程序员威哥 python 开发语言
前言在大数据浪潮席卷的时代，招聘平台蕴藏着海量的岗位信息，揭示着行业走向、人才趋势、薪资结构等核心价值。BOSS直聘作为国内极具代表性的直招平台，其数据对职业分析、市场监测甚至智能推荐系统的构建都有着重要意义。本文将手把手带你打造一个高质量、抗封锁的Python爬虫系统，精准采集BOSS直聘网的岗位数据，并全面解析其中涉及的反爬机制识别、加密参数处理、数据提取与存储等高级技巧，助你在Web数据采集
揭秘影评数据的金矿：基于 Python 的豆瓣电影排行榜热度挖掘与数据智能分析实战程序员威哥 python 开发语言
前言：从数据出发，看见银幕之外的流行密码在内容为王的时代，影视作品既是大众娱乐的主阵地，也是数据分析的重要入口。豆瓣作为中国最具影响力的影视评分平台之一，凝聚了数千万用户对电影、剧集的真实反馈。本文将带你一步步深入，从爬取豆瓣电影排行榜数据出发，结合Python技术栈，构建一个完整的热门电影数据采集+分析+可视化系统。我们不仅要采数据，更要从中挖掘背后的价值：哪些类型影片最受欢迎？评分是否与评论数
【Java实战】高并发场景下账户金额操作的解决方案 .猫的树【Java实战】系列 Java并发编程分布式锁高并发解决方案原子操作数据库事务
文章目录前言：金融系统中的并发危机一、并发问题现场还原1.1问题代码示例1.2并发测试暴露问题1.3问题根源分析二、五大解决方案深度剖析2.1synchronized同步锁2.2ReentrantLock显式锁2.3CAS无锁编程（Atomic原子类）2.4数据库乐观锁2.5分布式锁（Redis实现）三、方案选型指南四、防踩坑指南总结前言：金融系统中的并发危机在支付系统、电商平台等金融场景中，账户
物联网实战：多语言（Java、Go、Rust、C++、C#、Rust）设备接入与数据处理 KENYCHEN奉孝 Rust C++go spring java vue.js rust c++
SpringBoot物联网设备接入与数据处理实例物联网（IoT）设备接入与数据处理是SpringBoot的常见应用场景之一。以下是一个完整的实例，涵盖设备接入、数据传输、数据处理和存储等关键环节。设备接入物联网设备通常通过MQTT、HTTP或WebSocket等协议接入系统。MQTT是物联网领域最常用的轻量级协议。//MQTT配置类@ConfigurationpublicclassMqttConf
分布式 ID 生成方案对比：Snowflake、UUID、KSUID 该怎么选？田猿笔记知识集合 nodeJs 高级应用分布式 node.js
分布式ID生成方案对比：Snowflake、UUID、KSUID该怎么选？在分布式系统中，如何生成全局唯一ID是一个常见问题。不同的ID生成方案各有优缺点，本文将对比Snowflake、Sonyflake、UUIDv1/v4、XID、KSUID以及自定义ID，并给出Node.js实现示例，帮助你选择最适合的方案。1.为什么需要分布式ID？在单机系统中，可以使用数据库自增ID（如MySQL的AUTO
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end