BigDataToAI

Flink Table/SQL自定义Sources和Sinks全解析（附代码）

动态表是Flink Table和SQL API处理有界和无界数据的核心概念。

在Flink中，动态表只是逻辑概念，其本身并不存储数据，而是将表的具体数据存储在外部系统（比如说数据库、键值对存储系统、消息队列）或者文件中。

动态源和动态写可以从外部系统读写数据。在下面的描述中，动态源和动态写可以归结为connector。接下来我们来看看如何自定义connector。

代码地址：https://git.lrting.top/xiaozhch5/flink-table-sql-connectors.git

总览

在许多情况下，实现者不需要从头开始创建新的连接器，而是希望稍微修改现有的连接器或挂钩到现有的堆栈。而在其他情况下，实施者也会希望创建专门的连接器。

本节对这两种用例都有帮助。它解释了从 API 中的纯声明到将在集群上执行的运行时代码的表连接器的一般架构。

实心箭头显示了在转换过程中对象如何从一个阶段到下一个阶段转换为其他对象。

Metadata

Table API 和 SQL 都是声明式 API。这包括表的声明。因此，执行 CREATE TABLE 语句会导致目标目录中的元数据更新。

对于大多数catalog实现，外部系统中的物理数据不会针对此类操作进行修改。特定于连接器的依赖项不必存在于类路径中。 WITH 子句中声明的选项既不被验证也不被解释。

动态表的元数据（通过 DDL 创建或由catalog提供）表示为 CatalogTable 的实例。必要时，表名将在内部解析为 CatalogTable。

Planning

在规划和优化表程序时，需要将 CatalogTable 解析为 DynamicTableSource（用于在 SELECT 查询中读取）和 DynamicTableSink（用于在 INSERT INTO 语句中写入）。

DynamicTableSourceFactory 和 DynamicTableSinkFactory 提供特定于连接器的逻辑，用于将 CatalogTable 的元数据转换为 DynamicTableSource 和 DynamicTableSink 的实例。在大多数情况下，工厂的目的是验证选项（例如示例中的“端口”=“5022”），配置编码/解码格式（如果需要），并创建表连接器的参数化实例。

默认情况下，DynamicTableSourceFactory 和 DynamicTableSinkFactory 的实例是使用 Java 的服务提供者接口 (SPI) 发现的。连接器选项（例如示例中的 ‘connector’ = ‘custom’）必须对应于有效的工厂标识符。

尽管在类命名中可能不明显，但 DynamicTableSource 和 DynamicTableSink 也可以被视为有状态的工厂，它们最终会产生具体的运行时实现来读取/写入实际数据。

规划器使用源和接收器实例来执行特定于连接器的双向通信，直到找到最佳逻辑规划。根据可选声明的能力接口（例如 SupportsProjectionPushDown 或 SupportsOverwrite），规划器可能会将更改应用于实例，从而改变生成的运行时实现。

Runtime

一旦逻辑规划完成，规划器将从表连接器获取运行时实现。 Runtime 逻辑在 Flink 的核心连接器接口中实现，例如 InputFormat 或 SourceFunction。

这些接口按另一个抽象级别分组为 ScanRuntimeProvider、LookupRuntimeProvider 和 SinkRuntimeProvider 的子类。

例如，OutputFormatProvider（提供 org.apache.flink.api.common.io.OutputFormat）和 SinkFunctionProvider（提供 org.apache.flink.streaming.api.functions.sink.SinkFunction）都是 SinkRuntimeProvider 的具体实例，规划器可以处理。

完全自定义connectors

本节我们从头定义一个socket connector。

Runtime定义数据源

SocketSourceFunction 打开一个套接字并消耗字节。它通过给定的字节分隔符（默认为 \n）拆分记录，并将解码委托给可插入的 DeserializationSchema。源函数只能在并行度为 1 的情况下工作。

package com.zh.ch.bigdata.flink.connectors.socket;

import org.apache.flink.api.common.serialization.DeserializationSchema;
import org.apache.flink.api.common.typeinfo.TypeInformation;
import org.apache.flink.api.java.typeutils.ResultTypeQueryable;
import org.apache.flink.streaming.api.functions.source.RichSourceFunction;
import org.apache.flink.table.data.RowData;

import java.io.ByteArrayOutputStream;
import java.io.InputStream;
import java.net.InetSocketAddress;
import java.net.Socket;

public class SocketSourceFunction extends RichSourceFunction<RowData> implements ResultTypeQueryable<RowData> {

    private final String hostname;
    private final int port;
    private final byte byteDelimiter;
    private final DeserializationSchema<RowData> deserializer;

    private volatile boolean isRunning = true;
    private Socket currentSocket;


    public SocketSourceFunction(String hostname, int port, byte byteDelimiter, DeserializationSchema<RowData> deserializer) {
        this.hostname = hostname;
        this.port = port;
        this.byteDelimiter = byteDelimiter;
        this.deserializer = deserializer;
    }

    @Override
    public TypeInformation<RowData> getProducedType() {
        return deserializer.getProducedType();
    }

    @Override
    public void run(SourceContext<RowData> sourceContext) throws Exception {
        while (isRunning) {
            // open and consume from socket
            try (final Socket socket = new Socket()) {
                currentSocket = socket;
                socket.connect(new InetSocketAddress(hostname, port), 0);
                try (InputStream stream = socket.getInputStream()) {
                    ByteArrayOutputStream buffer = new ByteArrayOutputStream();
                    int b;
                    while ((b = stream.read()) >= 0) {
                        // buffer until delimiter
                        if (b != byteDelimiter) {
                            buffer.write(b);
                        }
                        // decode and emit record
                        else {
                            sourceContext.collect(deserializer.deserialize(buffer.toByteArray()));
                            buffer.reset();
                        }
                    }
                }
            } catch (Throwable t) {
                t.printStackTrace(); // print and continue
            }
            Thread.sleep(1000);
        }
    }

    @Override
    public void cancel() {
        isRunning = false;
        try {
            currentSocket.close();
        } catch (Throwable t) {
            // ignore
        }
    }
}

Table Source and Decoding Format

接下来我们定义动态表数据源

本节说明如何从计划层的实例转换为交付到集群的运行时实例。

SocketDynamicTableSource

SocketDynamicTableSource 在规划期间使用。在我们的示例中，我们没有实现任何可用的能力接口。因此，主要逻辑可以在 getScanRuntimeProvider(…) 中找到，我们在其中实例化所需的 SourceFunction 及其 DeserializationSchema 以供运行时使用。两个实例都被参数化以返回内部数据结构（即 RowData）。

package com.zh.ch.bigdata.flink.connectors.socket;

import org.apache.flink.api.common.serialization.DeserializationSchema;
import org.apache.flink.streaming.api.functions.source.SourceFunction;
import org.apache.flink.table.connector.ChangelogMode;
import org.apache.flink.table.connector.format.DecodingFormat;
import org.apache.flink.table.connector.source.DynamicTableSource;
import org.apache.flink.table.connector.source.ScanTableSource;
import org.apache.flink.table.connector.source.SourceFunctionProvider;
import org.apache.flink.table.data.RowData;
import org.apache.flink.table.types.DataType;
import org.apache.flink.types.RowKind;

public class SocketDynamicTableSource implements ScanTableSource {

    private final String hostname;

    private final int port;

    private final byte byteDelimiter;

    private final DecodingFormat<DeserializationSchema<RowData>> decodingFormat;

    private final DataType producedDataType;

    public SocketDynamicTableSource(String hostname,
                                    int port,
                                    byte byteDelimiter,
                                    DecodingFormat<DeserializationSchema<RowData>> decodingFormat,
                                    DataType producedDataType) {
        this.hostname = hostname;
        this.port = port;
        this.byteDelimiter = byteDelimiter;
        this.decodingFormat = decodingFormat;
        this.producedDataType = producedDataType;
    }


    @Override
    public ChangelogMode getChangelogMode() {
        // define that this format can produce INSERT and DELETE rows
        return ChangelogMode.newBuilder()
                .addContainedKind(RowKind.INSERT)
                .build();
    }

    @Override
    public ScanRuntimeProvider getScanRuntimeProvider(ScanContext scanContext) {

        // create runtime classes that are shipped to the cluster
        final DeserializationSchema<RowData> deserializer = decodingFormat.createRuntimeDecoder(
                scanContext,
                producedDataType);
        final SourceFunction<RowData> sourceFunction = new SocketSourceFunction(
                hostname,
                port,
                byteDelimiter,
                deserializer);
        return SourceFunctionProvider.of(sourceFunction, false);
    }

    @Override
    public DynamicTableSource copy() {
        return null;
    }

    @Override
    public String asSummaryString() {
        return "socket table source";
    }
}

Factories

最后定义动态表工厂，在SocketDynamicTableFactory 中定义FACTORY_IDENTIFIER 为socket。SocketDynamicTableFactory 将catalog表转换为表源。因为表源需要解码格式，为了方便起见，我们使用提供的 FactoryUtil 发现格式。

package com.zh.ch.bigdata.flink.connectors.socket;

import org.apache.flink.api.common.serialization.DeserializationSchema;
import org.apache.flink.configuration.ConfigOption;
import org.apache.flink.configuration.ConfigOptions;
import org.apache.flink.configuration.ReadableConfig;
import org.apache.flink.table.connector.format.DecodingFormat;
import org.apache.flink.table.connector.source.DynamicTableSource;
import org.apache.flink.table.data.RowData;
import org.apache.flink.table.factories.DeserializationFormatFactory;
import org.apache.flink.table.factories.DynamicTableSourceFactory;
import org.apache.flink.table.factories.FactoryUtil;
import org.apache.flink.table.types.DataType;

import java.util.HashSet;
import java.util.Set;

public class SocketDynamicTableFactory implements DynamicTableSourceFactory {

    private static final String FACTORY_IDENTIFIER = "socket";

    public static final ConfigOption<String> HOSTNAME = ConfigOptions.key("hostname")
            .stringType()
            .noDefaultValue();

    public static final ConfigOption<Integer> PORT = ConfigOptions.key("port")
            .intType()
            .noDefaultValue();

    public static final ConfigOption<Integer> BYTE_DELIMITER = ConfigOptions.key("byte-delimiter")
            .intType()
            .defaultValue(10); // corresponds to '\n'

    @Override
    public DynamicTableSource createDynamicTableSource(Context context) {
        // either implement your custom validation logic here ...
        // or use the provided helper utility
        final FactoryUtil.TableFactoryHelper helper = FactoryUtil.createTableFactoryHelper(this, context);

        // discover a suitable decoding format
        final DecodingFormat<DeserializationSchema<RowData>> decodingFormat = helper.discoverDecodingFormat(
                DeserializationFormatFactory.class,
                FactoryUtil.FORMAT);

        // validate all options
        helper.validate();

        // get the validated options
        final ReadableConfig options = helper.getOptions();
        final String hostname = options.get(HOSTNAME);
        final int port = options.get(PORT);
        final byte byteDelimiter = (byte) (int) options.get(BYTE_DELIMITER);

        // derive the produced data type (excluding computed columns) from the catalog table
        final DataType producedDataType =
                context.getCatalogTable().getResolvedSchema().toPhysicalRowDataType();

        // create and return dynamic table source
        return new SocketDynamicTableSource(hostname, port, byteDelimiter, decodingFormat, producedDataType);
    }

    @Override
    public String factoryIdentifier() {
        return FACTORY_IDENTIFIER;
    }

    @Override
    public Set<ConfigOption<?>> requiredOptions() {
        final Set<ConfigOption<?>> options = new HashSet<>();
        options.add(HOSTNAME);
        options.add(PORT);
        options.add(FactoryUtil.FORMAT); // use pre-defined option for format
        return options;
    }

    @Override
    public Set<ConfigOption<?>> optionalOptions() {
        final Set<ConfigOption<?>> options = new HashSet<>();
        options.add(BYTE_DELIMITER);
        return options;
    }
}

在META-INF/services/org.apache.flink.table.factories.Factory中写入com.zh.ch.bigdata.flink.connectors.socket.SocketDynamicTableFactory

我们将使用上面提到的大部分接口来启用以下 DDL：

CREATE TABLE UserScores (name STRING, score INT)
WITH (
  'connector' = 'socket',
  'hostname' = 'localhost',
  'port' = '9999',
  'byte-delimiter' = '10',
  'format' = 'csv',
  'csv.allow-comments' = 'true',
  'csv.ignore-parse-errors' = 'true'
);

由于该格式支持变更日志语义，我们能够在运行时摄取更新并创建一个可以持续评估变化数据的更新视图：

SELECT name, SUM(score) FROM UserScores GROUP BY name;

使用以下命令在终端中摄取数据：

> nc -lk 9999
Alice,12
Bob,5
Alice,12
Alice,18

完整代码地址：

https://git.lrting.top/xiaozhch5/flink-table-sql-connectors.git

扩展已有connectors

本节介绍用于扩展 Flink 的表连接器的可用接口。

动态表工厂

动态表工厂用于根据catalog和会话信息为外部存储系统配置动态表连接器。

org.apache.flink.table.factories.DynamicTableSourceFactory 可以实现来构造一个DynamicTableSource。

org.apache.flink.table.factories.DynamicTableSinkFactory 可以实现来构造一个DynamicTableSink。

默认情况下，使用连接器选项的值作为工厂标识符和 Java 的服务提供者接口来发现工厂。

在 JAR 文件中，可以将对新实现的引用添加到服务文件中：

META-INF/services/org.apache.flink.table.factories.Factory

该框架将检查由工厂标识符和请求的基类（例如 DynamicTableSourceFactory）唯一标识的单个匹配工厂。

如有必要，catalog实现可以绕过工厂发现过程。为此，目录需要返回一个实现 org.apache.flink.table.catalog.Catalog#getFactory 中请求的基类的实例。

动态表源

根据定义，动态表可以随时间变化。

在读取动态表时，内容可以被认为是：

一个更改日志（有限或无限），所有更改都会持续使用，直到更改日志用完。这由 ScanTableSource 接口表示。
一个不断变化的或非常大的外部表，其内容通常不会被完全读取，而是在必要时查询单个值。这由 LookupTableSource 接口表示。

一个类可以同时实现这两个接口。规划器根据指定的查询决定它们的使用。

Scan Table Source

ScanTableSource 在运行时扫描来自外部存储系统的所有行。

扫描的行不必只包含插入，还可以包含更新和删除。因此，表源可用于读取（有限或无限）变更日志。返回的更改日志模式指示计划程序在运行时可以预期的一组更改。

对于常规的批处理场景，源可以发出有限的仅插入行流。

对于常规流式处理方案，源可以发出无限制的仅插入行流。

对于变更数据捕获 (CDC) 方案，源可以发出带有插入、更新和删除行的有界或无界流。

表源可以实现更多的能力接口，例如 SupportsProjectionPushDown，这可能会在计划期间改变实例。所有能力都可以在 org.apache.flink.table.connector.source.abilities 包中找到，并在源能力表中列出。

ScanTableSource 的运行时实现必须生成内部数据结构。因此，记录必须以 org.apache.flink.table.data.RowData 的形式发出。该框架提供了运行时转换器，因此源仍然可以处理常见的数据结构并在最后执行转换。

Lookup Table Source

LookupTableSource 在运行时通过一个或多个键查找外部存储系统的行。

与 ScanTableSource 相比，源不必读取整个表，并且可以在必要时从（可能不断变化的）外部表中懒惰地获取单个值。

与 ScanTableSource 相比，LookupTableSource 目前仅支持发出仅插入更改。

不支持进一步的能力。有关更多信息，请参阅 org.apache.flink.table.connector.source.LookupTableSource 的文档。

LookupTableSource 的运行时实现是 TableFunction 或 AsyncTableFunction。该函数将在运行时使用给定查找键的值调用。

Source Abilities

Interface	Description
SupportsFilterPushDown	Enables to push down the filter into the `DynamicTableSource`. For efficiency, a source can push filters further down in order to be close to the actual data generation.
SupportsLimitPushDown	Enables to push down a limit (the expected maximum number of produced records) into a `DynamicTableSource`.
SupportsPartitionPushDown	Enables to pass available partitions to the planner and push down partitions into a `DynamicTableSource`. During the runtime, the source will only read data from the passed partition list for efficiency.
SupportsProjectionPushDown	Enables to push down a (possibly nested) projection into a `DynamicTableSource`. For efficiency, a source can push a projection further down in order to be close to the actual data generation. If the source also implements `SupportsReadingMetadata`, the source will also read the required metadata only.
SupportsReadingMetadata	Enables to read metadata columns from a `DynamicTableSource`. The source is responsible to add the required metadata at the end of the produced rows. This includes potentially forwarding metadata column from contained formats.
SupportsWatermarkPushDown	Enables to push down a watermark strategy into a `DynamicTableSource`. The watermark strategy is a builder/factory for timestamp extraction and watermark generation. During the runtime, the watermark generator is located inside the source and is able to generate per-partition watermarks.
SupportsSourceWatermark	Enables to fully rely on the watermark strategy provided by the `ScanTableSource` itself. Thus, a `CREATE TABLE` DDL is able to use `SOURCE_WATERMARK()` which is a built-in marker function that will be detected by the planner and translated into a call to this interface if available.

以上接口目前仅适用于 ScanTableSource，不适用于 LookupTableSource。

动态表Sink

根据定义，动态表可以随时间变化。

在编写动态表时，可以始终将内容视为更改日志（有限或无限），其中所有更改都被连续写出，直到更改日志用完为止。返回的更改日志模式指示接收器在运行时接受的更改集。

对于常规批处理场景，接收器可以仅接受仅插入行并写出有界流。

对于常规的流式处理方案，接收器只能接受仅插入行，并且可以写出无界流。

对于变更数据捕获 (CDC) 场景，接收器可以使用插入、更新和删除行写出有界或无界流。

表接收器可以实现更多的能力接口，例如 SupportsOverwrite，这可能会在规划期间改变实例。所有能力都可以在 org.apache.flink.table.connector.sink.abilities 包中找到，并在 sink 能力表中列出。

DynamicTableSink 的运行时实现必须使用内部数据结构。因此，记录必须被接受为 org.apache.flink.table.data.RowData。该框架提供了运行时转换器，因此接收器仍然可以在通用数据结构上工作并在开始时执行转换。

Sink Abilities

Interface	Description
SupportsOverwrite	Enables to overwrite existing data in a `DynamicTableSink`. By default, if this interface is not implemented, existing tables or partitions cannot be overwritten using e.g. the SQL `INSERT OVERWRITE` clause.
SupportsPartitioning	Enables to write partitioned data in a `DynamicTableSink`.
SupportsWritingMetadata	Enables to write metadata columns into a `DynamicTableSource`. A table sink is responsible for accepting requested metadata columns at the end of consumed rows and persist them. This includes potentially forwarding metadata columns to contained formats.

Encoding / Decoding Formats

一些表连接器接受对键和/或值进行编码和解码的不同格式。

格式的工作方式类似于模式 DynamicTableSourceFactory -> DynamicTableSource -> ScanRuntimeProvider，其中工厂负责转换选项，源负责创建运行时逻辑。

因为格式可能位于不同的模块中，所以使用类似于表工厂的 Java 服务提供者接口来发现它们。为了发现格式工厂，动态表工厂搜索与工厂标识符和特定于连接器的基类相对应的工厂。

例如，Kafka 表源需要 DeserializationSchema 作为解码格式的运行时接口。因此，Kafka 表源工厂使用 value.format 选项的值来发现 DeserializationFormatFactory。

当前支持以下格式工厂：

org.apache.flink.table.factories.DeserializationFormatFactory
org.apache.flink.table.factories.SerializationFormatFactory

格式工厂将选项转换为 EncodingFormat 或 DecodingFormat。这些接口是另一种为给定数据类型生成专用格式运行时逻辑的工厂。

例如，对于 Kafka 表源工厂，DeserializationFormatFactory 将返回一个 EncodingFormat，可以将其传递到 Kafka 表源中。

参考链接：https://nightlies.apache.org/flink/flink-docs-release-1.13/docs/dev/table/sourcessinks/

知识积累----空转转录因子TF活性的计算框架追风少年ii 空间数据分析 hotspot 傅里叶变换机器学习
作者，EvilGenius关于我们外显子的分析课程，我们来一次预报名吧，课表如下第一节：外显子分析基础知识与框架（包括基础文件的格式等）第二节：fastq数据处理到callSNV+基础认知（简单判断谱系突变和体系突变、以及GT:AD:AF:DP等基础信息）第三节（可能需要拆分成2节课）：各大数据库如何注释突变信息（clinvar、cosmic、gnomad、HGMD、hotspot、oncoKB、
大数据项目-Django基于大数据技术实现的农产品销售系统 IT实战课堂-玲琳娜计算机毕业设计大数据 java spark 爬虫
《[含文档+PPT+源码等]Django基于大数据技术实现的农产品销售系统》该项目含有源码、文档、PPT、配套开发软件、软件安装教程、包运行成功以及课程答疑与微信售后交流群、送查重系统不限次数免费查重等福利！数据库管理工具：phpstudy/Navicat或者phpstudy/sqlyog后台管理系统涉及技术：后台使用框架：Django前端使用技术：Vue,HTML5,CSS3、JavaScrip
MongoDB 常见查询语法与命令详解夜影风大数据（Big Data）mongodb 数据库
MongoDB作为文档型数据库，其查询语言基于BSON（二进制JSON）格式，与传统关系型数据库的SQL语法有较大差异。一、基本查询命令1.find()：查询文档语法：db.collection.find(查询条件,投影)示例：//查询users集合中所有文档db.users.find()//查询年龄大于25岁的用户，只返回姓名和年龄db.users.find({age:{$gt:25}},{na
【MongoDB】基础知识全面解析：从入门到核心概念韩悸桉数据库 mongodb 数据库
一、MongoDB是什么？MongoDB是一种开源文档型NoSQL数据库，以灵活的JSON格式（BSON）存储数据，无需固定表结构，适合处理半结构化和非结构化数据。与传统关系型数据库（如MySQL）相比，它具有以下特点：灵活的数据模型：文档结构可动态调整，适应业务需求变化。水平扩展性：支持分片集群，轻松应对海量数据存储。高性能读写：通过索引优化和内存缓存提升查询效率。二、核心概念与术语对比Mong
Docker容器升级MySQL Java王小怪 docker mysql 容器
目录服务升级密码重置1、找到挂载配置文件2、重启服务3、容器交互4、修改密码5、还原配置文件前言：由于项目需要，我们使用docker-compose启动的MySQL服务，原先版本为5.7.3，在服务扫描过程中，发现此版本的MySQL存在漏洞，遂决定对MySQL版本进行升级。服务升级由于库中数据还存在不少，我们并没有把原先MySQL的容器进行删除重新搞个新的，只是升级版本可以做到无痛割接。由于我的M
香港服务器查询缓存禁用-性能优化关键技术解析 cpsvps_net linux
在香港服务器运维过程中，查询缓存禁用是提升数据库性能的关键操作。本文将深入解析禁用查询缓存的原理、操作步骤、适用场景及注意事项，帮助管理员优化MySQL服务器配置，解决高并发环境下的性能瓶颈问题。香港服务器查询缓存禁用-性能优化关键技术解析查询缓存的工作原理与性能影响香港服务器上的MySQL查询缓存(QueryCache)机制会将SELECT语句及其结果存储在内存中。当完全相同的查询再次执行时，系
塞浦路斯VPS MySQL 8.7量子安全索引测试 cpsvps_net mysql 安全数据库
在数字化时代背景下，数据安全已成为全球企业关注的核心议题。本文将深入解析塞浦路斯VPS环境下MySQL8.7量子安全索引的突破性测试成果，揭示其如何通过先进的加密算法重构数据库防护体系，为金融、医疗等敏感行业提供符合后量子密码学标准的解决方案。塞浦路斯VPSMySQL8.7量子安全索引测试-下一代数据库防护技术解析量子计算威胁下的数据库安全新挑战随着量子计算机的快速发展，传统加密算法正面临前所未有
MySQL对CPU的占用率很高怎么处理半桶水专家 mysql mysql 数据库
一、确认与定位确认整体CPU使用情况top-b-n1|head-n15观察MySQL(mysqld)进程所占的%CPU。如果是多核系统，关注总和以及单核是否满载。查看系统负载uptimeLoadAverage长期高于CPU核数，说明系统压力大。查看其它进程情况psaux--sort=-%cpu|head-n10确认是否仅MySQL占用高，或与其它进程有关。二、操作系统层面排查磁盘I/O瓶颈iost
配置MySQL主从复制（一主一从） cici15874 mysql
MySQL主从复制简介MySQL主从复制的目的是实现数据库冗余备份，将master数据库的数据定时同步到slave库中，一旦master数据库宕机，可以将Web应用数据库配置快速切换到slave数据库，确保Web应用有较高的可用性。MySQL主从同步是一个异步复制的过程，要实现复制，首先需要在master上开启bin-log日志功能，bin-log日志用于记录在master库执行的增删改更新操作的
JVM调优实战 Day 14 ：大数据处理中的JVM调优在未来等你 JVM调优实战 JVM Java 性能优化调优虚拟机
【JVM调优实战Day14】大数据处理中的JVM调优文章标签jvm调优,大数据处理,Java性能优化,JVM参数配置,JVMGC调优,Java开发,大数据架构,Jvm实战文章简述在大数据处理场景中，Java应用通常面临内存占用高、GC频率频繁、堆内存不足等挑战。本文作为“JVM调优实战”系列的第14天，深入探讨了大数据处理中的JVM调优策略。文章从概念解析、技术原理、常见问题、诊断方法、调优策略到
Java SQLException: 解决“Got error 28 from storage engine”的5个步骤墨瑾轩一起学学Java【一】java adb 开发语言
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣引言在使用Java进行数据库操作时，有时会遇到java.sql.SQLException:Goterror28fromstorageengine错误。这个错误通常发生在尝试插入数据到MySQL数据库时，表示存储引擎返回了一个错误码28，这通常意味着磁盘空间不足
22-4 SQL注入攻击 - post 基于报错的注入技术探索 Web安全攻防全解析 sql 数据库
1、post基于错误单引号注入回显分析注入点位置已经发生变化。在浏览器中，无法直接查看和修改注入点。不过，可以通过使用相应的插件来完成修改任务。修改方法：(一般是网站前端做了限制，我们才需要用到bp绕开限制)要修改Less11注入点的请求，可以使用BurpSuite工具来捕获请求包，并使用其中的"Repeater"功能来进行修改。具体操作步骤如下：首先打开BurpSuite并设置代理，然后在浏览器
Oracle查询超时问题，聊聊思路！ bug菌¹ 全栈Bug调优(实战版)#CSDN问答解惑(全栈版)数据库 oracle java
本文收录于《CSDN问答解答》专栏，主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！问题描述 Oracle在查询超过6秒的sql都会报Socketreadtimedout。我也根据网上的一些资料，在oracleurl后拼接了oracle.net.CONNECT_T
[第一章 web入门]SQL注入-2 weixin_40546436 渗透测试
1通过updatexml取数据从页面发现有一个提示如果加上?tips=1的话，通过burpsuite发包可以通过updatexml来查看回显，可以通过这个取到数据下面是通过updatexml来注入，这时4步中用到语句name=admin’andupdatexml(1,concat(0x7e,(select(database())),0x7e),1)#&pass=bbname=admin’andup
鸿蒙开发必备技能：六种数据存储方式全解析+实战代码 harmonyos
摘要在当前多设备互联的时代，移动端应用不再局限于单一设备，而是需要在多个终端上保持状态一致、数据同步与持久管理。鸿蒙系统提供了多种数据存储机制，从轻量级状态存储到复杂的数据持久化方案，满足不同场景下的需求。本文将结合实战案例，深入讲解鸿蒙系统中的六大数据存储方式，并配有可运行的代码，帮助开发者快速掌握数据管理方法。引言随着鸿蒙系统的不断发展，越来越多的开发者开始构建面向多设备、多用户、多场景的智能
Oracle ORA-3137[12333] 关闭的连接 java.sql.SQLRecoverableException: 无法从套接字读取更多的数据 ... iteye_9244 ORALCE oracle sql
今天在项目中遇到一个异常：OracleORA-3137[12333]关闭的链接java.sql.SQLRecoverableException:无法从套接字读取更多的数据，后来我在网上找了一下解决方案发现有两个：第一个解决方案：换oracle驱动，把驱动版本换成11.2的，但是尝试了一下没有效果，所以使用了第二个解决方案：在PLSQL执行altersystemset"_optim_peek_use
【Java】已解决java.sql.SQLRecoverableException异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
IT 行业深度洞察：从技术革命到产业重构的全景图谱 XQR.小白重构
摘要本文系统梳理IT行业的发展脉络，深入剖析云计算、人工智能、大数据、物联网等核心技术的演进逻辑与协同效应，揭示IT产业在数字化转型浪潮中的生态重构与价值创造。通过典型案例分析与数据支撑，探讨行业面临的技术挑战、伦理困境与全球化竞争格局，展望IT技术如何持续驱动社会变革与产业升级。全文结合2025年最新技术动态与市场趋势，为从业者、投资者与研究者提供兼具理论深度与实践指导的行业参考。目录摘要一、I
Spark从入门到熟悉（篇三）小新学习屋数据分析 spark 大数据分布式
本文介绍Spark的DataFrame、SparkSQL，并进行SparkSQL实战，加强对编程的理解，实现快速入手知识脉络包含如下7部分内容：RDD和DataFrame、SparkSQL的对比创建DataFrameDataFrame保存成文件DataFrame的API交互DataFrame的SQL交互SparkSQL实战参考资料RDD和DataFrame、SparkSQL的对比RDD对比Data
Python 爬虫实战：12306 订单记录爬取（登录态保持 + 订单数据可视化）西攻城狮北 python 爬虫信息可视化
引言在大数据驱动的今天，12306作为国内最重要的铁路出行平台，积累了海量的出行数据。对于广大用户而言，能够方便地查看和分析自己的出行订单记录，不仅有助于行程管理，还能为未来的出行规划提供有力参考。本文将详细讲解如何利用Python爬虫技术实现12306的模拟登录，爬取个人订单记录，并通过数据可视化技术直观展示出行情况。一、环境搭建与准备工作（一）Python环境配置确保本地已安装Python3.
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
【SpringBoot初级篇】JdbcTemplate常用方法李少谦 spring boot 数据库 sql
【SpringBoot初级篇】JdbcTemplate常用方法JdbcTemplate查询JdbcTemplate插入、更新、删除插入单条数据批量插入更新单条数据批量更新删除单条数据批量操作execute执行任意的SQLNamedParameterJdbcTemplate函数场景说明update(Stringsql,@NullableObject…args)增，删，改queryForObject(
MyBatis SQL 执行过程原理分析（附源码）代理层：Mapper 接口动态代理路由层：MapperMethod 分发核心引擎：SqlSession 执行夜雨hiyeyu.com mybatis sql 数据库数据库架构 java spring boot db
MyBatisSQL执行过程原理分析（附源码）1.代理层：Mapper接口动态代理2.路由层：MapperMethod分发3.核心引擎：SqlSession执行4.执行器：Executor调度5.处理器层：StatementHandler执行6.结果映射：ResultSetHandler转换核心执行流程图关键设计亮点性能优化建议MyBatis的SQL执行过程可以分为6个核心阶段，我们将通过源码逐层
【Django开发】前后端分离django美多商城项目第3篇：用户注册业务实现,用户注册前端逻辑【附代码文档】
教程总体简介：欢迎来到美多商城！项目需求分析1.项目主要页面介绍2.归纳项目主要模块3.知识要点项目架构设计1.项目开发模式2.项目运行机制项目介绍创建工程1.准备项目代码仓库3.创建美多商城工程配置开发环境1.新建配置文件2.指定开发环境配置文件配置Jinja2模板引擎1.安装Jinja2扩展包配置MySQL数据库3.安装PyMySQL扩展包配置Redis数据库1.安装django-redis扩
Redis 集群与分布式实现：从原理到实战一切皆有迹可循 redis redis 分布式数据库后端缓存
前言在大数据与高并发场景下，单节点Redis的容量与可用性已无法满足需求。Redis通过集群与分布式技术，实现了数据的分片存储与高可用部署，成为分布式系统的核心组件。本文将深入解析Redis集群的底层原理、架构模式与实战经验，结合代码示例与最佳实践，帮助开发者构建高性能、高可用的分布式缓存系统。一、集群基础架构与核心原理1.数据分片机制Redis集群采用哈希槽（HashSlot）实现数据分片，共有
SQL SELECT INTO语句 Lu鹿夫人 sql 数据库 sqlserver
SQLSELECTINTO语句通过SQL，您可以从一个表复制信息到另一个表。SELECTINTO语句从一个表复制数据，然后把数据插入到另一个新表中。SQLSELECTINTO语句注意：MYSQL数据库不支持SELECT…INTO语句，但支持INSERTINTO…SELECT。可以使用以下语句来拷贝表结构及数据：CREATETABLE新表ASSELECT*FROM旧表SQLSELECTINTO语法1
SQL SELECT语句的基本用法 Mnioc 学习 SQL
SQLSELECT语句的基本用法表S有三个字段:学生学号Sno，课程号Cno，成绩score。求每个学生的总分。这是一个很简单的问题，这篇博客就是源于这个问题，博主是一个大三即将入坑的菜鸟，进入公司实习的第一天，就被几个SQL查询问题难倒了。通过这篇文章复习一下数据库基本的SELECT语句，仅供参考，如有错误或不当之处还望大神们告知。这里使用的是SQLFiddle，一款在线的SQL语句练习网站链接
大数据未来发展的趋势与挑战倒霉男孩大数据
随着信息技术的飞速发展，大数据已经成为推动社会进步和产业变革的重要力量。从商业决策到医疗健康，从智慧城市到人工智能，大数据技术的应用无处不在。未来，随着5G、物联网（IoT）、人工智能（AI）等技术的深度融合，大数据的发展将迎来更广阔的空间，同时也面临诸多挑战。本文将探讨大数据未来的发展趋势、应用前景以及可能面临的问题。一、大数据未来的发展趋势数据量持续爆发式增长随着5G网络的普及和物联网设备的广
从0到1构建智能招聘数据引擎：基于 Python 的 BOSS直聘信息采集实战与反爬破解指南程序员威哥 python 开发语言
前言在大数据浪潮席卷的时代，招聘平台蕴藏着海量的岗位信息，揭示着行业走向、人才趋势、薪资结构等核心价值。BOSS直聘作为国内极具代表性的直招平台，其数据对职业分析、市场监测甚至智能推荐系统的构建都有着重要意义。本文将手把手带你打造一个高质量、抗封锁的Python爬虫系统，精准采集BOSS直聘网的岗位数据，并全面解析其中涉及的反爬机制识别、加密参数处理、数据提取与存储等高级技巧，助你在Web数据采集
分布式 ID 生成方案对比：Snowflake、UUID、KSUID 该怎么选？田猿笔记知识集合 nodeJs 高级应用分布式 node.js
分布式ID生成方案对比：Snowflake、UUID、KSUID该怎么选？在分布式系统中，如何生成全局唯一ID是一个常见问题。不同的ID生成方案各有优缺点，本文将对比Snowflake、Sonyflake、UUIDv1/v4、XID、KSUID以及自定义ID，并给出Node.js实现示例，帮助你选择最适合的方案。1.为什么需要分布式ID？在单机系统中，可以使用数据库自增ID（如MySQL的AUTO
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &