THE WHY

【总结】Dinky学习笔记

概述

Dinky 是一个开箱即用、易扩展，以 Apache Flink 为基础，连接 OLAP 和数据湖等众多框架的一站式实时计算平台，致力于流批一体和湖仓一体的探索与实践

官网：Dinky

核心特性

沉浸式：提供专业的 DataStudio 功能，支持全屏开发、自动提示与补全、语法高亮、语句美化、语法校验、调试预览结果、全局变量、MetaStore、字段级血缘分析、元数据查询、FlinkSQL 生成等功能
易用性：Flink 多种执行模式无感知切换，支持 Flink 多版本切换，自动化托管实时任务、恢复点、报警等，自定义各种配置，持久化管理的 Flink Catalog
增强式：兼容且增强官方 FlinkSQL 语法，如 SQL 表值聚合函数、全局变量、CDC 整库同步、执行环境、语句合并、共享会话等
一站式：提供从 FlinkSQL 开发调试到上线下线的运维监控及 SQL 的查询执行能力，使数仓建设及数据治理一体化
易扩展：源码采用 SPI 插件化及各种设计模式支持用户快速扩展新功能，如连接器、数据源、报警方式、 Flink Catalog、CDC 整库同步、自定义 FlinkSQL 语法等
无侵入：Spring Boot 轻应用快速部署，不需要在任何 Flink 集群修改源码或添加额外插件，无感知连接和监控Flink 集群

主要功能

沉浸式 FlinkSQL 数据开发：自动提示补全、语法高亮、语句美化、在线调试、语法校验、执行计划、MetaStore、血缘分析、版本对比等
支持 FlinkSQL 多版本开发及多种执行模式：Local、Standalone、Yarn/Kubernetes Session、Yarn Per-Job、Yarn/Kubernetes Application
支持 Apache Flink 生态：Connector、FlinkCDC、Table Store 等
支持 FlinkSQL 语法增强：表值聚合函数、全局变量、执行环境、语句合并、整库同步等
支持 FlinkCDC 整库实时入仓入湖、多库输出、自动建表、模式演变
支持 Flink Java / Scala / Python UDF 开发与自动提交
支持 SQL 作业开发：ClickHouse、Doris、Hive、Mysql、Oracle、Phoenix、PostgreSql、Presto、SqlServer、StarRocks 等
支持实时在线调试预览 Table、 ChangeLog、统计图和 UDF
支持 Flink Catalog、数据源元数据在线查询及管理
支持自动托管的 SavePoint/CheckPoint 恢复及触发机制：最近一次、最早一次、指定一次等
支持实时任务运维：上线下线、作业信息、集群信息、作业快照、异常信息、数据地图、数据探查、历史版本、报警记录等
支持作为多版本 FlinkSQL Server 以及 OpenApi 的能力
支持实时作业报警及报警组：钉钉、微信企业号、飞书、邮箱等
支持多种资源管理：集群实例、集群配置、Jar、数据源、报警组、报警实例、文档、系统配置等
支持企业级管理功能：多租户、用户、角色、命名空间等

安装部署

dinky版本：dlink-release-0.7.3.tar.gz

flink版本：支持的flink版本有flink1.11.0—flink1.17.0

前置条件：已安装flink（当前版本1.13.0）/已安装hadoop（当前版本3.1.3，因为可能使用到yarn模式）

安装步骤：

1.上传安装包并解压到指定目录：tar -zxvf dlink-release-0.7.3.tar.gz -C /opt/module/

2.重命名：mv dlink-release-0.7.3 dinky

3.初始化MySQL数据库（Dinky 采用 mysql 作为后端的存储库，部署需要 MySQL5.7 以上版本）：

3.1连接到MySQL

3.2创建数据库：CREATE DATABASE dinky;

3.3创建用户dinky并允许远程登录：create user 'dinky'@'%' IDENTIFIED WITH mysql_native_password by 'dinky';（'dinky'@'%'含义是允许远程登录；IDENTIFIED WITH mysql_native_password by 'dinky'含义是设置密码为'dinky'

3.4授权给用户dinky：grant ALL PRIVILEGES ON dinky.* to 'dinky'@'%';

3.5刷新MySQL的系统权限相关表，使设置生效：flush privileges;

3.6登录创建好的dinky用户，切换到dinky数据库并执行初始化sql文件：source /opt/module/dinky/sql/dinky.sql

dinky.sql用于初始化；

upgrade目录下存放了各版本的升级sql：

4.修改配置文件：cd /opt/module/dinky/config，修改application.yml文件，将数据库地址改为：hadoop102:3306，数据库名称、用户名称、密码以及application名称改为dinky：

5.加载依赖：

5.1 加载Flink依赖：Dinky 需要具备自身的 Flink 环境，该 Flink 环境的实现需要用户自己在 Dinky 根目录下：plugins/flink${FLINK_VERSION} 文件夹并上传相关的 Flink 依赖，例如：cp /opt/module/flink-1.13.0/lib/* /opt/module/dinky/plugins/flink1.13

5.2 加载Hadoop依赖：Dinky 当前版本的 yarn 的 perjob 与 application 执行模式依赖 flink-shade-hadoop ，需要额外添加 flink-shade-hadoop-uber-3 包，因此将flink-shaded-hadoop-3-uber-3.1.1.7.2.9.0-173-9.0.jar上传到/opt/module/dinky/plugins目录下

6.上传jar包：使用 Application 模式时，需要将flink和dinky相关的包上传到HDFS

6.1 创建HDFS目录并上传dinky的jar包

hadoop fs -mkdir -p /dinky/jar/

hadoop fs -put /opt/module/dinky/jar/dlink-app-1.13-0.7.3-jar-with-dependencies.jar /dinky/jar

6.2 创建HDFS目录并上传flink的jar包：

hadoop fs -mkdir /flink-dist

hadoop fs -put /opt/module/flink-1.17.0/lib /flink-dist

hadoop fs -put /opt/module/flink-1.17.0/plugins /flink-dist

7.启停命令：进入dinky根目录：cd /opt/module/dinky

7.1 启动：sh auto.sh start 1.13（需要指定版本号），默认端口为8888，web ui地址为：http://hadoop102:8888，默认用户名/密码为：admin/admin

7.2 停止：sh auto.sh stop（不需要指定版本号）

7.3 重启：sh auto.sh restart 1.17

8.Flink设置：使用 Application 模式以及 RestAPI 时，需要修改相关Flink配置，将“提交FlinkSQL的Jar文件路径”修改为dlink-app包的路径：

集群注册

提交 FlinkSQL 作业时，首先要保证安装了 Flink 集群。Flink 当前支持的集群模式包括：

Standalone 集群
Yarn 集群
Kubernetes 集群

以上集群的管理可以在Dinky Web UI的注册中心中进行设置：

目前dinky支持的集群类型有：

Flink 实例管理

Flink 实例管理适用于 Standalone，Yarn Session 和 Kubernetes Session这三种集群实例的注册，其他类型的集群只能查看作业信息；

先启动集群，再进行作业提交

1.注册Standalone集群

首先手动启动Standalone集群：

进入Flink根目录下，执行启动命令：bin/start-cluster.sh

集群启动之后在dinky页面点击”新建“，创建新的集群实例：

问题：即使在flink的配置文件masters中配置了备用的JobManager列表为：

hadoop102:8081,hadoop103:8081

这里的JobManager 高可用地址也只能填写hadoop102:8081或者hadoop103:8081，而不能同时填写两个JobManager

创建完成后可以看到注册的集群状态正常：

点击FlinkWebUI可以进入flink的web UI界面：

（此时没有作业在运行）

2.注册Yarn Session集群

首先需要手动启动Yarn Session集群：
进入Flink的根目录下，执行：bin/yarn-session.sh -nm test

启动完成后可以看到JobManager的地址：

在浏览器中打开hadoop103:8088，可以看到当前已启动的一个application：

接下来在dinky中创建Yarn Session类型的集群：

这里的JobManager高可用地址即使填写错误也会自动修正

创建完成后可以看到集群状态正常：

集群配置管理

集群配置管理适用于 Yarn Per-job、Yarn Application 和 Kubernetes Application 这三种类型配置

点击创建集群，首先填写主要配置：

类型选择Flink On Yarn；
Hadoop配置文件路径一般为：${hadoop安装根目录}/etc/hadoop
ha.zookeeper.quorum即高可用配置，zookeeper的地址
lib路径为相应版本的Flink lib内容，但需要提前上传至hdfs上
Flink配置文件路径一般为：${flink安装根目录}/conf

然后可以配置一些参数：

其优先级高于flink-conf.yaml文件中配置的参数；

最后填写基本配置信息：

点击”测试“按钮，测试链接成功后即可创建：

列表中即可看到可用的集群配置：

作业提交运行

案例内容：在dinky中创建FlinkSQL作业，编写SQL语句并提交到不同的集群中去运行

创建作业

首先在”数据开发“面板创建目录：

然后右键单击目录选择创建作业：

作业类型有很多种，这里选择FlinkSQL：

这里"别名"是必选项，可以填写中文

作业创建完成后可用看到代码编写及控制台界面：

配置信息

官网链接：作业基础配置 | Dinky

作业配置

（1）执行模式：可选项如下

（2）Flink集群配置：当执行模式不选择Local时会出现该配置

比如说执行模式选择Standalone，在集群配置中可以看到之前创建的Flink实例信息：

（3）FlinkSQL环境：选择当前任务的 FlinkSQL 执行环境，会提前执行环境语句，默认无

（4）其他信息：

Insert语句集：【增强特性】开启语句集机制，将把多个 Insert 语句合成一个 JobGraph 再进行提交，Select 语句无效

执行配置

（1）预览结果：开启预览结果，将同步运行并返回数据结果

（2）打印流：开启打印流，将同步运行并返回含有 op 信息的 ChangeLog，默认不开启且返回最终结果 Table

（3）最大行数：设置table展示的预览数据的最大行数

（4）自动停止：数据达到最大行数后自动停止

提交运行

Flink SQL语句如下：

--创建源表 source
CREATE TABLE source(
  id  BIGINT,
  name STRING
) WITH (
  'connector' = 'datagen'
);
--创建结果表 sink
CREATE  TABLE sink(
   id  BIGINT,
   name STRING
) WITH (
  'connector' = 'print'
);

--将源表数据插入到结果表
INSERT INTO sink
SELECT
   id  ,
   name 
from source;

Local模式

点击"执行当前sql"，在结果中可以看到数据：

Standalone模式

注意：切换执行模式之后必须先ctrl+s保存再点击"提交作业到集群"，否则会将作业提交到上一次选择的集群中

然后到"运维中心"中可以看到正在运行中的任务：

点击进入该任务可以看到更多详细信息：

点击右上角FlinkWebUI可以进入Flink面板：

在Flink面板中点击找到TaskManager运行的机器，可以查看相应的日志信息：

点击Log，在stdout中可以看到相应的数据（前提是在【执行配置】中开启了【打印流】）：

回到dinky的运维面板，在右上角可以选择对当前任务能够执行的操作：

但如果选择与SavePoint相关的操作必须提前配置，否则会报错；

（如果点击智能停止默认执行SavePoint停止）

如果没有配置SavePoint直接选择"普通停止"即可；

如下则作业已经成功停止：

Yarn Session模式

同样可以成功将作业提交到集群运行：

（其余内容和standalone模式完全一样）

Yarn Application模式

其余操作和standalone模式基本一致；

在使用该模式时出现了"异步提交失败"的情况，报错信息如下：

Caused by: java.io.IOException: Cannot find any jar files for plugin in directory [plugins/flink1.11]. Please provide the jar files for the plugin or delete the directory.

提示说在plugins/flink1.11这个文件夹中找不到相应的插件，回顾在"集群配置管理"中设置的集群配置，发现确实没有plugins相关的配置，推测该版本的dinky可能没有能够按照版本号来扫描对应的plugins文件夹从而选取合适的依赖，而是依次扫描plugins文件夹下所有目录：

从而导致虽然启动的版本是flink1.13，但使用的jar包是flink1.11的，因此按照提示删除flink1.11目录下所有内容，发现报错信息有所改变：

所以把除了flink1.13之外的目录全部删除即可

修改问题后作业可以正常提交：

（由于是提交作业时创建集群，因此作业提交速度会比较慢）

重要功能

1.持久化Catalog

dinky自己实现了 mysql-catalog，作用同 hive-catalog，可以持久化Flink元数据，在作业中无需再显式声明 DDL 语句

选择Catalog

在【作业配置】——【FlinkSQL环境】中选择：

默认提供了一个DefaultCatalog

需要注意这个DefaultCatalog和Flink内存中的Catalog并不一样；如果选择【FlinkSQL环境】为"无"才是使用Flink内存的Catalog；

查看Catalog

在左侧的【结构】目录中可以查看：

其中的my_catalog是dinky自己实现的mysql-catalog，而default_catalog是Flink内存中的Catalog

选择my_catalog下的默认数据库，可以看到已经创建的表：

右键单击对应的表可以查看表结构：

也可以通过show tables语句查看已有的表：

此时如果再次执行建表DDL，则会报错；

2.使用变量

定义变量

变量定义的语法为：key1 := value1;

例如：

var1:=source;

--创建源表 source
CREATE TABLE ${var1}(
  id  BIGINT,
  name STRING
) WITH (
  'connector' = 'datagen'
);

select * from ${var1};

使用自定义的变量时需要开启【全局变量】：

否则在进行SQL检查时会报错；

执行上述SQL，结果如下：

变量定义正常生效；

查看变量

查看变量语法如下：

-- 查看所有变量
SHOW FRAGMENTS;
-- 查看单个变量
SHOW FRAGMENT var2;

执行以下语句：

var1:=source;
SHOW FRAGMENTS;

可以查看到所有的变量名称（但看不到变量的值）：

执行以下语句：

var1:=source;
SHOW FRAGMENTS var1;

才可以查看到变量var1的值：

全局使用变量

全局变量注册

上述方式定义的变量只适用于当前作业，所以如果想要在多个作业中使用同一个变量，需要将其注册为全局变量；

在【注册中心】—【全局变量管理】中进行注册：

注册成功后即可在作业中使用：

在FlinkSQLEnv中定义变量

dinky可以将FlinkSQL 封装为执行环境，供FlinkSQL任务使用，即为FlinkSQLEnv；也就是说在执行FlinkSQL任务之前先执行FlinkSQLEnv中的语句；

FlinkSQLEnv 场景适用于所有作业的SET、DDL语法统一管理的场景，当前FlinkSQLEnv 在SQL编辑器的语句限制在1000行以内

首先需要新建一个环境（和创建新作业流程相同，在类型中选择FlinkSQLEnv）：

在环境中新建变量var3：

然后在作业中选中环境，即可使用其中定义的变量：

连接配置变量

连接配置变量一般用于设置一些数据源的配置信息，例如MySQL的主机名、端口号、用户名以及密码等等；

使用步骤如下：

1.创建数据源

【注册中心】—【数据源管理】—【新建】—【选择数据源】

这里选择MySQL数据源，首先输入基本信息：

然后设置Flink连接配置：

（作为一个变量值来使用）

接下来设置Flink连接模板（即自动生成建表语句的模板）：

'connector' = 'mysql-cdc'
,${mysql102}
,'scan.incremental.snapshot.enabled' = 'true'
,'debezium.snapshot.mode'='latest-offset'
,'database-name' = '${schemaName}'
,'table-name' = '${tableName}'

connector：Flink连接器，指定使用MySQL CDC连接器

${mysql102}：占位符，表示需要提供的MySQL的连接信息（即上面设置的Flink连接配置变量值）

scan.incremental.snapshot.enabled = 'true'：启用增量快照扫描功能，即只扫描自上次扫描以来发生变化的数据

debezium.snapshot.mode='latest-offset'：设置快照模式为“最新偏移量”，即从最新的数据偏移量开始扫描

${schemaName} ：动态获取数据库

${tableName}：动态获取表名称

信息填写完毕后进行测试链接，然后保存即可：

2.数据源访问

在【元数据中心】中点击对应的数据源即可查看相关信息：

在【描述】部分可以看到字段信息和表信息：

在【数据查询】部分可以看到表中的数据：

在【SQL生成】部分可以自动生成建表语句：

【FlinkDDL】即Flink语法的DDL语句，示例：

DROP TABLE IF EXISTS activity_info;
CREATE TABLE IF NOT EXISTS activity_info (
    `id` BIGINT NOT NULL COMMENT '活动id'
    ,`activity_name` STRING COMMENT '活动名称'
    ,`activity_type` STRING COMMENT '活动类型（1：满减，2：折扣）'
    ,`activity_desc` STRING COMMENT '活动描述'
    ,`start_time` TIMESTAMP COMMENT '开始时间'
    ,`end_time` TIMESTAMP COMMENT '结束时间'
    ,`create_time` TIMESTAMP COMMENT '创建时间'
    ,PRIMARY KEY ( `id` ) NOT ENFORCED
) COMMENT '活动表'
 WITH (
'connector' = 'mysql-cdc'
,${mysql102}
,'scan.incremental.snapshot.enabled' = 'true'
,'debezium.snapshot.mode'='latest-offset'
,'database-name' = 'gmall'
,'table-name' = 'activity_info'
);

可以看到我们创建数据源时填写的Flink连接模板被拼接到建表语句的WITH语法中；

【SELECT】即查询语法：

【SQLDDL】即MySQL语法的DDL语句：

3.建表语句使用

复制【FlinkSQL】中生成的建表语句到作业中，然后开启【全局变量】：

点击【检查当前SQL】，可以看到配置信息已经导入进来：

3.ADD JAR

ADD JAR 语句用于将用户 jar 添加到 classpath；可作用于standalone、session和 application 模式

当连接器和第三方依赖过多时，经常容易导致 jar依赖冲突，ADD JAR可以选择性的识别添加到服务器，做到环境隔离

使用语法：ADD JAR '.jar'（与sql-client一致，参考：https://nightlies.apache.org/flink/flink-docs-release-1.17/docs/dev/table/sql/jar/）

示例：通过ADD JAR的方式添加mysql-cdc的jar包：

首先将flink-sql-connector-mysql-cdc-2.3.0.jar上传至hadoop102的/opt/software/jars路径下，

然后即可在作业中通过ADD JAR语法来将jar包导入到当前作业环境中：

add jar '/opt/software/jars/flink-sql-connector-mysql-cdc-2.3.0.jar'

接下来即可执行连接器为mysql-cdc的Flink SQL，完整语句如下：

add jar '/opt/software/jars/flink-sql-connector-mysql-cdc-2.3.0.jar';

--数据源中自动生成的建表语句
DROP TABLE IF EXISTS activity_info;
CREATE TABLE IF NOT EXISTS activity_info (
    `id` BIGINT NOT NULL COMMENT '活动id'
    ,`activity_name` STRING COMMENT '活动名称'
    ,`activity_type` STRING COMMENT '活动类型（1：满减，2：折扣）'
    ,`activity_desc` STRING COMMENT '活动描述'
    ,`start_time` TIMESTAMP COMMENT '开始时间'
    ,`end_time` TIMESTAMP COMMENT '结束时间'
    ,`create_time` TIMESTAMP COMMENT '创建时间'
    ,`operate_time` TIMESTAMP COMMENT '修改时间'
    ,PRIMARY KEY ( `id` ) NOT ENFORCED
) COMMENT '活动表'
 WITH (
     'connector' = 'mysql-cdc'
    ,${mysql102}
    ,'scan.incremental.snapshot.enabled' = 'true'
    ,'debezium.snapshot.mode'='latest-offset'
    ,'database-name' = 'gmall'
    ,'table-name' = 'activity_info'

);

CREATE  TABLE print
WITH (
    'connector' = 'print'
)
LIKE activity_info (EXCLUDING ALL);


insert into print select * from activity_info;

这里的LIKE activity_info (EXCLUDING ALL);是Flink SQL的语法，意为创建一个与activity_info表结构一样的表，并且通过EXCLUDING语法来选择WITH中的配置项进行排除，EXCLUDING ALL即为排除所有配置选项；

执行结果如下（Web UI中的stdout）：

中文乱码是由于yarn配置的原因

4.CDCSOURCE 整库同步

目前通过 FlinkCDC 进行整库同步会因为每张表都需要占用一个source，导致占用大量的数据库连接，对 Mysql 和网络造成压力

因此Dinky 定义了 CDCSOURCE 整库同步的语法，可以直接自动构建一个整库入仓入湖的实时任务，并且对 source 进行了合并，不会产生额外的 Mysql 及网络压力

具体采用的方法是只构建一个 source，然后根据 schema、database、table 进行分流处理，分别 sink 到对应的表

CDCSOURCE 语句用于将上游指定数据库的所有表的数据采用一个任务同步到下游系统；整库同步默认支持 Standalone、Yarn Session、Yarn Per job、K8s Session

使用语法

EXECUTE CDCSOURCE jobname 
  WITH ( key1=val1, key2=val2, ...)

WITH 参数通常用于指定 CDCSOURCE 所需参数

常用参数如下：

配置项	是否必须	默认值	说明
connector	是	无	指定要使用的连接器，当前支持 mysql-cdc 及 oracle-cdc
hostname	是	无	数据库服务器的 IP 地址或主机名
port	是	无	数据库服务器的端口号
username	是	无	连接到数据库服务器时要使用的数据库的用户名
password	是	无	连接到数据库服务器时要使用的数据库的密码
scan.startup.mode	否	latest-offset	消费者的可选启动模式，有效枚举为“initial”和“latest-offset”
database-name	否	无	如果table-name="test\.student,test\.score",此参数可选。
table-name	否	无	支持正则,示例:"test\.student,test\.score"
source.*	否	无	指定个性化的 CDC 配置，如 source.server-time-zone 即为 server-time-zone 配置参数。
checkpoint	否	无	单位 ms
parallelism	否	无	任务并行度
sink.connector	是	无	指定 sink 的类型，如 datastream-kafka、datastream-doris、datastream-hudi、kafka、doris、hudi、jdbc 等等，以 datastream- 开头的为 DataStream 的实现方式
sink.sink.db	否	无	目标数据源的库名，不指定时默认使用源数据源的库名
sink.table.prefix	否	无	目标表的表名前缀，如 ODS 即为所有的表名前拼接 ODS
sink.table.suffix	否	无	目标表的表名后缀
sink.table.upper	否	无	目标表的表名全大写
sink.table.lower	否	无	目标表的表名全小写
sink.*	否	无	目标数据源的配置信息，同 FlinkSQL，使用 ${schemaName} 和 ${tableName} 可注入经过处理的源表名
sink[N].*	否	无	N代表为多目的地写入, 默认从0开始到N, 其他配置参数信息参考sink.*的配置.

Flink CDC 和 Kafka 进行多源合并

环境配置

（1）启动kafka

（2）向Flink添加Dinky依赖：

将dinky根目录lib文件夹下的dlink-common-0.7.3.jar、dlink-client-base-0.7.3.jar以及plugins/filink1.13/dinky文件夹下的dlink-client-1.13-0.7.3.jar拷贝到flink的lib文件夹下：

cp /opt/module/dinky/lib/dlink-common-0.7.3.jar /opt/module/flink-1.13.0/lib/
cp /opt/module/dinky/lib/dlink-client-base-0.7.3.jar /opt/module/flink-1.13.0/lib/
cp /opt/module/dinky/plugins/flink1.13/dinky/dlink-client-1.13-0.7.3.jar /opt/module/flink-1.13.0/lib/

拷贝成功：

（3）添加连接器依赖（Dinky和Flink都需要添加）：flink-sql-connector-mysql-cdc-2.3.0.jar以及flink-sql-connector-kafka-1.17.0.jar

cp /opt/software/jars/flink-sql-connector-mysql-cdc-2.3.0.jar /opt/module/flink-1.13.0/lib
cp /opt/software/jars/flink-sql-connector-mysql-cdc-2.3.0.jar /opt/module/dinky/plugins

cp /opt/software/jars/flink-sql-connector-kafka-1.13.0.jar /opt/module/flink-1.13.0/lib
cp /opt/software/jars/flink-sql-connector-kafka-1.13.0.jar /opt/module/dinky/plugins/flink1.13

（4）重启Yarn-Session集群：

Session和Standalone这种需要事先启动集群的模式，依赖发生改变，需要重启集群才能生效

（5）重启dinky

实时数据合并至一个Kafka Topic

执行SQL：

EXECUTE CDCSOURCE cdc1 WITH (
  'connector' = 'mysql-cdc',
  'hostname' = 'hadoop102',
  'port' = '3306',
  'username' = 'root',
  'password' = 'hadoop',
  'checkpoint' = '3000',
  'scan.startup.mode' = 'initial',
  'parallelism' = '1',
  'table-name' = 'gmall\.activity_info,gmall\.activity_rule',
  'sink.connector'='datastream-kafka',
  'sink.topic'='dlinkcdc',
  'sink.properties.transaction.timeout.ms'='60000',
  'sink.brokers'='hadoop102:9092'
);

注意：sinkProducer的超时时间默认为1个小时，但是kafka broker的超时时间默认是15分钟，kafka broker不允许sinkProducer的超时时间比他大，同时sinkProducer的超时时间要比checkpoint间隔大，否则会报错；

这里kafka broker的超时时间默认为15min；checkpoint的间隔为3s，因此将sinkProducer的超时时间设置为60s是合理的

在作业中提交，可以看到只有一个source：

在kafka中查看list：kafka-topics.sh --bootstrap-server hadoop102:9092 --list

可以看到新建的topic——dlinkcdc

在kafka中消费该topic：bin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --from-beginning --topic dlinkcdc（消费全部数据）

可以看到数据已经成功同步：

修改其中一条数据【联想专场】为【联想专场test】，可以看到数据已经同步更新：

实时数据合并至对应Kafka Topic

不指定sink.topic，就是写入对应的Topic：

EXECUTE CDCSOURCE cdc1 WITH (
  'connector' = 'mysql-cdc',
  'hostname' = 'hadoop102',
  'port' = '3306',
  'username' = 'root',
  'password' = 'hadoop',
  'checkpoint' = '3000',
  'scan.startup.mode' = 'initial',
  'parallelism' = '1',
  'table-name' = 'gmall\.activity_info,gmall\.activity_rule',
  'sink.connector'='datastream-kafka',
  'sink.properties.transaction.timeout.ms'='60000',
  'sink.brokers'='hadoop102:9092'
);

然后提交到集群运行，在Web UI中可以看到一个source对应两个sink：

然后查看kafka中的topic，可以看到每一张表对应一个topic：

此时可以单独消费某一张表中的数据；

有关如何实现Flink CDC 和 Kafka 的多源合并以及下游同步更新可以参考：

Flink CDC 和 Kafka 多源合并 | Dinky

5.UDF开发

新建UDF

（1）配置模板：在【配置中心】—【UDF模板配置】中：

（2）可以通过新建作业的形式创建UDF：

填写相关信息后成功创建作业：

在作业中注册UDF

新建Flink SQL作业：

通过create temporary function HashFunction as 'com.why.udf.HashFunction';将自定义的UDF注册到当前作业中，然后就可以在SQL中使用：

create temporary function HashFunction as 'com.why.udf.HashFunction';

CREATE TABLE sourceTable (
    id int
) WITH (
  'connector' = 'datagen'
);

CREATE  TABLE sinkTable
WITH (
    'connector' = 'print'
)
LIKE sourceTable (EXCLUDING ALL);


insert into sinkTable select HashFunction(id) from sourceTable;

在Web UI中可以成功看到stdout信息：

0.7.3版本的dinky的UDF功能对于Flink1.16.0以上版本还不支持，因为从Flink1.16开始引入了用户类加载器，需要使用用户类加载器。未来版本0.8.0已经支持Flink1.16以上版本（详见：https://github.com/DataLinkDC/dinky/pull/1581）

6.用户管理

创建用户

在【认证中心】—【用户管理】中新建用户：

默认密码为123456

用户新建完成后需要绑定租户，否则登录会报错：

在【租户管理】中将用户分配到相应的租户中：

然后用户就可以登录了

登录成功后无法打开【认证中心】界面：

这是因为只有admin用户才能够进入【认证中心】界面，但该用户使用其他界面不受影响

当前版本（0.7.3）的dinky暂不支持【角色数据权限】和【命名空间管理】：

修改密码

如果忘记之前的密码，可以直接修改MySQL中的dlink_user表，密码是md5加密存储，直接用md5(新密码)的值，修改表里密码字段的值

7.报警管理

在0.6版本以后，用户可以创建报警实例及报警组，监控 FlinkSQL 作业；

一个报警组可以使用多个报警实例，用户就可以进一步收到报警通知；收到的报警通知类型如下：

unknown
stop
cancel
finished

目前Dinky支持的报警插件有：

钉钉告警 : WebHook
企业微信告警 : 包含应用+群聊
飞书告警 : WebHook
邮箱告警 : 通过邮件发送报警通知

邮箱告警实例

首先需要准备两个邮箱，一个邮箱用来发送告警信息，另一个用来接收信息；

1.开启POP3/SMTP服务

用于发送告警信息的邮箱需要POP3/SMTP服务，我这里使用的是网易邮箱：

开启成功后会出现一个授权码，一定要保存下来，后面要用；

2.新建报警实例

在【注册中心】—【报警管理】中新建报警实例：

填写基本信息：

邮件服务器地址如下：

POP3服务器: pop.163.com

端口号：110

SMTP服务器: smtp.163.com

端口号：25

IMAP服务器: imap.163.com

端口号：143

这里我是用的是SMTP服务器，端口号为25（这里的"收件人"其实应该填写端口号，placeholder有提示的）

开启邮箱验证：

这里的邮箱即为发送告警信息的邮箱，密码为上面开通POP3/STMP服务提供的设备授权码

展示方式根据个人喜好填写即可

然后点击测试，会向收件人邮箱发送一封邮件内容如下：

测试通过后保存即可

3.新建报警组

报警实例需要添加到报警组中才可生效；

4.作业配置指定报警组

在【数据开发】—【作业配置】中选择告警组：

保存后点击【发布】：

发布后点击【上线】（上线后告警才能生效）：

在【运维中心】中可以看到作业已经上线：

此时取消作业，会在邮箱中收到告警信息：

同时也可以在【运维中心】—【告警记录】中查看告警记录：

未完待续~

学习内容参考：尚硅谷大数据技术之Dinky（尚硅谷&Dinky官方联合推出）_哔哩哔哩_bilibili

内容资料下载（尚硅谷官方网盘）：百度网盘请输入提取码

jar包搜索下载：Maven Repository: Search/Browse/Explore (mvnrepository.com)

pdf版本笔记下载：dinky（0.7.3）学习笔记资源-CSDN文库

你可能感兴趣的:(Flink,大数据,Dinky,学习,笔记,flink,sql,大数据,数据库)

doris:查询缓存向阳1218 大数据 doris
概念介绍SQLCache是Doris提供的一种查询优化机制，可以显著提升查询性能。它通过缓存查询结果来减少重复计算，适用于数据更新频率较低的场景。SQLCache基于以下关键因素来存储和获取缓存：SQL文本视图定义表和分区的版本用户变量和结果值非确定函数和结果值行策略定义数据脱敏定义以上因素的组合唯一确定一个缓存数据集。如果其中任何一个发生变化，例如SQL变化、查询字段或条件不同或者数据更新后版本
JVM调优-学习篇 m0_74825172 面试学习路线阿里巴巴 jvm 学习
概述公司的江南白衣写了一篇关键业务系统的JVM参数推荐(2016热冬版)的文章,大牛的文章总是需要细细品读。这篇文章介绍大量的JVM调优参数,内容也比较多,本文只是列出我自己能理解的一些参数,暂时理解不了的参数就只能等以后自己实力到家了,再慢慢补充上来。性能调优参数-XX:AutoBoxCacheMaxJAVA进程启动的时候,会加载rt.jar这个核心包的,rt.jar包里的Integer自然也是
【python学习】深度解析 Python 的 .env配置与最佳实践：温格高的环境变量配置之道 NLP仙人 python python 学习开发语言人工智能
1.文章简介在开发和部署Python项目时，环境变量配置对于管理敏感信息如数据库连接字符串、API密钥至关重要。本文将以温格高（2023年环法冠军）的项目为例，详细介绍如何通过.env文件简化环境配置，并分享多环境管理、Docker集成等热门功能。我们还将覆盖一些小技巧和常见错误，帮助你避免开发中的踩坑。2.使用.env文件的好处温格高团队正在开发一个记录自行车赛事的应用，涉及多个开发环境和敏感信
spiking neural network概念学习 Zaгathustra 科研工作深度学习神经网络机器学习
我们认为，SNNs最大的优势在于其能够充分利用基于时空事件的信息。今天，我们有相当成熟的神经形态传感器，来记录环境实时的动态改变。这些动态感官数据可以与SNNs的时间处理能力相结合，以实现超低能耗的计算。在此类传感器中使用SNNs主要受限于缺乏适当的训练算法，从而可以有效地利用尖峰神经元的时间信息。实际上就精度而言，在大多数学习任务中SNNs的效果仍落后于第二代的深度学习。很明显，尖峰神经元可以实
网络安全入门信息收集与漏洞扫描（二）挣扎与觉醒中的技术人网络安全入门及实战 web安全网络安全 c++程序人生
主动信息收集1Nmap扫描端口与服务（1）Nmap是什么？定义：网络探测工具，用于扫描开放端口、识别服务及操作系统。典型用途：发现目标存活主机（ping扫描）。识别开放端口和运行的服务（如SSH、HTTP、数据库）。探测操作系统类型（Windows/Linux）。（2）基础扫描命令快速扫描常用端口：nmap-sV-T4192.168.1.100#-sV探测服务版本，-T4加速扫描示例输出：PORT
C++学习指南月眠老师 c++java 算法
一、引言C++是一种功能强大的高级编程语言，它融合了面向过程编程和面向对象编程的特性。由于其效率高、可移植性强等优点，广泛应用于系统开发、游戏编程、嵌入式系统等诸多领域。对于想要深入学习C++的人来说，需要全面掌握其语法、编程范式、数据结构、算法以及相关的开发工具等多方面的知识。二、C++基础语法（一）基本数据类型整型（Integer）在C++中有多种整型类型，如int（通常为32位有符号整数）、
第二章：13.1 机器学习的迭代发展望云山190 机器学习人工智能
目录机器学习模型开发流程构建电子邮件垃圾邮件分类器示例总结垃圾邮件分类示例构建垃圾邮件分类器机器学习模型开发流程确定系统架构：首先，需要决定机器学习系统的总体架构，这包括选择合适的模型、确定使用的数据集、可能还包括选择超参数等。实现和训练模型：根据上述决定，实现并训练一个模型。通常，第一次训练的模型不会立即达到预期的效果。诊断和调整：对模型进行诊断，查看算法的偏差、方差或进行错误分析。根据诊断结果
阅读笔记：x86系统调用入门 yayong Solaris x86 solaris system preprocessor makefile wrapper
阅读笔记：x86系统调用入门原作者:RussBlaine原文来自:http://blogs.sun.com/roller/page/rab译注者:BadcoffeeEmail:[email protected]:http://blog.csdn.net/yayong2005年7月按：要开始学习像操作系统这样复杂的东东是一个令人头痛的问题。为了帮助新学者理清头绪，这里我们将讨论Sol
深度学习（1)-简单神经网络示例 yyc_audio 深度学习人工智能
我们来看一个神经网络的具体实例：使用Python的Keras库来学习手写数字分类。在这个例子中，我们要解决的问题是，将手写数字的灰度图像（28像素×28像素）划分到10个类别中（从0到9）。我们将使用MNIST数据集，图2-1给出了MNIST数据集的一些样本。在机器学习中，分类问题中的某个类别叫作类（class），数据点叫作样本（sample），与某个样本对应的类叫作标签（label）。你不需要现
DeepSeek 如何获取数据库中的表信息（表名和字段名称） Python测试之道数据库 python
问题背景在测试或开发过程中，了解数据库的表结构（包括表名和字段名称）是非常重要的一环，尤其是当我们需要测试数据库相关的功能或验证数据时。然而，手动查看数据库结构可能耗时且容易出错。如果能够通过DeepSeek与数据库直接交互，自动获取表名和字段信息，将大大提升测试效率。本文将介绍如何利用DeepSeek模型结合数据库查询，自动生成表结构信息（包括表名和字段名称）。此外，还会展示如何通过自然语言描述
spring boot整合kettle调用数据库资源库中的job 机智的小小岳 kettle
前言上篇文章记录了springboot如何调用文件资源库下的job，这篇文章会记录如何调用数据库资源库的job1.导入jar包在调用文件路径下的job需要导入如下jar包而调用数据库资源库的job需要多导入2个jar包否则会报http错误，jar包如下2.运行代码代码如下：@TestpublicvoidexcuteDBTrans()throwsKettleException{//初始环境EnvUt
python创建sqlite3数据库_SQLite – Python | 菜鸟教程 weixin_39683144
SQLite-Python安装SQLite3可使用sqlite3模块与Python进行集成。sqlite3模块是由GerhardHaring编写的。它提供了一个与PEP249描述的DB-API2.0规范兼容的SQL接口。您不需要单独安装该模块，因为Python2.5.x以上版本默认自带了该模块。为了使用sqlite3模块，您首先必须创建一个表示数据库的连接对象，然后您可以有选择地创建光标对象，这将
宋红康 MySQL高级篇学习笔记偷偷儿 mysql 学习笔记
架构篇1.sql的执行流程查询缓存：有就直接返回了。解析器进行解析：检查sql合不合语法优化器：对sql语句进行逻辑优化，看是否使用索引，生成执行计划。存贮引擎：myisam,innodb去执行上述计划当然返回的时候也会在缓存一下结果。索引及调优篇1.InnoDBB+树索引的注意事项（页分裂的场景）1.根页面万年不动（页分裂）：创建后，用户数据用完可用空间，就会新产生一个页a，并将根节点的数据复制
大厂学院雷丰阳 JUC 学习笔记偷偷儿学习笔记 java
基础篇synchronized和lock的区别1.从本质上：synchronized是Java内的一个关键字，lock是一个接口。2.从代码的形式上：synchronized在发生异常时会主动释放锁，lock需要我们在finally语句中释放，不然会死锁；通过lock可以知道锁有没有获取成功，synchronied不行3.从性能上：在1.6前没提出锁升级过程时，重量级锁在被系统检测到后会阻塞尝试获
linux下使用mysql(上) It塔塔开 linux mysql 运维
1、安装mysqlaptsearchmysql-server...#查询结果mysql-server-8.0/focal-security,focal-updates8.0.41-0ubuntu0.20.04.1amd64MySQLdatabaseserverbinariesandsystemdatabasesetup...aptinstallmysql-server-8.0...2、连接数据库m
【MySQL】常见数据类型 web13688565871 面试学习路线阿里巴巴 mysql 数据库
MySQL常见数据类型1.整数类型2.浮点数类型3.定点数类型4.bit类型5.字符串类型5.1char和varchar类型5.2日期类型和时间类型5.3enum和set类型1.整数类型整数类型默认都是有符号整数类型名称字节数类型说明tinyint1带符号的范围-128127，无符号范围0255smallint2带符号的范围-2^15~2^15-1，无符号2^16-1mediumint3带符号的范
Flink 安装阿里云docker compose部署及相关组件 vellerzheng 部署运维 flink docker 大数据
Flink安装脚本文件version:"2.2"services:jobmanager:image:flink:1.15.2-java11expose:-"6123"ports:-"8081:8081"command:jobmanagervolumes:-/home:/homeenvironment:-JOB_MANAGER_RPC_ADDRESS=jobmanagerprivileged:tru
简化版奇异值分解（SVD）方法详解 DuHz 数理统计学知识机器学习人工智能算法信息与通信信号处理
简化版奇异值分解（SVD）方法详解奇异值分解（SVD）是一个强大的矩阵分解工具，广泛应用于数据降维、图像压缩、机器学习等领域。然而，对于大规模数据或高维矩阵，计算和存储的开销非常大，因此提出了多种简化版的SVD方法。这些简化版方法在保证解的精度的同时，能够显著减少计算量和内存占用。本文将详细介绍几种简化版SVD方法，包括经济型SVD、随机化SVD、增量SVD、分块SVD和偏最小二乘法（PLS），并
Python爬虫——网站基本信息 IT·小灰灰 python 爬虫开发语言网络
在智能时代，数据是新的石油。Python爬虫技术赋予了我们成为数据猎人的能力，让我们能够在网络的广袤土地上狩猎，为机器学习和人工智能的发展提供燃料目录一、介绍——Python二、介绍——Python爬虫1.请求库2.解析库3.数据存储4.多线程/多进程5.异步编程6.代理和反爬虫7.爬虫框架8.爬虫的法律和道德问题9.异常处理10.日志记录三、爬虫示例代码一、介绍——PythonPython是一种
使用Wiki.js配置LDAP认证的编程学习飘逸徜徉在自由的云端 javascript 学习前端编程学习
在本文中，我们将探讨如何使用Wiki.js配置LDAP认证。LDAP（轻量级目录访问协议）是一种常用的用于身份验证和授权的协议，它可以让我们将用户凭据存储在中央目录服务器上，以便在不同的应用程序中进行身份验证。Wiki.js是一款功能强大的开源知识管理和文档协作平台，它提供了许多扩展功能，其中之一就是支持LDAP认证。通过配置LDAP认证，我们可以让用户使用他们在LDAP服务器上的凭据登录Wiki
利用VBA+SQL查询Excel工作表数据（模糊查询） VBAMatrix VBA代码 sql excel 数据库
续前2篇：1.利用VBA+SQL查询Excel工作表数据（基本查询）2.利用VBA+SQL查询Excel工作表数据（条件查询）本文将继续使用VBA+SQL查询的模板，并详细介绍SQL模糊查询语句在VBA中的使用。VBA+SQL查询的模板题[员工花名册$A1:I65536]SQL模糊查询的关键词是like、notlike，通常结合通配符使用，从而实现模糊查询的功能。通配符见下表：通配符含义%匹配一个
使用Docker搭建Flink集群 O_1CxH Flink大数据 Kafka大数据 docker flink 容器
目录使用Docker搭建Flink集群docker-compose一键搭建步骤附录参考资料使用Docker搭建Flink集群在学习大数据框架的时候，需要一个真实的环境。我们知道，像spark、flink这些计算框架都有多种运行模式：在本地使用多线程模拟集群真正的分布式集群如果直接在IDE（Intellj）里面编译和运行写好的程序，实际上是用的前一种运行模式；如果想尝试真正的生产环境中任务的提交和管
Java 核心与应用：Java 输入输出流概述星核日记《Java 核心与应用》java 开发语言
目录Java核心与应用：Java输入输出流概述主题：Java核心与应用：引言学习目标1.Java输入输出流基础1.1输入输出流的概念1.1.1流的分类1.1.2常用输入输出流接口1.2输入输出流的接口继承图1.3常用输入输出流接口的方法1.3.1`InputStream`常用方法1.3.2`OutputStream`常用方法1.4装饰器模式在IO体系中的应用1.4.1装饰器模式示例1.4.2装饰器
mybatis-plus逆向code generator pgsql实践松树戈工具使用 mybatis springboot
mybatis-plus逆向codegeneratorpgsql实践环境准备重要工具的版本供参考pom依赖待逆向的SQL配置文件CodeGenerator配置类配置类说明环境准备重要工具的版本jdk1.8.0_131springboot2.7.6mybatis-plus3.5.7pgsql14.15供参考pom依赖4.0.0com.tghparent-demo0.0.1-SNAPSHOTparen
Python 自动排班表格（代码分享）趣享先生 Python案例分享专栏 python 开发语言
✅作者简介：2022年博客新星第八。热爱国学的Java后端开发者，修心和技术同步精进。个人主页：JavaFans的博客个人信条：不迁怒，不贰过。小知识，大智慧。当前专栏：Java案例分享专栏✨特色专栏：国学周更-心性养成之路本文内容：Python自动排班表格（代码分享）前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。文章目录前言问题描述解决步骤1
学习STM32的理由 zzxyd_qiao stm32 物联网
为什么要写这篇文章呢？这是一篇关于嵌入式入门的文章，因为我在进入嵌入式这个领域之前，也是遇到过非常多非常多的困难，所以呢，希望写下这篇文章，让大家看看少走弯路。首先，我打算先列举一下大家问得最多的几个问题，然后我们一起由问题切入进行一些讨论。问题1：我是学单片机好还是直接学STM32好？？？问题2：STM32如何才能快速入门？问题3：为什么是STM32呢？为什么不是ARM9，ARM11呢？下面我将
docker 安装mysql hunter199010 docker 容器运维
1、下载镜像我这里下载的是mysql5.7.82、创建MySQL专用目录mkdir/data/mysql1cd/data/mysql1mkdirconfmkdirdatamkdirlog下面这个是我的启动命令sudodockerrun-d-p3306:3306--restart=always-v/data/mysql1/log:/var/log/mysql-v/data/mysql1/data:/
理论一、大模型—概念伯牙碎琴大模型自然语言处理 ai
一、总述大模型通常指的是参数规模庞大、训练难度较高的人工智能模型。随着深度学习技术的发展，研究人员和企业越来越倾向于构建更大的模型，以提高模型的性能和泛化能力。这些大模型往往需要大量的数据和计算资源来训练，并且在实际应用中通常表现出色。大模型全称是大型语言模型（LLM，LargeLanguageModel），这个“大”主要指模型结构容量大，结构中的参数多，用于预训练大模型的数据量大。一个大模型可以
Python：第三方库衍生星球 python 第三方库
1.第三方Python库库名用途pip安装指令NumPy矩阵运算pipinstallnumpyMatplotlib产品级2D图形绘制pipinstallmatplotlibPIL图像处理pipinstallpillowsklearn机器学习和数据挖掘pipinstallsklearnRequestsHTTP协议访问pipinstallrequestsJieba中文分词pipinstalljieba
python如何将数据生成excel_Python如何将数据导出excel的技巧分享 weixin_39528697
本篇文章主要介绍了python技能之导出excel的实例代码，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧本文介绍了python技能之导出excel的实例代码，正好能用到，写出来分享给大家作为一个数据分析师，下面的需求是经常会遇到的。从数据库或者现有的文本文件中提取符合要求的数据，做一个二次处理，处理完成后的数据最终存储到excel表格中供其他部门的人继续二次分析。在
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f