中国好人1

flink sql 指南

说明

flink sql 相关知识整理。

表声明语句

flink 可以通过ddl语句声明一个表。表的声明在flink中分为2个部分：connector和format。
connector复杂读写数据（对接外部存储系统），format 负责解析数据。

通过如下方式可以声明一个表：

create table tablename(
   field1 field_type
) with (
   'key' = 'value'
)

数据类型

STRING 
BOOLEAN 	 
BYTES 	BINARY and VARBINARY are not supported yet.
DECIMAL 	Supports fixed precision and scale.
TINYINT 	 
SMALLINT 	 
INTEGER 	 
BIGINT 	 
FLOAT 	 
DOUBLE 	 
DATE 	 
TIME 	Supports only a precision of 0.
TIMESTAMP 	Supports only a precision of 3.
TIMESTAMP WITH LOCAL TIME ZONE 	Supports only a precision of 3.
INTERVAL 	Supports only interval of MONTH and SECOND(3).
ARRAY 	 
MULTISET 	 
MAP 	 
ROW 	 
ANY

string 和 varchar 等价。

复制类型：

-- 定义数组类型
arr array

-- 定义map类型
`map` map

-- 定义嵌套类型
obj row<
  id string,
  name string
  address row<
    city string,
    number int
  >
>

连接器

jdbc 连接器

建表sql语句如下：

create table dim (
  dim varchar ,
  channel_eight_role_code varchar ,
  channel_source_code varchar,
  CHANNEL_INFO_ID varchar
) with(
  -- 声明连接器类型。flink会通过spi找到连接器，并且进行参数匹配
  'connector.type' = 'jdbc',
  
  -- jdbc的url
  'connector.url' = 'jdbc:mysql://10.25.76.173:3310/ogg_syncer?useUnicode=true&characterEncoding=UTF-8&useSSL=false',
  
  -- 表名称
  'connector.table' = 'epcis_epcisbase_channel_info',
  
  -- 驱动类型
  'connector.driver' = 'com.mysql.jdbc.Driver',
  
  -- 用过名和密码
  'connector.username' = 'root',
  'connector.password' = 'root',

  -- jdbc作为维表的时候，缓存时间。cache默认未开启。
  'connector.lookup.cache.ttl' = '60s',
  
  --  jdbc作为维表的时候，缓存的最大行数。cache默认未开启。
  'connector.lookup.cache.max-rows' = '100000',
  
  -- jdbc作为维表的时候，如果查询失败，最大查询次数
  'connector.lookup.max-retries' = '3',
  
  -- jdbc写入缓存的最大行数。默认值5000
  'connector.write.flush.max-rows' = '5000',
  
  -- jdbc 写入缓存flush时间间隔。默认为0，立即写入
  'connector.write.flush.interval' = '2s',
  
  -- 写入失败，最大重试次数
  'connector.write.max-retries' = '3' 
);

说明：

lookup必须同时设置ttl和max-rows两个参数。
jdbc sink 返回的是UpsertStreamSink。

jdbc连接器只支持append/upsert模式，在有些情况下可能无法使用。paic-jdbc基于官方的jdbc开发，
注意添加了如下功能：

添加参数connector.read.sub-query，设置查询jdbc的子查询，如果维度需要自动更新并且需要进行去重
等操作，去重的sql语句放在connector.read.sub-query中。
支持retract模式，设置update-mode为retract，将返回retract sink。

hbase 连接器

实例：

CREATE TABLE MyUserTable (
  hbase_rowkey_name rowkey_type,
  hbase_column_family_name1 ROW<...>,
  hbase_column_family_name2 ROW<...>
) WITH (
  'connector.type' = 'hbase',
  'connector.version' = '1.4.3',
  
  -- hbase 表名称
  'connector.table-name' = 'hbase_table_name',  -- required: hbase table name
  
  -- zk地址
  'connector.zookeeper.quorum' = 'localhost:2181',
  -- zk 根节点
  'connector.zookeeper.znode.parent' = '/base', 

  -- buffer 缓存大小。默认 2mb。
  'connector.write.buffer-flush.max-size' = '10mb', 
  
  -- 缓冲的最大记录数，无默认值
  'connector.write.buffer-flush.max-rows' = '1000',
                                                   
  -- flush 时间间隔，默认为0，表示理解刷新到hbase，无缓冲。                                                  
  'connector.write.buffer-flush.interval' = '2s'
)

说明在定义hbase的schema中，唯一的非row类型的字段，会被当做rowkey处理。
一个完整的实例如下：

-- cf 为列族名称， row里面的是列名称
create table hbase_sink(
  rowkey varchar,
  cf row
) with(
   'connector.type' = 'hbase',
   'connector.version' = '1.4.3',
   'connector.zookeeper.quorum' = '10.25.76.175:2181,10.25.76.173:2181',
   'connector.zookeeper.znode.parent' = '/hbase',
   'connector.table-name' = 'xuen',
   'connector.write.buffer-flush.interval' = '1s'
);

-- row() 用于创建一个row，按位置对应。
insert into hbase_sink select rowkey, row(a1, a2) from kfk_source;

paic-hbase 基于官方的hbase开发，提供如下功能：

支持retract模式，设置update-mode为retract，将返回retract sink。
添加参数connector.write.null，表示是否写入null值。如果为false，值为null的列将不写入hbase，默认为true

kafka连接器



CREATE TABLE MyUserTable (
  ...
) WITH (
  'connector.type' = 'kafka',       
  'connector.version' = 'universal', 

  -- topic名称
  'connector.topic' = 'topic_name',
  
  -- 固定值。必须有
  'update-mode' = 'append',  
  
  -- 设置kafka集群地址
  'connector.properties.0.key' = 'bootstrap.servers',
  'connector.properties.0.value' = 'localhost:9092',
  
  -- 设置group id 
  'connector.properties.1.key' = 'group.id',
  'connector.properties.1.value' = 'testGroup',
  
  -- 设置启动模式。如果指定了checkpoint，将从checkpoint读取offset
  -- earliest-offset 最早的offset
  -- latest-offset 最近的offset
  -- group-offsets group 的offset
  -- specific-offsets 指定的offset 
  'connector.startup-mode' = 'earliest-offset',

  -- 指定的offset。
  'connector.specific-offsets.0.partition' = '0',
  'connector.specific-offsets.0.offset' = '42',
  'connector.specific-offsets.1.partition' = '1',
  'connector.specific-offsets.1.offset' = '300',

  -- sink分区器。默认是
  'connector.sink-partitioner' = '...',
  
  -- 指定分区器的类。
  'connector.sink-partitioner-class' = 'org.mycompany.MyPartitioner'
)

paic-kafka基于官方的kafka开发，添加的功能如下：

返回的sink为retract sink。

es 连接器



CREATE TABLE MyUserTable (
  ...
) WITH (
  'connector.type' = 'elasticsearch', 
  'connector.version' = '6',       
  
  -- 定义host/端口/协议类型
  'connector.hosts.0.hostname' = 'host_name', 
  'connector.hosts.0.port' = '9092',
  'connector.hosts.0.protocol' = 'http',

  -- 索引名称
  'connector.index' = 'MyUsers',
  
  -- es doc-type
  'connector.document-type' = 'user', 
  
  -- update mode。append 将只有insert操作。
  'update-mode' = 'append',

  -- 生成文档id的连接符
  'connector.key-delimiter' = '$',

  -- key null值占位符，默认null
  'connector.key-null-literal' = 'n/a', 

  -- 错误处理handler
  'connector.failure-handler' = '...',  

  -- optional: configure how to buffer elements before sending them in bulk to the cluster for efficiency
  'connector.flush-on-checkpoint' = 'true',   -- optional: disables flushing on checkpoint (see notes below!)
                                              -- ("true" by default)
  -- 每个each bulk request的最大操作数量                                      
  'connector.bulk-flush.max-actions' = '42', 
  
  -- 缓冲区大小。only MB granularity is supported
  'connector.bulk-flush.max-size' = '42 mb', 
  
  -- flush 频率
  'connector.bulk-flush.interval' = '60000',
  
  -- bulk 重试方式
  -- optional: backoff strategy ("disabled" by default)
  -- valid strategies are "disabled", "constant",
  -- or "exponential"  
  'connector.bulk-flush.back-off.type' = '...',     
  
  -- 最大重试次数
  'connector.bulk-flush.back-off.max-retries' = '3', 
  
  -- 重试间隔时间
  'connector.bulk-flush.back-off.delay' = '30000',   

  -- optional: connection properties to be used during REST communication to Elasticsearch
  -- optional: maximum timeout (in milliseconds)
  -- between retries
  'connector.connection-max-retry-timeout' = '3',    
  
   -- optional: prefix string to be added to every
   -- REST communication
  'connector.connection-path-prefix' = '/v1'        
)

update-mode=append， es将使用es自动生成的文档ID，也就是只有insert操作。
update-mode=upsert，将使用group-by的字段值作为文档ID进行put操作。

format

目前官方提供的连接器中，只有kafka是需要format的。
这里介绍json format。



CREATE TABLE MyUserTable (
  ...
) WITH (
  'format.type' = 'json',
  
  -- optional: flag whether to fail if a field is missing or not, false by default             
  'format.fail-on-missing-field' = 'true',

  -- required: define the schema either by using a type string which parses numbers to corresponding types
  'format.fields.0.name' = 'lon',           
  'format.fields.0.type' = 'FLOAT',
  'format.fields.1.name' = 'rideTime',
  'format.fields.1.type' = 'TIMESTAMP',

  -- or by using a JSON schema which parses to DECIMAL and TIMESTAMP
  'format.json-schema' =                   
    '{
      "type": "object",
      "properties": {
        "lon": {
          "type": "number"
        },
        "rideTime": {
          "type": "string",
          "format": "date-time"
        }
      }
    }',

  --  use the table's schema
  'format.derive-schema' = 'true' 
)

通常使用’format.derive-schema’ = ‘true’, 不在with中单独定义schema。

flink-json的time attr只支持utc类型的timestamp，这可不太好用。平台开发了新的json格式，使用如下：

  'format.type' = 'text',
  'format.udf' = 'com.paic.bentley.flink.sql.format.udf.JSONForNestedUdf',
  'format.derive-schema' = 'true',

增加功能如下：

json解析失败不会导致任务结束，会返回一个null的row
嵌套的json 定义为string，会将这个嵌套对象进行序列化，返回string。方便使用paic_explode_map进行展开，以规避udf
无法处理嵌套类型的问题。
支持多种类型的time attr
数字类型的毫秒时间戳
utc时间
cst时间
yyyy-[m]m-[d]d hh:mm:ss[.f…] 格式的时间
flink 无法定义array类型，请定义为map来规避此问题。

flink sink 更新模式

append 模式

没有聚合操作或者有状态的操作，可以使用append模式。历史消息不会更新，只有追加的操作

upsert 模式

需要有group by操作或者append only 为false才可使用。group by 的字段值就是flink更新状态的unique key。
upsert 模式的消息是一个truple: (Boolean, Row)。

append 消息： (true, Row)
delete 消息：(false, Row)，表示删除消息
upsert 消息：(true, Row)，表现已经存在的的唯一key的状态发生了变更。

retract

retract 是通用的类型，任务情况下都可以使用。retract也会group by 的字段值就是flink更新状态的unique key。
retract 模式的消息是一个truple: (Boolean, Row)

append 消息： (true, Row)
delete 消息：(false, Row)，表示删除消息
update 消息：(false, Row)：表示删除这个key，row的值是之前的状态；(false, Row)表示插入这个key，row的值是现在状态

3中模式的使用

一个查询语句需要insert到sink中的时候，flink 会进行更新模式的教程。主要是判断查询sql 是否有如下状态：

appendOnly的是。如果sql查询不包含有状态操作，没有group by，appendOnly=true。
是否有unique key，通常就是group by的字段。

如果appendOnly为true: 可以使用append，upsert模式
如果有unique key, 可以使用upsert模式。
retract模式，无显著条件。

需要注意的使用 upsert模式中，group 的字段必须出现在select中，否则会报错。如例子：

-- word 必须出现在select中。
select word, count(*) from t group by word

flink sql 时间属性（time attr）

在flink 中使用group window 必须定义时间字段。
目前时间字段值能定义在table定义中，查询语句是无法定义时间属性的

定义process time

schema.位置，表示引用字段定义的schema。位置从上到下，从0开始。
schema.0，表示第一个字段。

create table t(
    ts timestamp
) with(
  -- 表示此字段为进程处理时间。flink会自动填充值。
  'schema.0.proctime' = 'true'
)

定义 event time

create table t1(
  ts timestamp
) with (

  -- 声明字段来源
  'schema.2.from' = 'ts',
  
  -- 声明时间来源于字段
  'schema.2.rowtime.timestamps.type' = 'from-field',
  
  -- 字段名称
  'schema.2.rowtime.timestamps.from' = 'ts',

  -- 定义watermark 类型，periodic-bounded表示周期行生成边界
  'schema.2.rowtime.watermarks.type' = 'periodic-bounded',
  
  -- watermark 最大延迟时间。
  'schema.2.rowtime.watermarks.delay' = '60000'
);

group window 函数

group window操作和返回的字段类型，都必须是timestamp类型。

窗口函数，下面这些函数必须出现在group by中，表示按窗口聚合：

函数	说明
TUMBLE(time_attr, interval)	滚动窗口
HOP(time_attr, interval, interval)	滑动窗口
SESSION(time_attr, interval)	session窗口

获取窗口的开始时间（包含）：

TUMBLE_START(time_attr, interval)  
HOP_START(time_attr, interval, interval)  
SESSION_START(time_attr, interval)

获取窗口结束时间（不包含）：

TUMBLE_END(time_attr, interval)
HOP_END(time_attr, interval, interval)
SESSION_END(time_attr, interval)

在group by 中使用了窗口函数，select 必须出现一个START/END函数，这个group by的字段
必须出现在select中是同一个道理，如下实例：

insert into yp_audit_stats_um
  select
    TUMBLE_START(execTime, INTERVAL '1' day) as dt,
    count(distinct userUM) as um_num,
    'day' as dim
  from um_log
    group by TUMBLE(execTime, INTERVAL '1' day);

级联窗口

Rowtime列在经过窗口操作后，其Event Time属性将丢失。您可以使用辅助函数TUMBLE_ROWTIME、HOP_ROWTIME或SESSION_ROWTIME
获取窗口中的Rowtime列的最大值max(rowtime)作为时、间窗口的Rowtime，其类型是具有Rowtime属性的TIMESTAMP，取值为 window_end - 1

SELECT 
  -- 使用TUMBLE_ROWTIME作为二级Window的聚合时间
  TUMBLE_ROWTIME(ts, INTERVAL '1' MINUTE) as rowtime,  
  username, 
  COUNT(click_url) as cnt
FROM user_clicks
GROUP BY TUMBLE(ts, INTERVAL '1' MINUTE), username;

-- 时间窗口二次聚合。
INSERT INTO tumble_output
SELECT
  TUMBLE_START(rowtime, INTERVAL '1' HOUR),
  TUMBLE_END(rowtime, INTERVAL '1' HOUR),
  username,
  SUM(cnt)
FROM one_minute_window_output
GROUP BY TUMBLE(rowtime, INTERVAL '1' HOUR), username

TUMBLE_PROCTIME(time_attr, interval)
HOP_PROCTIME(time_attr, interval, interval)
SESSION_PROCTIME(time_attr, interval) 这3个函数是针对的proctime的。和上面的功能一样。

watermark

schema.#.rowtime.watermarks.type 定义水印类型，有如下3中：

periodic-ascending：事件的最大时间戳 -1 ,基本相当于无延迟
periodic-bounded ，需要设置最大延迟时间delay，水印的大小为最大时间戳 - delay
from-source 保留源中的水印。

默认情况下，watermark到达窗口结束后，完成聚合操作，只会执行1次，相关于如果定义了1天的时间窗口，1天之后才
能看下结果。这个时候如果需要实时看到结果，需要定义触发器

watermark到达窗口结束前的发射策略是否开启：table.exec.emit.early-fire.enabled，默认false
table.exec.emit.early-fire.delay，窗口结束前的发射间隔，单位毫秒。=0，无间隔，>0 间隔时间，<0 非法值。无默认值

watermark到达窗口结束后的发射策略是否开启 table.exec.emit.late-fire.enabled，默认fasle
table.exec.emit.late-fire.delay，设置间隔时间

设置实例：

-- set 是平台的功能，非flnik本身的。
set table.exec.emit.early-fire.enabled = true;
set table.exec.emit.early-fire.delay = 1.s;

时间单位

  private[this] val timeUnitLabels = List(
    DAYS         -> "d day",
    HOURS        -> "h hour",
    MINUTES      -> "min minute",
    SECONDS      -> "s sec second",
    MILLISECONDS -> "ms milli millisecond",
    MICROSECONDS -> "µs micro microsecond",
    NANOSECONDS  -> "ns nano nanosecond"
  )

注意事项

time attr 使用 group window的时候不能使用函数。

TUMBLE_START(fun(timestamp), INTERVAL ‘1’ hour);
timestamp 失去了时间属性，不能使用TUMBLE

fun(TUMBLE_START(timestamp, INTERVAL ‘1’ hour))
fun后，失去了时间属性，和group by字段不能匹配，会判定为主键不完整

flink 维表自动更新

flink 目前使用了look up的方式来自动更新维表，目前只是blink planer支持。

维表的字段更新目前只有jdbc，使用维表的自动更新，需要指定connector.lookup.cache.ttl，和connector.lookup.cache.max-rows2个参数。

hbase也支持维表自动更新，但是没有使用缓存，每次都会查询hbase。

如果使用维表自动更新

流水表需要定义一个proctime字段：

create table t(
    ts timestamp
) with(
  -- 表示此字段为进程处理时间。flink会自动填充值。
  'schema.0.proctime' = 'true'
)

维表正常定义，定义好lookup相关参数，不需要定义时间参数，在join维表使用如下语法：

select a.id from a 
left join diw FOR SYSTEM_TIME AS OF a.ts b  on agr.id = b.id

join的表名称后面跟：FOR SYSTEM_TIME AS OF a.ts 加表别名称。

维表自动更新的原理

jdbc的JDBCLookupFunction 就是继承了TableFunction。
JDBCTableSource会继承LookupableTableSource，source的getLookupFunction会返回JDBCLookupFunction
blink planer 碰见FOR SYSTEM_TIME AS OF a.ts，会调用getLookupFunction，这是一个表函数，会返回多行。

JDBCLookupFunction 在创建的时候，会创建一个guava cache：private transient Cache cache;
过期时间为ttl设置的值，最大大小为max-rows设置的值。这个cache的key其实是join的全部字段的值，value的值是对应join
字段的值在jdbc中的全部记录。

在eval方法中，传递进来join字段的值，判断cache中是否存在这个记录，如果存在返回。
如果不存在，在jdbc中查找指定join字段值的记录（不会查询全部）, 保存到缓存中，返回。

说明

如果jdbc维表使用了distinct等有状态操作，是无法使用 FOR SYSTEM_TIME AS 语法的，解析会报错。
在paic-jdbc的封装中，可以用connector.read.sub-query参数，传递一个字查询，在这个子查询中使用
distinct语法，在实现中这个配置做为子查询：

return "SELECT " + selectExpressions + " FROM (" + subQuery + ") " +
	quoteIdentifier(tableName) + (conditionFields.length > 0 ? " WHERE " + fieldExpressions : "");

使用方式如下：

create table dw_dim_department_source(
) with(
  'connector.read.sub-query' =
    'select
      distinct department_code,
      sec_department_code,
      third_department_code,
      fourth_department_code
    from
      dw_dim_department'

);

flink 1.9.1 问题和bug

bug

无法定义 array类型的数据。sql解析失败
cast(a as string)，会报错，只能使用varchar
decimal类型在sink和source中，会报类型不匹配的错误。

需要注意的的地方

flink udf 无法支持嵌套数据类型（row类型）
flink sql 区分大小写
flink 不会进行自动类型转换。‘1’ * 0.1，会报错，请使用cast强制类型转换。
row()生产一个嵌套类型, 只支持写字段名称。写函数，或者加库名称都是不行的
map类型的访问，目前只支持： map['filed'] 这种方式。
数组的下标是从1开始，：riskGroupInfoList[1]
insert into 不支持部分字段。
如果自己定义了factroy ，flink lib 目录下也有factory，java 包需要放到 flink/lib 目录下，否则无法加载自定义的factory。
flink kakfa 0.11以上版本和其他版本存在冲突，只能引入一个。

自定义sink/source/factory

以后再补充

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
全面指南：用户行为从前端数据采集到实时处理的最佳实践数字沉思营销流量运营系统架构前端内容运营大数据
引言在当今的数据驱动世界，实时数据采集和处理已经成为企业做出及时决策的重要手段。本文将详细介绍如何通过前端JavaScript代码采集用户行为数据、利用API和Kafka进行数据传输、通过Flink实时处理数据的完整流程。无论你是想提升产品体验还是做用户行为分析，这篇文章都将为你提供全面的解决方案。设计一个通用的ClickHouse表来存储用户事件时，需要考虑多种因素，包括事件类型、时间戳、用户信
详解 Flink 的常见部署方式文刀小桂 Flink flink 大数据
一、常见部署模式分类1.按是否依赖外部资源调度1.1Standalone模式独立模式(Standalone)是独立运行的，不依赖任何外部的资源管理平台，只需要运行所有Flink组件服务1.2Yarn模式Yarn模式是指客户端把Flink应用提交给Yarn的ResourceManager,Yarn的ResourceManager会在Yarn的NodeManager上创建容器。在这些容器上，Flink
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
一文搞懂 Flink Task 数据交互之数据写源码 mn_kw flink 交互 java
一文搞懂FlinkTask数据交互之数据写源码1.RecordWriterOutput2.RecordWriter3.数据分区器ChannelSelector4.数据输出模型ResultPartition5.子模型ResultSubpartition6.本地buffer池LocalBufferPool7.获取buffer8.将buffer添加到ResultSubpartitionFlink重要源码
概率图模型（PGM）综述医学影像处理概率图模型概率图模型综述
RefLink:http://www.sigvc.org/bbs/thread-728-1-1.htmlGraphicalModel的基本类型基本的GraphicalModel可以大致分为两个类别：贝叶斯网络(BayesianNetwork)和马尔可夫随机场(MarkovRandomField)。它们的主要区别在于采用不同类型的图来表达变量之间的关系：贝叶斯网络采用有向无环图(DirectedAc
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
大数据新视界 --大数据大厂之Flink强势崛起：大数据新视界的璀璨明珠青云交大数据新视界 Flink 大数据数据类型实时处理流处理框架对比应用场景数据处理大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
flink增量检查点降低状态依赖实现的详细步骤 goTsHgo Flink 大数据分布式 flink 大数据
增量检查点启动恢复的时间是很久的，业务上不能接受，所以可以通过降低状态依赖来减少恢复的时间。降低状态依赖尽可能减少状态的复杂性和依赖关系，通过拆分状态或将状态外部化到其他服务中，从而降低恢复的开销。实施措施：将状态分割为更小的单元，减少每次恢复的状态量。使用外部状态存储服务，减少Flink状态后端的负担。拆分状态和将状态外部化到其他服务可以帮助减少作业的状态依赖，从而降低恢复时间和复杂度。以下是详
flink table factory基础知识 loukey_j
一、概述在flink中很多组件都是TableFactory的子类。比如序列化，反序列化，tableSinkFactory,tableSourceFactory.TableFactory是用来创建序列化，反序列器，tableSource和tableSink的工厂。二、TableFactory源码在flink框架中，TableFactory的子类并不是程序员自己随心new出来的。flink的提供给程序
2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到 2401_84569545 程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
01-Flink安装部署及入门案例（仅供学习），音视频时代你还不会NDK开发小猪佩琪962 2024年程序员学习 flink 学习大数据
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵
比较Spark与Flink 傲雪凌霜，松柏长青大数据后端 spark flink 大数据
ApacheSpark和ApacheFlink都是目前非常流行的大数据处理引擎，但它们在架构、处理模式、应用场景等方面有一些显著的区别。下面是二者的对比：1.处理模式Spark:主要支持批处理（BatchProcessing），也能通过SparkStreaming处理流式数据，但SparkStreaming本质上是通过微批（micro-batching）的方式处理流数据，延迟相对较高。SparkS
Apache Flink：实时流处理与批处理的统一框架小码快撩 flink 大数据
导语在大数据处理领域，流处理和批处理是两种主要的处理方式。然而，传统的系统通常将这两者视为独立的任务，需要不同的工具和框架来处理。ApacheFlink是一个开源的流处理框架，它打破了这种界限，提供了一个统一的平台来处理实时流数据和批处理数据。一、基本概念与架构ApacheFlink的基本概念与架构主要包括以下几个核心组成部分：基本概念1.流处理模型：无界流(UnboundedStreams):数
flink独立集群部署嘎子吱吱吱吱 flink hadoop linux
#flink独立集群部署说明安装环境三台服务器47.106.23.1（master）47.112.173.2（worker1）47.115.162.3（worker1）提前装好jdk和ssh,以下操作最好不要用root账号提前下载好flink的包并解压设置三台服务器之间ssh免密登录生成本机秘钥以47.106.23.1为例（其他两台参考本服务器）#生成本机秘钥cd;ssh-keygen-trsa-
Flink的时间与watermarks详解大数据技术与数仓
当我们在使用Flink的时候，避免不了要和时间(time)、水位线(watermarks)打交道，理解这些概念是开发分布式流处理应用的基础。那么Flink支持哪些时间语义？Flink是如何处理乱序事件的？什么是水位线？水位线是如何生成的？水位线的传播方式是什么？让我们带着这些问题来开始本文的内容。时间语义基本概念时间是Flink等流处理中最重要的概念之一，在Flink中Time可以分为三种：Eve
实时数仓之实时数仓架构(Hudi)(1) 2401_84164527 程序员架构
目前比较流行的实时数仓架构有两类，其中一类是以Flink+Doris为核心的实时数仓架构方案；另一类是以湖仓一体架构为核心的实时数仓架构方案。本文针对Flink+Hudi湖仓一体架构进行介绍，这套架构的特点是可以基于一套数据完全实现Lambda架构。实时数仓架构图如下：技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据
2024年大数据最新实时数仓之实时数仓架构(Hudi) 2401_84185556 程序员大数据架构
技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据可以忽略;Flink：用于数据ETL，包括接入数据、处理数据及输出数据全链路数据计算任务；Spark：用于数据ETL，包括处理数据及输出数据全链路数据计算任务；Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；Doris：O
实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题 2401_84181221 程序员架构大数据
+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark任务生产，其主要作用用来支持FlinkETL处理过程中的LookupJoin功能。这里选用Hbase原因主要因为Table的HbaseC
Flink - CEP kikiki1
Hadoop3.2集群新版本的搭建详细讲解过程，从下面第一张官方的图来看，最新版是3.2，所以大猪将使用3.2的版本来演示，过程中遇到的坑留给自己，把路留给你们，IT之路还有大猪。大猪为了把文章压缩极简方便小伙伴阅读，将使用root帐号进行所有操作。准备两台主机10.211.55.11、10.211.55.12对应的hostname为m1.example.com、m2.example.com具体命
chapter01 Java语言概述知识点Note 月下绯烟 Java java 开发语言
JavaSEJavaEEJavaME大数据Java基础常用技术栈mysqlJDBCSSMspring+springmvc+mybatisLinuxnacosHadoopFlinkJAVAEE消息队列rabbitMQdocker数据库redisspringbootspringcloudsshstruts+spring+hibernate过时技术栈很少用JAVA虚拟机jvm分布式微服务高并发常见dos
【无标题】大数据之批处理，流处理，批流一体概念数字天下大数据
批处理批处理是将一定量的数据集合在一起，形成一个数据批次，然后对这个批次中的数据进行处理。Spark和Flink都支持批处理，其中Spark使用的是批处理模型，即将一批数据一次性读入内存，然后对其进行处理，处理完成后再将结果写入磁盘。Flink也支持批处理，但使用的是基于流处理的批处理模式，即将一批数据分成多个数据流进行处理，可以实现更高效的内存管理和更低的延迟。流处理流式处理是一种将数据流式地处
python flink_《Flink官方文档》Python 编程指南测试版 weixin_39846361 python flink
原文链接译者：hjjxd校对：清英Flink中的分析程序实现了对数据集的某些操作(例如，数据过滤，映射，合并，分组)。这些数据最初来源于特定的数据源(例如来自于读文件或数据集合)。操作执行的结果通过数据池以写入数据到(分布式)文件系统或标准输出(例如命令行终端)的形式返回。Flink程序可以运行在不同的环境中，既能够独立运行，也可以嵌入到其他程序中运行。程序可以运行在本地的JVM上，也可以运行在服
flink---window 搞数据的小杰 flink 大数据
Window介绍DataStream:https://nightlies.apache.org/flink/flink-docs-release-1.17/zh/docs/dev/datastream/operators/windows/SQL:https://nightlies.apache.org/flink/flink-docs-release-1.17/zh/docs/dev/table/
Flink(1.13) 的window机制(一) 万事万物
窗口概述在流处理应用中，数据是连续不断的，因此我们不可能等到所有数据都到了才开始处理。当然我们可以每来一个消息就处理一次，但是有时我们需要做一些聚合类的处理，例如：在过去的1分钟内有多少用户点击了我们的网页。在这种情况下，我们必须定义一个窗口，用来收集最近一分钟内的数据，并对这个窗口内的数据进行计算。流式计算是一种被设计用于处理无限数据集的数据处理引擎，而无限数据集是指一种不断增长的本质上无限的数
pyflink 自定义函数 scan724 Flink实时计算 python 开发语言
frompyflink.datastreamimportStreamExecutionEnvironmentfrompyflink.common.typeinfoimportTypesfrompyflink.datastreamimportStreamExecutionEnvironmentfrompyflink.tableimportStreamTableEnvironmentfrompyfli
flink 问题记录 Jhon_yh flink flink hadoop 大数据
文章目录1.Causedby:java.lang.UnsatisfiedLinkError:org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSums(IILjava/nio/ByteBuffer;ILjava/nio/ByteBuffer;IILjava/lang/String;JZ)V原因java.util.concurrent.Ex
Pyflink教程(三)：自定义函数 yuxj记录学习学习笔记学习 pyflink
该文章例子pyflink环境是apache-flink==1.13.6Python自定义函数是PyFlinkTableAPI中最重要的功能之一，其允许用户在PyFlinkTableAPI中使用Python语言开发的自定义函数，极大地拓宽了PythonTableAPI的使用范围。简单来说就是有的业务逻辑和需求是sql语句满足不了或太麻烦的，需要用过函数来实现。PythonUDFPythonUDF，即
pyflink 滚动窗口实例菜鸟社长菜鸟的大数据进阶之路大数据进阶之路 kafka big data python flink
写在前头：更多大数据相关精彩内容请进我的知识星球，每周定期更新正篇技术路线：模拟kafka生产者发送数据——>flink对kafka数据实时计算处理——>处理后的数据发送到kafka1、模拟客流数据的生产者，参考https://blog.csdn.net/qq_22611181/article/details/1199002502、flink聚合操作原理介绍，参考https://blog.csdn
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地