highfei2011

[Flink课程]---- 9.1 使用Ambari 搭建Flink 集群

1 前言

1.1 概览

Stateful Computations over Data Streams(数据流的状态计算)

Apache Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink设计为在所有常见的集群环境中运行，以内存速度和任何规模执行计算。

在这里，我们解释了Flink架构的重要方面。

处理无界和有界数据

任何类型的数据都是作为事件流产生的。信用卡交易，传感器测量，机器日志或网站或移动应用程序上的用户交互，所有这些数据都作为流生成。

数据可以作为无界或有界流处理。

无界流有一个开始但没有定义的结束。它们不会在生成时终止并提供数据。必须持续处理无界流，即必须在摄取事件后立即处理事件。无法等待所有输入数据到达，因为输入是无界的，并且在任何时间点都不会完成。处理无界数据通常要求以特定顺序（例如事件发生的顺序）摄取事件，以便能够推断结果完整性。
有界流具有定义的开始和结束。可以在执行任何计算之前通过摄取所有数据来处理有界流。处理有界流不需要有序摄取，因为可以始终对有界数据集进行排序。有界流的处理也称为批处理。

Apache Flink擅长处理无界和有界数据集。精确控制时间和状态使Flink的运行时能够在无界流上运行任何类型的应用程序。有界流由算法和数据结构内部处理，这些算法和数据结构专为固定大小的数据集而设计，从而产生出色的性能。

通过探索在Flink之上构建的用例来使自己信服。

Deploy Applications Anywhere

Apache Flink是一个分布式系统，需要计算资源才能执行应用程序。Flink与所有常见的集群资源管理器（如Hadoop YARN，Apache Mesos和Kubernetes）集成，但也可以设置为作为独立集群运行。

Flink旨在很好地适用于之前列出的每个资源管理器。这是通过特定于资源管理器的部署模式实现的，这些模式允许Flink以其惯用的方式与每个资源管理器进行交互。

部署Flink应用程序时，Flink会根据应用程序配置的并行性自动识别所需资源，并从资源管理器请求它们。如果发生故障，Flink会通过请求新资源来替换发生故障的容器。提交或控制应用程序的所有通信都通过REST调用进行。这简化了Flink在许多环境中的集成。

Run Applications at any Scale

Flink旨在以任何规模运行有状态流应用程序。应用程序可以并行化为数千个在集群中分布和同时执行的任务。因此，应用程序可以利用几乎无限量的CPU，主内存，磁盘和网络IO。而且，Flink可以轻松维护非常大的应用程序状态。其异步和增量检查点算法确保对处理延迟的影响最小，同时保证一次性状态一致性。

用户报告了在其生产环境中运行的Flink应用程序的可扩展性数字令人印象深刻，例如

应用程序每天处理数万亿个事件，
应用程序维护多个TB的状态，以及
应用程序在数千个内核的运行。

Leverage In-Memory Performance

有状态Flink应用程序针对本地状态访问进行了优化。任务状态始终保留在内存中，或者，如果状态大小超过可用内存，则保存在访问高效的磁盘上数据结构中。因此，任务通过访问本地（通常是内存中）状态来执行所有计算，从而产生非常低的处理延迟。Flink通过定期和异步检查本地状态到持久存储来保证在出现故障时的一次状态一致性。

1.2 架构

1.3 Flink特性

支持批处理和数据流程序处理
优雅流畅的支持java(主要使用java 语言编写)和scala api
同时支持高吞吐量和低延迟
支持事件处理和无序处理通过SataStream API，基于DataFlow数据流模型
在不同的时间语义(时间时间，处理时间)下支持灵活的窗口(时间，技术，会话，自定义触发器)
仅处理一次的容错担保
自动反压机制
图处理(批) 机器学习(批) 复杂事件处理(流)
在dataSet(批处理)API中内置支持迭代程序(BSP)
高效的自定义内存管理，和健壮的切换能力在in-memory和out-of-core中
兼容hadoop的mapreduce和storm
集成YARN,HDFS,Hbase 和其它hadoop生态系统的组件

1.4 应用场景

多种数据源(有时不可靠)：当数据是由数以百万计的不同用户或设备产生的，它是安全的假设数据会按照事件产生的顺序到达，和在上游数据失败的情况下，一些事件可能会比他们晚几个小时，迟到的数据也需要计算，这样的结果是准确的。
应用程序状态管理：当程序变得更加的复杂，比简单的过滤或者增强的数据结构，这个时候管理这些应用的状态将会变得比较难(例如：计数器，过去数据的窗口，状态机，内置数据库)。flink提供了工具，这些状态是有效的，容错的，和可控的，所以你不需要自己构建这些功能。
数据的快速处理：有一个焦点在实时或近实时用例场景中，从数据生成的那个时刻，数据就应该是可达的。在必要的时候，flink完全有能力满足这些延迟。
海量数据处理：这些程序需要分布在很多节点运行来支持所需的规模。flink可以在大型的集群中无缝运行，就像是在一个小集群一样。

2 安装

2.1安装flink

2.1.1 准备工作

2.1.1.1基本要求

2.1.1.1.1操作系统

Centos7.2以上

2.1.1.1.2 jdk、maven和hdp版本

jdk-1.8.0_141以上
maven-3.3.5 以上
hdp-2.6.4.0-91

2.1.1.1.3 获取flink的lib包

第一种方法：自己编译flink-1.6.0 （推荐，耗时间，兼容性好）

# wget https://github.com/apache/flink/archive/release-1.6.0.tar.gz
cd /data02/maven/soft/flink-release-1.6.0
mvn clean install -DskipTests -Pvendor-repos -Dhadoop.version=2.7.3.2.4.0-91

编译好的目录： /data02/maven/soft/flink-release-1.6.0/

编译环境：

jdk-1.8
flink-1.6.0
hdp-hadoop-2.7.3.2.4.0-91
maven-3.5.4

编译时间：1小时左右

第二种方法：直接下载已经编译好的包（推荐，不耗时，兼容性可能不太好）

# cd /opt/

#wget http://www.us.apache.org/dist/flink/flink-1.6.0/flink-1.6.0-bin-hadoop27-scala_2.11.tgz

#tar -zxvf flink-1.6.0-bin-hadoop27-scala_2.11.tgz

#mv flink-release-1.6.0 flink

#chown -R hdfs:hdfs flink/*

注意：每台flink集群的设备都需要这些包

2.1.1.1.4修改目录权限

chmod 755 /var/run

chmod 755 /etc/profile

2.1.1.1.5运行用户

安装过程中，需要用root用户。

2.1.1.1.6每台设备上必须要有所有设备的hosts和ip映射

172.16.5.117 bdp03nn01

172.16.5.118 bdp03nn02

172.16.5.119 bdp03dn01

2.1.1.2版本选择

结合flink的发布说明，需要考虑到兼容性和可扩展性.

Apache flink : 1.6.0

2.1.1.3角色规划

主机	角色	备注
172.16.5.117 bdp03nn01	Flink gateway 和client
172.16.5.118 bdp03nn02	Flink gateway
172.16.5.119 bdp03dn01	Flink gateway

2.1.2 安装步骤

在ambari server的设备上下载flink的服务包

2.1.2.1.下载ambari-flink-service

1)在ambari server 所在设备上执行

#VERSION=`hdp-select status hadoop-client | sed 's/hadoop-client - $[0-9]\.[0-9]$.*/\1/'`

#sudo git clone https://github.com/highfei2011/ambari-flink-service.git /var/lib/ambari-server/resources/stacks/HDP/$VERSION/services/FLINK

注意：

https://github.com/highfei2011/ambari-flink-service.git

这是我的github 资源，如果需要更新flink的版本，那么一样需要修改github仓库的对应参数。

2)进入目录：

#cd /opt/

3)在每台机群设备上下载

#wget http://www.us.apache.org/dist/flink/flink-1.6.0/flink-1.6.0-bin-hadoop27-scala_2.11.tgz

4)在每台机群设备上解压到/opt下

tar –zxvf flink-1.6.0-bin-hadoop27-scala_2.11.tgz

mv /opt/flink-1.6.0 /opt/flink

chown -R flink:flink /opt/flink/

chmod 777 -R /opt/flink/

sudo mkdir –p /opt/flink/conf

5)每台设备添加环境变量

在每台设备上添加/etc/profile环境变量

export HADOOP_CLASSPATH=`hadoop classpath`

export CLASSPATH=$CLASSPATH:$HADOOP_CLASSPATH

export FLINK_HOME=/opt/flink/

export PATH=$FLINK_HOME/bin:$PATH

export PATH

source /etc/profile

2.1.2.2.重启ambari-server

在 ambari-server 设备上执行

#sudo systemctl restart ambari-server

或者

#sudo service ambari-server restart

2.1.2.3.安装flink

选择Action ---》 Add service

选择flink-1.6.0

选择flink 启动的一台设备

添加完成

2.1.2.4.重启集群

2.1.2.5.参数修改

在 Ambari 上修改 Flink 的参数

A、网络缓冲区大小

如果以非常高的并行度运行Flink，则可能需要增加网络缓冲区的数量，默认，Flink取JVM堆大小的10％用作网络缓冲区，最小为64MB，最大为1GB，可通过以下参数配置。为什么需要网络缓冲区？

见https://ci.apache.org/projects/flink/flink-docs-master/ops/config.html#configuring-the-network-buffers

taskmanager.network.memory.min 网络缓冲区最小字节数(默认64M)

taskmanager.network.memory.max 网络缓冲区的最大字节数(默认1G)

taskmanager.network.memory.fraction 用于网络缓冲区的JVM内存的占比(默认0.1)

默认:

taskmanager.network.memory.fraction: 0.1

taskmanager.network.memory.min: 67108864

taskmanager.network.memory.max: 1073741824

启动异常:org.apache.flink.configuration.IllegalConfigurationException: Invalid configuration value for (taskmanager.network.memory.fraction, taskmanager.network.memory.min, taskmanager.network.memory.max) : (0.1, 67108864, 1073741824) - Network buffer memory size too large: 67108864 >= 8388608 (total JVM memory size)

B、yarn参数

yarn.nodemanager.resource.memory-mb=30G 每个nodemanager最大可用内存

yarn.scheduler.maximum-allocation-mb=30G 单个容器可申请的最大内存

yarn.scheduler.minimum-allocation-mb=1024M 单个容器最小内存

containerized.heap-cutoff-min=400

参考：https://ci.apache.org/projects/flink/flink-docs-stable/ops/config.html

C、Flink on yarn 参数

flink在yarn上可以直接运行起来

yarn.client.failover-proxy-provider

org.apache.hadoop.yarn.client.ConfiguredRMFailoverProxyProvider

flink在yarn上不能运行起来

yarn.client.failover-proxy-provider

org.apache.hadoop.yarn.client.RequestHedgingRMFailoverProxyProvider

并重启yarn集群

D、添加环境变量

export HADOOP_CLASSPATH=`hadoop classpath`

2.2测试Flink

2.2.1 命令行测试

2.2.2 flink run job

资源管理器：flink on yarn

设备：bdp03nn01

提交用户：hdfs

执行命令：

flink run --jobmanager yarn-cluster \

-yn 1 \

-ytm 768 \

-yjm 768 \

/opt/flink/examples/batch/WordCount.jar \

--input hdfs://bdp03nn01:8020/user/hdfs/demo/input/word \

--output hdfs://bdp03nn01:8020/user/hdfs/demo/output/wc/

等待执行完成

查看输出结果

# hdfs dfs -cat /user/hdfs/demo/output/wc

运行时可以查看web ui

http://host:8081

需要映射8081端口

172.16.5.117 bdp03nn01

172.16.5.118 bdp03nn02

172.16.5.119 bdp03dn01

2.2.3 flink sql client

# sql-client.sh embedded

参考文档：

https://ci.apache.org/projects/flink/flink-docs-release-1.6/dev/table/sqlClient.html#starting-the-sql-client-cli

2.2.2 编程测试（batch测试）

idea 2018-1.1、jdk-1.8、flink-1.6.0、maven-3.4.5

项目构建的需要条件：

https://ci.apache.org/projects/flink/flink-docs-release-1.6/quickstart/scala_api_quickstart.html#maven

https://flink.apache.org/downloads.html

2.2.2.1 pom.xm文件



    4.0.0

    cn.acewell
    dev-flink-1
    1.0-SNAPSHOT
    
    
    
    
        UTF-8
        UTF-8
        
        128m
        1024m
        1024m
        
        1.8
        1.8
        UTF-8
        
        2.10
        
        1.7.7
        1.2.17

        
        1.8
        
        1.7.2
        
        2.11
        
        0.10_2.11
        
        1.2.47
        
        1.2.0
        
        2.9.1
        
        2.3.0
        
        3.3.0
        
        0.9.1

    
    
        
        
        
        
            horton-works-releases
            http://repo.hortonworks.com/content/groups/public/
        
        
            apache maven
            https://repo.maven.apache.org/maven2/
        
        
            mvn repository
            https://mvnrepository.com/artifact/
        
        
            CDH
            https://repository.cloudera.com/artifactory/cloudera-repos/
        
    

    
        Acewill
    

    
        
            Jeff Yang
            [email protected]
        
    
    
    
    
    
        
        
        
        
            io.flinkspector
            flinkspector-datastream_2.11
            ${flinkspector.version}
        
        
            io.flinkspector
            flinkspector-dataset_2.11
            ${flinkspector.version}
        
        
        
        
        
            org.apache.flink
            flink-connector-kafka-0.10_2.11
            ${apache.flink.version}
        
        
        
        
        
        
            log4j
            log4j
            ${log4j.version}
        
        
        
            org.slf4j
            slf4j-api
            ${slf4j.version}
        
        
            org.slf4j
            slf4j-log4j12
            ${slf4j.version}
        
        
        
        

        
            org.apache.flink
            flink-streaming-java_2.11
            ${apache.flink.version}
        

        
        
            org.apache.flink
            flink-table_2.11
            ${apache.flink.version}
        
        
        
        

        
            org.apache.flink
            flink-runtime-web_2.11
            ${apache.flink.version}

        

    

    
    
    
    
        dev-flink-1.6
        src/main/java
        src/test/java
        target/java-${java.version}/classes
        target/java-${java.version}/test-classes
        
            
                org.apache.maven.plugins
                maven-surefire-plugin
                2.21.0
                
                    
                    
                        default-test
                        test
                        
                            test
                        
                        
                            
                                **/*Test.*
                            
                        
                    
                
            

            
                org.apache.maven.plugins
                maven-compiler-plugin
                3.1
                
                    ${jvm.version}
                    ${jvm.version}

2.2.2.2 编写测试类和工具类

WordCount.java

package cn.acewill.flink.batch;

import cn.acewill.flink.utils.WordCountData;
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.DataSet;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.api.java.utils.ParameterTool;
import org.apache.flink.util.Collector;

/**
 * @author Created by yangjf on 20180920.
 * Update date:
 * Time: 下午6:12
 * Project: dev-flink-1.6
 * Package: cn.acewell.flink.batch
 * Describe :
 * Frequency:
 * Result of Test: test ok
 * Command:
 * 
 * Email:  [email protected]
 * Status：Using online
 * 
 * Please note:
 * Must be checked once every time you submit a configuration file is correct!
 * Data is priceless! Accidentally deleted the consequences!
 */
public class WordCount {
    // *************************************************************************
    //     PROGRAM
    // *************************************************************************

    public static void main(String[] args) throws Exception {

        final ParameterTool params = ParameterTool.fromArgs(args);

        // set up the execution environment
        final ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

        // make parameters available in the web interface
        env.getConfig().setGlobalJobParameters(params);


        // get input data
        DataSet text;
        if (params.has("input")) {
            // read the text file from given input path
            text = env.readTextFile(params.get("input"));
        } else {
            // get default test text data
            System.out.println("Executing WordCountWindow example with default input data set.");
            System.out.println("Use --input to specify file input.");
            text = WordCountData.getDefaultTextLineDataSet(env);
        }

        DataSet> counts =
                // split up the lines in pairs (2-tuples) containing: (word,1)
                text.flatMap(new Tokenizer())
                        // group by the tuple field "0" and sum up tuple field "1"
                        .groupBy(0)
                        .sum(1)
                        .setParallelism(2)
                // 流水线的同时作业数量 https://ci.apache.org/projects/flink/flink-docs-release-1.2/dev/parallel.html
                // 如果设置了 setParallelism 则可以理解： 这类任务（transformations/operators, data sources, and sinks）都有2个同时执行
                ;

        // emit result
        if (params.has("output")) {
            counts.writeAsCsv(params.get("output"), "\n", " ");
            // execute program
            env.execute("WordCountWindow Example");
        } else {
            System.out.println("Printing result to stdout. Use --output to specify output path.");
            counts.print();
        }

    }

    // *************************************************************************
    //     USER FUNCTIONS
    // *************************************************************************

    /**
     * Implements the string tokenizer that splits sentences into words as a user-defined
     * FlatMapFunction. The function takes a line (String) and splits it into
     * multiple pairs in the form of "(word,1)" ({@code Tuple2}).
     */
    public static final class Tokenizer implements FlatMapFunction> {

        @Override
        public void flatMap(String value, Collector> out) {
            // normalize and split the line
            String[] tokens = value.toLowerCase().split("\\W+");

            // emit the pairs
            for (String token : tokens) {
                if (token.length() > 0) {
                    out.collect(new Tuple2<>(token, 1));
                }
                try{
                    Thread.sleep(1000);
                }catch (Exception s){
                    s.printStackTrace();

                }
            }
        }
    }
}

WordCountData.java

package cn.acewill.flink.utils;

import org.apache.flink.api.java.DataSet;
import org.apache.flink.api.java.ExecutionEnvironment;
/**
 * @author Created by yangjf on 20180920.
 * Update date:
 * Time: 下午6:14
 * Project: dev-flink-1.6
 * Package: cn.acewell.flink.utils
 * Describe :
 *    Provides the default data sets used for the WordCountWindow example program.
 *    The default data sets are used, if no parameters are given to the program.
 * Frequency: Calculate once a day.
 * Result of Test: test ok
 * Command:
 * 
 * Email:  [email protected]
 * Status：Using online
 * 
 * Please note:
 * Must be checked once every time you submit a configuration file is correct!
 * Data is priceless! Accidentally deleted the consequences!
 */


public class WordCountData {

    public static final String[] WORDS = new String[]{
            "To be, or not to be,--that is the question:--",
            "Whether 'tis nobler in the mind to suffer",
            "The slings and arrows of outrageous fortune",
            "Or to take arms against a sea of troubles,",
            "And by opposing end them?--To die,--to sleep,--",
            "No more; and by a sleep to say we end",
            "The heartache, and the thousand natural shocks",
            "That flesh is heir to,--'tis a consummation",
            "Devoutly to be wish'd. To die,--to sleep;--",
            "To sleep! perchance to dream:--ay, there's the rub;",
            "For in that sleep of death what dreams may come,",
            "When we have shuffled off this mortal coil,",
            "When we have shuffled off this mortal coil,",
            "When we have shuffled off this mortal coil,",
            "When we have shuffled off this mortal coil,",
            "Must give us pause: there's the respect",
            "Must give us pause: there's the respect",
            "Must give us pause: there's the respect",
            "Must give us pause: there's the respect",
            "That makes calamity of so long life;",
            "For who would bear the whips and scorns of time,",
            "The oppressor's wrong, the proud man's contumely,",
            "The pangs of despis'd love, the law's delay,",
            "The insolence of office, and the spurns",
            "The insolence of office, and the spurns",
            "The insolence of office, and the spurns",
            "That patient merit of the unworthy takes,",
            "When he himself might his quietus make",
            "With a bare bodkin? who would these fardels bear,",
            "To grunt and sweat under a weary life,",
            "But that the dread of something after death,--",
            "The undiscover'd country, from whose bourn",
            "No traveller returns,--puzzles the will,",
            "And makes us rather bear those ills we have",
            "Than fly to others that we know not of?",
            "Thus conscience does make cowards of us all;",
            "And thus the native hue of resolution",
            "Is sicklied o'er with the pale cast of thought;",
            "And enterprises of great pith and moment,",
            "With this regard, their currents turn awry,",
            "And lose the name of action.--Soft you now!",
            "The fair Ophelia!--Nymph, in thy orisons",
            "Be all my sins remember'd."
    };

    public static DataSet getDefaultTextLineDataSet(ExecutionEnvironment env) {
        return env.fromElements(WORDS);
    }
}

2.2.2.3 运行WordCount.java

查看统计结果：

3 添加监控

Grafana +Prometheus

3.1 安装 Grafana

Ambari 自带 Grafana 所以只需要配置即可。

4 FAQ

4.1 ambari安装flink能在生产上使用吗？

开发service 的作者不建议在生产上使用，但是目前大部分公司都已在生产上使用过了。

4.2 启动flink的方式

cd ${FLINK_HOME}

后台运行：

yarn-session.sh -n 1 -s 1 -jm 768 -tm 1024 -qu default -nm flinkapp-from-ambari -d >> /var/log/flink/flink-test.log

./bin/flink run --jobmanager yarn-cluster --yarnqueue offline --yarnjobManagerMemory 1024 --yarncontainer 2 --yarntaskManagerMemory 1024 --yarnslots 3 ./examples/batch/WordCount.jar --input hdfs:///user/hdfs/demo/data/wc.txt --output hdfs:///user/hdfs/demo/result/wc

5 参考文档

编译flink:

https://community.hortonworks.com/articles/2659/exploring-apache-flink-with-hdp.html

http://doc.flink-china.org/1.1.0/setup/building.html

Flink 教程：https://ci.apache.org/projects/flink/flink-docs-release-1.6/quickstart/setup_quickstart.html

已编译的：

http://www.gtlib.gatech.edu/pub/apache/flink/flink-1.6.0/

http://www.us.apache.org/dist/flink/flink-1.6.0/

安装参考：https://community.hortonworks.com/articles/2659/exploring-apache-flink-with-hdp.html

run on yarn : https://ci.apache.org/projects/flink/flink-docs-release-1.6/ops/deployment/yarn_setup.html

Flink样例：

https://ci.apache.org/projects/flink/flink-docs-release-1.6/dev/batch/examples.html#word-count

https://ci.apache.org/projects/flink/flink-docs-release-1.6/examples/

Flink培训：http://training.data-artisans.com/

Flink参考项目：https://github.com/highfei2011/flink-training-exercises

Flink metrics：https://ci.apache.org/projects/flink/flink-docs-release-1.6/monitoring/metrics.html#system-metrics

Grafana plugns: https://grafana.com/dashboards/5151

Flink 配置：https://ci.apache.org/projects/flink/flink-docs-stable/ops/config.html

你可能感兴趣的:(Flink)

Flink相关面试题努力的搬砖人. 面试 java 后端 flink
以下是150道ApacheFlink面试题及其详细回答，涵盖了Flink的基础知识、核心架构、API使用、性能调优等多个方面，每道题目都尽量详细且简单易懂：Flink基础概念类1.什么是ApacheFlink？ApacheFlink是一个开源的流处理和批处理框架，能够实现快速、可靠、可扩展的大数据处理。它既可以处理无界的数据流，也可以处理有界的数据批，提供了低延迟和高吞吐量的实时数据处理能力。Fl
Flink命令行启动Job任务平凡的运维之路 linux 程序人生
Flink非交互式运行Job任务Flink命令行启动Job任务具体命令flink参数说明-c,--class-d,--detached后台运行-p,--parallelism并行度[test@xxx~]$flinkrun-d-cclass_nameJob-p3./flink-statics-1.0.jar-zookeeper"10.130.41.51:2181,10.130.41.52:2181,
快速启动flink项目 for your wish flink java 大数据
按照这个步骤1分钟内创建完成idea-----File----new---Project------Maven----Createfromarchetype----AddArchetype弹出框：GroupId填org.apache.flinkArtifactId填flink-quickstart-javaVersion填1.14.0选中刚刚添加的Archetype，点Next填写你要创建的这个f
【Flink】flink启动任务，taskmanager.out 文件增涨非常快九师兄 flink 大数据
1.概述flink启动任务，taskmanager.out文件增涨非常快，这个文件大小怎么限定？测试了很多办法发现都不起作用这个问题可以试试：【Flink】Flink1.11.2onYARN滚动日志配置但是后面我发现不是这个导致的，是slf4j依赖冲突，jar包删除就可以了
IDEA本地启动flink 任务 Direction_Wind intellij-idea flink java
1pom中添加org.apache.flinkflink-clients_${scala.binary.version}${flink.version}org.apache.flinkflink-runtime-web_${scala.binary.version}${flink.version}2下载flink-dist包并3打印日志中搜索localhost可以找到flink的管理页面
Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
FlinkCDC实战：将 MySQL 数据同步至 ES 小DuDu flink mysql
当前需要处理的业务场景:将订单表和相关联的表(比如:商品表、子订单表、物流信息表)组织成宽表,放入到ES中,加速订单数据的查询.同步数据到es.概述1.什么是CDC2.什么是FlinkCDC3.FlinkCDCConnectors和Flink的版本映射实战1.宽表查询1.1创建mysql表1.2启动Flink集群和FlinkSQLCLI1.3在FlinkSQLCLI中使用FlinkDDL创建表1.
Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
flink从kafka读取数据写入clickhouse本地表的实现 Breatrice_li kafka flink 分布式大数据
实现功能因为直接写clickhouse的分布式表在数据量比较大的时候会有各种问题，所以做了一个flink读取kafka数据然后路由写入到相应的本地表节点，并且关于不同的表的配置信息可以随时更改并设置生效时间。实现流程首先从kafka将数据读取过来然后进行相应的处理及逻辑判断写入到对应的clickhouse表格中最后根据CDC读取来的配置信息进行相应节点的hash路由，直接写入本地表读取kafka数
demo flink写入kafka_Flink 写入数据到 Kafka ONES Piece demo flink写入kafka
Flink写入数据到Kafka前言通过Flink官网可以看到Flink里面就默认支持了不少sink，比如也支持Kafkasinkconnector(FlinkKafkaProducer)，那么这篇文章我们就来看看如何将数据写入到Kafka。准备Flink里面支持Kafka0.8、0.9、0.10、0.11.这里我们需要安装下Kafka，请对应添加对应的FlinkKafkaconnector依赖的版
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Flink实践：通过Flink SQL进行SFTP文件的读写操作 kkk1622245 flink sql 大数据
在大数据处理领域，ApacheFlink出类拔萃，它是一个高性能、易扩展、用于处理有界和无界数据流的分布式处理引擎。FlinkSQL是ApacheFlink提供的一种声明式API，允许开发者以SQL的形式，轻松实现复杂的数据流和批处理分析。本文将重点探讨如何通过FlinkSQL来实现对SFTP文件的读写操作，这是在实际应用中经常遇到的一种场景。Flink与SFTP文件的读写在很多实际应用场景中，数
Flink流式计算系统 xyzkenan Flink 大数据大数据开发
本文将以这些概念为基础，逐一介绍Flink的发展背景、核心概念、时间推理与正确性工具、安装部署、客户端操作、编程API等内容，让开发人员对Flink有较为全面的认识并拥有一些基础操作与编程能力。一、发展背景1.1数据处理架构在流处理器出现之前，数据处理架构主要由批处理器组成，其是对无限数据的有限切分，具有吞吐量大、数据较为准确的特点。然而我们知道，批处理器在时间切分点附近仍然无法保证数据结果的真实
Flink 初体验：从 Hello World 到实时数据流处理小诸葛IT课堂 flink 大数据
在大数据处理领域，ApacheFlink以其卓越的流批一体化处理能力脱颖而出，成为众多企业构建实时数据应用的首选框架。本文将带领你迈出Flink学习的第一步，从基础概念入手，逐步引导你编写并运行第一个Flink程序——经典的WordCount，让你亲身感受Flink在实时数据流处理方面的强大魅力。一、Flink基础概念速览1.1什么是FlinkFlink是一个分布式流批一体化开源平台，旨在对无界和
时间语义与窗口操作：Flink 流式计算的核心逻辑小诸葛IT课堂 flink 大数据
在实时数据流处理中，时间是最为关键的维度之一。Flink通过灵活的时间语义和丰富的窗口类型，为开发者提供了强大的时间窗口分析能力。本文将深入解析Flink的时间语义机制，并通过实战案例演示如何利用窗口操作实现实时数据聚合。一、Flink时间语义详解1.1三种时间概念1.1.1EventTime（事件时间）定义：事件实际发生的时间，由事件本身携带的时间戳决定应用场景：需要准确反映事件真实顺序的场景（
Dinky × Jiron：打造高效智能的数据处理平台 jiron开源平台开发 flink 大数据 hive 数据仓库 kafka etl工程师 clickhouse
Dinky×Jiron：打造高效智能的数据处理平台JironGitHub地址https://github.com/642933588/jiron-cloudhttps://gitee.com/642933588/jiron-cloud将基于ApacheFlink的实时计算平台Dinky成功集成至Jiron数据开发平台，以进一步增强平台的数据处理能力，提升数据处理效率与灵活性，同时优化用户体验并降低
数据分析大数据面试题大杂烩01 爱学习的菜鸟罢了大数据 flink 大数据面试 hive hadoop kafka
互联网:通过埋点实时计算用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东)电信,银行统计营收和针对用户的个人画像:处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人订单订单表(除商品以外所有信息),商品详情表,通过搜集用户title进行定制化推荐点击流数据通过埋点进行用户点击行为分析FLINK一般用来做实时SPARK一般用来做
Different number of columns sunyaox flink flink异常
org.apache.flink.client.program.ProgramInvocationException:Themainmethodcausedanerror:Columntypesofqueryresultandsinkforregisteredtable‘photoTradeInfoHive.db_audit.ods_photo_trade’donotmatch.Cause:Dif
基于 Flink 的海量日志实时处理系统的实践 zhisheng_blog 大数据实时计算引擎 Flink 实战与性能优化
海量日志实时处理需求分析在11.5节中讲解了Flink如何实时处理异常的日志，在那节中对比分析了几种常用的日志采集工具。我们也知道通常在排查线上异常故障的时候，查询日志总是必不可缺的一部分，但是现在微服务架构下日志都被分散到不同的机器上，日志查询就会比较困难，所以统一的日志收集几乎也是每家公司必不可少的。据笔者调研，不少公司现在是有日志统一的收集，也会去做日志的实时ETL，利用一些主流的技术比如E
Java_实例变量和局部变量及this关键字详解 Matrix70 Java java 开发语言
最近得看看Java,想学一学Flink实时的东西了，当然Scala语法也有这样的规定，简单看一下这两个吧，都比较容易忽视实例变量和局部变量实例变量和局部变量是常见的两种变量类型，区别作用域：实例变量：实例变量属于类的实例，可以在整个类中被访问和使用。每个类的实例（对象）都有一份自己的实例变量副本。局部变量：局部变量只在声明它的方法或代码块中可见，超出该范围就无法访问。生存周期：实例变量：实例变量的
Flink架构组件JobManager和TaskManager m0_37651941 flink 架构大数据
JobManager和TaskManager交互通过Task对象ActorSystem是Akka最重要的一个组件。JobDispatcher负责接收Client提交的JobGraph对象，然后拆分成不同的作业，提交到TaskManager.这个过程会涉及到Job的分发。standlone模式和yarn模式的ResourceManager是不同的实现。TaskManager启动后会主动向JobMan
flink读kafka写入mysql_Flink 1.9 实战：使用 SQL 读取 Kafka 并写入 MySQL 苏远岫
上周六在深圳分享了《FlinkSQL1.9.0技术内幕和最佳实践》，会后许多小伙伴对最后演示环节的Demo代码非常感兴趣，迫不及待地想尝试下，所以写了这篇文章分享下这份代码。希望对于FlinkSQL的初学者能有所帮助。完整分享可以观看Meetup视频回顾：https://developer.aliyun.com/live/1416这份代码主要由两部分组成：1)能用来提交SQL文件的SqlSubmi
Flink 1.17.2 版本用 java 读取 starrocks 小强签名设计 flink java python
文章目录方法一：使用FlinkJDBC连接器（兼容MySQL协议）方法二：使用StarRocksFlinkConnector（推荐）在Flink1.17.2中使用Java读取StarRocks数据，可以通过JDBC连接器或StarRocks官方提供的FlinkConnector实现。以下是两种方法的详细步骤：方法一：使用FlinkJDBC连接器（兼容MySQL协议） StarRocks兼容M
Flink SQL 读取 Kafka 数据到 Mysql 实战小技工丨大数据技术学习 flink sql kafka
Flink1.9.2SQL读取Kafka数据到Mysql实战案例需求通过Flinksql使用DDL的方式，实现读取kafka用户行为数据，对数据进行实时处理，根据时间分组，求PV和UV，然后输出到mysql中。1、kafka中的消息的格式数据以JSON格式编码，格式如下：{"user_id":1101,"item_id":1875,"category_id":456876,"behavior":"
本地docker安装zookeeper,kafka,flink a724952091 flink kafka docker
首先安装zookeeper这里zookeeper的安装是为了去使用kafka这里我们安装的是wurstmeister的kafka和zookeeper镜像也是在hub.docker.com网站上，Star最多的kafka镜像直接在cmd执行run命令（前提是有本地docker。。。）第一次使用因为本地没有此镜像会去下载dockerrun-d--namezookeeper-p2181-twurstme
使用flinkCDC监听 mysql 数据到mysql报错从零开始· mysql apache 数据库 flink flinkcdc
报错：java.lang.NoClassDefFoundError:org/apache/flink/table/api/TableException解决：完整依赖1.12.02.0.0org.apache.flinkflink-java${flink-version}org.apache.flinkflink-streaming-java_2.11${flink-version}org.apac
flink（十一）：Table&Sql实现窗口水印计算羽落风起大数据 flink flink
文章目录分享说明实现讲解代码总结分享大数据博客列表说明本博客每周五更新一次。本文属于实战，讲解Flink1.12版本java代码使用时间窗口加水印实现，具体需求为5秒内用户订单总数、订单最大金额、最小金额实现讲解代码结构分为5部分，准备环境env数据输入source模拟数据生成数据处理transformation创建水印、窗口执行任务基于sql和table风格实现对应功能数据输出sink启动任务e
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修