喜讯XiCent

flink-1.11-Standalone模式启动源码解读之Master启动

前面我们分析了Standalone模式下执行start-cluster.sh脚本后的一系列脚本执行流程，最后一步是执行flink-daemon.sh脚本，
在该脚本中会执行对应的java类，其中JobManager对应的类是StandaloneSessionClusterEntrypoint，下面我们就跟着源码看看Standalone session模式下Master是如何启动的。

首先看下main方法的代码
从main我们大概可以看出启动的一个大概流程。首先是获取环境配置与用户的特定配置，然后将配置加载进Configuration这个类中，实例化一个StandaloneSessionClusterEntrypoint,将配置传入，然后调用父类ClusterEntrypoint的静态方法runClusterEntrypoint启动。

public static void main(String[] args) {
		// startup checks and logging
		//打印有关环境的信息
		EnvironmentInformation.logEnvironmentInfo(LOG, StandaloneSessionClusterEntrypoint.class.getSimpleName(), args);
		//注册一些信号处理
		SignalHandler.register(LOG);
		//安装安全关闭的钩子
		JvmShutdownSafeguard.installAsShutdownHook(LOG);

		EntrypointClusterConfiguration entrypointClusterConfiguration = null;
		final CommandLineParser commandLineParser = new CommandLineParser<>(new EntrypointClusterConfigurationParserFactory());

		try {
			//对传入的参数进行解析
			//内部通过EntrypointClusterConfigurationParserFactory解析配置文件，返回EntrypointClusterConfiguration为ClusterConfiguration的子类
			entrypointClusterConfiguration = commandLineParser.parse(args);
		} catch (FlinkParseException e) {
			LOG.error("Could not parse command line arguments {}.", args, e);
			commandLineParser.printHelp(StandaloneSessionClusterEntrypoint.class.getSimpleName());
			System.exit(1);
		}

		Configuration configuration = loadConfiguration(entrypointClusterConfiguration);

		//创建了StandaloneSessionClusterEntrypoint
		StandaloneSessionClusterEntrypoint entrypoint = new StandaloneSessionClusterEntrypoint(configuration);

		//启动集群的entrypoint。
		//这个方法接受的是父类ClusterEntrypoint，可想而知其他几种启动方式也是通过这个方法。
		ClusterEntrypoint.runClusterEntrypoint(entrypoint);
	}

我们跟进loadConfiguration这个方法看看，对配置还进行了什么操作

protected static Configuration loadConfiguration(EntrypointClusterConfiguration entrypointClusterConfiguration) {
		//获取前面XXXParserFactory解析得到的dynamicProperties(Properties)转化为Configuration
		final Configuration dynamicProperties = ConfigurationUtils.createConfiguration(entrypointClusterConfiguration.getDynamicProperties());
		//将配置文件(通过传入配置文件地址得到flink-conf.yaml配置信息)和动态配置的内容结合，返回一个新的Configuration
		final Configuration configuration = GlobalConfiguration.loadConfiguration(entrypointClusterConfiguration.getConfigDir(), dynamicProperties);

		final int restPort = entrypointClusterConfiguration.getRestPort();
		//设置Rest Port端口
		if (restPort >= 0) {
			configuration.setInteger(RestOptions.PORT, restPort);
		}

		final String hostname = entrypointClusterConfiguration.getHostname();

		if (hostname != null) {
			configuration.setString(JobManagerOptions.ADDRESS, hostname);
		}

		return configuration;
	}

这个是调用了父类ClusterEntrypoint的静态方法。从源码我们可以看到，原来我们前面获取的配置其实是动态配置，在这个方法内部通过一个静态方法GlobalConfiguration.loadConfiguration()将flink静态配置文件的地址和动态传入，返回一个统一的configuration配置，最后在设置供外部调用的rest端口和Jobmanager的hostname。
接着继续回到main方法上来，拿到配置之后接下来就是启动JobManager的相关组件。首先实例化一个StandaloneSessionClusterEntrypoint，将配置传入，最终调用的是父类ClusterEntrypoint的构造方法

protected ClusterEntrypoint(Configuration configuration) {
		this.configuration = generateClusterConfiguration(configuration);
		this.terminationFuture = new CompletableFuture<>();
		/**
		所谓 shutdown hook 就是已经初始化但尚未开始执行的线程对象。在Runtime 注册后，如果JVM要停止前，
		这些 shutdown hook 便开始执行。也就是在你的程序结束前，执行一些清理工作，尤其是没有用户界面的程序。 
		这些 shutdown hook 都是些线程对象，因此，你的清理工作要写在 run() 里。

		这里钩子的作用就是执行所有service的关闭方法。

		以下几种场景会被调用：
		1.程序正常退出
		2.使用System.exit()
		3.终端使用Ctrl+C触发的中断
		4.系统关闭
		5.OutOfMemory宕机
		6.使用Kill pid命令干掉进程（注：在使用kill -9 pid时，是不会被调用的）
		*/
		shutDownHook = ShutdownHookUtil.addShutdownHook(this::cleanupDirectories, getClass().getSimpleName(), LOG);
	}

构造方法主要做的就是获取配置然后添加程序退出的钩子。然后就是main方法的最后关键一步，也是最复杂的，调用静态方法ClusterEntrypoint.runClusterEntrypoint(entrypoint)，将上面实例化的StandaloneSessionClusterEntrypoint传入，这个方法接受的是父类ClusterEntrypoint，可想而知其他几种启动方式也是通过这个方法，跟进去一探究竟。

public static void runClusterEntrypoint(ClusterEntrypoint clusterEntrypoint) {

		final String clusterEntrypointName = clusterEntrypoint.getClass().getSimpleName();
		try {
			//原先这个方法是直接在上层ClusterEntrypoint实现类的main方法最后一步调用。
			//新版这里做了优化
			clusterEntrypoint.startCluster();
		} catch (ClusterEntrypointException e) {
			LOG.error(String.format("Could not start cluster entrypoint %s.", clusterEntrypointName), e);
			System.exit(STARTUP_FAILURE_RETURN_CODE);
		}

		clusterEntrypoint.getTerminationFuture().whenComplete((applicationStatus, throwable) -> {
			final int returnCode;

			if (throwable != null) {
				returnCode = RUNTIME_FAILURE_RETURN_CODE;
			} else {
				returnCode = applicationStatus.processExitCode();
			}

			LOG.info("Terminating cluster entrypoint process {} with exit code {}.", clusterEntrypointName, returnCode, throwable);
			System.exit(returnCode);
		});
	}

跟进来之后发现关键一步调用了startCluster()方法，看这霸气的名字就知道我们要找的就是你，然后注册一些钩子方法。

public void startCluster() throws ClusterEntrypointException {
		LOG.info("Starting {}.", getClass().getSimpleName());

		try {
			//新版支持提供通用的插件机制
			PluginManager pluginManager = PluginUtils.createPluginManagerFromRootFolder(configuration);
			//配置文件系统
			configureFileSystems(configuration, pluginManager);

			//配置安全相关配置
			SecurityContext securityContext = installSecurityContext(configuration);

			securityContext.runSecured((Callable) () -> {
				//关键方法，通过一个线程执行runCluster方法
				runCluster(configuration, pluginManager);

				return null;
			});
		} catch (Throwable t) {
			final Throwable strippedThrowable = ExceptionUtils.stripException(t, UndeclaredThrowableException.class);

			try {
				// clean up any partial state
				shutDownAsync(
					ApplicationStatus.FAILED,
					ExceptionUtils.stringifyException(strippedThrowable),
					false).get(INITIALIZATION_SHUTDOWN_TIMEOUT.toMilliseconds(), TimeUnit.MILLISECONDS);
			} catch (InterruptedException | ExecutionException | TimeoutException e) {
				strippedThrowable.addSuppressed(e);
			}

			throw new ClusterEntrypointException(
				String.format("Failed to initialize the cluster entrypoint %s.", getClass().getSimpleName()),
				strippedThrowable);
		}
	}

首先调用方法configureFileSystems(configuration, pluginManager)，这个方法主要作用就是初始化一些共享的配置参数，其中PluginManager是新版才加入的，是一个可选的插件管理器，用于初始化作为插件提供的文件系统。然后是配置安全相关配置，通过SecurityContext(实际是NoOpSecurityContext，无需登录操作来简单的运行一个线程)以安全的方式运行一个线程来启动集群，线程中执行的方法就是runCluster。

private void runCluster(Configuration configuration, PluginManager pluginManager) throws Exception {
		synchronized (lock) {
			//初始化服务，如JM的Akka RPC服务，HA服务，心跳检查服务，metric service
			initializeServices(configuration, pluginManager);

			// write host information into configuration
			// 将jobmanager地址写入配置
			configuration.setString(JobManagerOptions.ADDRESS, commonRpcService.getAddress());
			configuration.setInteger(JobManagerOptions.PORT, commonRpcService.getPort());

			//调用子类的实现方法，创建DispatcherResourceManagerComponentFactory，内部包含了对应的RestEndpointFactory，如果是Standalone则为SessionRestEndpointFactory
			final DispatcherResourceManagerComponentFactory dispatcherResourceManagerComponentFactory = createDispatcherResourceManagerComponentFactory(configuration);
			
			//启动关键组件：Dispatcher和ResourceManager。
			//Dispatcher：负责接收用户提供的作业，并且负责为这个新提交的作业拉起一个新的JobManager服务
			//ResourceManager负责资源的管理，在整个Flink集群中只有一个ResourceManager，资源相关的内容都由这个服务负责
			clusterComponent = dispatcherResourceManagerComponentFactory.create(
				configuration,
				ioExecutor,
				commonRpcService,
				haServices,
				blobServer,
				heartbeatServices,
				metricRegistry,
				archivedExecutionGraphStore,
				new RpcMetricQueryServiceRetriever(metricRegistry.getMetricQueryServiceRpcService()),
				this);

			//集群关闭时的回调
			clusterComponent.getShutDownFuture().whenComplete(
				(ApplicationStatus applicationStatus, Throwable throwable) -> {
					if (throwable != null) {
						shutDownAsync(
							ApplicationStatus.UNKNOWN,
							ExceptionUtils.stringifyException(throwable),
							false);
					} else {
						// This is the general shutdown path. If a separate more specific shutdown was
						// already triggered, this will do nothing
						shutDownAsync(
							applicationStatus,
							null,
							true);
					}
				});
		}
	}

这个方法主要是做两件事情：

1.initializeServices()初始化相关服务
2.dispatcherResourceManagerComponentFactory.create()启动Dispatcher和ResourceManager服务。

这也印证了Master中含有多个组件，其中Dispatcher和ResourceManager就是其中的两个。首先来看看initializeServices

/**
	上述流程涉及到服务有：
	RpcService: 创建一个 rpc 服务；
	HighAvailabilityServices: HA service 相关的实现，它的作用有很多，比如：处理 ResourceManager 的 leader 选举、JobManager leader 的选举等；
	BlobServer: 主要管理一些大文件的上传等，比如用户作业的 jar 包、TM 上传 log 文件等（Blob 是指二进制大对象也就是英文 Binary Large Object 的缩写）；
	HeartbeatServices: 初始化一个心跳服务；
	MetricRegistryImpl: metrics 相关的服务；
	ArchivedExecutionGraphStore: 存储 execution graph 的服务，默认有两种实现，MemoryArchivedExecutionGraphStore 主要是在内存中缓存，FileArchivedExecutionGraphStore 会持久化到文件系统，也会在内存中缓存。
	这些服务都会在前面第二步创建 DispatcherResourceManagerComponent 对象时使用到。
	*/
	protected void initializeServices(Configuration configuration, PluginManager pluginManager) throws Exception {

		LOG.info("Initializing cluster services.");

		synchronized (lock) {
			//创建RPC服务
			commonRpcService = AkkaRpcServiceUtils.createRemoteRpcService(
				configuration,
				configuration.getString(JobManagerOptions.ADDRESS),
				getRPCPortRange(configuration),
				configuration.getString(JobManagerOptions.BIND_HOST),
				configuration.getOptional(JobManagerOptions.RPC_BIND_PORT));

			// update the configuration used to create the high availability services
			//更新用于创建高可用服务的配置(之前设置的端口可能是个range)
			configuration.setString(JobManagerOptions.ADDRESS, commonRpcService.getAddress());
			configuration.setInteger(JobManagerOptions.PORT, commonRpcService.getPort());

			//创建用于IO的线程池
			ioExecutor = Executors.newFixedThreadPool(
				ClusterEntrypointUtils.getPoolSize(configuration),
				new ExecutorThreadFactory("cluster-io"));
			//HA service(跟用户配置有关，可以是NONE,Zookeeper,也可以是自定义类)
			haServices = createHaServices(configuration, ioExecutor);
			//初始化blobServer并启动
			//这个类实现了BLOB服务器。BLOB服务器负责侦听传入的请求，并生成处理这些请求的线程。此外，它负责创建目录结构来存储blob或临时缓存它们。
			//比如：比如用户作业的 jar 包、TM 上传 log 文件等（Blob 是指二进制大对象也就是英文 Binary Large Object 的缩写）
			blobServer = new BlobServer(configuration, haServices.createBlobStore());
			blobServer.start();
			//heartbeat service
			heartbeatServices = createHeartbeatServices(configuration);
			//metrics reporter
			metricRegistry = createMetricRegistry(configuration, pluginManager);

			//创建了一个Flink内部的metrics rpc service
			final RpcService metricQueryServiceRpcService = MetricUtils.startRemoteMetricsRpcService(configuration, commonRpcService.getAddress());
			//启动metrice Query服务
			metricRegistry.startQueryService(metricQueryServiceRpcService, null);

			final String hostname = RpcUtils.getHostname(commonRpcService);

			processMetricGroup = MetricUtils.instantiateProcessMetricGroup(
				metricRegistry,
				hostname,
				ConfigurationUtils.getSystemResourceMetricsProbingInterval(configuration));

			//存储将存档的执行图写到磁盘，并将最近使用的执行图保存在内存缓存中，以便更快地提供服务。此外，存储的执行图会定期清理
			archivedExecutionGraphStore = createSerializableExecutionGraphStore(configuration, commonRpcService.getScheduledExecutor());
		}
	}

可以看到上面初始化了许多服务，具体包括
1.RpcService:Rpc服务
2.HighAvailabilityServices:HA Service相关的实现，主要用来处理ResourceManager和JobManager的leader选举等。
3.BlobServer:主要管理一些大文件上传，如用户上传的jar包，TM上传的log文件等(Blob是指二进制大对象，也就是Binary Large Object的缩写)；
4.HeartbeatServices：心跳服务
5.MetricQueryServiceRpcService:metrics相关的服务，如metrics查询的RPC服务
6.ArchivedExecutionGraphStore:存储execution graph的服务，JM有一个重要的功能就是将client上传的job graph转化为execution graph。默认有两种实现
文件缓存和内存缓存。以上这些服务在后面创建Dispatcher，ResourceManager时都会用到。

初始化相关服务之后，生成了一个工厂类DispatcherResourceManagerComponentFactory，该工厂类用于创建Dispatcher和ResourceManager组件。

    /**
	Master 中的两个重要服务就是在这里初始化并启动的。
	注意：他们都支持HA模式，所以在启动的过程中会有选主的过程
	*/
	@Override
	public DispatcherResourceManagerComponent create(
			Configuration configuration,
			Executor ioExecutor,
			RpcService rpcService,
			HighAvailabilityServices highAvailabilityServices,
			BlobServer blobServer,
			HeartbeatServices heartbeatServices,
			MetricRegistry metricRegistry,
			ArchivedExecutionGraphStore archivedExecutionGraphStore,
			MetricQueryServiceRetriever metricQueryServiceRetriever,
			FatalErrorHandler fatalErrorHandler) throws Exception {

		LeaderRetrievalService dispatcherLeaderRetrievalService = null;
		LeaderRetrievalService resourceManagerRetrievalService = null;
		WebMonitorEndpoint webMonitorEndpoint = null;
		ResourceManager resourceManager = null;
		DispatcherRunner dispatcherRunner = null;

		try {
			//用于Dispatcher leader选举
			dispatcherLeaderRetrievalService = highAvailabilityServices.getDispatcherLeaderRetriever();
			//用于Resource Manager leader选举
			resourceManagerRetrievalService = highAvailabilityServices.getResourceManagerLeaderRetriever();
			//Dispatcher的Gateway
			final LeaderGatewayRetriever dispatcherGatewayRetriever = new RpcGatewayRetriever<>(
				rpcService,
				DispatcherGateway.class,
				DispatcherId::fromUuid,
				10,
				Time.milliseconds(50L));
			//ResourceManager的Gateway
			final LeaderGatewayRetriever resourceManagerGatewayRetriever = new RpcGatewayRetriever<>(
				rpcService,
				ResourceManagerGateway.class,
				ResourceManagerId::fromUuid,
				10,
				Time.milliseconds(50L));

			//主要用于前端的调用
			final ScheduledExecutorService executor = WebMonitorEndpoint.createExecutorService(
				configuration.getInteger(RestOptions.SERVER_NUM_THREADS),
				configuration.getInteger(RestOptions.SERVER_THREAD_PRIORITY),
				"DispatcherRestEndpoint");

			//metrics Fetcher
			final long updateInterval = configuration.getLong(MetricOptions.METRIC_FETCHER_UPDATE_INTERVAL);
			final MetricFetcher metricFetcher = updateInterval == 0
				? VoidMetricFetcher.INSTANCE
				: MetricFetcherImpl.fromConfiguration(
					configuration,
					metricQueryServiceRetriever,
					dispatcherGatewayRetriever,
					executor);

			//创建各项rest请求端点
			//具体的话有两个实现类JobClusterEntrypoint和SessionClusterEntrypoint
			webMonitorEndpoint = restEndpointFactory.createRestEndpoint(
				configuration,
				dispatcherGatewayRetriever,
				resourceManagerGatewayRetriever,
				blobServer,
				executor,
				metricFetcher,
				highAvailabilityServices.getClusterRestEndpointLeaderElectionService(),
				fatalErrorHandler);

			//启动webMonitorEndpoint
			log.debug("Starting Dispatcher REST endpoint.");
			webMonitorEndpoint.start();

			final String hostname = RpcUtils.getHostname(rpcService);

			//Standalone下这里的resourceManagerFactory是StandaloneResourceManagerFactory，创建的ResourceManager是StandaloneResourceManager
			resourceManager = resourceManagerFactory.createResourceManager(
				configuration,
				ResourceID.generate(),
				rpcService,
				highAvailabilityServices,
				heartbeatServices,
				fatalErrorHandler,
				new ClusterInformation(hostname, blobServer.getPort()),
				webMonitorEndpoint.getRestBaseUrl(),
				metricRegistry,
				hostname);

			final HistoryServerArchivist historyServerArchivist = HistoryServerArchivist.createHistoryServerArchivist(configuration, webMonitorEndpoint, ioExecutor);

			final PartialDispatcherServices partialDispatcherServices = new PartialDispatcherServices(
				configuration,
				highAvailabilityServices,
				resourceManagerGatewayRetriever,
				blobServer,
				heartbeatServices,
				() -> MetricUtils.instantiateJobManagerMetricGroup(metricRegistry, hostname),
				archivedExecutionGraphStore,
				fatalErrorHandler,
				historyServerArchivist,
				metricRegistry.getMetricQueryServiceGatewayRpcAddress());

			//旧版这里先启动ResourceManager后启动dispatcher

			//创建Dispatcher这里返回的是DispatcherRunnerLeaderElectionLifecycleManager
			//启动Dispatcher，旧版这里通过dispatcher.start()启动
			log.debug("Starting Dispatcher.");
			dispatcherRunner = dispatcherRunnerFactory.createDispatcherRunner(
				highAvailabilityServices.getDispatcherLeaderElectionService(),
				fatalErrorHandler,
				new HaServicesJobGraphStoreFactory(highAvailabilityServices),
				ioExecutor,
				rpcService,
				partialDispatcherServices);

			//启动ResourceManager
			log.debug("Starting ResourceManager.");
			resourceManager.start();

			resourceManagerRetrievalService.start(resourceManagerGatewayRetriever);
			dispatcherLeaderRetrievalService.start(dispatcherGatewayRetriever);

			return new DispatcherResourceManagerComponent(
				dispatcherRunner,
				resourceManager,
				dispatcherLeaderRetrievalService,
				resourceManagerRetrievalService,
				webMonitorEndpoint);

		} catch (Exception exception) {
			// clean up all started components
			//出现异常则清除所有已启动的组件
			if (dispatcherLeaderRetrievalService != null) {
				try {
					dispatcherLeaderRetrievalService.stop();
				} catch (Exception e) {
					exception = ExceptionUtils.firstOrSuppressed(e, exception);
				}
			}

			if (resourceManagerRetrievalService != null) {
				try {
					resourceManagerRetrievalService.stop();
				} catch (Exception e) {
					exception = ExceptionUtils.firstOrSuppressed(e, exception);
				}
			}

			final Collection> terminationFutures = new ArrayList<>(3);

			if (webMonitorEndpoint != null) {
				terminationFutures.add(webMonitorEndpoint.closeAsync());
			}

			if (resourceManager != null) {
				terminationFutures.add(resourceManager.closeAsync());
			}

			if (dispatcherRunner != null) {
				terminationFutures.add(dispatcherRunner.closeAsync());
			}

			final FutureUtils.ConjunctFuture terminationFuture = FutureUtils.completeAll(terminationFutures);

			try {
				terminationFuture.get();
			} catch (Exception e) {
				exception = ExceptionUtils.firstOrSuppressed(e, exception);
			}

			throw new FlinkException("Could not create the DispatcherResourceManagerComponent.", exception);
		}
	}

从源码我们可以看到Dispatcher对外提供的Rest接口是通过webMonitorEndpoint来启动的，紧接着启动Dispatcher和ResourceManager，并且在最后启动他们的HA服务。在这里我们没有仔细的跟进Dispatcher和ResourceManager的启动，他们是如何选主的，对外又提供些什么功能，我们放在下篇仔细的解读。

整体流程我们大概梳理完了，用一张图总结一下：

微信公众号：喜讯Xicent

大数据技术之Flink
第1章Flink概述1.1Flink是什么1.2Flink特点1.3FlinkvsSparkStreaming表Flink和Streaming对比FlinkStreaming计算模型流计算微批处理时间语义事件时间、处理时间处理时间窗口多、灵活少、不灵活（窗口必须是批次的整数倍）状态有没有流式SQL有没有1.4Flink的应用场景1.5Flink分层API第2章Flink快速上手2.1创建项目在准备
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
flink数据同步mysql到hive_基于Canal与Flink实现数据实时增量同步(二)
背景在数据仓库建模中，未经任何加工处理的原始业务层数据，我们称之为ODS(OperationalDataStore)数据。在互联网企业中，常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类。对于业务DB数据来说，从MySQL等关系型数据库的业务数据进行采集，然后导入到Hive中，是进行数据仓库生产的重要环节。如何准确、高效地把MySQL数据同步到Hive中？一般常用的解决方案是批量
Flink OceanBase CDC 环境配置与验证 Edingbrugh.南空运维大数据 flink flink oceanbase 大数据
一、OceanBase数据库核心配置1.环境准备与版本要求版本要求：OceanBaseCE4.0+或OceanBaseEE2.2+组件依赖：需部署LogProxy服务（社区版/企业版部署方式不同）兼容模式：支持MySQL模式（默认）和Oracle模式2.创建用户与权限配置在sys租户创建管理用户（社区版示例）：--连接sys租户（默认端口2881）mysql-h127.0.0.1-P2881-ur
Flink MongoDB CDC 环境配置与验证 Edingbrugh.南空运维大数据 flink flink mongodb 大数据
一、MongoDB数据库核心配置1.环境准备与集群要求MongoDBCDC依赖ChangeStreams特性，需满足以下条件：版本要求：MongoDB≥3.6集群模式：副本集（ReplicaSet）或分片集群（ShardedCluster）存储引擎：WiredTiger（默认自3.2版本起）副本集协议：pv1（MongoDB4.0+默认）验证集群配置：#连接MongoDBshellmongo--h
Flink将数据流写入Kafka,Redis,ES,Mysql 浅唱战无双 flink mysql es redis kafka
Flink写入不同的数据源写入到Mysql写入到ES向Redis写入向kafka写入导入公共依赖org.slf4jslf4j-simple1.7.25compileorg.apache.flinkflink-java1.10.1org.apache.flinkflink-streaming-java_2.121.10.1写入到Mysql导入依赖mysqlmysql-connector-java5.
Flink TiDB CDC 环境配置与验证
一、TiDB数据库核心配置1.启用TiCDC服务确保TiDB集群已部署TiCDC组件（版本需兼容FlinkCDC3.0.1），并启动同步服务：#示例：启动TiCDC捕获changefeedcdcclichangefeedcreate\--pd="localhost:2379"\--sink-uri="blackhole://"\--changefeed-id="flink-cdc-demo"2.验
Flink CDC支持Oracle RAC架构CDB+PDB模式的实时数据同步吗，可以上生产环境吗智海观潮 Flink flink cdc oracle flink 数据同步大数据
众所周知，FlinkCDC是一个流数据集成工具，支持多种数据源的实时数据同步，包括大家所熟知的MySQL，MongoDB等。原本是作为Flink的子项目运行，后来捐献给Apache基金会，底层实现比较依赖于Flink生态。具体到数据同步底层实现则相对比较依赖于Debezium。对于Oracle实时数据同步有需求的用户来说，经常会有疑问，比如FlinkCDC支持Oracle实时数据同步吗，可以应用到
Flink Oracle CDC 环境配置与验证
一、Oracle数据库核心配置详解1.启用归档日志（ArchivingLog）OracleCDC依赖归档日志获取增量变更数据，需按以下步骤启用：非CDB数据库配置：--以DBA身份连接数据库CONNECTsys/passwordASSYSDBA;--配置归档目标路径和大小ALTERSYSTEMSETdb_recovery_file_dest_size=10G;ALTERSYSTEMSETdb_re
flink读取kafka的数据处理完毕写入redis JinVijay flink kafka redis flink
/**从Kafka读取数据处理完毕写入Redis*/publicclassKafkaToRedis{publicstaticvoidmain(String[]args)throwsException{StreamExecutionEnvironmentenv=StreamExecutionEnvironment.getExecutionEnvironment();//开启checkpointing
阿里云Flink：开启大数据实时处理新时代云资源服务商阿里云大数据云计算
走进阿里云Flink在大数据处理的广袤领域中，阿里云Flink犹如一颗璀璨的明星，占据着举足轻重的地位。随着数据量呈指数级增长，企业对数据处理的实时性、高效性和准确性提出了前所未有的挑战。传统的数据处理方式逐渐难以满足这些严苛的需求，而阿里云Flink凭借其卓越的特性和强大的功能，成为众多企业实现数据价值挖掘与业务创新的关键技术。它不仅继承了开源Flink的优秀基因，还融入了阿里云自主研发的创新技
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
数据同步工具对比：Canal、DataX与Flink CDC 智慧源点大数据 flink 大数据
在现代数据架构中，数据同步是构建数据仓库、实现实时分析、支持业务决策的关键环节。Canal、DataX和FlinkCDC作为三种主流的数据同步工具，各自有着不同的设计理念和适用场景。本文将深入探讨这三者的技术特点、使用场景以及实践中的差异，帮助开发者根据实际需求选择合适的工具。1.工具概述1.1CanalCanal是阿里巴巴开源的一款基于MySQL数据库增量日志(binlog)解析的组件，主要用于
4_Flink CEP frimiku flink 大数据云计算
FlinkCEP1、何为CEP？CEP，全称为复杂事件处理（ComplexEventProcessing），是一种用于实时监测和分析数据流的技术。CEP详细讲解：CEP是基于动态环境的事件流的分析技术，事件是状态变化（持续生成数据）的。通过分析事件间的关系，利用过滤、关联、聚合等技术，根据事件间的【时序关系和聚合关系】制定检测规则，持续地从事件流中查询出【符合规则要求】的事件序列，最终分析得到更复
Flink项目基础配置指南 Edingbrugh.南空 flink 大数据 flink 大数据
在大数据处理领域，ApacheFlink凭借强大的实时流处理和批处理能力，成为众多开发者的首选工具。在日常工作中，开发FlinkJar任务是常见需求，但每次都需重复配置日志、梳理pom依赖、设置打包插件等，流程繁琐且易出错。为提升开发效率，减少重复劳动，将这些基础配置进行整理归纳十分必要。本文将围绕Flink项目的本地日志配置、pom依赖及插件配置展开详细介绍，为开发者提供一套可直接复用的基础配置
Apache SeaTunnel Flink引擎执行流程源码分析 Code Monkey’s Lab 源码分析 Flink flink 大数据架构 seatunnel
目录1.任务启动入口2.任务执行命令类：FlinkTaskExecuteCommand3.FlinkExecution的创建与初始化3.1核心组件初始化3.2关键对象说明4.任务执行：FlinkExecution.execute()5.Source处理流程5.1插件初始化5.2数据流生成6.Transform处理流程6.1插件初始化6.2转换执行7.Sink处理流程7.1插件初始化7.2数据输出执
Beam2.61.0版本消费kafka重复问题排查隔壁寝室老吴 kafka linq 分布式
1.问题出现过程在测试环境测试flink的job的任务消费kafka的情况，通过往job任务发送一条消息，然后flinkwebui上消费出现了两条。然后通过重启JobManager和TaskManager后，任务从checkpoint恢复后就会出现重复消费。当任务不从checkpoint恢复的时候，任务不会出现重复消费的情况。由此可见是beam从checkpoint恢复的时候出现了重复消费的问题。
Flink CDC同步Oracle无主键表 Zzz...209 java flink oracle
FlinkCDC同步Oracle无主键表问题背景问题解决问题背景FlinkCDC是一种很强大且实用的实时数据同步工具，官网如下。链接:link但是在实际使用过程中还是会有些不足之处，比如说同步Oracle数据库中无主键以及唯一键的表时，关于目标端的幂等性时无法保证的。问题解决在Oracle数据库中，表中有一个伪列ROWID，而在CDC同步过来的数据中是不包含此列的。修改源码如下，使之携带ROWID
Flink Oracle CDC Connector详解 24k小善 flink java 大数据
1.FlinkOracleCDCConnector核心功能功能模块描述实时数据捕获实时捕捉Oracle数据库中的DML操作（INSERT,UPDATE,DELETE）。Schema变更支持支持部分DDL操作的检测（如表结构变更）。端到端一致性确保数据从Oracle到Flink的传输过程中的完整性和一致性。可扩展性支持高吞吐量和大规模数据处理需求。容错机制具备断点续传能力，确保在中断后能够从上次的位
Apache Flink深度解析：现代流处理引擎暴躁哥大数据技术 apache flink 大数据
好的，我来帮您写一篇关于Flink技术的详细介绍博客：ApacheFlink深度解析：现代流处理引擎一、Flink简介ApacheFlink是一个开源的分布式流处理和批处理统一计算引擎。它提供了数据流上的状态计算、精确一次性语义保证、高吞吐、低延迟等特性，能够运行在所有常见的集群环境中。1.1核心特性统一的流批处理精确一次性语义事件时间处理有状态计算高吞吐和低延迟高可用性配置内存管理二、Flink
Flink SQL Connector Kafka 核心参数全解析与实战指南 Edingbrugh.南空 kafka flink 大数据 flink sql kafka
FlinkSQLConnectorKafka是连接FlinkSQL与Kafka的核心组件，通过将Kafka主题抽象为表结构，允许用户使用标准SQL语句完成数据读写操作。本文基于ApacheFlink官方文档（2.0版本），系统梳理从表定义、参数配置到实战调优的全流程指南，帮助开发者高效构建实时数据管道。一、依赖配置与环境准备1.1Maven依赖引入在FlinkSQL项目中使用Kafka连接器需添加
Flink部署与应用——Flink集群模式黄雪超从0开始学Flink flink 大数据
Flink集群模式在大数据处理领域，ApacheFlink凭借其卓越的流批一体化处理能力，成为众多企业的首选框架。而Flink集群模式的选择与运用，对于充分发挥Flink的性能优势、满足不同业务场景的需求至关重要。接下来，我们将深入探讨Flink的多种集群模式，剖析其特点、适用场景及相互间的差异。集群部署模式对比Flink的集群部署模式可依据两个关键维度进行分类：一是集群的生命周期和资源隔离方式；
Spark Streaming 与 Flink 实时数据处理方案对比与选型指南浅沫云归后端技术栈小结 spark-streaming flink real-time
SparkStreaming与Flink实时数据处理方案对比与选型指南实时数据处理在互联网、电商、物流、金融等领域均有大量应用，面对海量流式数据，SparkStreaming和Flink成为两大主流开源引擎。本文基于生产环境需求，从整体架构、编程模型、容错机制、性能表现、实践案例等维度进行深入对比，并给出选型建议。一、问题背景介绍业务场景日志实时统计与告警用户行为实时画像实时订单或交易监控流式ET
现代数据湖架构全景解析：存储、表格式、计算引擎与元数据服务的协同生态讲文明的喜羊羊拒绝pua 大数据架构数据湖 Spark Iceberg Amoro 对象存储
本文全面剖析现代数据湖架构的核心组件，深入探讨对象存储（OSS/S3）、表格式（Iceberg/Hudi/DeltaLake）、计算引擎（Spark/Flink/Presto）及元数据服务（HMS/Amoro）的协作关系，并提供企业级选型指南。一、数据湖架构演进与核心价值数据湖架构演进历程现代数据湖核心价值矩阵维度传统数仓现代数据湖存储成本高（专有硬件）低（对象存储）数据时效性小时/天级分钟/秒级
69、Flink 的 DataStream Connector 之 Kafka 连接器详解猫猫爱吃小鱼粮 Flink-1.19 从0到精通 flink kafka 大数据
1.概述Flink提供了Kafka连接器使用精确一次（Exactly-once）的语义在Kafkatopic中读取和写入数据。目前还没有Flink1.19可用的连接器。2.KafkaSourcea）使用方法KafkaSource提供了构建类来创建KafkaSource的实例。以下代码片段展示了如何构建KafkaSource来消费“input-topic”最早位点的数据，使用消费组“my-group
Flink SourceFunction深度解析：数据输入的起点与奥秘 Edingbrugh.南空 flink 大数据 flink 大数据
在Flink的数据处理流程中，StreamGraph构建起了作业执行的逻辑框架，而数据的源头则始于SourceFunction。作为Flink数据输入的关键组件，SourceFunction负责从外部数据源读取数据，并将其转换为Flink作业能够处理的格式。深入理解SourceFunction的原理与实现，对于构建高效、稳定的数据处理链路至关重要。接下来，我们将结合有道云笔记内容，对FlinkSo
【Flink实战】 Flink SQL 中处理字符串 `‘NULL‘` 并转换为 `BIGINT` roman_日积跬步-终至千里 #flink 实战 sql flink 数据库
文章目录一、问题描述解决方案解释一、问题描述当我们尝试将字符串'NULL'直接转换为BIGINT时，会遇到NumberFormatException，因为'NULL'不是一个有效的数字字符串。为了避免这种错误，我们需要在转换之前进行检查。解决方案我们可以使用CASE语句来实现条件转换。具体步骤如下：使用CASE语句进行条件判断：检查字符串是否为'NULL'，如果是'NULL'，则返回0；否则，将字
Flink状态和容错-基础篇有数的编程笔记 Flink flink 大数据
1.概念flink的状态和容错绕不开3个概念，statebackends和checkpoint、savepoint。本文重心即搞清楚这3部分内容。容错机制是基于在状态快照的一种恢复方式。但是状态和容错要分开来看。什么是状态，为什么需要状态？流计算和批计算在数据源上最大的区别是，流计算中的数据是无边界的，数据持续不断，而批计算中数据是有边界的，在计算时可以一次性将数据全部拿到。在流计算中无法拿到全部
flink:风控/反欺诈检测系统案例研究1,2,3 菠萝科技 java·未分类 flink flink 风控欺诈
https://flink.apache.org/news/2020/01/15/demo-fraud-detection.htmlhttps://flink.apache.org/news/2020/03/24/demo-fraud-detection-2.htmlhttps://flink.apache.org/news/2020/07/30/demo-fraud-detection-3.ht
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默

flink-1.11-Standalone模式启动源码解读之Master启动

微信公众号：喜讯Xicent

你可能感兴趣的:(flink,flink)