沉浮-

PyFlink中使用kafka和MySQL

文章目录

PyFlink中使用kafka和MySQL
1 需求配置
2 MySQL的安装与配置
- 2.1 配置yum源
- 2.2 安装MySQL源
- 2.3 检查MySQL源是否安装成功
- 2.4 安装MySQL
- 2.5 启动MySQL服务
- 2.6 查看MySQL的状态
- 2.7 查看初始密码
- 2.7 以初始密码登录MySQL
- 2.8 修改root本地登录密码
3 单机系统下的kafka安装与配置
- 3.1 下载kafka压缩包
- 3.2 解压kafka到指定目录
- 3.3 修改server.properties
- 3.4 启动zookeeper
- 3.5 启动kafka
- 3.6 创建topic
- 3.7 删除topic
- 3.8 查看当前系统中所有的topic
- 3.9 启动生产者
- 3.10 启动消费者
4 kafka和MySQL在PyFlink中的使用
- 4.1 环境配置
- 4.2 程序代码
- 4.3 程序运行流程
- 4.4 启动kafka的生产者
- 4.5 遇到的问题
Reference

1 需求配置

系统：Centos
Java环境：Java8
Pyflink-1.10.1
kafka_2.13-2.4.0
MySQL 8.0.21

2 MySQL的安装与配置

在PyFlink中使用MySQL，我们要先对MySQL进行安装和配置

2.1 配置yum源

在MySQL官网中下载YUM源rpm安装包：

http://dev.mysql.com/downloads/repo/yum/

下载过程如下图所示：

2.2 安装MySQL源

输入以下指令进行安装：

yum localinstall mysql80-community-release-el8-1.noarch.rpm

安装过程如下图所示：

2.3 检查MySQL源是否安装成功

输入以下指令进行检查：

yum repolist enabled | grep "mysql.*-community.*"

安装结果如下图所示：

看到上图内容表示安装成功。

2.4 安装MySQL

输入以下指令进行安装：

yum install mysql-community-server

可能出现的问题：
未找到匹配的参数： mysql-community-server

解决方法：

输入yum module disable mysql指令，先禁用默认的MySQL模块，然后再进行安装就可以安装成功了

2.5 启动MySQL服务

输入以下指令启动MySQL服务：

systemctl start mysqld

2.6 查看MySQL的状态

输入以下指令查看mysql的状态：

systemctl status mysqld

查询结果如下图所示：

2.7 查看初始密码

查看初始密码的指令如下所示：

grep 'temporary password' /var/log/mysqld.log

查询结果如下图所示：

我的初始密码为：EqPX0rUauh>X

2.7 以初始密码登录MySQL

登录MySQL的指令为：

mysql -u root -p

登录MySQL后结果如下图所示：

2.8 修改root本地登录密码

使用如下指令修改本地登录密码：

ALTER USER 'root'@'localhost' IDENTIFIED BY 'Yue724223949_';

修改结果如下图所示：

注：“Yue724223949_”是我所设置的密码

3 单机系统下的kafka安装与配置

在PyFlink中使用MySQL，我们要先对MySQL进行安装和配置

3.1 下载kafka压缩包

使用如下指令下载kafka压缩包：

wget http://mirrors.tuna.tsinghua.edu.cn/apache/kafka/2.4.0/kafka_2.13-2.4.0.tgz

3.2 解压kafka到指定目录

使用如下指令将kafka压缩包解压到指定目录（这里指定到/usr/local，自行修改）：

tar -zxvf kafka_2.13-2.4.0.tgz -C /usr/local

3.3 修改server.properties

broker的含义：Kafka集群包含一个或多个服务器，每个服务器节点都被称为broker，每个broker都有唯一的id值用来区分，Kafka在启动时会在zookeeper中/brokers/ids路径下创建一个以当前broker的id为名称的节点，当broker下线时，该节点会自动删除，其他broker或客户端通过判断/brokers/ids路径下是否有此broker的id来确定该broker是否存在。
进入server.properties所在的目录并修改其配置：

	cd /usr/local//kafka_2.13-2.4.0/config/
	vim server.properties

找到broker.id并修改为1(如果是多个kafka服务，需配置不同broker.id作为标识)
broker.id=1

找到log.dirs并修改为指定路径（自行修改）

log.dirs=/usr/local/kafka_2.13-2.4.0/kafka_log

以后kafka产生的日志都会存在此路径

3.4 启动zookeeper

进入到kafka_2.13-2.0目录之下，输入以下命令启动zookeeper

bin/zookeeper-server-start.sh config/zookeeper.properties

启动结果如下图所示：

出现这个界面说明zookeeper启动成功，但由于是前台启动的，所以需要重新打开一个窗口，此时在新的窗口输入jps，可以看到如下内容：

此时说明zookeeper已经成功启动。

3.5 启动kafka

使用如下指令启动kafka：

bin/kafka-server-start.sh config/server.properties

启动结果如下图所示：

此时再打开一个新的窗口，原因与上述相同，然后在新的窗口输入jps可以看到下图的内容：

说明kafka启动成功。

3.6 创建topic

使用如下指令创建主题topic（topic为类别属性，来划分数据的所属类，可以理解为数据库的一张表，topic的名字就是表的名字）：

bin/kafka-topics.sh --create --zookeeper localhost:2181 -replication-factor 1 --partitions 1 --topic test_statistic

其中各个参数的含义为：
–create为创建
–zookeeper localhost:2181为指定zookeeper的地址（这里为本地，非本地需指定ip，zk的默认端口为2181）
–replication-factor 1 为指定副本的个数（partition的副本，consumer并不会从副本中消费数据，而是为了防止数据丢失）
–partitions 1 为指定分区个数（topic的数据被分割成一个或多个partition，topic至少有一个partition）
–topic test_statistic 指定topic的名字为test_statistic

建立后的结果如下图所示：

3.7 删除topic

使用如下指令删除topic：

bin/kafka-topics.sh --delete --zookeeper localhost:2181 --topic test_statistic

删除结果如下图所示：

3.8 查看当前系统中所有的topic

使用如下指令查看当前系统中所有的topic：

bin/kafka-topics.sh --list --zookeeper localhost:2181

查询结果如下图所示：

3.9 启动生产者

使用如下指令启动生产者：

bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test_statistic

其中参数的含义为：
–broker-list localhost:9092 为连接对应的broker（这里连接的是本地端口为9092的broker服务，可指定ip连接指定的broker）
–topic test_statistic 指定把消息生产到哪个topic中

启动生产者后我们可以看到如下图所示的内容：

此时说明生产者启动成功。

3.10 启动消费者

我们可以使用如下指令启动消费者：

bin/kafka-console-consumer.sh 	--bootstrap-server localhost:9092 --topic test_statistic --from-beginning

其中参数的含义为：
–bootstrap-server localhost:9092 指定从哪个broker中拉取消息，（当我们连接到任意一个Broker后，
我们就已经连接到了整个Kafka集群，我们连接的第一个Broker称之为Bootstrap Broker）
–from-beginning 表示从头开始读取

此时我们可以看到如下图所示的内容：

此时说明消费者启动成功，并拉去了来自生产者的两条信息：“hello”和“ www.baidu.com 8080”
至此，整个单机系统下的kafka安装成功。

4 kafka和MySQL在PyFlink中的使用

4.1 环境配置

在使用PyFlink代码连接kafka之前，我们需要先将connector所需要的jar包导入到pyflink的lib目录中，一般情况下lib目录的路径为：/usr/local/lib/python3.6/site-packages/pyflink/lib
我们需要用下列命令将所需要的jar包导入lib目录中：

curl -O https://repo1.maven.org/maven2/org/apache/flink/flink-sql-connector-kafka_2.11/1.10.0/flink-sql-connector-kafka_2.11-1.10.0.jar
curl -O https://repo1.maven.org/maven2/org/apache/flink/flink-jdbc_2.11/1.10.0/flink-jdbc_2.11-1.10.0.jar
curl -O https://repo1.maven.org/maven2/org/apache/flink/flink-csv/1.10.0/flink-csv-1.10.0-sql-jar.jar
curl -O https://repo1.maven.org/maven2/mysql/mysql-connector-java/8.0.19/mysql-connector-java-8.0.19.jar

添加完成后如下图所示：

因为PyFlink内部系统不一定都包含你所需要的类库、模块等，所以需要导入jar包。
Curl可以认为是使用url的一个下载工具。
注:如果使用命令将代码提交到Flink上，要进入jar所导入的lib目录内提交，本文是在/usr/local/lib/python3.6/site-packages/pyflink下提交的，因为该目录下lib目录中存有运行该程序所需要的所有jar包（也就是说在哪里使用命令行，就在哪个flink-conf里面添加jar包）

4.2 程序代码

cdn_demo.py

import os

from pyflink.datastream import StreamExecutionEnvironment
from pyflink.table import StreamTableEnvironment, EnvironmentSettings
from cdn_connector_ddl import kafka_source_ddl,mysql_sink_ddl

# 创建Table Environment， 并选择使用的Planner
env = StreamExecutionEnvironment.get_execution_environment()
t_env = StreamTableEnvironment.create(
    env,
    environment_settings=EnvironmentSettings.new_instance().use_blink_planner().build())
# set source table
# 创建Kafka数据源表,以及会创建一个kafka的新的topic——cdn_access_log
t_env.sql_update(kafka_source_ddl)
# 创建MySql结果表,这个创建的只是flink内部的table，所以在此之前我们需要在MySQL中重新建立MySQL的table表。
t_env.sql_update(mysql_sink_ddl)

# 核心的统计逻辑
t_env.from_path("cdn_access_log") \
    .select("uuid, "
    	"client_ip as province, "
		"response_size, request_time")\
.group_by("province")\
    .select( # 计算访问量
           "province, count(uuid) as access_count, "
           # 计算下载总量 
           "sum(response_size) as total_download,  "
           # 计算下载速度
           "sum(response_size) * 1.0 / sum(request_time) as download_speed") \
   .insert_into("cdn_access_statistic")

# 执行作业
t_env.execute("test")

cdn_connector_ddl.py

kafka_source_ddl = """
CREATE TABLE cdn_access_log (
 uuid VARCHAR,
 client_ip VARCHAR,
 request_time BIGINT,
 response_size BIGINT
) WITH (
 'connector.type' = 'kafka',
 'connector.version' = 'universal',
 'connector.topic' = 'cdn_access_log',
 'connector.properties.zookeeper.connect' = 'localhost:2181',
 'connector.properties.bootstrap.servers' = 'localhost:9092',
 'format.type' = 'csv',
 'format.ignore-parse-errors' = 'true'
)
"""
# 注意修改MySQL中table的名称和MySQL的登录密码
mysql_sink_ddl = """
CREATE TABLE cdn_access_statistic (
 province VARCHAR,
 access_count BIGINT,
 total_download BIGINT,
 download_speed DOUBLE
 ) WITH (
 'connector.type' = 'jdbc',
 'connector.url' = 'jdbc:mysql://localhost:3306/flink?autoReconnect=true&failOverReadOnly=false&useUnicode=true&characterEncoding=utf-8&useSSL=false&serverTimezone=GMT%2B8',
 'connector.table' = 'cdn_access_statistic',
 'connector.username' = 'root',
 'connector.password' = 'Yue724223949_',
 'connector.write.flush.interval' = '1s'
)
"""

4.3 程序运行流程

（1）首先使用如下指令打开zookeeper和kafka：

进入到 kafka_2.13-2.0 目录之下，输入以下命令启动 zookeeper：

bin/zookeeper-server-start.sh config/zookeeper.properties

启动kafka：

bin/kafka-server-start.sh config/server.properties

（2）进入/usr/local/lib/python3.6/site-packages/pyflink/bin，启动单集群下的Flink：

./start-cluster.sh

(3)提交代码到Flink：

./bin/flink run -m localhost:8081 -pyfs /usr/local/flink/enjoyment.code/myPyFlink/enjoyment/cdn/cdn_connector_ddl.py -py /usr/local/flink/enjoyment.code/myPyFlink/enjoyment/cdn/cdn_demo.py

可能遇到的问题：
org.apache.flink.client.program.OptimizerPlanEnvironment$ProgramAbortException
解决方案：
查找日志文件，然后发现问题主要是“java.io.IOException: Cannot run program “python”: error=2, 没有那个文件或目录”
出现问题的原因：python3.6是真正安装的版本，但是系统需要python版本，所以我们通过建立一个链接来解决这个问题，我们使用如下代码来建立一个新的链接
ln -s /usr/bin/python3.6 /usr/bin/python
注：一定要学会看日志文件，日志文件中有出错的具体原因，Flink的日志文件在log文件夹中

提交完成后打开网址localhost:8081，界面如下所示：

4.4 启动kafka的生产者

进入到 kafka_2.13-2.0 目录之下，输入以下命令启动 producer：

bin/kafka-console-producer.sh --broker-list localhost:9092 --topic cdn_access_log

如果没有创建，需要先创建cdn_access_log这个topic
向kafka中输入：11,110,20,200
打开MySQL，进入Flink数据库，select表cdn_access_statistic，可以得到以下结果：

此时说明代码已经运行成功。

4.5 遇到的问题

（1）首先，所有遇到的错误，都要先找到其cause by，也就是看出错的原因是什么。
例如如下错误，出错的原因就是url出现了问题：
org.apache.flink.runtime.rpc.akka.FencedAkkaRpcActor.handleRpcMessage(FencedAkkaRpcActor.java:74)
at org.apache.flink.runtime.rpc.akka.AkkaRpcActor.handleMessage(AkkaRpcActor.java:152)
at akka.japi.pf.UnitCaseStatement.apply(CaseStatements.scala:26)
at akka.japi.pf.UnitCaseStatement.apply(CaseStatements.scala:21)
at scala.PartialFunction$class.applyOrElse(PartialFunction.scala:123)
at akka.japi.pf.UnitCaseStatement.applyOrElse(CaseStatements.scala:21)
at scala.PartialFunction$OrElse.applyOrElse(PartialFunction.scala:170)
at scala.PartialFunction$OrElse.applyOrElse(PartialFunction.scala:171)
at scala.PartialFunction$OrElse.applyOrElse(PartialFunction.scala:171)
at akka.actor.Actor$class.aroundReceive(Actor.scala:517)
at akka.actor.AbstractActor.aroundReceive(AbstractActor.scala:225)
at akka.actor.ActorCell.receiveMessage(ActorCell.scala:592)
at akka.actor.ActorCell.invoke(ActorCell.scala:561)
at akka.dispatch.Mailbox.processMailbox(Mailbox.scala:258)
at akka.dispatch.Mailbox.run(Mailbox.scala:225)
at akka.dispatch.Mailbox.exec(Mailbox.scala:235)
at akka.dispatch.forkjoin.ForkJoinTask.doExec(ForkJoinTask.java:260)
at akka.dispatch.forkjoin.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1339)
at akka.dispatch.forkjoin.ForkJoinPool.runWorker(ForkJoinPool.java:1979)
at akka.dispatch.forkjoin.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:107)
Caused by: java.lang.IllegalArgumentException: Expecting a non-empty string for url
在找到出现问题的原因后，我们就可以去处理问题了。

（2）在提交命令时使用-pyfs可以用来添加import的python文件，也就是添加python的依赖文件，不同的文件中间使用“，”隔开

（3）输入数据进入kafka的时候一定要与你定义的数据格式相一致，例如你定义了两个field，你只能输入两个数据，如果输入数据过多的话就无法将kafka内的数据导入到MySQL中了。（因为我们是先在flink内部创建了一个关于kafka的table，然后才通过这个table将数据输入到Flink关于MySQL的table中，最后才将数据输入到外部的MySQL表中）

（4）外部的Kafka的topic与MySQL的table都要在程序运行之前进行创建。

（5）注意使用DDL的时候要修改好MySQL的配置，特别是passport和URL.

Reference

PyFlink 场景案例 - PyFlink实现CDN日志实时分析

[附源码]Python计算机毕业设计SSM基于B-S的心理健康管理系统（程序+LW) Python、JAVA毕设程序源码 java 开发语言
环境配置：Jdk1.8+Tomcat7.0+Mysql+HBuilderX（Webstorm也行）+Eclispe（IntelliJIDEA,Eclispe,MyEclispe,Sts都支持）。项目技术：SSM+mybatis+Maven+Vue等等组成，B/S模式+Maven管理等等。环境需要1.运行环境：最好是javajdk1.8，我们在这个平台上运行的。其他版本理论上也可以。2.IDE环境：
5-1 使用ECharts将MySQL数据库中的数据可视化上课的牛马实训大数据
方法一：使用PythonFlask框架搭建API对于技术小白来说，使用ECharts将MySQL数据库中的数据可视化需要分步骤完成。以下是详细的实现流程：一、技术架构‌后端服务‌：使用PythonFlask框架搭建API（简单易学，适合新手）数据库连接‌：通过Python的pymysql库连接MySQL前端可视化‌：HTML+JavaScript+ECharts数据流向‌：MySQL数据库→Pyt
计算机毕业设计JavaBS景区票务管理系统设计与实现(源码+系统+mysql数据库+lw文档）毅铭科技数据库
计算机毕业设计JavaBS景区票务管理系统设计与实现(源码+系统+mysql数据库+lw文档）计算机毕业设计JavaBS景区票务管理系统设计与实现(源码+系统+mysql数据库+lw文档）本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：
mysql修改表中所有字段不许为空_如何用SQL语句修改一个表的字段，让它不能为空... Asama浅间
展开全部ALTERTABLE表ALTERCOLUMN[字段名]字段类型NOTNULLSQL语句1、基32313133353236313431303231363533e78988e69d8331333365643661本介绍：sql语句是对数据库进行操作的一种语言。结构化查询语言(StructuredQueryLanguage)简称SQL，结构化查询语言是一种数据库查询和程序设计语言，用于存取数据以
Kafka深度解析 GarfieldEr007 Kafka/MQ Kafka 深度解析 MQ
原创文章，转载请务必将下面这段话置于文章开头处（保留超链接）。本文转发自Jason’sBlog，原文链接http://www.jasongj.com/2015/01/02/Kafka深度解析背景介绍Kafka简介Kafka是一种分布式的，基于发布/订阅的消息系统。主要设计目标如下：以时间复杂度为O(1)的方式提供消息持久化能力，即使对TB级以上数据也能保证常数时间的访问性能高吞吐率。即使在非常廉价
对数据库的总结 java
一、数据库基础1.数据库是一个用于存储和操作数据的文件系统2.关系型数据库：是基于二维表存储的，每个表格由列和行组成，列代表属性，行代表约束，数据的组织和查询更加方便和高效。3.库表操作结构：MySQL和Oracle，通用工具Navicat4.SQL语句的库表操作：createtable：创建表altertable：修改表droptable：删除表truncatetable：删除表中的所有数据，但
Mysql-经典实战案例（10）：如何用PT-Archiver完成大表的自动归档从不删库的DBA Mysql 经典实战案例 mysql 数据库
真实痛点：电商订单表存储优化场景现状分析某电商平台订单表（order_info）每月新增500万条记录主库：高频读写，SSD存储（空间告急）历史库：HDD存储，只读查询优化目标✅自动迁移7天前的订单到历史库✅每周六23:30执行，不影响业务高峰✅确保数据一致性第一章：前期准备：沙盒实验室搭建1.1实验环境架构生产库：10.33.112.22历史库：10.30.76.41.2环境初始化（双节点执行）
MySQL性能优化实战笔记 - 通俗易懂版泥潭硬拔 mysql 性能优化笔记
1.存储引擎选择-到底选哪个？InnoDBvsMyISAM通俗对比想象你开了一家银行：InnoDB就像是有保险柜的银行支持事务：比如转账，要么都成功，要么都失败行级锁：小明在存钱时，小红还能同时取钱缺点：需要更多内存和CPUMyISAM就像是简易储物柜不支持事务：操作简单直接表级锁：一个人在用时，其他人要等待优点：读取速度快，占用资源少2.实战案例：常见性能问题及解决方案案例1：查询特别慢--糟糕
Flink命令行启动Job任务平凡的运维之路 linux 程序人生
Flink非交互式运行Job任务Flink命令行启动Job任务具体命令flink参数说明-c,--class-d,--detached后台运行-p,--parallelism并行度[test@xxx~]$flinkrun-d-cclass_nameJob-p3./flink-statics-1.0.jar-zookeeper"10.130.41.51:2181,10.130.41.52:2181,
快速启动flink项目 for your wish flink java 大数据
按照这个步骤1分钟内创建完成idea-----File----new---Project------Maven----Createfromarchetype----AddArchetype弹出框：GroupId填org.apache.flinkArtifactId填flink-quickstart-javaVersion填1.14.0选中刚刚添加的Archetype，点Next填写你要创建的这个f
中高级开发必看！MySQL 面试秘籍助你飞升七七知享数据库 mysql 面试数据库程序人生职场和发展学习方法 github
中高级开发必看！MySQL面试秘籍助你飞升想要晋升中高级开发岗位？MySQL面试攻略来助力！这篇CSDN文章堪称你进阶路上的“秘密武器”，从基础概念到高阶优化，全方位覆盖MySQL面试要点，无论是索引原理、查询优化，还是事务处理、主从复制，都有深入解读，助你轻松应对面试官的各类难题，稳稳拿下心仪Offer，向着中高级开发岗位大步迈进！
【Flink】flink启动任务，taskmanager.out 文件增涨非常快九师兄 flink 大数据
1.概述flink启动任务，taskmanager.out文件增涨非常快，这个文件大小怎么限定？测试了很多办法发现都不起作用这个问题可以试试：【Flink】Flink1.11.2onYARN滚动日志配置但是后面我发现不是这个导致的，是slf4j依赖冲突，jar包删除就可以了
IDEA本地启动flink 任务 Direction_Wind intellij-idea flink java
1pom中添加org.apache.flinkflink-clients_${scala.binary.version}${flink.version}org.apache.flinkflink-runtime-web_${scala.binary.version}${flink.version}2下载flink-dist包并3打印日志中搜索localhost可以找到flink的管理页面
关于kafka常见的问题小结 BAStriver #Kafka 中间件 kafka 分布式
目录1.Kafka怎么避免重复消费1.1什么时候出现重复消费1.2如何处理重复消费问题2.Kafka怎么保证消息不丢失2.1Producer2.2Broker2.3Consumer3.Kafka怎么保证消息消费的顺序最近面试遇到一些常见kafka问题，所以做一下总结。1.Kafka怎么避免重复消费1.1什么时候出现重复消费1)Kafka的broker上存储的消息都有一个offset作为标记，然后K
【Kafka高级】Kafka性能优化与调优实践全栈追梦人 kafka 性能优化 linq
在大规模数据处理和实时消息传递场景中，Kafka的性能优化至关重要。本文将从生产者性能优化、消费者性能优化以及集群性能调优三个方面展开，结合实际代码示例和配置参数，帮助读者更好地理解和应用Kafka性能优化策略。一、生产者性能优化Kafka生产者的性能直接影响消息发送的效率和系统的吞吐量。以下是一些关键优化策略：1.1批量发送生产者会将消息批量发送到Kafka，减少网络请求次数。以下参数对批量发送
Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
mysql-大批量插入数据的三种方式和使用场景不穿铠甲的穿山甲 mysql 数据库
1.批量插入三种方式INSERTINTO…SELECTINSERTINTO…VALUES(…)LOADDATAINFILE‘/path/to/datafile.csv’INTOTABLEtable_name2.批量插入2.1INSERTINTO…SELECT用途：从另一个表中选择数据并插入到目标表中。语法示例：INSERTINTOtarget_table(column1,column2)SELEC
【金丹境】巧解mysql的事务与隔离级别 jstart千语 mysql 数据库
目录事务的特性（ACID）原子性（Atomicity）一致性（Consistency）隔离性（Isonlation）持久性（Durability）事务的隔离级别未提交读（READUNCOMMITTED）读已提交（READCOMMITTED）可重复读（REPEATABLEREAD）可序列化（SERIALIZABLE）事务并发问题脏读——读到别的事务修改但未提交的内容不可重复读——单条数据两次读取到的
消息中间件：RabbitMQ、Kafka 和 Redis如何选择？一文让您了解！写bug如流水架构设计 rabbitmq kafka redis 中间件
RabbitMQ、Kafka和Redis是三种常见的消息中间件，它们各自具有不同的特点和适用的场景。以下是对它们使用场景及选择的分析：1.RabbitMQRabbitMQ是一个基于AMQP（AdvancedMessageQueuingProtocol）的消息队列系统，主要用于消息传递和任务分发，具有可靠的消息传递机制。使用场景：复杂的路由机制：RabbitMQ支持多种交换器类型（如fanout、d
Kafka Connect Node.js Connector 指南丁操余
KafkaConnectNode.jsConnector指南kafka-connectequivalenttokafka-connect:wrench:fornodejs:sparkles::turtle::rocket::sparkles:项目地址:https://gitcode.com/gh_mirrors/ka/kafka-connect项目介绍KafkaConnectNode.jsConn
消息中间件选型: kafka与rabbitmq的对比 HS_Henry 消息中间件 rabbitmq kafka 消息中间件选型
RabbitMQ总结_陈海龙的格物之路-CSDN博客https://blog.csdn.net/chl87783255/article/details/122606212kafka总结_陈海龙的格物之路-CSDN博客kafka，仅支持拉取的分布式流式平台。本文从简介、使用场景、设计、实现四个方面阐述kafka。https://blog.csdn.net/chl87783255/article/de
【机器学习】建模流程 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能线性回归逻辑回归
1、数据获取1.1来源数据获取是机器学习建模的第一步，常见的数据来源包括数据库、API、网络爬虫等。数据库是企业内部常见的数据存储方式，例如：MySQL、Oracle等关系型数据库，以及MongoDB等非关系型数据库，它们能够存储大量的结构化和非结构化数据API（应用程序编程接口）提供了从外部获取数据的便捷方式，例如：社交媒体平台的API可以获取用户发布的内容和互动信息网络爬虫则适用于从网页中提取
RabbitMQ 与 Kafka：消息中间件的终极对比与选型指南海上彼尚 node.js rabbitmq kafka 分布式 node.js
引言在分布式系统架构中，消息中间件是异步通信的核心组件。RabbitMQ和Kafka作为两大主流技术，常被开发者拿来比较。本文深入解析两者的设计哲学、性能差异和典型场景，助你做出精准技术选型。目录引言一、核心设计差异1.定位与数据模型二、性能与架构对比1.吞吐量与延迟2.集群与扩展三、功能特性对决1.消息可靠性2.消息路由四、典型场景与选型决策1.优先选择Kafka的场景2.优先选择RabbitM
MySQL进阶——提高查询效率之添加索引的全部方式 1加1等于 MySQL sql mysql
索引提高查询效率，本文介绍优化查询时添加索引的多种方式。本文目录一、创建表时添加索引二、使用ALTERTABLE语句添加索引三、使用CREATEINDEX语句添加索引一、创建表时添加索引在使用CREATETABLE语句创建表的同时，可以为表中的列添加索引。适用于在设计表结构时就确定需要添加索引的情况。语法如下：CREATETABLEtable_name(column1datatype,column
#Hadoop全分布式安装 #mysql安装 #hive安装砸吧砸吧 hadoop hive yarn mysql
分布式（多台机器部署不同组件）与集群（多台机器部署相同组件）概念。Linux基础命令linux具有文件数：目录、文件，从根目录开始，路径具有唯一性。pwd：显示当前路径特殊符号：/：根目录.：隐藏文件，如果路径以.开始，表示当前目录下..：当前目录下的上一级~：当前目录的home目录--help：帮助命令使用linux常用操作命令tab键：自动补全ls：显示指定目录内容默认：当前路径-a：显示所有
精挑20题：MySQL 8.0高频面试题深度解析——掌握核心知识点、新特性和优化技巧 dblens 数据库管理和开发工具 mysql mysql 数据库面试
1.MySQL8.0中，为什么查询缓存被移除？答案：原因：查询缓存对频繁更新的表效果差，任何对该表的写操作都会清空所有相关缓存，导致缓存命中率低，反而增加开销。替代方案：使用应用层缓存（如Redis）。优化查询和索引，减少对缓存的依赖。MySQL8.0改进：通过索引优化、并行查询等提升性能，弥补查询缓存缺失的影响。2.InnoDB的行锁和表锁分别在什么场景下使用？答案：行锁：高并发场景下更新或查询
【MySQL必知必会】数据库操纵语言（DML）超全总结：增删改查一文搞定！秀儿还能再秀数据库 MySQL 学习笔记
一、DML简介数据库操纵语言（DataManipulationLanguage,DML）是SQL的核心组成部分，主要用于对数据库中的数据进行增（INSERT）、删（DELETE）、改（UPDATE）、查（SELECT）操作，掌握DML都是必备技能！二、核心操作详解1.插入数据：INSERT--插入单条数据（全字段）INSERTINTO表名VALUES(值1,值2,...);--指定字段插入INSE
Laravel 8 项目基于 PHP 8 与 Nginx 的线上部署全攻略你华还是你华 laravel上线级项目 php laravel nginx
本文目录前言一、服务器1.1购买与选型1.2服务器配置安装php8二、项目上线2.1git关联2.2安装项目依赖2.3项目配置2.3.1基础配置2.3.2数据库及表配置与创建2.3.3Navicat连接Mysql2.3.4运行seeder进行数据填充2.3.5Nginx配置与报错处理三、项目成功调用API示例四、自动配置https证书4.1Certbot概述4.2配置证书4.3自动更新证书4.4效
FlinkCDC实战：将 MySQL 数据同步至 ES 小DuDu flink mysql
当前需要处理的业务场景:将订单表和相关联的表(比如:商品表、子订单表、物流信息表)组织成宽表,放入到ES中,加速订单数据的查询.同步数据到es.概述1.什么是CDC2.什么是FlinkCDC3.FlinkCDCConnectors和Flink的版本映射实战1.宽表查询1.1创建mysql表1.2启动Flink集群和FlinkSQLCLI1.3在FlinkSQLCLI中使用FlinkDDL创建表1.
MySQL InnoDB 存储引擎详解 drebander 数据库 mysql android 数据库
InnoDB是MySQL中最常用、最强大的存储引擎之一，其支持事务、外键、行级锁等特性，非常适合对可靠性、并发性要求较高的场景。本文将详细解析InnoDB的核心特性、内部机制以及使用场景，帮助你更好地理解和优化MySQL数据库。1.为什么选择InnoDB存储引擎InnoDB是MySQL默认的存储引擎（从MySQL5.5开始）。相比其他存储引擎（如MyISAM），InnoDB的优势在于：支持事务：遵
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

PyFlink中使用kafka和MySQL

PyFlink中使用kafka和MySQL

文章目录

1 需求配置

2 MySQL的安装与配置

2.1 配置yum源

2.2 安装MySQL源

2.3 检查MySQL源是否安装成功

2.4 安装MySQL

2.5 启动MySQL服务

2.6 查看MySQL的状态

2.7 查看初始密码

2.7 以初始密码登录MySQL

2.8 修改root本地登录密码

3 单机系统下的kafka安装与配置

3.1 下载kafka压缩包

3.2 解压kafka到指定目录

3.3 修改server.properties

3.4 启动zookeeper

3.5 启动kafka

3.6 创建topic

3.7 删除topic

3.8 查看当前系统中所有的topic

3.9 启动生产者

3.10 启动消费者

4 kafka和MySQL在PyFlink中的使用

4.1 环境配置

4.2 程序代码

4.3 程序运行流程

4.4 启动kafka的生产者

4.5 遇到的问题

Reference

你可能感兴趣的:(mysql,flink,kafka)