Flink调优第40页

【知乎大数据技术】用Flink取代Spark Streaming！知乎实时数仓架构演进

“数据智能”(DataIntelligence)有一个必须且基础的环节，就是数据仓库的建设，同时，数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲，数据的结果代表了用户的反馈，获取结果的及时性就显得尤为重要，快速的获取数据反馈能够帮助公司更快的做出决策，更好的进行产品迭代，实时数仓在这一过程中起到了不可替代的作用。本文主要讲述知乎的实时数仓实践以及架构的演进，这包

yoku酱·2023-12-27 19:34

hive总结06_企业级调优

目录本地模式表的优化小表、大表Join大表Join大表MapJoinGroupByCount(Distinct)去重统计笛卡尔积行列过滤动态分区调整分桶分区数据倾斜合理设置Map数小文件进行合并复杂文件增加Map数合理设置Reduce数并行执行严格模式JVM重用推测执行压缩执行计划（Explain）Fetch抓取Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如

自由地带·2023-12-27 18:21

Hive 执行计划 & 性能调优

一、执行计划explain，查看基本信息explaindependency，查看依赖信息explainauthorization，查看权限信息1.explain用法--explain+执行语句例如：explainselects2.s_id,avg(s2.s_score)asavg_scorefromedu.studentsjoinedu.scores2ons.s_id=s2.s_idwheres.

巷子里的猫X·2023-12-27 18:51

【Hive】性能调优 - Map JOIN

Hive版本:hive-3.1.3map-sideJOIN和MapJOIN的区别map-sideJOIN就是预聚合，在map阶段先聚合一下，这样数据到了reduce有可能就不倾斜了MapJOIN就是缓存小表，没有shuffle，没有reduce概述如果表关联时，有一张表很小，那么可以在大表通过mapper时将小表完全加载到内存中，Hive可以在map端完成关联过程，这就是所谓的map-sideJO

青云游子·2023-12-27 18:21

大数据篇--Hive调优

文章目录一、表设计层面1.关闭动态分区：2.开启分桶：3.采用合适的存储格式：二、参数调优1.严格模式：2.FetchTask功能：3.reduce个数控制：4.mapjoin：5.skewjoin方案

小强签名设计·2023-12-27 18:20

Hive优化-SQL调优

Hive优化-SQL调优此博客参考了其他博客：hivesqlhttps://www.cnblogs.com/fnlingnzb-learner/p/13087976.html后续还会继续更新和优化优化的根本思想

ShyGlow·2023-12-27 18:20

Hive 在工作中的调优总结

总结了一下在以往工作中，对于HiveSQL调优的一些实际应用，是日常积累的一些优化技巧，如有出入，欢迎在评论区留言探讨~一、EXPLAIN查看执行计划二、建表优化2.1分区分区表基本操作，partitioned

fx67ll·2023-12-27 18:50

大数据之hive_hive的企业级调优

简单调优:1.测试数据可以本地模式运行2.select字段时禁止使用*还可以加上where进行行列过滤3.selectfromajoinb时避免直接join,因为会产生笛卡尔积,建议加上on进行过滤,减少数据量

普罗米修斯之火·2023-12-27 18:50

Hive之企业级调优实战

1：Fetch抓取Fetch抓取是指，==Hive中对某些情况的查询可以不必使用MapReduce计算例如：select*fromscore;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more，老版本hive默认是minim

不要迷恋发哥·2023-12-27 18:50

【Hive_05】企业调优1（资源配置、explain、join优化）

1、计算资源配置1.1Yarn资源配置1.2MapReduce资源配置2、Explain查看执行计划（重点）2.1Explain执行计划概述2.2基本语法2.3案例实操3、分组聚合优化3.1优化说明（1）map-side聚合相关的参数3.2优化案例4、join优化4.1Join算法概述（1）CommonJoin（2）MapJoin（3）BucketMapJoin（4）SortMergeBucket

温欣2030·2023-12-27 18:49

Hive学习——企业级调优

目录一、计算资源调优(一)Yarn资源配置——集群1.Yarn配置说明(1)yarn.nodemanager.resource.memory-mb(2)yarn.nodemanager.resource.cpu-vcores

雷神乐乐·2023-12-27 18:49

【hive】hive的调优经验

一、hive自己进行优化对union这样的命令进行了优化二、数据本地化率hdfs数据本地化率对hive性能产生影响在数据大小一定的情况下，500个128M的文件和2个30G的文件跑hive任务，性能是有差异的，两者最大的区别在于，后者在读取文件时，需要跨网络传输，而前者为本地读写。数据本地化率问题。三、数据格式hive提供text，sequenceFile，RCFile，ORC，Parquest等

kiraraLou·2023-12-27 18:49

论文阅读——TÜLU

TÜLU：通过整合资源实现更好的教学调优模型加指令的多样性可以有效地提高指令调整的性能。所以创建了两个混合数据集，

じんじん·2023-12-27 17:07

基于 Flink CDC 实现海量数据的实时同步和转换

摘要：本文整理自ApacheFlinkCommitter，FlinkCDCMaintainer，阿里巴巴高级开发工程师徐榜江（雪尽）在5月21日FlinkCDCMeetup的演讲。

Apache Flink·2023-12-27 16:51

深入解读 Flink CDC 增量快照框架

导读：随着大数据的迅猛发展，企业越来越重视数据的价值，数据采集工具也在不断改进，实时采集工具也在由长链路向短链路发展，今天和大家分享一下FlinkCDC技术。

学而知之@·2023-12-27 16:20

Flink Has Become the De-facto Standard of Streaming Compute

摘要：本文整理自ApacheFlink中文社区发起人、阿里巴巴开源大数据平台负责人王峰（莫问），在FlinkForwardAsia2023主会场的分享。

Apache Flink·2023-12-27 16:20

实战Java springboot 采用Flink CDC操作SQL Server数据库获取增量变更数据

ApplicationContextUtil7、自定义sink交由spring管理，处理变更数据前言：我的场景是从SQLServer数据库获取指定表的增量数据，查询了很多获取增量数据的方案，最终选择了Flink

arden.WANG·2023-12-27 16:50

Flink CDC介绍及原理

CDC(ChangeDataCapture)是一种用于捕捉数据库变更数据的技术，Flink从1.11版本开始原生支持CDC数据（changelog）的处理，目前已经是非常成熟的变更数据处理方案。

大大大大肉包·2023-12-27 16:49

深入解析 Flink CDC 增量快照读取机制

一、Flink-CDC1.x痛点FlinkCDC1.x使用Debezium引擎集成来实现数据采集，支持全量加增量模式，确保数据的一致性。

Light Gao·2023-12-27 16:47

Flink实时电商数仓之Doris框架（七）

Doris框架大规模并行处理的分析型数据库产品。使用场景：一般先将原始数据经过清洗过滤转换后，再导入doris中使用。主要实现的功能有：实时看板面向企业内部分析师和管理者的报表面向用户或者客户的高并发报表分析即席查询统一数仓构建：替换了原来由Spark,Hive，Kudu,Hbase等旧框架数据湖联邦查询：通过外表的方式联邦分析位于Hive，IceBerg,Hudi中的数据Doris架构后端：C语

十七✧ᐦ̤·2023-12-27 16:47

ChatGLM2-6B微调实践-QLora方案

ChatGLM2-6B微调实践-QLora方案环境部署Lora微调项目部署准备数据集修改训练脚本adapter推理模型合并与量化合并后的模型推理参数调优微调过程中遇到的问题参考：环境部署申请阿里云GPU

我在北国不背锅·2023-12-27 15:25

Flink 输出至 Redis

【1】引入第三方Bahir提供的Flink-redis相关依赖包org.apache.bahirflink-connector-redis_2.111.0【2】Flink连接Redis并输出Sink处理结果

程序猿进阶·2023-12-27 14:16

Flink CDC 原理、实践和优化

本文基于腾讯云Oceanus提供的FlinkCDC引擎，着重介绍Flink在变更数据捕获技术中的应用。一、CDC是什么？

坨坨的大数据·2023-12-27 14:33

企业级实战项目：基于 pycaret 自动化预测公司是否破产

本文系数据挖掘实战系列文章，我跟大家分享一个数据挖掘实战，与以往的数据实战不同的是，用自动机器学习方法完成模型构建与调优部分工作，深入理解由此带来的便利与效果。

Python数据挖掘·2023-12-27 12:40

Flink on K8S集群搭建及StreamPark平台安装

1.环境准备1.1介绍在使用Flink&Spark时发现从编程模型,启动配置到运维管理都有很多可以抽象共用的地方,目前streampark提供了一个flink一站式的流处理作业开发管理平台,从流处理作业开发到上线全生命周期都做了支持

tuoluzhe8521·2023-12-27 10:45

FlinkCDC从Mongodb同步数据至elasticsearch（ES) 新版

FlinkCDC从Mongodb同步数据至elasticsearch（ES）一、DataStreamingAPI方式pom.xml二、主程序-配置三、主程序四、其他问题一、DataStreamingAPI

tuoluzhe8521·2023-12-27 10:14

datax 同步mongodb数据库到hive(hdfs)和elasticserch（es)

（有点老了，后来发现flinkcdc都只能监控一张表，多张表无法监控）2.datax版本：自己编译的DataX-datax_v2022103.hdfs版本：3.1.34.hive版本：3.1.2二、同步思路

tuoluzhe8521·2023-12-27 10:14

五分钟，Docker安装flink，并使用flinksql消费kafka数据

1、拉取flink镜像，创建网络dockerpullflinkdockernetworkcreateflink-network2、创建jobmanager#创建JobManagerdockerrun\-

刘金宝_Arvin·2023-12-27 10:52

删除azkaban的执行历史

azkaban通常用在大数据任务调度场景，把任务提交之后，如果任务是spark，hive，hadoop，flink等任务的话，

飞有飞言·2023-12-27 07:09

调优-mybatis saveBatch

一条一条插入：批量插入：批量插入-优化：在url配置#rewriteBatchedStatements=trueurl:jdbc:mysql://localhost:3306/xi_ning?characterEncoding=utf-8&serverTimezone=UTC&rewriteBatchedStatements=truerewriteBatchedStatements=true是一个

猫三棂·2023-12-27 06:40

JVM面试题

3.直接内存4.说一下类加载的执行过程5.JVM调优参数有哪些6.JVM调优的工具7.java内存泄漏的排查思路8.cpu飙高排查方案和思路1.什么是虚拟机栈每个线程运行时需要的内存，称为虚拟机栈2.方法内的局部变量是线程安全吗

ITfeib·2023-12-27 06:12

Flink去重计数统计用户数

1.数据订单表，分别是店铺id、用户id和支付金额"店铺id,用户id,支付金额","shop-1,user-1,1","shop-1,user-2,1","shop-1,user-2,1","shop-1,user-3,1","shop-1,user-3,1","shop-1,user-1,1","shop-1,user-2,1","shop-1,user-4,1","shop-2,user-4

不爱吃鱼的馋猫·2023-12-27 06:28

Flink-1.17集群部署

1、部署1.1、修改flink-conf.yaml1.1.1、flink-17jobmanager.rpc.address:boshi-122jobmanager.rpc.port:6123#设置jobmanager

docsz·2023-12-27 03:05

JVM调优之经验

在生产系统中，高吞吐和低延迟一直都是JVM调优的最终目标，但这两者恰恰又是相悖的，鱼和熊掌不可兼得，所以在调优之前要清楚舍谁而取谁。

alterem·2023-12-26 23:21

Flink1.13 Checkpoint原理

介绍Flink具体如何保证exactly-once呢?它使用一种被称为"检查点"（checkpoint）的特性，在出现故障时将系统重置回正确状态。下面通过简单的类比来解释检查点的作用。

万事万物·2023-12-26 20:23

码歌老薛大话Java性能调优，Java调优概述(一)

老薛读书会1第一本书大话java性能调优书籍简单介绍，今天和大家读的是大话java性能调优这本书，IBM技术专家周明耀先生编纂。

坑王老薛·2023-12-26 19:56

Linux性能调优 | 01 平均负载的理解和分析

01uptime命令通常我们发现系统变慢时，我们都会执行top或者uptime命令，来查看当前系统的负载情况，比如像下面，我执行了uptime，系统返回的了结果。[root@lincoding~]#uptime08:31:49up27min,1user,loadaverage:0.07,0.04,0.00前几列的信息，相信大家都很熟悉，它们分别是当前时间、系统运行时间和正在登陆的用户个数，最后一个

小林coding·2023-12-26 19:15

优维产品最佳实践第20期：控制台全链路监控

之前我们会觉得cmdb自动发现没有上报很难排查，弄不清楚数据的上报链路；监控指标的数据断点很难定位，flink对现场来说是一个黑盒子；apm数据更新不及时到底是上报异常还是入库失败呢？

优维科技EasyOps·2023-12-26 18:53

Flink实战案例四部曲

Flink实战案例四部曲第一部曲:统计5分钟内用户修改创建删除文件的操作日志数量输入1001,delete1002,update1001,create1002,delte输出1001，21002，2代码如下

play_big_knife·2023-12-26 18:51

【Flink-Kafka-To-Mongo】使用 Flink 实现 Kafka 数据写入 Mongo（根据对应操作类型进行增、删、改操作，写入时对时间类型字段进行单独处理）

【Flink-Kafka-To-Mongo】使用Flink实现Kafka数据写入Mongo（根据对应操作类型进行增、删、改操作）1）导入依赖2）resources2.1.appconfig.yml2.2

bmyyyyyy·2023-12-26 17:15

【Flink-Kafka-To-Mysql】使用 Flink 实现 Kafka 数据写入 Mysql（根据对应操作类型进行增、删、改操作）

【Flink-Kafka-To-Mysql】使用Flink实现Kafka数据写入Mysql（根据对应操作类型进行增、删、改操作）1）导入依赖2）resources2.1.appconfig.yml2.2

bmyyyyyy·2023-12-26 17:08

dinky1.0 同步PG 时修改数据类型

flinkcdc在同步decimal类型数据的时候精度不允许超过38,所以修改为精度超过38就修改为string类型AbstractSinkBuilder.java第237行StringcdcSqlInsert

州周·2023-12-26 17:56

dinky 本地编译并启动

1.1下载源码包后，解压进入idea设置profiles，dev,flink

州周·2023-12-26 17:26

Flink的waterMark实现解决乱序以及延迟数据

1、watermark的作用watermark是用于处理乱序事件的，而正确的处理乱序事件，通常用watermark机制结合window来实现。我们知道，流处理从事件产生，到流经source，再到operator，中间是有一个过程和时间的。虽然大部分情况下，流到operator的数据都是按照事件产生的时间顺序来的，但是也不排除由于网络、背压等原因，导致乱序的产生（out-of-order或者说lat

我还不够强·2023-12-26 15:30

Flink SQL Create 语法

主要引用官方文档https://ci.apache.org/projects/flink/flink-docs-release-1.13/docs/dev/table/sql/createCREATE语句用于注册表

Alex90·2023-12-26 13:32

EMQ百万级MQTT消息服务(优化和压测)

只有你自己试了才知道,本节就带着大家一起有调优系统配置和对EMQ进行压力测试来一探EMQ的庐山真面目附上:喵了个咪的博客:w-blog.cnEMQ官方地址:http://emqtt.com/EMQ中文文档

文振熙·2023-12-26 13:14

使用Java进行性能调优的实践指南

为了确保Java应用程序的高效运行，性能调优成为了一项重要的任务。本文将为您提供一份使用Java进行性能调优的实践指南，帮助您优化应用程序的性能。

api77·2023-12-26 12:52

【flink番外篇】7、flink的State（Keyed State和operator state）介绍及示例（2） - operator state

Flink系列文章一、Flink专栏Flink专栏系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink部署系列本部分介绍Flink的部署、配置相关基础内容。

一瓢一瓢的饮 alanchan·2023-12-26 11:04

【flink番外篇】7、flink的State（Keyed State和operator state）介绍及示例 - 完整版

Flink系列文章一、Flink专栏Flink专栏系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink部署系列本部分介绍Flink的部署、配置相关基础内容。

一瓢一瓢的饮 alanchan·2023-12-26 11:34

【flink番外篇】7、flink的State（Keyed State和operator state）介绍及示例（1） - Keyed State

Flink系列文章一、Flink专栏Flink专栏系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink部署系列本部分介绍Flink的部署、配置相关基础内容。

一瓢一瓢的饮 alanchan·2023-12-26 11:04

推荐频道

Flink调优

【知乎大数据技术】用Flink取代Spark Streaming！知乎实时数仓架构演进

hive总结06_企业级调优

Hive 执行计划 & 性能调优

【Hive】性能调优 - Map JOIN

大数据篇--Hive调优

Hive优化-SQL调优

Hive 在工作中的调优总结

大数据之hive_hive的企业级调优

Hive之企业级调优实战

【Hive_05】企业调优1（资源配置、explain、join优化）

Hive学习——企业级调优

【hive】hive的调优经验

论文阅读——TÜLU

基于 Flink CDC 实现海量数据的实时同步和转换

深入解读 Flink CDC 增量快照框架

Flink Has Become the De-facto Standard of Streaming Compute

实战Java springboot 采用Flink CDC操作SQL Server数据库获取增量变更数据

Flink CDC介绍及原理

深入解析 Flink CDC 增量快照读取机制

Flink实时电商数仓之Doris框架（七）

ChatGLM2-6B微调实践-QLora方案

Flink 输出至 Redis

Flink CDC 原理、实践和优化

企业级实战项目：基于 pycaret 自动化预测公司是否破产

Flink on K8S集群搭建及StreamPark平台安装

FlinkCDC从Mongodb同步数据至elasticsearch（ES) 新版

datax 同步mongodb数据库到hive(hdfs)和elasticserch（es)

五分钟，Docker安装flink，并使用flinksql消费kafka数据

删除azkaban的执行历史

调优-mybatis saveBatch

JVM面试题

Flink去重计数统计用户数

Flink-1.17集群部署

JVM调优之经验

Flink1.13 Checkpoint原理

码歌老薛大话Java性能调优，Java调优概述(一)

Linux性能调优 | 01 平均负载的理解和分析

优维产品最佳实践第20期：控制台全链路监控

Flink实战案例四部曲

【Flink-Kafka-To-Mongo】使用 Flink 实现 Kafka 数据写入 Mongo（根据对应操作类型进行增、删、改操作，写入时对时间类型字段进行单独处理）

【Flink-Kafka-To-Mysql】使用 Flink 实现 Kafka 数据写入 Mysql（根据对应操作类型进行增、删、改操作）

dinky1.0 同步PG 时 修改数据类型

dinky 本地编译并启动

Flink的waterMark实现解决乱序以及延迟数据

Flink SQL Create 语法

EMQ百万级MQTT消息服务(优化和压测)

使用Java进行性能调优的实践指南

【flink番外篇】7、flink的State（Keyed State和operator state）介绍及示例（2） - operator state

【flink番外篇】7、flink的State（Keyed State和operator state）介绍及示例 - 完整版

【flink番外篇】7、flink的State（Keyed State和operator state）介绍及示例（1） - Keyed State

dinky1.0 同步PG 时修改数据类型