E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Flink调优
【知乎大数据技术】用
Flink
取代Spark Streaming!知乎实时数仓架构演进
“数据智能”(DataIntelligence)有一个必须且基础的环节,就是数据仓库的建设,同时,数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲,数据的结果代表了用户的反馈,获取结果的及时性就显得尤为重要,快速的获取数据反馈能够帮助公司更快的做出决策,更好的进行产品迭代,实时数仓在这一过程中起到了不可替代的作用。本文主要讲述知乎的实时数仓实践以及架构的演进,这包
yoku酱
·
2023-12-27 19:34
hive总结06_企业级
调优
目录本地模式表的优化小表、大表Join大表Join大表MapJoinGroupByCount(Distinct)去重统计笛卡尔积行列过滤动态分区调整分桶分区数据倾斜合理设置Map数小文件进行合并复杂文件增加Map数合理设置Reduce数并行执行严格模式JVM重用推测执行压缩执行计划(Explain)Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如
自由地带
·
2023-12-27 18:21
hive
hive
优化
Hive 执行计划 & 性能
调优
一、执行计划explain,查看基本信息explaindependency,查看依赖信息explainauthorization,查看权限信息1.explain用法--explain+执行语句例如:explainselects2.s_id,avg(s2.s_score)asavg_scorefromedu.studentsjoinedu.scores2ons.s_id=s2.s_idwheres.
巷子里的猫X
·
2023-12-27 18:51
数据分析
hive
java
mysql
【Hive】性能
调优
- Map JOIN
Hive版本:hive-3.1.3map-sideJOIN和MapJOIN的区别map-sideJOIN就是预聚合,在map阶段先聚合一下,这样数据到了reduce有可能就不倾斜了MapJOIN就是缓存小表,没有shuffle,没有reduce概述如果表关联时,有一张表很小,那么可以在大表通过mapper时将小表完全加载到内存中,Hive可以在map端完成关联过程,这就是所谓的map-sideJO
青云游子
·
2023-12-27 18:21
Hive
hive
大数据
hadoop
大数据篇--Hive
调优
文章目录一、表设计层面1.关闭动态分区:2.开启分桶:3.采用合适的存储格式:二、参数
调优
1.严格模式:2.FetchTask功能:3.reduce个数控制:4.mapjoin:5.skewjoin方案
小强签名设计
·
2023-12-27 18:20
大数据面试
hive
调优
Hive优化-SQL
调优
Hive优化-SQL
调优
此博客参考了其他博客:hivesqlhttps://www.cnblogs.com/fnlingnzb-learner/p/13087976.html后续还会继续更新和优化优化的根本思想
ShyGlow
·
2023-12-27 18:20
大数据
#
Hive
hive
大数据
Hive 在工作中的
调优
总结
总结了一下在以往工作中,对于HiveSQL
调优
的一些实际应用,是日常积累的一些优化技巧,如有出入,欢迎在评论区留言探讨~一、EXPLAIN查看执行计划二、建表优化2.1分区分区表基本操作,partitioned
fx67ll
·
2023-12-27 18:50
大数据开发文档
hive
大数据
hadoop
大数据之hive_hive的企业级
调优
简单
调优
:1.测试数据可以本地模式运行2.select字段时禁止使用*还可以加上where进行行列过滤3.selectfromajoinb时避免直接join,因为会产生笛卡尔积,建议加上on进行过滤,减少数据量
普罗米修斯之火
·
2023-12-27 18:50
hive
大数据
Hive之企业级
调优
实战
1:Fetch抓取Fetch抓取是指,==Hive中对某些情况的查询可以不必使用MapReduce计算例如:select*fromscore;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minim
不要迷恋发哥
·
2023-12-27 18:50
Hive
大数据
hive
数据仓库
【Hive_05】企业
调优
1(资源配置、explain、join优化)
1、计算资源配置1.1Yarn资源配置1.2MapReduce资源配置2、Explain查看执行计划(重点)2.1Explain执行计划概述2.2基本语法2.3案例实操3、分组聚合优化3.1优化说明(1)map-side聚合相关的参数3.2优化案例4、join优化4.1Join算法概述(1)CommonJoin(2)MapJoin(3)BucketMapJoin(4)SortMergeBucket
温欣2030
·
2023-12-27 18:49
#
【Hive】
【大数据】
hive
hadoop
数据仓库
Hive学习——企业级
调优
目录一、计算资源
调优
(一)Yarn资源配置——集群1.Yarn配置说明(1)yarn.nodemanager.resource.memory-mb(2)yarn.nodemanager.resource.cpu-vcores
雷神乐乐
·
2023-12-27 18:49
#
Hive
学习
大数据
java
hive
【hive】hive的
调优
经验
一、hive自己进行优化对union这样的命令进行了优化二、数据本地化率hdfs数据本地化率对hive性能产生影响在数据大小一定的情况下,500个128M的文件和2个30G的文件跑hive任务,性能是有差异的,两者最大的区别在于,后者在读取文件时,需要跨网络传输,而前者为本地读写。数据本地化率问题。三、数据格式hive提供text,sequenceFile,RCFile,ORC,Parquest等
kiraraLou
·
2023-12-27 18:49
hive
hive
hadoop
big
data
论文阅读——TÜLU
TÜLU:通过整合资源实现更好的教学
调优
模型加指令的多样性可以有效地提高指令调整的性能。所以创建了两个混合数据集,
じんじん
·
2023-12-27 17:07
论文
人工智能
基于
Flink
CDC 实现海量数据的实时同步和转换
摘要:本文整理自Apache
Flink
Committer,
Flink
CDCMaintainer,阿里巴巴高级开发工程师徐榜江(雪尽)在5月21日
Flink
CDCMeetup的演讲。
Apache Flink
·
2023-12-27 16:51
大数据
分布式
数据库
flink
深入解读
Flink
CDC 增量快照框架
导读:随着大数据的迅猛发展,企业越来越重视数据的价值,数据采集工具也在不断改进,实时采集工具也在由长链路向短链路发展,今天和大家分享一下
Flink
CDC技术。
学而知之@
·
2023-12-27 16:20
flink
大数据
数据库
Flink
Has Become the De-facto Standard of Streaming Compute
摘要:本文整理自Apache
Flink
中文社区发起人、阿里巴巴开源大数据平台负责人王峰(莫问),在
Flink
ForwardAsia2023主会场的分享。
Apache Flink
·
2023-12-27 16:20
flink
大数据
实战Java springboot 采用
Flink
CDC操作SQL Server数据库获取增量变更数据
ApplicationContextUtil7、自定义sink交由spring管理,处理变更数据前言:我的场景是从SQLServer数据库获取指定表的增量数据,查询了很多获取增量数据的方案,最终选择了
Flink
arden.WANG
·
2023-12-27 16:50
踩坑记录
java相关
数据库
java
spring
boot
flink
sqlserver
Flink
CDC介绍及原理
CDC(ChangeDataCapture)是一种用于捕捉数据库变更数据的技术,
Flink
从1.11版本开始原生支持CDC数据(changelog)的处理,目前已经是非常成熟的变更数据处理方案。
大大大大肉包
·
2023-12-27 16:49
flink
flink
大数据
深入解析
Flink
CDC 增量快照读取机制
一、
Flink
-CDC1.x痛点
Flink
CDC1.x使用Debezium引擎集成来实现数据采集,支持全量加增量模式,确保数据的一致性。
Light Gao
·
2023-12-27 16:47
flink
flink
大数据
flinkcdc
数据同步
mysql
Flink
实时电商数仓之Doris框架(七)
Doris框架大规模并行处理的分析型数据库产品。使用场景:一般先将原始数据经过清洗过滤转换后,再导入doris中使用。主要实现的功能有:实时看板面向企业内部分析师和管理者的报表面向用户或者客户的高并发报表分析即席查询统一数仓构建:替换了原来由Spark,Hive,Kudu,Hbase等旧框架数据湖联邦查询:通过外表的方式联邦分析位于Hive,IceBerg,Hudi中的数据Doris架构后端:C语
十七✧ᐦ̤
·
2023-12-27 16:47
flink
大数据
doris
ChatGLM2-6B微调实践-QLora方案
ChatGLM2-6B微调实践-QLora方案环境部署Lora微调项目部署准备数据集修改训练脚本adapter推理模型合并与量化合并后的模型推理参数
调优
微调过程中遇到的问题参考:环境部署申请阿里云GPU
我在北国不背锅
·
2023-12-27 15:25
大模型
linux
chatglm
Flink
输出至 Redis
【1】引入第三方Bahir提供的
Flink
-redis相关依赖包org.apache.bahir
flink
-connector-redis_2.111.0【2】
Flink
连接Redis并输出Sink处理结果
程序猿进阶
·
2023-12-27 14:16
Flink
flink
redis
大数据
java
面试
性能优化
后端
Flink
CDC 原理、实践和优化
本文基于腾讯云Oceanus提供的
Flink
CDC引擎,着重介绍
Flink
在变更数据捕获技术中的应用。一、CDC是什么?
坨坨的大数据
·
2023-12-27 14:33
企业级实战项目:基于 pycaret 自动化预测公司是否破产
本文系数据挖掘实战系列文章,我跟大家分享一个数据挖掘实战,与以往的数据实战不同的是,用自动机器学习方法完成模型构建与
调优
部分工作,深入理解由此带来的便利与效果。
Python数据挖掘
·
2023-12-27 12:40
机器学习
数据分析及可视化
数据挖掘
数据分析
算法
python
Flink
on K8S集群搭建及StreamPark平台安装
1.环境准备1.1介绍在使用
Flink
&Spark时发现从编程模型,启动配置到运维管理都有很多可以抽象共用的地方,目前streampark提供了一个
flink
一站式的流处理作业开发管理平台,从流处理作业开发到上线全生命周期都做了支持
tuoluzhe8521
·
2023-12-27 10:45
flink
flink
kubernetes
大数据
StreamPark
Harbor
Flink
CDC从Mongodb同步数据至elasticsearch(ES) 新版
Flink
CDC从Mongodb同步数据至elasticsearch(ES)一、DataStreamingAPI方式pom.xml二、主程序-配置三、主程序四、其他问题一、DataStreamingAPI
tuoluzhe8521
·
2023-12-27 10:14
数据同步
mongodb
elasticsearch
flink
大数据
json
datax 同步mongodb数据库到hive(hdfs)和elasticserch(es)
(有点老了,后来发现
flink
cdc都只能监控一张表,多张表无法监控)2.datax版本:自己编译的DataX-datax_v2022103.hdfs版本:3.1.34.hive版本:3.1.2二、同步思路
tuoluzhe8521
·
2023-12-27 10:14
数据同步
mongodb
hive
数据库
json
hadoop
五分钟,Docker安装
flink
,并使用
flink
sql消费kafka数据
1、拉取
flink
镜像,创建网络dockerpull
flink
dockernetworkcreate
flink
-network2、创建jobmanager#创建JobManagerdockerrun\-
刘金宝_Arvin
·
2023-12-27 10:52
Docker
大数据
docker
flink
kafka
删除azkaban的执行历史
azkaban通常用在大数据任务调度场景,把任务提交之后,如果任务是spark,hive,hadoop,
flink
等任务的话,
飞有飞言
·
2023-12-27 07:09
调优
-mybatis saveBatch
一条一条插入:批量插入:批量插入-优化:在url配置#rewriteBatchedStatements=trueurl:jdbc:mysql://localhost:3306/xi_ning?characterEncoding=utf-8&serverTimezone=UTC&rewriteBatchedStatements=truerewriteBatchedStatements=true是一个
猫三棂
·
2023-12-27 06:40
Java
mybatis
JVM面试题
3.直接内存4.说一下类加载的执行过程5.JVM
调优
参数有哪些6.JVM
调优
的工具7.java内存泄漏的排查思路8.cpu飙高排查方案和思路1.什么是虚拟机栈每个线程运行时需要的内存,称为虚拟机栈2.方法内的局部变量是线程安全吗
ITfeib
·
2023-12-27 06:12
面试总结
jvm
java
面试
Flink
去重计数统计用户数
1.数据订单表,分别是店铺id、用户id和支付金额"店铺id,用户id,支付金额","shop-1,user-1,1","shop-1,user-2,1","shop-1,user-2,1","shop-1,user-3,1","shop-1,user-3,1","shop-1,user-1,1","shop-1,user-2,1","shop-1,user-4,1","shop-2,user-4
不爱吃鱼的馋猫
·
2023-12-27 06:28
flink
大数据
Flink
-1.17集群部署
1、部署1.1、修改
flink
-conf.yaml1.1.1、
flink
-17jobmanager.rpc.address:boshi-122jobmanager.rpc.port:6123#设置jobmanager
docsz
·
2023-12-27 03:05
flink
flink
大数据
JVM
调优
之经验
在生产系统中,高吞吐和低延迟一直都是JVM
调优
的最终目标,但这两者恰恰又是相悖的,鱼和熊掌不可兼得,所以在
调优
之前要清楚舍谁而取谁。
alterem
·
2023-12-26 23:21
Flink
1.13 Checkpoint原理
介绍
Flink
具体如何保证exactly-once呢?它使用一种被称为"检查点"(checkpoint)的特性,在出现故障时将系统重置回正确状态。下面通过简单的类比来解释检查点的作用。
万事万物
·
2023-12-26 20:23
码歌老薛大话Java性能
调优
,Java
调优
概述(一)
老薛读书会1第一本书大话java性能
调优
书籍简单介绍,今天和大家读的是大话java性能
调优
这本书,IBM技术专家周明耀先生编纂。
坑王老薛
·
2023-12-26 19:56
Linux性能
调优
| 01 平均负载的理解和分析
01uptime命令通常我们发现系统变慢时,我们都会执行top或者uptime命令,来查看当前系统的负载情况,比如像下面,我执行了uptime,系统返回的了结果。[root@lincoding~]#uptime08:31:49up27min,1user,loadaverage:0.07,0.04,0.00前几列的信息,相信大家都很熟悉,它们分别是当前时间、系统运行时间和正在登陆的用户个数,最后一个
小林coding
·
2023-12-26 19:15
优维产品最佳实践第20期:控制台全链路监控
之前我们会觉得cmdb自动发现没有上报很难排查,弄不清楚数据的上报链路;监控指标的数据断点很难定位,
flink
对现场来说是一个黑盒子;apm数据更新不及时到底是上报异常还是入库失败呢?
优维科技EasyOps
·
2023-12-26 18:53
监控
可观测性
运维
devops
Flink
实战案例四部曲
Flink
实战案例四部曲第一部曲:统计5分钟内用户修改创建删除文件的操作日志数量输入1001,delete1002,update1001,create1002,delte输出1001,21002,2代码如下
play_big_knife
·
2023-12-26 18:51
数据采集
大数据
Flink
flink
java
大数据
实战
【
Flink
-Kafka-To-Mongo】使用
Flink
实现 Kafka 数据写入 Mongo(根据对应操作类型进行增、删、改操作,写入时对时间类型字段进行单独处理)
【
Flink
-Kafka-To-Mongo】使用
Flink
实现Kafka数据写入Mongo(根据对应操作类型进行增、删、改操作)1)导入依赖2)resources2.1.appconfig.yml2.2
bmyyyyyy
·
2023-12-26 17:15
Flink
flink
kafka
mongodb
#kafka2mongo
【
Flink
-Kafka-To-Mysql】使用
Flink
实现 Kafka 数据写入 Mysql(根据对应操作类型进行增、删、改操作)
【
Flink
-Kafka-To-Mysql】使用
Flink
实现Kafka数据写入Mysql(根据对应操作类型进行增、删、改操作)1)导入依赖2)resources2.1.appconfig.yml2.2
bmyyyyyy
·
2023-12-26 17:08
Flink
flink
kafka
mysql
#kafka2mysql
dinky1.0 同步PG 时 修改数据类型
flink
cdc在同步decimal类型数据的时候精度不允许超过38,所以修改为精度超过38就修改为string类型AbstractSinkBuilder.java第237行StringcdcSqlInsert
州周
·
2023-12-26 17:56
python
linux
开发语言
dinky 本地编译并启动
1.1下载源码包后,解压进入idea设置profiles,dev,
flink
州周
·
2023-12-26 17:26
intellij-idea
java
ide
Flink
的waterMark实现解决乱序以及延迟数据
1、watermark的作用watermark是用于处理乱序事件的,而正确的处理乱序事件,通常用watermark机制结合window来实现。我们知道,流处理从事件产生,到流经source,再到operator,中间是有一个过程和时间的。虽然大部分情况下,流到operator的数据都是按照事件产生的时间顺序来的,但是也不排除由于网络、背压等原因,导致乱序的产生(out-of-order或者说lat
我还不够强
·
2023-12-26 15:30
Flink
SQL Create 语法
主要引用官方文档https://ci.apache.org/projects/
flink
/
flink
-docs-release-1.13/docs/dev/table/sql/createCREATE语句用于注册表
Alex90
·
2023-12-26 13:32
EMQ百万级MQTT消息服务(优化和压测)
只有你自己试了才知道,本节就带着大家一起有
调优
系统配置和对EMQ进行压力测试来一探EMQ的庐山真面目附上:喵了个咪的博客:w-blog.cnEMQ官方地址:http://emqtt.com/EMQ中文文档
文振熙
·
2023-12-26 13:14
使用Java进行性能
调优
的实践指南
为了确保Java应用程序的高效运行,性能
调优
成为了一项重要的任务。本文将为您提供一份使用Java进行性能
调优
的实践指南,帮助您优化应用程序的性能。
api77
·
2023-12-26 12:52
电商api
java
开发语言
人工智能
大数据
服务器
【
flink
番外篇】7、
flink
的State(Keyed State和operator state)介绍及示例(2) - operator state
Flink
系列文章一、
Flink
专栏
Flink
专栏系统介绍某一知识点,并辅以具体的示例进行说明。1、
Flink
部署系列本部分介绍
Flink
的部署、配置相关基础内容。
一瓢一瓢的饮 alanchan
·
2023-12-26 11:04
flink
示例专栏
flink
大数据
kafka
flink
kafka
flink
流批一体化
flink
hive
flink
state
【
flink
番外篇】7、
flink
的State(Keyed State和operator state)介绍及示例 - 完整版
Flink
系列文章一、
Flink
专栏
Flink
专栏系统介绍某一知识点,并辅以具体的示例进行说明。1、
Flink
部署系列本部分介绍
Flink
的部署、配置相关基础内容。
一瓢一瓢的饮 alanchan
·
2023-12-26 11:34
flink
示例专栏
flink
大数据
kafka
flink
hive
flink
sql
flink
实时计算
bigdata
【
flink
番外篇】7、
flink
的State(Keyed State和operator state)介绍及示例(1) - Keyed State
Flink
系列文章一、
Flink
专栏
Flink
专栏系统介绍某一知识点,并辅以具体的示例进行说明。1、
Flink
部署系列本部分介绍
Flink
的部署、配置相关基础内容。
一瓢一瓢的饮 alanchan
·
2023-12-26 11:04
flink
示例专栏
flink
大数据
flink
hive
kafka
flink
sql
flink
状态
flink
大数据
上一页
36
37
38
39
40
41
42
43
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他