Kafka;Hadoop 第9页

Kafka数据清理机制

ApacheKafka中数据清理机制涉及的主要概念有两个：基于时间或大小的日志保留策略，以及日志压缩。这些特性允许Kafka管理其存储空间，保留有用的数据，同时清除过时或重复的数据。

辞暮尔尔-烟火年年·2024-02-20 03:21

【Linux】指令【scp】

scphadoop.tar.gzdatanode:/software这条命令的含义是将本地的hadoop.tar.gz文件复制到远程主机datanode的/software目录下。

giao客·2024-02-20 01:31

RocketMQ-面试题

的特点灵活可扩展性海量消息堆积能力：采用零拷贝原理实现超大的消息的堆积能力支持顺序消息：可以保证消息消费者按照消息发送的顺序对消息进行消费支持事务消息回溯消息2、RocketMQ架构阿里开源的消息中间件，参考了kafka

HBryce24·2024-02-19 23:00

无依赖单机尝鲜 Nebula Exchange 的 SST 导入

无依赖单机尝鲜NebulaExchange的SST导入本文尝试分享下以最小方式（单机、容器化Spark、Hadoop、NebulaGraph），快速趟一下NebulaExchange中SST写入方式的步骤

NebulaGraph·2024-02-19 23:51

通过kafka学习数据一致性

kafka哪些环节存在数据不一致数据复制数据从主节点（leader）复制到从节点（follower）的过程中，由于网络延迟、节点故障或其他原因可能导致从节点未能及时获取或处理主节点的数据变更，从而产生数据不一致消息提交消息提交涉及多个阶段

~kiss~·2024-02-19 23:48

Kafka面试小结一：Kafka如何保证消息不丢失？

Kafka通过以下几种方式来保证消息不丢失：异步发送改为同步发送：Kafka生产者默认使用异步发送消息，这意味着生产者会立即继续执行后续操作，而不等待消息发送的结果。

之乎者也··2024-02-19 22:41

Kafka Producer/Consumer 关系解释及测试demo

文章目录Producer/Consumer1.餐厅的故事2.Kafka的工作方式3.生动的场景4.测试Demo4.1KafkaProducer4.2KafkaConsumerProducer/ConsumerKafka

莫余·2024-02-19 22:11

【MQ】kafka（三）——如何保证消息不丢失？如何解决？

这篇博客，就向大家介绍一下kafka在什么情况下会出现消息丢失以及解决方案。二、什么情况会丢失消息？首先我们还是要看一下，kafka的架构图：因为我们有三个角色：生产者，broker，消费者。消费

你个佬六·2024-02-19 22:09

001kafka源码项目gradle报错UnsupportedClassVersionError-kafka-报错-大数据学习

1报错提示java.lang.UnsupportedClassVersionError:org/eclipse/jgit/lib/AnyObjectIdhasbeencompiledbyamorerecentversionoftheJavaRuntime(classfileversion55.0),thisversionoftheJavaRuntimeonlyrecognizesclassfile

gaog2zh·2024-02-19 22:39

kafka-面试题

1、消息队列如何保证消息可靠性消息不重复生产者控制消费者幂等消息不丢失生产者发送，要确认broker收到并持久化broker确认消费者消费完，再删除消息2、kafka是什么Kafka是一种高吞吐量、分布式

HBryce24·2024-02-19 22:08

Kafka King 推荐一款漂亮、现代、实用的kafka客户端

KafkaKing一个漂亮、现代、实用的kafka客户端，使用pythonflet、flutter构建。

bronya0·2024-02-19 22:08

[AIGC_coze] Kafka 的主题分区之间的关系

Kafka的主题分区之间的关系在Kafka中，主题（Topics）和分区（Partitions）是两个重要的概念，它们之间存在着密切的关系。主题是Kafka中用于数据发布和订阅的逻辑单元。

程序员三木·2024-02-19 22:37

kafka如何保证消息不丢？

概述我们知道Kafka架构如下，主要由Producer、Broker、Consumer三部分组成。一条消息从生产到消费完成这个过程，可以划分三个阶段，生产阶段、存储阶段、消费阶段。

半亩方塘立身·2024-02-19 22:07

mv: 无法获取“/opt/module/hadoop/logs/hadoop-atguigu-nodemanager-hadoop102.out.1“ 的文件状态(stat): 没有那个文件或目录

最近在回顾之前做过的离线数仓项目，在启动hadoop时出现了如下错误：hadoop102:mv:无法获取"/opt/module/hadoop/logs/hadoop-atguigu-nodemanager-hadoop102

时代新人0-0·2024-02-19 21:53

马士兵 day4_Yarn和Map/Reduce配置启动和原理讲解

分布式计算原则：移动计算，而不是移动数据hadoop默认包含了hdfs、yarn、mapReduce三个组件yarn（YetAnotherResourceNegotiater）是资源调度系统，yarn调配的是内存和

PC_Repair·2024-02-19 20:28

kafka的安装，用于数据库同步数据

1.0背景调研因业务需求，需要查询其他部门的数据库数据，不方便直连数据库，所以要定时将他们的数据同步到我们的环境中，技术选型选中了kafka+CDCKafka是Apache旗下的一款分布式流媒体平台，Kafka

Libby博仙·2024-02-19 20:10

ClickHouse--07--Integration 系列表引擎

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Integration系列表引擎1HDFS1.1语法1.2示例：2MySQL2.1语法2.2示例：3Kafka3.1语法3.2示例

知行合一。。。·2024-02-19 20:33

Flink-部署实践

1)修改flink/conf/flink-conf.yaml文件:jobmanager.rpc.address:hadoop1132)修改/conf/masters文件:hadoop1133)修改/conf

魔笛Love·2024-02-19 20:52

主流开发语言和开发环境?

Java被广泛应用于企业级应用开发、移动应用（特别是Android应用）、游戏开发、大数据处理（如Hadoop生态系统）、云计算服务端开发等场景。C++简介：C+

dami_king·2024-02-19 20:50

- 工程实践 - 《QPS百万级的有状态服务实践》03 - 消息队列

消息中间件优点缺点著名使用案例ApacheKafka高吞吐量、可扩展性好、持久化、故障容错配置复杂、消息重复（至多一次或

Bovinitwo·2024-02-19 19:56

docker （七）-部署容器

实战开始：1docker部署kafka集群，并验证参考Docker搭建Kafka集群优秀文档2docker部署mysql参考上一篇docker(六)3.docker部署zabbix参考docker部署zabbix

小关暗器·2024-02-19 18:33

重磅发布｜《 AutoMQ 白皮书》与《 RocketMQ 实战精粹》正式上线

经过AutoMQ团队的精心筹备，《AutoMQ与ApacheKafka基准测试白皮书》和《RocketMQ实战精粹：100个生产案例解析》两本电子书与大家正式见面了！

·2024-02-19 18:18

AutoMQ 社区双周精选第七期（2024.01.29~2024.02.09）

在Kafka项目中，团队设计了新型文件缓存机制，以支持小数据、反复读和二分查找跳读场景，同时优化了WAL恢复速度，使1GiB数据恢复时间大幅缩短。此外，Kafka还新增了Graf

·2024-02-19 18:43

新特性速览！Sermant重磅更新，1.3.0 release版本发布

该插件允许在微服务运行时动态地控制消费者（如Kafka、RocketMQ）的消费行为，实现禁止或开启消费，强化了Sermant的可用性治理能力。

·2024-02-19 15:24

Kafka ssl org.apache.kafka.common.errors.SslAuthenticationException: SSL handshake failed

报错日志exception=[org.springframework.kafka.KafkaException:Sendfailed;nestedexceptionisorg.apache.kafka.common.errors.SslAuthenticationException

Java般若生·2024-02-19 15:46

阿里大牛力荐6篇实战文档：JVM+多线程+Kafka+Redis+Nginx+MySQL，临时抱佛脚管用！

深入理解Java虚拟机：JVM高级特性与最佳实践第一部分走近Java第1章走近Java第二部分自动内存管理机制第2章Java内存区域与内存溢出异常第3章垃圾收集器与内存分配策略第4章虚拟机性能监控与故障处理工具第5章调优案例分析与实战第三部分虚拟机执行子系统第6章类文件结构第7章虚拟机类加载机制第8章虚拟机字节码执行引擎第9章类加载及执行子系统的案例与实战第四部分程序编译与代码优化第10章早期（编

独孤球球·2024-02-19 14:51

Quick introduction to Apache Spark

Spark使用Hadoop的客户端库来

Liam_ml·2024-02-19 13:29

Hadoop Shuffle

Whentherearemultiplereducers,themaptaskspartitiontheiroutput,eachcreatingonepartitionforeachreducetask.Therecanbemanykeys(andtheirassociatedvalues)ineachpartition,buttherecordsforeverykeyareallinasing

SharlotteZZZ·2024-02-19 13:22

Flink 细粒度滑动窗口性能优化

大数据技术AIFlink/Spark/Hadoop/数仓，数据分析、面试，源码解读等干货学习资料118篇原创内容公众号1、概述1.1细粒度滑动的影响当使用细粒度的滑动窗口（窗口长度远远大于滑动步长）时，

hyunbar·2024-02-19 13:39

【大数据面试题】006介绍一下Parquet存储格式的优势

同时一般查询使用时不会使用所有列，而是只用到几列，所以查询速度会更快压缩比例高因为是列式存储，所以可以对同一类型的一段做压缩，压缩比例高支持的平台和框架多在Hadoop,Spark,Presto,Python

Jiweilai1·2024-02-19 13:34

Sqoop 入门基础

简介Sqoop（SQLtoHadoop）是一个开源工具，用于在关系型数据库和Hadoop之间传输数据。

香菜的开发日记·2024-02-19 13:17

hadoop硬件配置高可用 datanode namenode硬件配置

每个分布式文件系统分块在NameNode的内存中大小约为250个字节，此外还要加上文件和目录所需的250字节空间。500字节一个块假设我们有5000个平均大小为20GB的文件并且使用默认的分布式文件系统分块大小（64MB）同时副本因子为3，5000*20GB=102400000M=97T那么NameNode需要保存5千万个分块的信息，这些分块的大小加上文件系统的开销总共需要1.5GB的内存。但是一

xcagy·2024-02-19 13:07

基于python的分布式爬虫框架_基于scrapy-redis的通用分布式爬虫框架

spiderman基于scrapy-redis的通用分布式爬虫框架目录demo采集效果爬虫元数据cluster模式standalone模式kafka实时采集监控功能自动建表自动生成爬虫代码，只需编写少量代码即可完成分布式爬虫自动存储元数据

summer_ccs·2024-02-19 11:39

【大数据】HADOOP-YARN-ContainerExecutor容器启动器详解

在NodeManager中，有三种运行Container的方式，它们分别是:DefaultContainerExecutorLinuxContainerExecutorDockerContainerExecutor从它们的名字中，我们就能看得出来，默认情况下，一定使用的是DefaultContainerExecutor。而一般情况下，DefaultContainerExecutor也确实能够满足我

笑起来贼好看·2024-02-19 11:38

学习篇-Hadoop-YARN-环境搭建

文章目录一、Hadoop-YARN-环境搭建一、Hadoop-YARN-环境搭建官网参考：https://hadoop.apache.org/docs/stable/hadoop-project-dist

东东爱编码·2024-02-19 11:08

【大数据】HADOOP-Yarn集群界面UI指标项详解（建议收藏哦）

目录首页（Cluster）节点信息SchedulerMetrics：集群调度信息节点信息详解（Nodes）应用列表信息（applications）队列详情页（Scheduler）指标详细说明（非常重要）首页（Cluster）集群监控信息指标详解AppsSubmitted：已提交的应用AppsCompleted：已完成的应用AppsRunning：正在运行的应用ContainersRunning：正

笑起来贼好看·2024-02-19 11:08

Linux/Ubuntu16.04安装kafka

最近开发的项目计划使用Kafka来实现日志系统，开发的过程中在自己的服务器上搭建了Kafka的开发环境，由于我的服务器是Ubuntu16.04.7LTS(GNU/Linux5.6.7-050607-genericx86

前端技术小咖·2024-02-19 11:13

Hadoop-Yarn-NodeManager都做了什么

一、源码下载下面是hadoop官方源码下载地址，我下载的是hadoop-3.2.4，那就一起来看下吧Indexof/dist/hadoop/core二、上下文在我的博客中已经简要的分析了NodeManager

隔着天花板看星星·2024-02-19 11:00

【2019-04-28】Hadoop分布式文件系统

Hadoop自带HDFS(hadoopdistributefilesystem)。HDFS默认数据块128M。

BigBigFlower·2024-02-19 11:56

Hadoop搭建之 start-yarn.sh 报错

在搭建伪分布式的Hadoop集群环境时，在配置基础环境了并成功开启了HDFS组件后，jps查看已运行的名称节点和数据节点进程，[hadoop@masterhadoop]$jps8994NameNode10396Jps9087DataNode9279SecondaryNameNode

万里长江雪·2024-02-19 11:58

hadoop-2.7.4-nodemanager无法启动问题解决方案

近期新配了hadoop-274版本的集群，发现有一个小问题，DataNode无法顺利启动。

半肉哥·2024-02-19 11:27

hadoop-yarn资源分配介绍-以及推荐常用优化参数

如果有什么不正确的欢迎大家一起交流学习~Yarn前言作为Hadoop2.x的一部分，YARN采用MapReduce中的资源管理功能并对其进行打包，以便新引擎可以使用它们。

Winhole·2024-02-19 11:26

Hadoop-Yarn-NodeManager如何计算Linux系统上的资源信息

NodeResourceMonitorImpl）时只是提了下SysInfoLinux，下面我们展开讲下SysInfoLinux是用于计算Linux系统上的资源信息的插件二、SysInfoLinux源码packageorg.apache.hadoop.util

隔着天花板看星星·2024-02-19 11:48

node命令yarn --version指向了java

问题描述本地安装了java、hadoop和nodejs，并配置了环境变量，但是hadoop的bin目录下存在yarn命令，所以使用nodejs的yarn命令启动项目会出现找不到类，此时键入yarn-version

码学弟·2024-02-19 11:43

企业级大数据安全架构（一）平台安全隐患

1缺乏统一的访问控制机制大数据平台由Hadoop生态体系众多组件组成，而每个组件都会提供相应的WebUI界面和RESTful接口，例如Nam

·2024-02-19 11:48

在数据同步时，如何保证数据一致性？

而DataPipeline平台采用的KafkaConnect框架是如何保证数据一致性的？

牵一缕阳光·2024-02-19 10:08

08.canal+kafka同步数据消息顺序一致性问题

canal+kafka同步数据环境回顾1.canal伪装成mysql从节点订阅mysql主节点的binlog文件;\2.当我们的mysql主节点binlog文件发生了变化，则将该binlog文件发送给canal

陌陌龙·2024-02-19 10:56

Flink和Kafka端到端数据一致性

EXACTLY_ONCEenv.enableCheckpointing(1000*10L);env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE);KafkaSource

今天好好洗头了嘛·2024-02-19 10:19

MapReduce

MapReduce定义mapReduce是一个分布式运算程序的编程框架，是用户开发基于hadoop的数据分析应用的核心框架。

诺冰1314·2024-02-19 10:46

Apache Pulsar--简单介绍

一句话说：是一个云原生的批流一体的在诸多场景优于Kafka的新一代的消息队列中间件。ApachePulsar有哪些特性？

陈永佳·2024-02-19 10:32

推荐频道

Kafka;Hadoop