Kafka;Hadoop 第3页

Spark概念知识笔记

最近总结了个人的各项能力，发现在大数据这方面几乎没有涉及，因此想补充这方面的知识，丰富自己的知识体系，大数据生态主要包含：Hadoop和Spark两个部分，Spark作用相当于MapReduceMapReduce

kuntoria·2024-09-07 05:21

【Hadoop】- MapReduce & YARN 初体验[9]

目录提交MapReduce程序至YARN运行1、提交wordcount示例程序1.1、先准备words.txt文件上传到hdfs，文件内容如下：1.2、在hdfs中创建两个文件夹，分别为/input、/output1.3、将创建好的words.txt文件上传到hdfs中/input1.4、提交MapReduce程序至YARN1.5、可通过node1:8088查看1.6、返回我们的服务器，检查输出文

星星法术嗲人·2024-09-07 04:21

Apache Storm：入门了解

前言Storm是一个开源的分布式实时计算系统，它能够处理无边界的数据流，类似于Hadoop对于批量数据处理的作用，但是Storm更侧重于实时数据流的处理。

布说在见·2024-09-07 03:43

SpringBoot+Kafka+ELK 完成海量日志收集（超详细）

SpringBoot项目准备引入log4j2替换SpringBoot默认log，demo项目结构如下：pomIndexController测试Controller，用以打印日志进行调试InputMDC用以获取log中的[%X{hostName}]、[%X{ip}]、[%X{applicationName}]三个字段值NetUtil启动项目，访问/index和/ero接口，可以看到项目中生成了app

2401_83703797·2024-09-07 00:25

Kafka Broker处于高负载状态（例如消息处理量大或系统资源不足），无法及时响应消费者的请求

Causedby:org.apache.kafka.common.errors.TimeoutException:Timeoutof60000msexpiredbeforethepositionforpartitionactivity

战族狼魂·2024-09-06 22:42

Kafka 常用的传输和序列化数据方式

Kafka常用的传输和序列化数据方式。不同的方式有不同的优缺点，选择哪种方式通常取决于具体的应用场景、性能要求、数据兼容性需求等。

傲雪凌霜，松柏长青·2024-09-06 21:38

kafka3.7.1 单节点 KRaft部署&测试发送和接收消息

一、环境准备kafka3.7.1包下载地址：https://mirrors.nju.edu.cn/apache/kafka/3.7.1/kafka_2.13-3.7.1.tgzopenjdk11.0.2

运维小弟| srebro.cn·2024-09-06 19:51

如何做大数据测试

2、测试工具：大数据测试需要使用专门的测试工具和框架，如HadoopUnit、ApacheBigTop、JMeter、LoadRunner等，而普通测试则可以使用通用的测试工具和框架，如JUnit、TestNG

测试界潇潇·2024-09-06 18:47

基于Hadoop的学习行为数据云存储平台的设计与实现

基于Hadoop的学习行为数据云存储平台的设计与实现DesignandImplementationofaHadoop-BasedLearningBehavioralDataCloudStoragePlatform

usp1994·2024-09-06 16:03

Kafka 如何保证消息不丢失

1、生产者1.1丢失原因：kafka生产端异步发送消息后，不管broker是否响应，立即返回，伪代码producer.send(msg)，由于网络抖动，导致消息压根就没有发送到broker端；kafka

阳光倾洒·2024-09-06 15:55

Kafka 如何保证数据不丢失？不重复

1.高可用型配置：acks=all，retries>0retry.backoff.ms=100(毫秒)(并根据实际情况设置retry可能恢复的间隔时间)优点：这样保证了producer端每发送一条消息都要成功，如果不成功并将消息缓存起来，等异常恢复后再次发送。缺点：这样保证了高可用，但是这会导致集群的吞吐量不是很高，因为数据发送到broker之后，leader要将数据同步到fllower上，如果网

优秀后端工程师·2024-09-06 15:23

【Kafka专栏 11】深入理解Kafka的网络线程模型：是谁在幕后“操纵”数据流？

作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景

夏之以寒·2024-09-06 14:16

如何查看当前的gruop_id 的kafka 消费情况这个可以查看到是否存在消费阻塞问题

如何查看当前的gruop_id的kafka消费情况这个可以查看到是否存在消费阻塞问题命令如下:/kafka/bin/kafka-consumer-groups.sh--bootstrap-server127.0.0.1

树下水月·2024-09-06 08:02

kafka单机安装

kafka单机安装下载地址官网：https://kafka.apache.org/最新版本下载页面：https://kafka.apache.org/downloads说明版本选择：3.0.0，kafka

shuair·2024-09-06 08:02

Kafka-设计原理

ControllerLeader-PartitionRebalance消息发布机制HW与LEO日志分段ControllerKafka核心总控制器Controller：在Kafka集群中会有一个或者多个broker

姜希成·2024-09-06 07:59

Spark与Kafka进行连接

在Java中使用Spark与Kafka进行连接，你可以使用SparkStreaming来处理实时流数据。以下是一个简单的示例，展示了如何使用SparkStreaming从Kafka读取数据并进行处理。

傲雪凌霜，松柏长青·2024-09-06 07:27

Kafka

Kafka是一个高性能的分布式消息队列系统，最初由LinkedIn开发，后来成为Apache软件基金会的一部分。Kafka设计用于处理大规模的数据流，提供高吞吐量、低延迟的消息传递机制。

傲雪凌霜，松柏长青·2024-09-06 07:57

Python 全栈系列266 Kafka服务的Docker搭建

测试也接近了kafka官方标称的性能。考虑到网络、消息的大小等因素，可以简单认为kafka的速度是10万/秒级的。

yukai08008·2024-09-06 06:26

DAG (directed acyclic graph) 作为大数据执行引擎的优点

DR-ConceptuallyDAGmodelisastrictgeneralizationofMapReducemodel.DAG-basedsystemslikeSparkandTezthatareawareofthewholeDAGofoperationscandobetterglobaloptimizationsthansystemslikeHadoopMapReducewhicha

joeywen·2024-09-06 04:43

hadoop-hdfs系统构成

2019独角兽企业重金招聘Python工程师标准>>>HDFS组成1)NameNode元数据2)DataNode存储文件内容block3)SecondaryNameNode合并NameNode与editsHDFS缺点1)不能低延迟访问2)小文件存取占用大量NameNode内存空间寻道时间超过读取时间3)并发写入,文件随机修改一个文件只能有一个写着仅支持appendHDFS存储数据单元1)文件被切分

weixin_33701564·2024-09-06 00:46

python windows路径正则表达式,Python 正则表达式从Windows路径中获取文件夹

弓长丶艮·2024-09-06 00:16

Canal同时监控两个mysql的binlog并同步至一个topic中

准备:安装canal(博主canal版本1.1.5)安装kafka,做接收binlog日志数据用(博主kafka版本2.11)安装两个msyql,相当于两个mysql数据库(博主mysql版本5.1.0

梦见伊兮伊不觉·2024-09-06 00:45

canal-adapter消费Kafka中MySQL的binlog数据，却没有同步更新Elastic search

背景在同步MySQL数据到ES的场景中，选择了canal组件同步数据。问题描述在同步的时候发现canal-adapter中canal-adapter/conf/es7/product.yml配置文件中sql语句连表查询的时候会出现无法更新Elasticsearch中数据的情况，而且日志没有提示异常（idea启动的时候有错误日志），令人百思不得其解。问题分析初步估计是内部解析yml的时候出错了，但具

iiopsd·2024-09-06 00:42

Ingest Pipeline & Painless Script

DELETEtech_blogs#Blog数据，包含3个字段，tags用逗号间隔PUTtech_blogs/_doc/1{"title":"Introducingbigdata......","tags":"hadoop

折纸虚桐·2024-09-05 22:03

Hadoop组件

这张图片展示了Hadoop生态系统的一些主要组件。Hadoop是一个开源的大数据处理框架，由Apache基金会维护。

静听山水·2024-09-05 20:14

Azkaban：强大的开源工作流调度系统

Azkaban是LinkedIn开发的一款开源工作流调度系统，专为管理和调度大规模的Hadoop作业设计。它提供了一种简单且有效的方式来定义、调度和监控复杂的工作流，确保批处理任务按预期顺序执行。

Hello.Reader·2024-09-05 15:15

Kafka的事务实现

Kafka的事务Kafka的事务解决的问题和RocketMQ是不太一样的。RocketMQ中的事务，它解决的问题是，确保执行本地事务和发消息这两个操作，要么都成功，要么都失败。

Mirana_77·2024-09-05 15:43

springboot整合kafka

文章目录步骤一：添加依赖项步骤二：配置Kafka步骤三：创建一个生产者步骤四：创建一个消费者本教程将介绍如何在SpringBoot应用程序中使用Kafka。

##明天·2024-09-05 15:42

SpringBoot整合Kafka

安装windows版安装包下载地址：https://kafka.apache.org/downloads下载完毕后得到tgz压缩文件，使用解压缩软件解压缩即可使用，解压后得到如下文件建议使用windows

ITBOY_ITBOX·2024-09-05 15:42

1+X云计算运维与开发(中级)实战案例——Kafka集群部署

前言Kafka是一种开源的流处理平台和消息系统，被设计用于构建实时数据管道和流式应用程序，可以处理大规模的实时数据流，并提供高吞吐量、持久性存储和分布式处理能力。

kuuuugua·2024-09-05 15:41

Hadoop-MapReduce机制原理

、MapReduce概述2、MapReduce特点3、MapReduce局限性4、MapTask5、Map阶段步骤：6、Reduce阶段步骤：7、MapReduce阶段图1、MapReduce概述 HadoopMapReduce

H.S.T不想卷·2024-09-05 11:46

kafka消费者重复消费同一个topic

场景是sparkstreaming消费kafka数据在这里sparkstream和kafka都是单节点的集群模式。同时起两个不同的groupid的应用，发现会发生后起来的应用消费不到数据。

小琳ai·2024-09-05 10:06

2、mysql-canal-zk-kafka-es数据同步

方案总体介绍：通过zookeeper管理canal和kafka集群,zk本身也做集群配置；通过canal作为mysql的从库实时读取binlog，然后将数据以json格式发送到kafka平台，会有一个专门消费

kobe0429·2024-09-05 08:01

大数据生态圈里的一致性算法

大数据生态圈中，保证一致性的方式举不胜举Hadoop用Zookeeper（Zab，Paxos+事务顺序）ElasticSearch用Hash路由算法（非一致性Hash）Cassandra用Gossip闲话算法

宇宙湾·2024-09-05 07:35

SpringBoot 集成 kafka，并消费历史事件

SpringBoot集成kafka，并消费历史事件消费历史事件上一篇文章我们讲的是SpringBoot集成kafka消费最新的事件，如果没有看过的小伙伴可以看这篇文章：SpringBoot集成kafka

晚枫2000·2024-09-05 05:39

Kafka

/kafka-console-consumer.sh--zookeeperlocalhost:2181--from-beginning--topict1/opt/kafka_2.13-3.1.0/bin

墨咖·2024-09-05 04:58

logstash

kafkainput{kafka{bootstrap_servers=>"127.0.0.1:9092"topics=>["SCHOOL_AQDL"]group_id=>"logstash-group"consumer_threads

墨咖·2024-09-05 03:54

【Docker系列】docker缓存详解

Kwan的解忧杂货铺@新空间代码工作室·2024-09-05 02:45

EMR组件部署指南

本文将详细介绍如何部署EMR的主要组件,包括:JDK1.8ElasticsearchKafkaFlinkZookeeperHBaseHadoopPhoenixScalaSparkHive准备工作所有操作都在

ivwdcwso·2024-09-05 00:05

Mac 安装Hadoop教程（HomeBrew安装）

1.引言本教程旨在介绍在Mac电脑上安装Hadoop，便于编程开发人员对大数据技术的熟悉和掌握。2.前提条件2.1安装JDK想要在你的Mac电脑上安装Hadoop，你必须首先安装JDK。

追光天使·2024-09-04 22:21

Sublime text3+python3配置及插件安装

微信公众号：rayson_666(Rayson开发分享)个人专研技术方向：微服务方向：springboot,springCloud,Dubbo分布式/高并发：分布式锁，消息队列RabbitMQ大数据处理：Hadoop

raysonfang·2024-09-04 19:23

关于Apache Hive 和 Apache Iceberg

Hive主要负责将Hadoop的数据组织成表

[听得时光枕水眠]·2024-09-04 17:55

大数据学习｜理解和对比 Apache Hive 和 Apache Iceberg

文章目录数据模型与存储事务支持性能优化使用场景总结数据模型与存储Hive:Hive使用的是传统的关系型数据模型，数据存储在Hadoop分布式文件系统(HDFS)中，通常是以文本格式（如CSV或TSV）或者二进制格式

进击的小白菜·2024-09-04 16:50

kafka集群搭建

Kafka集群搭建一、概念说明它是一个分布式消息系统，由linkedin使用scala编写，用作LinkedIn的活动流（ActivityStream）和运营数据处理管道（Pipeline）的基础。

java皮皮虫·2024-09-04 16:48

springboot集成Kafka

kafka:#kafka的连接地址（注意，是kafka所在服务器的公网ip，不要写成zookeeper的了）bootstrap-servers:localh

Maruko310·2024-09-04 16:48

Kafka学习

1、kafka集群配置①需要提前配置zookeeper环境②配置环境变量，与Java类似③配置server.properties文件#服务器序号broker.id=numlisteners=PLAINTEXT

nlhkfcdxb·2024-09-04 16:48

Kafka~Kafka命令行参数使用教程

一、kafka-topics.sh1.参数参数描述–bootstrap-server连接的KafkaBroker主机名称和端口号–topic操作的topic名称–create创建主题–delete删除主题

飞Link·2024-09-04 15:14

kafka单条消息太大引起的线上故障

问题现象1.收到日志异常报警，一个Flink任务写入kafka消息出现了异常，异常消息如下org.apache.flink.streaming.connectors.kafka.FlinkKafkaException

ab342173024·2024-09-04 15:44

多图详解kafka生产者消息发送过程

:fire:《Kafka运维管控平台LogiKM》:fire::pencil2:更强大的管控能力:pencil2::tennis:更高效的问题定位能力:tennis::sunrise:更便捷的集群运维能力

JAVAQXQ·2024-09-04 15:13

kafka ---- producer与broker配置详解以及ack机制详解

一、producer配置1、bootstrap.serverskafkabroker集群的ip列表，格式为：host1:port1,host2:port2,…2、client.id用于追踪消息的源头3、

husterlichf·2024-09-04 15:41

推荐频道

Kafka;Hadoop

Spark概念知识笔记

【Hadoop】- MapReduce & YARN 初体验[9]

Apache Storm：入门了解

SpringBoot+Kafka+ELK 完成海量日志收集（超详细）

Kafka Broker处于高负载状态（例如消息处理量大或系统资源不足），无法及时响应消费者的请求

Kafka 常用的传输和序列化数据方式

kafka3.7.1 单节点 KRaft部署&测试发送和接收消息

如何做大数据测试

基于Hadoop的学习行为数据云存储平台的设计与实现

Kafka 如何保证消息不丢失

Kafka 如何保证数据不丢失？不重复

【Kafka专栏 11】深入理解Kafka的网络线程模型：是谁在幕后“操纵”数据流？

如何查看当前的gruop_id 的kafka 消费情况 这个可以查看到是否存在消费阻塞问题

kafka单机安装

Kafka-设计原理

Spark与Kafka进行连接

Kafka

Python 全栈系列266 Kafka服务的Docker搭建

DAG (directed acyclic graph) 作为大数据执行引擎的优点

hadoop-hdfs系统构成

python windows路径正则表达式,Python 正则表达式从Windows路径中获取文件夹

Canal同时监控两个mysql的binlog并同步至一个topic中

canal-adapter消费Kafka中MySQL的binlog数据，却没有同步更新Elastic search

Ingest Pipeline & Painless Script

Hadoop组件

Azkaban：强大的开源工作流调度系统

Kafka的事务实现

springboot整合kafka

SpringBoot整合Kafka

1+X云计算运维与开发(中级)实战案例——Kafka集群部署

Hadoop-MapReduce机制原理

kafka消费者重复消费同一个topic

2、mysql-canal-zk-kafka-es数据同步

大数据生态圈里的一致性算法

SpringBoot 集成 kafka，并消费历史事件

Kafka

logstash

【Docker系列】docker缓存详解

EMR组件部署指南

Mac 安装Hadoop教程（HomeBrew安装）

Sublime text3+python3配置及插件安装

关于Apache Hive 和 Apache Iceberg

大数据学习｜理解和对比 Apache Hive 和 Apache Iceberg

kafka集群搭建

springboot集成Kafka

Kafka学习

Kafka~Kafka命令行参数使用教程

kafka单条消息太大引起的线上故障

多图详解kafka生产者消息发送过程

kafka ---- producer与broker配置详解以及ack机制详解

如何查看当前的gruop_id 的kafka 消费情况这个可以查看到是否存在消费阻塞问题