Kafka;Hadoop 第2页

hadoop 0.22.0 部署笔记

hbase是部署在hadoop平台上的NOSql数据库，因此在部署hbase之前需要先部署hadoop。

weixin_33701564·2024-09-10 17:41

解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(4)

org.apache.hadoophadoop-com

2401_84160087·2024-09-10 16:34

解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(3)

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！xmlns:xsi="http://www.w3.or

2401_84160087·2024-09-10 16:04

深入解析HDFS：定义、架构、原理、应用场景及常用命令

引言Hadoop分布式文件系统（HDFS，HadoopDistributedFileSystem）是Hadoop框架的核心组件之一，它提供了高可靠性、高可用性和高吞吐量的大规模数据存储和管理能力。

CloudJourney·2024-09-10 12:39

python调用rocketmq的api_Python：Rocketmq消息队列使用

rocketmq可以与kafka等一起使用，用于实时消息处理。

weixin_39914868·2024-09-10 11:35

Hadoop的搭建流程

文章目录一、配置IP二、配置主机名三、配置主机映射四、关闭防火墙五、配置免密六、安装jdk1、第一步：2、第二步：3、第三步：4、第四步：5、第五步：七、安装hadoop1、上传2、解压3、重命名4、开始配置环境变量

lzhlizihang·2024-09-10 07:06

hive搭建 -----内嵌模式和本地模式

文章目录一、内嵌模式（使用较少）1、上传、解压、重命名2、配置环境变量3、配置conf下的hive-env.sh4、修改conf下的hive-site.xml5、启动hadoop集群6、给hdfs创建文件夹

lzhlizihang·2024-09-10 07:06

Hadoop之mapreduce -- WrodCount案例以及各种概念

文章目录一、MapReduce的优缺点二、MapReduce案例--WordCount1、导包2、Mapper方法3、Partitioner方法（自定义分区器）4、reducer方法5、driver（main方法）6、Writable（手机流量统计案例的实体类）三、关于片和块1、什么是片，什么是块？2、mapreduce启动多少个MapTask任务？四、MapReduce的原理五、Shuffle过

lzhlizihang·2024-09-10 07:06

IAAS: IT公司去IOE-Alibaba系统构架解读

从Hadoop到自主研发，技术解读阿里去IOE后的系统架构原地址：......................云计算阿里飞天摘要：从IOE时代，到Hadoop与飞天并行，再到飞天单集群5000节点的实现

wishchin·2024-09-10 04:18

Hadoop HDFS中的NameNode、SecondaryNameNode和DataNode

HadoopHDFS中的NameNode、SecondaryNameNode和DataNode目录1.定义2.主要作用3.官方链接1.定义在HadoopHDFS（Hadoop分布式文件系统）中，有三个关键的组件

BigDataMLApplication·2024-09-10 00:38

【Hadoop|HDFS篇】NameNode和SecondaryNameNode

1.NN和2NN的工作机制思考：NameNode中的元数据是存储在哪里的？首先，我们做个假设，如果存储在NameNode节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需要存放在内存中。但如果只存在内存中，一旦断电，元数据丢失，整个集群就无法工作了。因此产生在磁盘中备份元数据的Fslmage。这样又会带来新的问题，当在内存中的元数据更新时，如果同时更新FsIm

Vez'nan的幸福生活·2024-09-09 23:00

Yarn介绍 - 大数据框架

YARN的概述YARN是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序YARN是Hadoop2.x

why do not·2024-09-09 23:58

浅析大数据Hadoop之YARN架构

YARN提供了资源管理和资源调度等机制1.1原HadoopMapReduce框架对于业界的大数据存储及分布式处理系统来说，Hadoop是耳熟能详的卓越开源分布式文件存储及处理框架，对于Hadoop框架的介绍在此不再累述

haotian1685·2024-09-09 22:26

Hadoop YARN【一】

YARN概念YARN是一种新的Hadoop资源管理器，它是一个通用的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。内部组件Client:负责提交应用程序。

冷雨夜下的星空·2024-09-09 22:26

大数据知识总结（三）：Hadoop之Yarn重点架构原理

文章目录Hadoop之Yarn重点架构原理一、Yarn介绍二、Yarn架构三、Yarn任务运行流程四、Yarn三种资源调度器特点及使用场景Hadoop之Yarn重点架构原理一、Yarn介绍ApacheHadoopYarn

Lansonli·2024-09-09 22:22

Kafka2.8.0集群安装教程

Kafka2.8.0集群安装教程准备工作node01~node04（四个节点机器，三台也可以），kafka安装node01~~node03启动zookeeper，这里依次启动node131，node132

请叫我你好·2024-09-09 21:48

实时数仓之实时数仓架构(Hudi)(1)

实时数仓架构图如下：技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据

2401_84164527·2024-09-09 19:34

2024年大数据最新实时数仓之实时数仓架构(Hudi)

技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据可以忽略;Flink：用于数据ETL，包括接入数据、处理数据及输出数据全链路数据计算任务

2401_84185556·2024-09-09 19:34

starrocks和clickhouse数据库比较

支持多种数据源的集成，并且可以与其他大数据技术（如Hadoop、Spark）协同工作。C

CodeMaster_37714848·2024-09-09 16:12

在ELFK架构中加入kafka

要进行日志的分析处理，而filebeat至进行日志的收集和发送，处理过程较为简单，所以当日志量非常巨大的时候，logstash会由于处理不及时导致日志或数据的丢失，这时候可以在filebeat和logstash之间加入kafka

beretxj_·2024-09-09 15:31

Kafka【问题 03】Connection to node -1 ( IP 9092) could not be established(1)

还有兄弟不知道网络安全面试可以提前刷题吗？费时一周整理的160+网络安全面试题，金九银十，做网络安全面试里的显眼包！王岚嵚工程师面试题（附答案），只能帮兄弟们到这儿了！如果你能答对70%，找一个安全工作，问题不大。对于有1-3年工作经验，想要跳槽的朋友来说，也是很好的温习资料！【完整版领取方式在文末！！】93道网络安全面试题需要体系化学习资料的朋友，可以加我V获取：vip204888（备注网络安全

2401_84265972·2024-09-09 14:26

大数据（Hbase简单示例）

importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.TableName

BL小二·2024-09-09 13:18

Hbase的简单使用示例

HBase是基于HadoopHDFS构建的分布式、列式存储的NoSQL数据库，适用于存储和检索超大规模的非结构化数据。它支持随机读写，并且能够处理PB级数据。

傲雪凌霜，松柏长青·2024-09-09 11:40

Kafka是如何实现高性能的

将写磁盘的过程变为顺序写Kafka的整个设计中，Partition相当于一个非常长的数组，而Broker接收到的所有消息顺序写入这个大数组中。

明斯克开源·2024-09-09 04:19

Spring常用中间件

（2）Kafka:分布式流处理平台，适合处理大规模数

贺仙姑·2024-09-08 23:15

Hbase、hive以及ClickHouse的介绍和区别？

一、Hbase介绍：HBase是一个分布式的、面向列的开源数据库，由ApacheSoftwareFoundation开发，是Hadoop生态系统中的一个重要组件。

damokelisijian866·2024-09-08 23:43

Flink - CEP

Hadoop3.2集群新版本的搭建详细讲解过程，从下面第一张官方的图来看，最新版是3.2，所以大猪将使用3.2的版本来演示，过程中遇到的坑留给自己，把路留给你们，IT之路还有大猪。

kikiki1·2024-09-08 21:46

chapter01 Java语言概述知识点Note

JavaSEJavaEEJavaME大数据Java基础常用技术栈mysqlJDBCSSMspring+springmvc+mybatisLinuxnacosHadoopFlinkJAVAEE消息队列rabbitMQdocker

月下绯烟·2024-09-08 18:42

Hive和Hbase的区别

Hive和HBase都是Hadoop生态系统中的重要组件，它们都能处理大规模数据，但各自有不同的适用场景和设计理念。

傲雪凌霜，松柏长青·2024-09-08 17:37

HBase

ApacheHBase是一个基于Hadoop分布式文件系统（HDFS）构建的分布式、面向列的NoSQL数据库，主要用于处理大规模、稀疏的表结构数据。

傲雪凌霜，松柏长青·2024-09-08 17:07

Hive的优势与使用场景

Hive的优势Hive作为一个构建在Hadoop上的数据仓库工具，具有许多优势，特别是在处理大规模数据分析任务时。

傲雪凌霜，松柏长青·2024-09-08 17:07

大数据技术之Hadoop（一）

Hadoop概述1.1Hadoop是什么Hadoop是什么1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2）主要解决，海量数据的存储和海量数据的分析计算问题。

pauls·2024-09-08 16:30

【Python系列】中位数计算

Kwan的解忧杂货铺@新空间代码工作室·2024-09-08 15:24

大数据面试题：说下为什么要使用Hive？Hive的优缺点？Hive的作用是什么？

Hive是Hadoop生态系统中比不可少的一个工具，它提供了一种SQL(结构化查询语言)方言，可以查询存储在Hadoop分布式文件系统（HDFS）中的数据或其他和Hadoop集成的文件系统，如MapR-FS

蓦然_·2024-09-08 15:50

ERROR:master启动报错： Attempting to operate on hdfs namenode as root

[root@masterhadoop]#sbin/start-all.shStartingnamenodeson[master]ERROR:AttemptingtooperateonhdfsnamenodeasrootERROR

CourageLee·2024-09-08 07:55

Kafka、RabbitMQ、RocketMQ 之间的区别是什么

Kafka、RabbitMQ、RocketMQ之间的区别是什么?

m0_67394230·2024-09-08 07:54

Kafka高性能揭秘 —— sequence IO、PageCache、SendFile的应用详解

大家都知道Kafka是将数据存储于磁盘的，而磁盘读写性能往往很差，但Kafka官方测试其数据读写速率能达到600M/s，那么为什么Kafka性能会这么高呢？

大数据学习与分享·2024-09-08 05:12

pyspark kafka mysql_数据平台实践①——Flume+Kafka+SparkStreaming(pyspark)

蜻蜓点水Flume——数据采集如果说，爬虫是采集外部数据的常用手段的话，那么，Flume就是采集内部数据的常用手段之一(logstash也是这方面的佼佼者)。下面介绍一下Flume的基本构造。Agent：包含Source、Channel和Sink的主体，它是这3个组件的载体，是组成Flume的数据节点。Event：Flume数据传输的基本单元。Source：用来接收Event，并将Event批量传

weixin_39793638·2024-09-08 04:34

Spring Boot 2.x实战94 - 事件驱动3 - Kafka与Kafka Streams

3.KafkaApacheKafka以Topic为导向，提供消息中间件的功能。一个类型的数据称之为一个Topic。3.1安装Kafka使用dockercompose安装ApacheKafka。

汪云飞记录本·2024-09-08 02:50

基于 Kafka 实现分布式事件驱动

事件驱动是一种灵活的系统设计方法，在事件驱动的系统中，当数据发生变化时系统会产生、发布一个对应的事件，其它对这个事件感兴趣的部分会接收到通知，并进行相应的处理。事件驱动设计最大的好处在我看来有两点：一是它为系统提供了很好的扩展能力，比如我们可以对某类事件增加一个订阅者来对系统进行扩展，最主要的是我们并不需要修改任何已有的代码，它完全符合开闭原则；二是它实现了模块间的低偶合，系统间各个部分不是强依赖

weixin_33785972·2024-09-08 02:48

Python大数据：深入探索Hadoop库的使用

在大数据的世界中，Python和Hadoop结合使用，为处理庞大数据集提供了强大的工具。本文将详细探讨如何在Python中使用Hadoop，特别是通过实例来展示这一过程。

t0_54coder·2024-09-07 17:22

Python 操作大数据使用 Hadoop

参考：https://blog.csdn.net/wuShiJingZuo/article/details/135620018fromhdfsimportInsecureClienthdfs_client=InsecureClient("http://localhost:9000",user="xiaokkk")#测试连接print(hdfs_client.status("/")){'access

静听山水·2024-09-07 17:47

flink 问题记录

文章目录1.Causedby:java.lang.UnsatisfiedLinkError:org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSums

Jhon_yh·2024-09-07 15:34

pyflink 滚动窗口实例

菜鸟社长·2024-09-07 15:31

【Flink】Flink 写入到 CSV BucketingSink 的使用方法

1.概述【File】CSV文件写入追加写入CsvWriter的使用有一个需求是这样的，flink读取kafka数据，然后写入到csv，但是写入的时候，要求写入一个文件，然后在监听到配置文件变化的时候，将写入到另外一个文件

九师兄·2024-09-07 15:00

第五章 Kafka 构建TB级异步消息系统

第五章Kafka构建TB级异步消息系统1、阻塞队列模拟阻塞队列publicclassBlockingQueueTest{publicstaticvoidmain(String[]args){//容量为10

跟风。·2024-09-07 13:48

kubernetes集群下部署kafka+zookeeper单机部署方案

背景：注：在kubernetes集群上部署单机版的zookeeper+kafka服务，是采用了kubernetes中的deploment组件+service组件+pvc存储组件1、部署zookeeper

jiang0615csdn·2024-09-07 12:17

Kafka，构建TB级异步消息系统

：使用数据的线程实现类ArrayBlockingQueueLinkedBlockingQueuePriorityBlockingQueue、SynchronousQueue、DelayQueue等2.Kafka

Fern977·2024-09-07 12:15

仿论坛项目--Kafka，构建TB级异步消息系统

Kafka入门•Kafka简介Kafka是一个分布式的流媒体平台。

HUT_Tyne265·2024-09-07 12:14

大数据系列 | Kafka架构分析及应用

大数据系列|Kafka架构分析及应用1.消息系统介绍2.Kafka原理分析3.Kafka架构分析4.Kafka的安装与配置4.1.Zookeeper集群安装配置4.2.安装Kafka集群4.3.配置kafka

降世神童·2024-09-07 07:42

推荐频道

Kafka;Hadoop

hadoop 0.22.0 部署笔记

解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(4)

解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(3)

深入解析HDFS：定义、架构、原理、应用场景及常用命令

python调用rocketmq的api_Python：Rocketmq消息队列使用

Hadoop的搭建流程

hive搭建 -----内嵌模式和本地模式

Hadoop之mapreduce -- WrodCount案例以及各种概念

IAAS: IT公司去IOE-Alibaba系统构架解读

Hadoop HDFS中的NameNode、SecondaryNameNode和DataNode

【Hadoop|HDFS篇】NameNode和SecondaryNameNode

Yarn介绍 - 大数据框架

浅析大数据Hadoop之YARN架构

Hadoop YARN【一】

大数据知识总结（三）：Hadoop之Yarn重点架构原理

Kafka2.8.0集群安装教程

实时数仓之实时数仓架构(Hudi)(1)

2024年大数据最新实时数仓之实时数仓架构(Hudi)

starrocks和clickhouse数据库比较

在ELFK架构中加入kafka

Kafka【问题 03】Connection to node -1 ( IP 9092) could not be established(1)

大数据（Hbase简单示例）

Hbase的简单使用示例

Kafka是如何实现高性能的

Spring常用中间件

Hbase、hive以及ClickHouse的介绍和区别？

Flink - CEP

chapter01 Java语言概述 知识点Note

Hive和Hbase的区别

HBase

Hive的优势与使用场景

大数据技术之Hadoop（一）

【Python系列】中位数计算

大数据面试题：说下为什么要使用Hive？Hive的优缺点？Hive的作用是什么？

ERROR:master启动报错： Attempting to operate on hdfs namenode as root

Kafka、RabbitMQ、RocketMQ 之间的区别是什么

Kafka高性能揭秘 —— sequence IO、PageCache、SendFile的应用详解

pyspark kafka mysql_数据平台实践①——Flume+Kafka+SparkStreaming(pyspark)

Spring Boot 2.x实战94 - 事件驱动3 - Kafka与Kafka Streams

基于 Kafka 实现分布式事件驱动

Python大数据：深入探索Hadoop库的使用

Python 操作大数据使用 Hadoop

flink 问题记录

pyflink 滚动窗口实例

【Flink】Flink 写入到 CSV BucketingSink 的使用方法

第五章 Kafka 构建TB级异步消息系统

kubernetes集群下部署kafka+zookeeper单机部署方案

Kafka，构建TB级异步消息系统

仿论坛项目--Kafka，构建TB级异步消息系统

大数据系列 | Kafka架构分析及应用

chapter01 Java语言概述知识点Note