Kafka;Hadoop 第6页

spark采坑集锦之用kafka作为DStream数据源，并行度问题

在SparkStreaming中作为数据源的Kafka怎样接收多主题发送的数据呢？

方兵兵·2024-08-27 16:41

涨姿势了 SpringBoot+Kafka将实战讲解到极致，你悟了吗？

目录一、环境准备二、生产者实践普通生产者带回调的生产者自定义分区器kafka事务提交三、消费者实践简单消费指定topic、partition、offset消费批量消费监听异常处理器消息过滤器消息转发定时启动

技术布道师·2024-08-27 16:39

Kafka命令详解：从零开始，掌握Kafka集群管理、主题操作与监控的全方位技能，理解每一条命令背后的逻辑与最佳实践

本文主要是关于Kafka的命令详解，每个命令都进行了非常详细的注释，帮助大家能更好的理解这些命令背后的含义，从底层去理解，如果大家喜欢，请多多点赞关注，欢迎评论！

长风清留扬·2024-08-27 16:37

Hadoop：HA模式配置与实现

写的不到位的地方，欢迎评论指出不足之处一、检查系统环境1、HostName、Hosts、JDK、SSH、网络、防火墙、数据源二、集群角色分配表注：这只是实例服务器NameNodeNameNodeZookepperFailoverControllerDataNodeZookepperJournalNodeOneyes(NN2和其它节点免密)yesyesTwoyes(NN1和其它节点免密)yesyes

家道消乏·2024-08-27 08:14

大数据技术之Flume 企业开发案例——负载均衡和故障转移（6）

2）需求分析故障转移案例3）实现步骤准备工作在/opt/module/flume/job目录下创建group2文件夹[lzl@hadoop12job]$c

大数据深度洞察·2024-08-27 05:58

关于kafka的分区和消费者之间的关系

消费者和消费者组当生产者向Topic写入消息的速度超过了消费者（consumer）的处理速度，导致大量的消息在Kafka中淤积，此时需要对消费者进行横向伸缩，用多个消费者从同一个主题读取消息，对消息进行分流

窦再兴·2024-08-26 22:48

基于Zookeeper搭建Kafka高可用集群

基于Zookeeper搭建Kafka高可用集群一、Zookeeper集群搭建为保证集群高可用，Zookeeper集群的节点数最好是奇数，最少有三个节点，所以这里搭建一个三个节点的集群。

数字游牧人0v0·2024-08-26 16:58

zookeeper+KAFKA 集群搭建

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。

懵逼的运维弟弟·2024-08-26 16:28

（十五）Flink 内存管理机制

在大数据领域，很多开源框架（Hadoop、Spark、Storm）都是基于JVM运行，但是JVM的内存管理机制往往存在着诸多类似OutOfMemoryError的问题，主要是因为创建大量的实例，超过JVM

springk·2024-08-26 16:27

面试笔记8.24

正确答案：在我的项目中涉及大数据开发时，我通常会采用分布式的架构，比如使用Hadoop或者Spark等大数据处理框架。我会在集群中部署多台服务器，通过分布式计算和存储来处理大规模数据。

励志秃头码代码·2024-08-26 16:55

在linux机器中安装配置hadoop

1.首先我们要把hadoop包上传到我们的liunx机器中（运用外链软件上传如：Xshell+xftp）（用我们的外链软件连接成功后，进行hadoop包的上传）上传到我们想要的目录路径下，比如我的是上传到

BigData_C·2024-08-26 14:40

flink 状态参数设置

前提代码示例，通过flink消费kafka，查看list状态中的数据，确定参数的具体含义kafka的代码：发送两个key值，一秒发送一次for(inti=0;isource=KafkaSource.builder

陪你一起捡蛋壳·2024-08-26 13:36

计算机毕业设计Hadoop+Spark知识图谱体育赛事推荐系统体育赛事热度预测系统体育赛事数据分析体育赛事可视化体育赛事大数据机器学习大数据毕业设计大数据毕设机器学习人工智能

开发技术前端：vue.js、element-ui、echarts后端：springboot、mybatis大数据：spark、hadoop数据库：mysql关系型数据库、neo4j图数据库算法：协同过滤推荐算法

计算机毕业设计大全·2024-08-26 13:43

Kylin系列-入门

Kylin系列-入门ApacheKylin是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力，以支持超大规模数据。

Dingdangr·2024-08-26 13:34

Mac Hadoop Yarn日志聚合出错

MacHadoopYarn日志聚合出错通过日志查看出现了下面的错误：java.lang.IllegalStateException:CannotcloseTFileinthemiddleofkey-valueinsertion.atorg.apache.hadoop.io.file.tfile.TFile

HHoao·2024-08-26 10:15

Kafka系列之：删除kafka Topic和元信息

Kafka系列之：删除kafkaTopic和元信息一、kafka删除topic二、删除kafkatopic在zookeeper中的元信息一、kafka删除topic确定不再使用Kafka中的一个主题，最好的使用方式是将其删除

最笨的羊羊·2024-08-26 08:06

基于spark+hadoop+hive大数据分析的电影推荐系统的设计与实现

1.1开发环境二、系统介绍2.1图片展示三、部分代码设计3.1.部分代码如下：**总结****大家可以帮忙点赞、收藏、关注、评论啦****有问题评论区交流**一、开发介绍1.1开发环境技术栈：spark+hadoop

毕设木哥·2024-08-26 06:26

《Hadoop核心技术》作者翟周伟：我与Hadoop的不解之缘

摘要：翟周伟，资深Hadoop技术专家，《Hadoop开源云计算平台》、《Hadoop核心技术》作者。

xytlwp·2024-08-25 21:27

Tair分布式缓存

为什么不能像操作分布式数据库或者hadoop那样，增加一个中央节点，让它去代理所有事情。所以就开发了这个tai

kingkyrie·2024-08-25 18:38

Hadoop入门基础（五）：Hadoop 常用 Shell 命令一网打尽，提升你的大数据技能！

1.Hadoop基本命令1.1查看版本信息hadoopversion用于检查Hadoop的版本信息以及编译信息。

william.zhang(张)·2024-08-25 15:52

HDFS的编程

一、HDFS原理HDFS（HadoopDistributedFileSystem）是hadoop生态系统的一个重要组成部分，是hadoop中的的存储组件，在整个Hadoop中的地位非同一般，是最基础的一部分

卍king卐然·2024-08-25 07:02

Hadoop入门基础（二）：Hadoop集群安装与部署详解（超详细教程）

NameNodemaster192.168.1.101DataNode1slave1192.168.1.102DataNode2slave2192.168.1.1032.软件要求操作系统：CentOS7或Ubuntu20.04JavaJDK：Hadoop

william.zhang(张)·2024-08-25 06:57

【Go - 模式示例 - 5分钟写个生产者/消费者】

生产者与消费者跨进程，需要使用一个消息队列服务，比如rabbitMQ，kafka等来进行通信。考虑多协程，Go中一般不会用线程，而是协程，在多协程的情况下，要考虑同时写，造成写覆盖的情况。废话不多说，

wn531·2024-08-25 06:23

深入理解Kafka消费者偏移量管理：如何确保事件已处理

深入理解Kafka消费者偏移量管理：如何确保事件已处理ApacheKafka是一款流行的分布式流处理平台，用于构建高吞吐量的数据管道和实时应用。

heromps·2024-08-25 00:17

Kafka快速入门：Kafka驱动JavaApi的使用

生产者和消费者是Kafka的核心概念之一，它们在客户端被创建和使用，并且包含了许多与Kafka性能和机制相关的配置。虽然Kafka提供的命令行工具能够执行许多基本操作，但它无法实现所有可能的性能优化。

不止会JS·2024-08-25 00:46

手动修改zk类型的kafka offset

手动修改zk类型的offset:连接到ZooKeeper./zkCli.sh-server..123:2181,.…87.124:2181,1*.*.87.125:2181查找并修改ae_spark这个topic的消费者组的offset值对于每个分区（0、1、2），需要分别查看和修改offset值查看和修改分区0的offset值查看当前offset值：get/consumers/ae_spark/

Keep hunger·2024-08-24 23:45

浅谈Kafka（二）

浅谈Kafka（二）文章目录浅谈Kafka（二）Kafka架构图Kafka生产者幂等性与事务生产者分区写入策略乱序问题消费者组的Reblance机制消费者分区分配策略副本机制分区的leader与followerAR

快乐江小鱼·2024-08-24 23:44

Ubuntu下部署Hadoop集群+Hive（一）

配置主机Host在三台服务器上添加主机名与IP的映射，以方便在局域网内进行主机间的快速访问和后续的文件配置；配置方法：vi/etc/hosts为方便配置：我的三台主机取名为HadoopMaster、HadoopSlave01

岩屿·2024-08-24 17:41

Hadoop 的基本 shell 命令

Hadoop的基本shell命令主要用于与Hadoop分布式文件系统（HDFS）和MapReduce进行交互。

难以触及的高度·2024-08-24 14:22

基于Hadoop的海量图像检索

基于Hadoop的海量图像检索“MassiveImageRetrievalBasedonHadoop:AStudyinSoftwareEngineering”完整下载链接:基于Hadoop的海量图像检索文章目录基于

usp1994·2024-08-24 13:12

从零到一建设数据中台 - 关键技术汇总

一、数据中台关键技术汇总语言框架：Java、Maven、SpringBoot数据分布式采集：Flume、Sqoop、kettle数据分布式存储：HadoopHDFS离线批处理计算：MapReduce、Spark

我码玄黄·2024-08-24 12:09

《Apache Kafka 实战》笔记 - 7.5.2 分区重分配

准备环境搭建一个3个节点的集群，然后创建两个测试topic：foo1、foo2，它们都是3个分区，副本因子都是2：bin/kafka-topics.sh--create--zookeeperlocalhost

SlowGO·2024-08-24 12:11

【编程之路：在 Bug 的迷宫中寻找出口】

Kwan的解忧杂货铺@新空间代码工作室·2024-08-24 07:33

Kylin的工作原理及使用分享

Kylin提供了一个Hadoop之上的SQL查询接口及多维分析(OLAP)能力，能够支持大规模数据，处理TB乃至PB级别的分析任务，并且能够在亚秒级查询巨大的Hive表。

丁爸·2024-08-24 07:01

消息中间件：Kafka消息丢失与堆积问题分析与解决方案

消息中间件：Kafka消息丢失与堆积问题分析与解决方案Kafka作为分布式消息系统，广泛应用于实时数据流处理、大数据分析等领域。

upgrador·2024-08-24 02:02

Kafka-之控制器（Controller选举、leader选举）

Kafka-之控制器（控制器选举，leader选举）1控制器是什么，如何选举kafka控制器管理着整个集群中分区以及副本的状态，控制器的选举需要依赖于Zookeeper，在kafka集群启动的时候，会在

稳哥的哥·2024-08-24 02:31

kafka 消费组分区分配策略

一、前提kafka的版本是2.6.2一般我们消费kafka的时候是指定消费组，是不会指定消费组内部消费kafka各个分区的分配策略，但是我们也可以指定消费策略，通过源码发现，我们可以有三种分区策略：RangeAssignor

陪你一起捡蛋壳·2024-08-24 02:00

Kafka基本概念

目录1.生产者2.主题3.分区4.消费者5.消费者组消费者组加入和离开消费者组流程1.消费者加入消费者组2.消费者离开消费者组批处理1.生产者端的批量处理2.消费者端的批量处理Kafka是消息中间件的一种

不止会JS·2024-08-24 02:27

阿里云服务器内存型r7、r8a、r8y实例区别及最新活动价格参考

在阿里云目前的活动中，属于内存型实例规格的云服务器有内存型r7、内存型r8a、内存型r8y这几个实例规格，相比于活动内的经济型e和通用算力型u1等实例规格来说，这些实例规格等性能更强，适用于数据分析与挖掘，Hadoop

阿里云最新优惠和活动汇总·2024-08-23 22:23

Spring Boot 实战：集成 Apache Kafka 及注意事项

引言ApacheKafka是一个分布式流处理平台，广泛应用于构建实时数据管道和流应用。结合SpringBoot的强大功能，开发者可以轻松地构建出高效且易于维护的应用程序。

潘多编程·2024-08-23 15:52

Ubuntu下部署Hadoop集群+Hive（二）

Hadoop集群搭建准备环境hadoop-3.3.6.tar.gz，jdk-8u421-linux-x64.tar.gz根据自己的使用下载对的hadoop和jdk版本hadoop下载地址：ApacheHadoopJDK

岩屿·2024-08-23 14:46

计算机毕业设计hadoop+spark知识图谱美食推荐系统美食价格预测美团推荐系统美团爬虫大众点评爬虫美食数据分析美食可视化大屏大数据毕设

创新点：1.支付宝沙箱支付2.支付邮箱通知(JavaMail)3.短信验证码修改密码4.知识图谱5.四种推荐算法(协同过滤基于用户、物品、SVD混合神经网络、MLP深度学习模型)6.线性回归算法预测房价7.Python爬虫采集大众点评美食数据8.AI短信识别9.百度地图API10.lstm情感分析11.spark大屏可视化开发技术：springbootvue.jspythonechartsspar

计算机毕业设计大全·2024-08-23 13:22

计算机毕业设计hadoop+spark知识图谱高考分数预测系统高考志愿推荐系统高考可视化大屏高考大数据高考数据分析高考爬虫大数据毕业设计

开发技术hadoopsparkspringbootvue.jsPython爬虫、机器学习、深度学习mybatis-plusneo4j知识图谱图数据库mysql协同过滤算法(基于物品、基于用户模式)MLP

计算机毕业设计大全·2024-08-23 11:05

基于Hadoop平台的电信客服数据的处理与分析④项目实现：任务16：数据采集/消费/存储

接下来，我们需要将这些实时的数据通过Flume采集到Kafka集群中，然后提供给HBase消费。

我非夏日·2024-08-23 06:28

《Linux运维总结：基于银河麒麟V10+ARM64架构CPU部署zookeeper 3.8.4二进制分布式集群》

它是Google的Chubby项目的开源实现之一，并且是Hadoop和HBase等项目的重要组成部分。ZooKeeper提供的功能包括配置维护

东城绝神·2024-08-22 16:35

Java面试题及答案整理（ 2024年 6 月最新版，持续更新）

Java工程师面试题包括了：MyBatis、ZK、Dubbo、EL、Redis、MySQL、并发编程、Java面试、Spring、微服务、Linux、Springboot、SpringCloud、MQ、Kafka

Java-之父·2024-08-22 08:10

Amazon EFS：云端弹性文件系统的多元化应用场景

应用：Hadoop、Spark等大数据框架优势：高

ivwdcwso·2024-08-22 04:51

Hadoop的概念

1.什么是大数据数据体量巨大：数据量规模庞大，通常以PB（拍字节）或EB（艾字节）来衡量，远远超出了传统数据库和数据处理工具的处理能力。数据类型多样：大数据包括结构化数据、半结构化数据和非结构化数据。其中，非结构化数据占据了相当大的比例，如文本、音频、视频、图片、地理位置信息等。价值密度低：在大量的数据中，真正有价值的信息可能只是很小的一部分。因此，如何从海量数据中快速提取有价值的信息是大数据处理

子非鱼　　　·2024-08-22 02:03

MAP REDUCE

框架示例ApacheHadoop：以MapReduce作为默认处理引擎的框架。ApacheSpark：可以整合进Hadoop，取代MapReduce的框架

Xiao_die888·2024-08-22 01:58

zookeeper+kafka消息队列群集部署

一、消息队列1.消息队列消息是应用间传送的数据消息队列是应用见的通信方式，消息发送后立即返回，由消息系统确保消息可靠传递。消息发布者只管把消息发布到MQ中而不用管谁来取，消息使用者只管从MQ中取消息而不管是谁发布的。这样发布者和使用者都不用知道对方的存在。2.消息队列特征（1）存储与依赖于使用套接字的基本TCP和UDP协议的传统请求和响应系统不同，消息队列通常将消息存储在某种类型的缓冲区中，直到目

这是九月·2024-08-22 00:54

推荐频道

Kafka;Hadoop