E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Kafka;Hadoop
Spark概念知识笔记
最近总结了个人的各项能力,发现在大数据这方面几乎没有涉及,因此想补充这方面的知识,丰富自己的知识体系,大数据生态主要包含:
Hadoop
和Spark两个部分,Spark作用相当于MapReduceMapReduce
kuntoria
·
2024-09-07 05:21
【
Hadoop
】- MapReduce & YARN 初体验[9]
目录提交MapReduce程序至YARN运行1、提交wordcount示例程序1.1、先准备words.txt文件上传到hdfs,文件内容如下:1.2、在hdfs中创建两个文件夹,分别为/input、/output1.3、将创建好的words.txt文件上传到hdfs中/input1.4、提交MapReduce程序至YARN1.5、可通过node1:8088查看1.6、返回我们的服务器,检查输出文
星星法术嗲人
·
2024-09-07 04:21
hadoop
hadoop
mapreduce
Apache Storm:入门了解
前言Storm是一个开源的分布式实时计算系统,它能够处理无边界的数据流,类似于
Hadoop
对于批量数据处理的作用,但是Storm更侧重于实时数据流的处理。
布说在见
·
2024-09-07 03:43
apache
storm
大数据
SpringBoot+
Kafka
+ELK 完成海量日志收集(超详细)
SpringBoot项目准备引入log4j2替换SpringBoot默认log,demo项目结构如下:pomIndexController测试Controller,用以打印日志进行调试InputMDC用以获取log中的[%X{hostName}]、[%X{ip}]、[%X{applicationName}]三个字段值NetUtil启动项目,访问/index和/ero接口,可以看到项目中生成了app
2401_83703797
·
2024-09-07 00:25
程序员
spring
boot
kafka
elk
Kafka
Broker处于高负载状态(例如消息处理量大或系统资源不足),无法及时响应消费者的请求
Causedby:org.apache.
kafka
.common.errors.TimeoutException:Timeoutof60000msexpiredbeforethepositionforpartitionactivity
战族狼魂
·
2024-09-06 22:42
消息队列
java
kafka
分布式
Kafka
常用的传输和序列化数据方式
Kafka
常用的传输和序列化数据方式。不同的方式有不同的优缺点,选择哪种方式通常取决于具体的应用场景、性能要求、数据兼容性需求等。
傲雪凌霜,松柏长青
·
2024-09-06 21:38
后端
大数据
kafka
分布式
kafka
3.7.1 单节点 KRaft部署&测试发送和接收消息
一、环境准备
kafka
3.7.1包下载地址:https://mirrors.nju.edu.cn/apache/
kafka
/3.7.1/
kafka
_2.13-3.7.1.tgzopenjdk11.0.2
运维小弟| srebro.cn
·
2024-09-06 19:51
openeuler
kafka
运维
运维
云原生
如何做大数据测试
2、测试工具:大数据测试需要使用专门的测试工具和框架,如
Hadoop
Unit、ApacheBigTop、JMeter、LoadRunner等,而普通测试则可以使用通用的测试工具和框架,如JUnit、TestNG
测试界潇潇
·
2024-09-06 18:47
软件测试
软件测试
功能测试
自动化测试
程序人生
职场和发展
基于
Hadoop
的学习行为数据云存储平台的设计与实现
基于
Hadoop
的学习行为数据云存储平台的设计与实现DesignandImplementationofa
Hadoop
-BasedLearningBehavioralDataCloudStoragePlatform
usp1994
·
2024-09-06 16:03
hadoop
学习
大数据
Kafka
如何保证消息不丢失
1、生产者1.1丢失原因:
kafka
生产端异步发送消息后,不管broker是否响应,立即返回,伪代码producer.send(msg),由于网络抖动,导致消息压根就没有发送到broker端;
kafka
阳光倾洒
·
2024-09-06 15:55
Kafka
kafka
分布式
java
学习
开发语言
Kafka
如何保证数据不丢失?不重复
1.高可用型配置:acks=all,retries>0retry.backoff.ms=100(毫秒)(并根据实际情况设置retry可能恢复的间隔时间)优点:这样保证了producer端每发送一条消息都要成功,如果不成功并将消息缓存起来,等异常恢复后再次发送。缺点:这样保证了高可用,但是这会导致集群的吞吐量不是很高,因为数据发送到broker之后,leader要将数据同步到fllower上,如果网
优秀后端工程师
·
2024-09-06 15:23
Java程序员
kafka
linq
分布式
【
Kafka
专栏 11】深入理解
Kafka
的网络线程模型:是谁在幕后“操纵”数据流?
作者名称:夏之以寒作者简介:专注于Java和大数据领域,致力于探索技术的边界,分享前沿的实践和洞见文章专栏:夏之以寒-
kafka
专栏专栏介绍:本专栏旨在以浅显易懂的方式介绍
Kafka
的基本概念、核心组件和使用场景
夏之以寒
·
2024-09-06 14:16
夏之以寒-kafka专栏
kafka
网络
分布式
网络模型
如何查看当前的gruop_id 的
kafka
消费情况 这个可以查看到是否存在消费阻塞问题
如何查看当前的gruop_id的
kafka
消费情况这个可以查看到是否存在消费阻塞问题命令如下:/
kafka
/bin/
kafka
-consumer-groups.sh--bootstrap-server127.0.0.1
树下水月
·
2024-09-06 08:02
kafka
分布式
kafka
单机安装
kafka
单机安装下载地址官网:https://
kafka
.apache.org/最新版本下载页面:https://
kafka
.apache.org/downloads说明版本选择:3.0.0,
kafka
shuair
·
2024-09-06 08:02
kafka
kafka
分布式
Kafka
-设计原理
ControllerLeader-PartitionRebalance消息发布机制HW与LEO日志分段Controller
Kafka
核心总控制器Controller:在
Kafka
集群中会有一个或者多个broker
姜希成
·
2024-09-06 07:59
Kafka
kafka
Spark与
Kafka
进行连接
在Java中使用Spark与
Kafka
进行连接,你可以使用SparkStreaming来处理实时流数据。以下是一个简单的示例,展示了如何使用SparkStreaming从
Kafka
读取数据并进行处理。
傲雪凌霜,松柏长青
·
2024-09-06 07:27
后端
大数据
spark
kafka
Kafka
Kafka
是一个高性能的分布式消息队列系统,最初由LinkedIn开发,后来成为Apache软件基金会的一部分。
Kafka
设计用于处理大规模的数据流,提供高吞吐量、低延迟的消息传递机制。
傲雪凌霜,松柏长青
·
2024-09-06 07:57
后端
中间件
kafka
分布式
Python 全栈系列266
Kafka
服务的Docker搭建
测试也接近了
kafka
官方标称的性能。考虑到网络、消息的大小等因素,可以简单认为
kafka
的速度是10万/秒级的。
yukai08008
·
2024-09-06 06:26
全栈
python
kafka
docker
DAG (directed acyclic graph) 作为大数据执行引擎的优点
DR-ConceptuallyDAGmodelisastrictgeneralizationofMapReducemodel.DAG-basedsystemslikeSparkandTezthatareawareofthewholeDAGofoperationscandobetterglobaloptimizationsthansystemslike
Hadoop
MapReducewhicha
joeywen
·
2024-09-06 04:43
分布式计算
Storm
Spark
Storm
杂谈
Storm
spark
DAG
hadoop
-hdfs系统构成
2019独角兽企业重金招聘Python工程师标准>>>HDFS组成1)NameNode元数据2)DataNode存储文件内容block3)SecondaryNameNode合并NameNode与editsHDFS缺点1)不能低延迟访问2)小文件存取占用大量NameNode内存空间寻道时间超过读取时间3)并发写入,文件随机修改一个文件只能有一个写着仅支持appendHDFS存储数据单元1)文件被切分
weixin_33701564
·
2024-09-06 00:46
大数据
python
操作系统
python windows路径正则表达式,Python 正则表达式从Windows路径中获取文件夹
推荐文章一,要使用正则表达式相关的方法,首先得搞清楚正则表达式的基本用法,摘自百度百科:元字符描述将下一个字符标记为一个特殊字符推荐文章学习
Hadoop
Common模块,当然应该是从最简单,最基础的模块学习最好
弓长丶艮
·
2024-09-06 00:16
python
windows路径正则表达式
Canal同时监控两个mysql的binlog并同步至一个topic中
准备:安装canal(博主canal版本1.1.5)安装
kafka
,做接收binlog日志数据用(博主
kafka
版本2.11)安装两个msyql,相当于两个mysql数据库(博主mysql版本5.1.0
梦见伊兮伊不觉
·
2024-09-06 00:45
大数据
mysql
kafka
canal-adapter消费
Kafka
中MySQL的binlog数据,却没有同步更新Elastic search
背景在同步MySQL数据到ES的场景中,选择了canal组件同步数据。问题描述在同步的时候发现canal-adapter中canal-adapter/conf/es7/product.yml配置文件中sql语句连表查询的时候会出现无法更新Elasticsearch中数据的情况,而且日志没有提示异常(idea启动的时候有错误日志),令人百思不得其解。问题分析初步估计是内部解析yml的时候出错了,但具
iiopsd
·
2024-09-06 00:42
kafka
mysql
java
elasticsearch
Ingest Pipeline & Painless Script
DELETEtech_blogs#Blog数据,包含3个字段,tags用逗号间隔PUTtech_blogs/_doc/1{"title":"Introducingbigdata......","tags":"
hadoop
折纸虚桐
·
2024-09-05 22:03
ES学习笔记
elasticsearch
Hadoop
组件
这张图片展示了
Hadoop
生态系统的一些主要组件。
Hadoop
是一个开源的大数据处理框架,由Apache基金会维护。
静听山水
·
2024-09-05 20:14
Hadoop
hadoop
Azkaban:强大的开源工作流调度系统
Azkaban是LinkedIn开发的一款开源工作流调度系统,专为管理和调度大规模的
Hadoop
作业设计。它提供了一种简单且有效的方式来定义、调度和监控复杂的工作流,确保批处理任务按预期顺序执行。
Hello.Reader
·
2024-09-05 15:15
其他
大数据
开源
大数据
Kafka
的事务实现
Kafka
的事务
Kafka
的事务解决的问题和RocketMQ是不太一样的。RocketMQ中的事务,它解决的问题是,确保执行本地事务和发消息这两个操作,要么都成功,要么都失败。
Mirana_77
·
2024-09-05 15:43
消息队列
kafka
java
分布式
springboot整合
kafka
文章目录步骤一:添加依赖项步骤二:配置
Kafka
步骤三:创建一个生产者步骤四:创建一个消费者本教程将介绍如何在SpringBoot应用程序中使用
Kafka
。
##明天
·
2024-09-05 15:42
kafka
spring
boot
java
SpringBoot整合
Kafka
安装windows版安装包下载地址:https://
kafka
.apache.org/downloads下载完毕后得到tgz压缩文件,使用解压缩软件解压缩即可使用,解压后得到如下文件建议使用windows
ITBOY_ITBOX
·
2024-09-05 15:42
SpringBoot
kafka
spring
boot
java
1+X云计算运维与开发(中级)实战案例——
Kafka
集群部署
前言
Kafka
是一种开源的流处理平台和消息系统,被设计用于构建实时数据管道和流式应用程序,可以处理大规模的实时数据流,并提供高吞吐量、持久性存储和分布式处理能力。
kuuuugua
·
2024-09-05 15:41
1+X云计算运维与开发(中级)
云计算
运维
kafka
Hadoop
-MapReduce机制原理
、MapReduce概述2、MapReduce特点3、MapReduce局限性4、MapTask5、Map阶段步骤:6、Reduce阶段步骤:7、MapReduce阶段图1、MapReduce概述
Hadoop
MapReduce
H.S.T不想卷
·
2024-09-05 11:46
大数据
hadoop
mapreduce
大数据
kafka
消费者重复消费同一个topic
场景是sparkstreaming消费
kafka
数据在这里sparkstream和
kafka
都是单节点的集群模式。同时起两个不同的groupid的应用,发现会发生后起来的应用消费不到数据。
小琳ai
·
2024-09-05 10:06
大数据
kafka
重复消费
consumer
2、mysql-canal-zk-
kafka
-es数据同步
方案总体介绍:通过zookeeper管理canal和
kafka
集群,zk本身也做集群配置;通过canal作为mysql的从库实时读取binlog,然后将数据以json格式发送到
kafka
平台,会有一个专门消费
kobe0429
·
2024-09-05 08:01
大数据生态圈里的一致性算法
大数据生态圈中,保证一致性的方式举不胜举
Hadoop
用Zookeeper(Zab,Paxos+事务顺序)ElasticSearch用Hash路由算法(非一致性Hash)Cassandra用Gossip闲话算法
宇宙湾
·
2024-09-05 07:35
SpringBoot 集成
kafka
,并消费历史事件
SpringBoot集成
kafka
,并消费历史事件消费历史事件上一篇文章我们讲的是SpringBoot集成
kafka
消费最新的事件,如果没有看过的小伙伴可以看这篇文章:SpringBoot集成
kafka
晚枫2000
·
2024-09-05 05:39
kafka学习笔记
spring
boot
kafka
后端
java
spring
docker
运维
Kafka
/
kafka
-console-consumer.sh--zookeeperlocalhost:2181--from-beginning--topict1/opt/
kafka
_2.13-3.1.0/bin
墨咖
·
2024-09-05 04:58
笔记
logstash
kafka
input{
kafka
{bootstrap_servers=>"127.0.0.1:9092"topics=>["SCHOOL_AQDL"]group_id=>"logstash-group"consumer_threads
墨咖
·
2024-09-05 03:54
logstash
中间件
服务器
运维
【Docker系列】docker缓存详解
推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,
kafka
,Spring,微服务等常用开发工具系列:常用的开发工具
Kwan的解忧杂货铺@新空间代码工作室
·
2024-09-05 02:45
s11
Docker系列
docker
缓存
容器
EMR组件部署指南
本文将详细介绍如何部署EMR的主要组件,包括:JDK1.8Elasticsearch
Kafka
FlinkZookeeperHBase
Hadoop
PhoenixScalaSparkHive准备工作所有操作都在
ivwdcwso
·
2024-09-05 00:05
运维
EMR
大数据
开源
运维
Mac 安装
Hadoop
教程(HomeBrew安装)
1.引言本教程旨在介绍在Mac电脑上安装
Hadoop
,便于编程开发人员对大数据技术的熟悉和掌握。2.前提条件2.1安装JDK想要在你的Mac电脑上安装
Hadoop
,你必须首先安装JDK。
追光天使
·
2024-09-04 22:21
macos
hadoop
大数据
Sublime text3+python3配置及插件安装
微信公众号:rayson_666(Rayson开发分享)个人专研技术方向:微服务方向:springboot,springCloud,Dubbo分布式/高并发:分布式锁,消息队列RabbitMQ大数据处理:
Hadoop
raysonfang
·
2024-09-04 19:23
关于Apache Hive 和 Apache Iceberg
Hive主要负责将
Hadoop
的数据组织成表
[听得时光枕水眠]
·
2024-09-04 17:55
apache
hive
hadoop
大数据学习|理解和对比 Apache Hive 和 Apache Iceberg
文章目录数据模型与存储事务支持性能优化使用场景总结数据模型与存储Hive:Hive使用的是传统的关系型数据模型,数据存储在
Hadoop
分布式文件系统(HDFS)中,通常是以文本格式(如CSV或TSV)或者二进制格式
进击的小白菜
·
2024-09-04 16:50
数据库
大数据
大数据
学习
apache
kafka
集群搭建
Kafka
集群搭建一、概念说明它是一个分布式消息系统,由linkedin使用scala编写,用作LinkedIn的活动流(ActivityStream)和运营数据处理管道(Pipeline)的基础。
java皮皮虫
·
2024-09-04 16:48
kafka
springboot
后台
kafka
kafka测试
kafka集群
springboot集成
Kafka
kafka
:#
kafka
的连接地址(注意,是
kafka
所在服务器的公网ip,不要写成zookeeper的了)bootstrap-servers:localh
Maruko310
·
2024-09-04 16:48
java
Kafka
kafka
spring
boot
java
Kafka
学习
1、
kafka
集群配置①需要提前配置zookeeper环境②配置环境变量,与Java类似③配置server.properties文件#服务器序号broker.id=numlisteners=PLAINTEXT
nlhkfcdxb
·
2024-09-04 16:48
kafka
学习
分布式
Kafka
~
Kafka
命令行参数使用教程
一、
kafka
-topics.sh1.参数参数描述–bootstrap-server连接的
Kafka
Broker主机名称和端口号–topic操作的topic名称–create创建主题–delete删除主题
飞Link
·
2024-09-04 15:14
大数据
kafka
zookeeper
分布式
kafka
单条消息太大引起的线上故障
问题现象1.收到日志异常报警,一个Flink任务写入
kafka
消息出现了异常,异常消息如下org.apache.flink.streaming.connectors.
kafka
.Flink
Kafka
Exception
ab342173024
·
2024-09-04 15:44
线上故障篇
java
多图详解
kafka
生产者消息发送过程
:fire:《
Kafka
运维管控平台LogiKM》:fire::pencil2:更强大的管控能力:pencil2::tennis:更高效的问题定位能力:tennis::sunrise:更便捷的集群运维能力
JAVAQXQ
·
2024-09-04 15:13
java
kafka
开发语言
kafka
---- producer与broker配置详解以及ack机制详解
一、producer配置1、bootstrap.servers
kafka
broker集群的ip列表,格式为:host1:port1,host2:port2,…2、client.id用于追踪消息的源头3、
husterlichf
·
2024-09-04 15:41
#
kafka
kafka
java
分布式
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他