Kafka;Hadoop 第7页

HiveSQL常见函数及使用方法（含代码示例）

HiveSQL（HiveSQL）是ApacheHive所使用的SQL方言，专门用于在Hadoop上进行大规模数据处理。以下是一些常见的HiveSQL函数及其使用方法：1.聚合函数COUNT统计记录数。

会飞的岛格酱·2024-08-21 21:31

RAG与LLM原理及实践（14）---- Python + MinIO + Kafka进阶

目录背景根因分析配置构造创建network构造zookeeper构造kafka参数构造原理解析图解全过程解析工具使用kafkacat查看brokerpython实现pythonsend+kafkarecvpython

PhoenixAI8·2024-08-21 20:59

Apache Kafka的伸缩性探究：实现高性能、弹性扩展的关键

引言ApacheKafka作为当今最流行的消息中间件之一，以其强大的伸缩性著称。

i289292951·2024-03-28 23:28

Azkaban各种类型的Job编写

一、概述原生的Azkaban支持的plugin类型有以下这些：command：Linuxshell命令行任务gobblin：通用数据采集工具hadoopJava：运行hadoopMR任务java：原生java

__元昊__·2024-03-28 21:00

【二】【设计模式】建造者模式

SystemConfigconfig("mysql://127.0.0.1/","xiaomu","xiaomumemeda","redis://127.0.0.1/","xiaomuredis","xiaomuredispw","kafka

妖精七七_·2024-03-28 16:19

Linux（centos7）部署hive

前提环境：已部署完hadoop(HDFS、MapReduce、YARN)1、安装元数据服务MySQL切换root用户#更新密钥rpm--importhttps://repo.mysql.com/RPM-GPG-KEY-mysqL

灯下夜无眠·2024-03-28 12:44

kafka-eagle 配置文件修改使用自带的数据库

######################################multizookeeper&kafkaclusterlistSettingsprefixedwith‘kafka.eagle

bright future cheer·2024-03-28 12:13

Kafka、ActiveMQ、RabbitMQ 及 RocketMQ区别比较

消息队列中间件是分布式系统中重要的组件，主要解决应用耦合、异步消息、流量削锋等问题。它可以实现高性能、高可用、可伸缩和最终一致性架构，是大型分布式系统不可缺少的中间件。消息队列在电商系统、消息通讯、日志收集等应用中扮演着关键作用，以阿里为例，其研发的消息队列（RocketMQ）在历次天猫“双十一”活动中支撑了万亿级的数据洪峰，为大规模交易提供了有力保障。常见消息中间件对比特性ActiveMQRab

木西爷·2024-03-28 11:12

关于HDP的20道高级运维面试题

HDP（HortonworksDataPlatform）的主要组件包括Hadoop框架、HDFS、MapReduce、YARN以及Hadoop生态系统中的其他关键工具，如Spark、Flink、Hive

编织幻境的妖·2024-03-26 15:34

【Hadoop】使用Scala与Spark连接ClickHouse进行数据处理

风不懂不懂得叶的梦月不听不听闻窗里琴声意难穷水不见不曾见绿消红霜不知不知晓将别人怎道珍重落叶有风才敢做一个会飞的梦孤窗有月才敢登高在夜里从容桃花有水才怕身是客身是客此景不能久TieYann(铁阳)、薄彩生《不知晓》在大数据分析和处理领域，ApacheSpark是一个广泛使用的高性能、通用的计算框架，而ClickHouse作为一个高性能的列式数据库，特别适合在线分析处理（OLAP）。结合Scala语

音乐学家方大刚·2024-03-26 09:56

MQ横向对比：RocketMQ、Kafka、RabbitMQ、ActiveMQ、ZeroMQ

前言本文将从多个角度全方位对比目前比较常用的几个MQ：RocketMQKafkaRabbitMQActiveMQZeroMQ下文单独说明。

namelessmyth·2024-03-25 19:08

Maxwell监听mysql的binlog日志变化写入kafka消费者

utf8mb3字符的解码问题，需要对原码中加上一个部分内容：具体也给大家做了总结：关于v1.29.2版本的Maxwell存在于mysql8.0后版本部分源码字符集处理确实问题-CSDN博客二.程序这里还是那一个kafka

澄绪猿·2024-03-25 06:23

Debezium日常分享系列之：Debezium2.5稳定版本之MySQL连接器配置示例和Connector参数详解

添加连接器配置三、连接器属性四、必须的连接器配置属性五、高级MySQL连接器配置属性六、Debezium连接器数据库架构历史配置属性七、用于配置生产者和消费者客户端的传递数据库架构历史属性八、Debezium连接器Kafka

最笨的羊羊·2024-03-24 08:56

hadoop配置免密登录

1.生成密钥ssh-keygen-trsa所有节点都要执行2.所有节点执行ssh-copy-id-i~/.ssh/id_rsa.pub用户名1@主机名1ssh-copy-id-i~/.ssh/id_rsa.pub用户名2@主机名2ssh-copy-id-i~/.ssh/id_rsa.pub用户名3@主机名33.目录授权chmod700~/.sshchmod600~/.ssh/authorized_

我干开发那十年·2024-03-24 07:25

Flink 批作业消费kafka

文章目录示例代码原理总是kafka数据源可以是有界数据源，也可以是无界数据源示例代码publicstaticvoidmain(String[]args){StreamExecutionEnvironmentenv

wending-Y·2024-03-22 08:25

【笔记】HDFS基础笔记

启动hadoop命令（未配环境变量）：进入hadoop安装目录输入.

哇咔咔哇咔·2024-03-20 04:12

【笔记】Linux常用命令

命令含义cd/home/hadoop#把/home/hadoop设置为当前目录cd..#返回上一级目录cd~#进入到当前Linux系统登录用户的主目录（或主文件夹）。

哇咔咔哇咔·2024-03-20 03:11

Kafka主题二三事

客户端如果订阅了多次主题，则以最后一次为主，例如consumer.subscribe(Arrays.asList(topic1));consumer.subscribe(Arrays.asList(topic2));则订阅的只有topic2。消费者订阅主题是支持正则表达式，这样如果有新topic上线，并且匹配正则，则也会消费到这个新topic的内容，比如consumer.subscribe(Pat

慢一点，细一点·2024-03-19 11:22

大数据开发（Kafka面试真题-卷一）

大数据开发（Kafka面试真题）1、请解释以下ApacheKafka是什么？它在大数据系统中的角色是什么？2、请解释以下Kafka的工作原理和它与传统消息队列服务的不同之处？

Key-Key·2024-03-18 23:05

linux安装单机版spark3.5.0

一、spark介绍是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等.Spark主要用于大数据的计算二、spark下载spark3.5.0

爱上雪茄·2024-03-17 18:57

Kafka-SSL笔记整理

创建密钥仓库以及CA创建密匙仓库,用户存储证书文件keytool-keystoreserver.keystore.jks-aliashello_kafka-validity100000-genkey创建

yicj·2024-03-17 14:21

Hadoop简介

简介大数据简介概述大数据的说法从出现到现在，也经历了十多年时间的发展。而在这十几年的发展过程中，非常多的机构、组织都试图对大数据做出过定义，例如：研究机构Gartner给出了这样的定义："大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。再例如根据维基百科的定义，大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

程序员小郭同学·2024-03-16 07:10

Hive中的NVL函数与COALESCE函数

ReturnsdefaultvalueifvalueisnullelsereturnsvalueExample:>SELECTnvl(null,'bla')FROMsrcLIMIT1;blaFunctionclass:org.apache.hadoop.hive.ql.udf.generic.GenericUDFNv

独影月下酌酒·2024-03-15 13:13

hive库表占用空间大小的命令

hdfsdfs-du-h/user/hive/warehouse2、按占用空间大小降序排列hdfsdfs-du/user/hive/warehouse/ipms.db|sort-nr3、查某一个分区占用空间大小（单位G)hadoopfs-ls

刀鋒偏冷·2024-03-15 13:13

架构:Apache Kafka Connect实现sqlserver数据实时同步

实现ApacheKafkaConnect与SQLServer之间的实时数据同步，您可以使用KafkaConnect的JDBCSourceConnector。

管理大亨·2024-03-14 16:13

flume集成kafka

2019独角兽企业重金招聘Python工程师标准>>>1.kafka的配置参照https://my.oschina.net/u/1591525/blog/22519102.flum配置在flume的conf

weixin_34112181·2024-03-14 16:12

03hive数仓安装与基础使用

hiveHive概述Hive是基于Hadoop的一个数据仓库工具。

daydayup9527·2024-03-14 13:39

HDFS

（一）HDFS简介及其基本概念 HDFS（HadoopDistributedFileSystem）是hadoop生态系统的一个重要组成部分，是hadoop中的的存储组件，在整个Hadoop中的地位非同一般

weixin_51987187·2024-03-12 14:32

大数据开发（Hadoop面试真题-卷二）

大数据开发（Hadoop面试真题）1、在大规模数据处理过程中使用编写MapReduce程序存在什么缺点？如何解决这些问题？

Key-Key·2024-03-12 02:15

集群启动脚本

使用SSH服务，要首先确保Linux主机间ssh相互免密，配置免密可看下面：Linux主机间ssh相互免密创建kafka启动脚本vimkafka-cluster.shforiin192.168.8.105192.168.8.106192.168.8.107doecho

西风凋丶碧树·2024-03-11 00:24

1分钟玩转Kafka

说起Kafka，许多使用者对它是又爱又恨。

中间件小哥·2024-03-10 21:58

zookeeper 使用

zookeeper介绍zookeeper是一个为分布式应用提供一致性服务的软件，它是开源的Hadoop项目中的一个子项目，并且根据google发表的论文来实现的，接下来我们首先来安装使用下这个软件，然后再来探索下其中比较重要一致性算法

SkTj·2024-03-10 02:15

Hive SQL 开发指南（三）优化及常见异常

在大数据领域，HiveSQL是一种常用的查询语言，用于在Hadoop上进行数据分析和处理。为了确保代码的可读性、维护性和性能，制定一套规范化的HiveSQL开发规范至关重要。

大数据_苡~·2024-03-09 14:13

大数据开发（Hadoop面试真题-卷九）

大数据开发（Hadoop面试真题）1、Hivecount(distinct)有几个reduce，海量数据会有什么问题？

Key-Key·2024-03-09 10:06

大数据开源框架技术汇总

目录系统平台（Hadoop、CDH、HDP）监控管理（CM、Hue、Ambari、Dr.Elephant、Ganglia、Zabbix、Eagle）文件系统（HDFS、GPFS、Ceph、Gluster

浪尖聊大数据-浪尖·2024-03-08 20:48

springboot 连kafka 发，接消息

引入pomorg.apache.kafkakafka_2.133.7.0org.springframework.kafkaspring-kafka增加yml配置spring:kafka:bootstrap-servers

Perfect珈蓝·2024-03-08 14:38

kafka（三）springboot集成kafka（1）介绍

w_t_y_y·2024-03-06 07:59

kafka Interceptors and Listeners

InterceptorsProducerInterceptorhttps://www.cnblogs.com/huxi2b/p/7072447.htmlProducer拦截器(interceptor)是个相当新的功能，它和consumer端interceptor是在Kafka0.10

伊布拉西莫·2024-03-06 06:29

幂等性设计

目录前言幂等性设计幂等性设计处理流程HTTP幂等性消息队列幂等性基于kafka前言幂等性设计，就是说，一次和多次请求某一个资源应该具有同样的副作用。为什么我们要有幂等性操作？

风清扬-独孤九剑·2024-03-05 04:25

常用中间件docker安装

restartalways-eZOO_MY_ID=1-eALLOW_ANONYMOUS_LOGIN=yes-eTZ=Asia/Shanghai-v/etc/localtime:/etc/localtimezookeeper:3.7kafka

Happywzy~·2024-03-04 18:13

【Hadoop】在spark读取clickhouse中数据

读取clickhouse数据库数据importscala.collection.mutable.ArrayBufferimportjava.util.Propertiesimportorg.apache.spark.sql.SaveModeimportorg.apache.spark.sql.SparkSessiondefgetCKJdbcProperties(batchSize:String="

方大刚233·2024-03-03 06:54

【Hadoop】使用Metorikku框架读取hive数据统计分析写入mysql

一、定义作业文件作业文件该文件将包括输入源、输出目标和要执行的配置文件的位置，具体内容如下metrics:-/user/xrx/qdb.yaml#此位置为hdfs文件系统目录inputs:output:jdbc:connectionUrl:"jdbc:mysql://233.233.233.233:3306/sjjc"user:"root"password:"123456"driver:"com.

方大刚233·2024-03-03 06:23

Spark-sql Adaptive Execution动态调整分区数量，调整输出文件数

看看这个参数如何运用：我们的spark-sql版本：[hadoop@666~]$spark-sql--versionWelcometo______/__

不想起的昵称·2024-03-02 15:03

hadoop里需要的libhadoop.so版本不一致导致问题及解决办法

$HADOOP_HOME/lib/native/Linux-amd64-64(64位操作系统)$HADOOP_HOME/lib/native/Linux-i386-32（32位操作系统）文件夹中的libhadoop.so

weixin_34304013·2024-03-02 09:23

hadoop启动报错处理

1.hadoop启动报错1.1.问题1util.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable

akuibpt23191·2024-03-02 08:51

prometheus监控kafka

kafka_exporter下载地址：https://github.com/danielqsj/kafka_exporter/releases/download/v1.2.0/kafka_exporter

仙女陈·2024-03-02 01:11

Spark整合hive（保姆级教程）

准备工作：1、需要安装配置好hive，如果不会安装可以跳转到Linux下编写脚本自动安装hive2、需要安装配置好spark，如果不会安装可以跳转到Spark安装与配置（单机版）3、需要安装配置好Hadoop

万家林·2024-02-29 09:47

消息队列-kafka

kafka和redis的区别数据类型和用途：Kafka：Kafka是一个分布式消息队列系统，主要用于高吞吐量的消息发布和订阅。它可以用于构建实时流处理应用、日志收集和传输、事件驱动架构等场景。

百晓生612·2024-02-28 08:48

Hadoop-Yarn-NodeManager是如何监控容器的

一、源码下载下面是hadoop官方源码下载地址，我下载的是hadoop-3.2.4，那就一起来看下吧Indexof/dist/hadoop/core二、上下文在我的博客中的ContainerLaunchprepareForLaunch

隔着天花板看星星·2024-02-28 06:15

在消息队列kafka多消费者组消费同一Topic场景下的idea调试debug断点进不去的解决方案

2.解决思路你在生产者端发送一条消息进入到kafka消息队列，

小白菜儿929·2024-02-26 09:21

推荐频道

Kafka;Hadoop