单人间_双人床

hadoop生态面试总结(离线采集)

一、Linux
常用高级命令：ps进程，rpm安装，netstat端口，find，df磁盘，iotop磁盘读写，top内存，tar，df -h磁盘

查看系统中所有进程：ps -aux
查看子父进程之间的关系：ps -ef
列出所有安装包：rpm -qa
卸载多个安装包：rpm -qa|grep -i mariadb mysql
查看该进程网络信息：netstat -anp|grep 进程号
查看网络端口号占用情况：netstat -nlp|grep 端口号
根据名称查找文件：find xiyou/ -name *.txt
根据用户查找文件：find / -user atguigu
根据大小查找文件：find /home -size +204800
查看磁盘存储情况：df -h
查看磁盘IO读写：iotop
查看高输出程序：iotop -o
查看负载：top
压缩多个文件：tar -zcvf 111.tar.gz a.txt b.txt
解压到指定目录：tar -zxvf 222.tar.gz -C /opt

二、Shell

常用工具：awk、sed、cut、sort
单双引区别：最外层单引号字符串，最外层双引号解析变量
脚本：
(1) 集群启动，分发脚本
启停：
#!/bin/bash
case $1 in
“start”){
for i in hadoop102 hadoop103 hadoop104
do
ssh $i “绝对路径”
done
};;
“stop”){
ssh $i “ps -ef | grep xxxname | grep -v grep | awk’{print $2}’ | xargs kill”
};;
esac
(2) 数仓与mysql的导入导出：hdfs_to_mysql.sh
sqoop默认4个map并行导入数据
(3) 数仓层级内部的导入：hdfs_to_ods_db.sh等

三、Hadoop
a) 入门

常用端口号：
hadoop3.x：9870/hdfs 8088/mr 19888/历史服务器 8020/外部访问集群
hadoop2.x：50070 8088 19888 9000
配置文件：
hadoop3.x：core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml workers
hadoop2.x：core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml slaves hadoop/yarn/mapred3个env
配置/etc/profile.d/my_env.sh则不需要在env.sh配置环境变量
hadoop2和3区别：
(1) jdk依赖7/8
(2) 端口hdfs50070/9870，外部访问9000/8020
(3) slaves/worker
(4) 高可用单个standbyNN/多个standbyNN
(5) 引入纠删码，降低副本磁盘占用
(6) 重写了shell脚本
(7) 仅支持NN间的数据均衡/还支持NN内多磁盘的数据均衡

b) HDFS

HDFS读写流程(画图)
(1) 读：client向NN请求下载，返回元数据，client通过元数据信息找到DN节点中的block下载(可能存在多个节点)
(2) 写：client向NN请求上载，响应可以上载文件，请求上载第一个block，返回DN节点群，client和DN群依次建立通道并依次应答，client按packet上传block最近节点，DN间依次传输备份
如果有DN建立连接失败，则剩下节点重新建立通道，传输完成后DN向NN汇报，不足的副本会重新备份
HDFS小文件【重点】：
缺点：耗namenode内存(1个文件元数据占150byte；128g服务器存9亿文件块)、多个maptask(默认每个文件一个切片)
解决：har归档(打包)、CombineTextInputFormat(小文件放一起切)、JVM重用(非小文件场景不要开启，因为任务完成才释放占用的task卡槽)
副本数默认3
块大小：本地：32、hadoop1.x：64、hadoop2.x：128、生产环境：128/256；hive：256

c) MapReduce

Shuffle及优化
概念：map方法之后，reduce方法之前，混洗的过程
过程：map方法-环形缓冲区(一侧数据一侧索引)-80%反向-getpartition方法获取分区-对key的索引按照字典顺序快排-多次溢写排序-溢写文件按分区归并排序
-按分区写入reduce阶段内存-内存不足存磁盘-归并、排序-按key分组进入reduce方法
(1)MapTask收集我们的map()方法输出的kv对，放到内存缓冲区中
(2)从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件
(3)多个溢出文件会被合并成大的溢出文件
(4)在溢出过程及合并的过程中，都要调用Partitioner进行分区和针对key进行排序
(5)ReduceTask根据自己的分区号，去各个MapTask机器上取相应的结果分区数据
(6)ReduceTask会取到同一个分区的来自不同MapTask的结果文件，ReduceTask会将这些文件再进行合并(归并排序)
(7)合并成大文件后，Shuffle的过程也就结束了，后面进入ReduceTask的逻辑运算过程(从文件中取出一个一个的键值对Group，调用用户自定义的reduce()方法)
优化：
(1)getpartition方法可自定义分区
(2)扩大环形缓冲区和反向百分比
(3)多次溢写的文件可进行Combine(不影响业务逻辑前提下；一次10-20个)
(4)压缩(map前/map后/reduce后；文件大选支持切片的格式)
(5)修改reduce每次拿多少个map的数据(默认5个，加内存改10-20)
(6)NodeManager内存优化：生产环境128g，NM默认8g分配100g
对于单任务：默认8g，128m数据=1g内存 1g数据=8g内存；maptask内存根据切块大小，128m数据=1g内存；reducetask内存根据map过来的数据，128m数据=1g内存
压缩选择：map前：大文件要支持切片：lzo/bzip2；map后：snappy/lzo；reduce后：看存储目标要快还是小
参数配置
解决数据倾斜：
(1)提前在map进行combine，减少传输的数据量
(2)导致数据倾斜的key，key增加随机数、增加Reducer并行度、自定义分区

d) Yarn

Yarn工作机制(画图)
yarnRunner客户端向RM申请Application-返回hdfs路径-客户端上传(jar xml 切片信息)并申请AM-RM初始化Task放入队列
-NM领取Task并创建Container-AM下载job资源到Container本地-AM向RM申请maptask容器-RM创建容器-AM发送启动脚本到各个NM的Container并实时监控
-MapTask生成数据并申请启动对应分区数的ReduceTask资源
-reduceTask阶段结束后AM向RM注销资源
调度器
(1) 默认调度器：Apache：容量调度器(消耗资源小)；CDH：公平调度器(消耗资源大)
(2) 调度器特点：FIFO：单队列等待，先进先出，生产环境不用
容量调度器：支持多队列；可以抢占其他队列空闲资源，优先保证先进入的任务资源
公平调度器：支持多队列；可以抢占其他队列空闲资源，每个任务公平享有队列资源，并发度高
(3) 生产环境选择：并发度高选公平调度器，并发度低选容量调度器
(4) 默认容量调度器：1个default调度器
(5) 生产环境配置多少任务队列：按框架分：hive/spark/flink
按业务分：灵活、安全、可配置(优先级等)

四、Zookeeper

选举机制：半数机制(奇数台)，算法(今日头条)
常用命令：ls查看当前znode的子节点，create普通创建，get获得节点的值
生产环境zk安装数量：10服务器安装zk 3台
20服务器安装zk 5台
50服务器安装zk 7台
100服务器安装zk 11台
台数多可靠性高，但存在通讯延迟

五、Flume【重点】
a) source/channel/sink组成、事务

taildir source：断点续传、多目录
(1) 开始版本：apache1.7 cdh1.6
(2) 没有taildir想实现断点续传：自定义
(3) taildir挂了：会导致数据重复，不会导致数据丢失
(4) 数据重复：
1)自定义source，实现事务(效率低)
2)下一级处理(离线：hive/spark，实时：sparkstreaming/flink)：group by、开窗(在窗口内部只取一条)
3)不处理
(5) 递归遍历文件夹，然后读取文件：taildir不支持，需自定义
channel
file channel：基于磁盘，可靠性高，传输效率低
容量：100万event
优化：配置多目录(多个磁盘)
memory channel：基于内存，可靠性差，传输效率高
容量：100event
kafka channel：基于磁盘(数据存在kafka)，可靠性高，传输效率高于memory channel + kafka sink
开始版本：flume1.6，但有bug(parseAsFlumeEvent配置false无效，Event带header)，需要ETL数据清洗，1.7解决bug
在生产环境选择：
(1)下一级是kafka，选择kafka channel
(2)传输普通的日志，对可靠性要求不高，选择memory channel
(3)传输和钱相关的，对可靠性要求高，选择file channel
hdfs sink：主要注意小文件
参数配置：时间(1小时) or 大小(128m)、event个数(0)
事务：Source到Channel是Put事务，Channel到Sink是Take事务

b) 拦截器、选择器、监控器

拦截器
(1) ETL拦截器：校验json完整性
(2) 自定义拦截器步骤：
1)定义类实现interceptor接口
2)重写4个方法(初始化、关闭、单event、多event) + 静态内部类Builder
3)打包、上传flume/lib、在配置文件里面关联全类名$Builder
(3) 拦截器可以不用；对速度要求高，下一级处理(离线：hive的dwd层，实时：sparkstreaming/flink)；对速度要求不高，在前面加拦截器过滤
选择器
replicating(默认)：把接收的数据发往下一级所有通道
multiplexing：选择性发往对应通道(start event)，如根据业务划分：启动、页面、故障、action
监控器：ganglia
优化：
(1)提高内存：flume_env.sh中-Xmx/-Xms相同(4-6g)
(2)同时增加日志服务器和flume台数。日志服务器配置(属于javaee，服务器配置比较低：16g/32/64g内存，8t磁盘)

c) 优化
file channel：配置多目录(多个磁盘)
hdfs sink：时间(1小时) or 大小(128m)、event个数(0)
监控器：调整内存
d) flume挂了：
sink无影响，channel到sink有事务，source到channel有事务
memory channel会丢，但默认最多只丢失100event，file/kafka channel基于磁盘不会丢
taildir source会数据重复，需要在后级清洗

六、Kafka【重点】

基本信息
(1) 组成：producer生产者、broker、consumer消费者、ZK(存储了brokerId、consumer等信息)
(2) 安装台数：2(生产者峰值速率副本/100)+1，一般是3台
(3) 压测：测试生产者峰值生产速率，自带脚本kafka-producer-perf-test.sh
(4) 副本：2/3个，2个的居多
副本多好处坏处：可靠性高，但增加了网络传输
(5) kafka监控：eagle
(6) 数据量：
100万日活，1人次100条埋点 => 100万100条=1亿条
1条日志1k => 总大小：1亿条1k=100g
kafka中平均每秒多少条：1亿条/(243600)=1150条/秒
kafka中平均每秒多少兆：1m/s
峰值：30m/s，不要超过50m/s(因为3台kafka，根据公式算峰值速度不超过50m/s)
(7) 数据默认保存7天，生产环境3天就够(因为是当天就消费了，而且日志服务器通常保存30天)
(8) 磁盘空间预留30%：100g2个副本3天/0.7
(9) 分区设置：一般3-10个分区
先设置一个分区，目标吞吐量Tt/min(生产者Tp,消费者Tc)
如：Tt=100m/s，tp=20m/s，tc=40m/s => 100/20=5个分区(消费要一个分区对应一个CPU)
(10) ISR队列：leader挂了，isr队列里的都有条件当leader
进入队列条件：老版本：延迟时间、延迟条数；新版本：延时时间
(11) 分区分配策略
1)Range平均(默认策略)，容易数据倾斜
2)RoundRobin hash随机打散，轮询
3)Sticky 最优平均
Range和RoundRobin：
Range：Range是对每个Topic而言的(即一个Topic一个Topic分)。
先对同一个Topic的分区按序号排序，并对消费者按字母顺序排序，然后用Partitions分区的个数除以消费者线程的总数来决定每个消费者线程消费几个分区。如除不尽，则前几个消费者线程将会多消费一个分区。
例如：有10个分区，两个消费者(C1，C2)，3个消费者线程，10/3=3而且除不尽。
C1-0 将消费 0, 1, 2, 3 分区
C2-0 将消费 4, 5, 6 分区
C2-1 将消费 7, 8, 9 分区
RoundRobin：前提：同一个Consumer Group里面的所有消费者的num.streams(消费者消费线程数)必须相等，且每个消费者订阅的主题必须相同。
先将所有主题分区组成TopicAndPartition列表，然后对TopicAndPartition列表按照hashCode排序，最后轮询发给每一个消费线程。
(12) kafka topic个数：日志类型个数，满足下一级所有消费者
Kafka挂了
短期：flume的channel会继续缓存新数据
长期：日志服务器可以保存30天数据
丢了
设置ack：
0 只发送可靠性最差传输效率最快
1 leader应答可靠性一般传输效率一般
-1 leader+follower应答可靠性最高传输效率最差
生产环境：不选择0，最多的是1，因为大多情况传输普通日志，准确性要求高的场景选择-1，如金融
重复了
(1) 事务 + 幂等性(pid+Sequence Number，pid重启会变化，可以通过Transaction ID绑定原来pid) + ack=-1
可靠性越高，效率越低，生产环境用的少
(2) 下一级处理：dwd层用sparkstreaming/flink处理
积压了
kafka自身：加分区(增加并发度)，同时增加消费者CPU
提高flume消费速率：batchsize 1000条/s => 2000条/s
优化
(1) 2副本、保存3天、加大副本间传输时间
(2) 默认生产不压缩，可以设置消费者支持的压缩格式
(3) kafka内存：bin/kafka-server-start.sh中export KAFKA_HEAP_OPTS="-Xmx1G -Xms1G"设置4-6g内存
(4) 增加kafka台数
其他
(1) 为什么能够高效读写：
1)分布式集群分区
2)顺序读写600m/s，随机读写100m/s
3)零拷贝
(2) Kafka传输一条2M日志会发生什么问题？
卡死，不能生产也不能消费数据。默认1M，需要修改两个配置
(3) Kafka过期数据清理

七、Hive

组成
(1) 左侧：元数据(mysql存储)
(2) 右侧：客户端
编译器、解析器、优化器、执行器
计算引擎：mr(大数据，周/月)、tez(小数据，测试)、spark(周期定时任务)
HDFS
与mysql的区别

	hive	mysql
数据量	大	小
速度	大快	小快
操作	查询	增删改查

内部表外部表区别
(1) 删除情况：
内部表：原始数据、元数据全删除
外部表：只删除元数据
(2) 生产环境绝大多数是外部表，自己使用的临时表是内部表
4个by
(1) order by：全局排序，生产环境很少使用，只在一个reduce中容易数据倾斜
(2) sort by：排序
(3) distribute by：分区，通常是分区+排序结合使用
(4) cluster by：等于distrbute by+sort by且分区和排序字段相同，只能升序
(5) group by：和distribute by类似，都是按key值划分数据，都使用reduce操作，distribute by按照key列把数据分散到不同的reduce，而group by把相同key的数据聚集到一起，后续必须是聚合操作
函数
(1) 系统函数
1)date_add、date_sub：加减日期
2)next_day：下周一
3)last_day：当月最后一天
4)collect_set：聚合函数，分组中的某列转为一个Set(去重)，区别于collect_list
5)date_format：日期格式
6)current_date：当前日期
7)get_json_object：解析json
8)NVL(表达式1, 表达式2)，表达式1为空值返回表达式2的值，否则返回表达式1的值，要求类型一致
(2) 自定义函数
UDF一进一出：继承UDF，重写evaluate方法
UDTF一进多出：继承GenericUD，重写初始化(输入参数个数、类型，输出值类型、名称)、关闭、process方法
打包=>上传到HDFS路径=>创建永久函数
自定义函数优点：
1)自定义Log打印日志，出错或者数据异常，方便调试
2)可以调用第三方jar包
(3) 窗口函数
1)RANK()：排序相同时会重复，总数不会变(1,2,2,4)
DENSE_RANK()：排序相同时会重复，总数会减少(1,2,2,3)
ROW_NUMBER()：会根据顺序计算(1,2,3,4)
2)手写topN
优化
(1) 默认打开mapjoin
(2) 行列过滤：先join后where改为先where后join
(3) 合理设置map个数和reduce个数
公式：min(0,max(块大小, long的最大值))，128m数据=>1g内存
(4) 小文件
1)combinehiveinputformart减少切片个数，则减少maptask个数
2)jvm重用
3)merge：开启一个mr任务合并小文件(小于16m合并为256m)
maponly任务，此功能默认打开；mr任务，此功能需要手动打开
(5) 在map阶段开启combiner
(6) 采用压缩
(7) 列式存储

id	name	age
1	zs	19
2	li	20
3	wu	21

行式存储：1 zs 19 2 li 20 3 wu 21
列式存储：1 2 3 zs li wu 19 20 21
(8) 分区技术：按天分区
(9) 合理选择引擎：mr tez spark
7. 数据倾斜
(1) join字段类型不同
解决：select * from users a left outer join logs b on a.usr_id = cast(b.user_id as string)
(2) 空值会全部进入key为空的reduce中，加随机数或删除解决
(3) 解决方案：
1)group by优于distinct，hadoop3.x底层对distinct进行了优化
2)mapjoin，小表缓存，小表join大表
3)开启数据倾斜时负载均衡
8. 其他
(1) 空值：hive中\N，mysql中null
(2) 建表分隔符是\001或\t(旧版)时，和hive默认字段分隔符冲突，会导致存储数据错位而报类型错误。
可以修改分隔符或者预先进行转义
(3) mysql存储元数据，可以用keepalived实现HA
(4) union结果集去重；union all不对结果集去重，效率高

八、Sqoop

用sqoop遇到哪些问题？
(1) 空值：

hive	mysql
\N	null

(2) 一致性问题：–staging-table选项，多个事务将数据存入临时表，然后一个事务一次性写入
2. 每天晚上几点执行：00:30分
3. 每天导多少数据？执行多久？
100万日活：10万订单，没人订单数据10条，每条1k => 10万*10条=1g数据
40分钟-50分钟
4. 每天订单、评价、支付数据？
1g数据/30张表 = 34m，下单是平均值的2-5倍 => 100m
5. 执行参数
–connect mysql地址
–root
–000000
–target-dir hdfs://hadoop102:8020/user/
–delete-target-dir
–map
–compress
–compress codec
–null
–分隔符
6. 并行化及并行化时发生数据倾斜
并行度：num-mappers
由于split-by的默认切分策略不均匀，导致数据分割倾斜，可以手动创建临时的理想字段，并指定按照此字段分割数据
ROWNUM()生成均匀分布的字段，–split-by指定这个字段
7. sqoop不能直接导出parquet表
mysql不支持：
(1) 可以先复制到临时表转成txt格式
(2) ads不建parquet表

九、Azkaban

挂了
任务挂了
自动重试、手动重跑
挂了通知：邮件、电话(www.oneatler.com)
执行时间：00:30
每天跑多少任务？
100-200，平时100，节假日、活动200

大数据领域 Kafka 入门指南：从安装到基础使用大数据洞察大数据与AI人工智能大数据 kafka linq ai
大数据领域Kafka入门指南：从安装到基础使用关键词：Kafka、消息队列、分布式系统、大数据处理、实时数据流、生产者消费者模型、ZooKeeper摘要：本文是一篇全面介绍ApacheKafka的入门指南，从基本概念到实际应用。我们将详细讲解Kafka的核心架构、工作原理，并提供从安装配置到基础使用的完整实践指导。文章包含Kafka的生产者-消费者模型实现、集群部署策略、性能优化技巧，以及在大数据
required archivelog files for a guaranteed restore point 查找GRP需要的归档文件 jnrjian oracle sql
Appliesto:OracleDatabase-EnterpriseEdition-Version11.2.0.2andlaterInformationinthisdocumentappliestoanyplatform.GoalHowcanyoudeterminetherequiredarchivelogfilesneededforaguaranteedrestorepointbeforeru
HDFS文件系统
HDFS文件系统是hadoop生态系统的核心，主要用于分布式文件存储，它具备高可用，流式读取，文件结构简单，跨平台的特点，它的集群采用的是主从结构，分为命名节点和数据节点，命名节点主要用于元数据管理（例如对目录，文件的创建，数据块与数据节点的关系维护管理）及数据节点管理（例如数据节点之间数据的复制，节点状态的维护，节点间数据的均衡），该文件系统最基本的存储单位是block即数据块，默认大小是64M
Flink-Hadoop实战项目 Dylan_muc hadoop hdfs flink
项目说明文档1.项目概述1.1项目简介本项目是一个基于ApacheFlink的大数据流处理平台，专门用于处理铁路系统的票务和车次信息数据。系统包含两个核心流处理作业：文件处理作业和数据合并作业，采用定时调度机制，支持Kerberos安全认证，实现从文件读取到数据仓库存储的完整数据处理链路。1.2技术栈流处理引擎:ApacheFlink1.18.1存储系统:HDFS(Hadoop分布式文件系统)数据
大数据技术是解决什么问题的？ @佳瑞大数据
基础知识1TB（太字节）=1024GB1PB（拍字节）=1024TB大数据核心框架HadoopHadoop作为大数据技术生态的核心框架，主要解决了海量数据（TB/PB级）的存储、处理和分析难题，尤其是在传统数据库（如MySQL）和单机计算无法应对的场景下，提供了低成本、高可靠、可扩展的解决方案。其核心解决的问题可归纳为以下几点：海量数据的存储问题传统痛点：单机存储容量有限（如单服务器硬盘通常在TB
Hadoop与图像识别与处理 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Hadoop与图像识别与处理作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在大数据时代，数据的爆炸性增长对数据处理技术提出了新的挑战。图像数据作为一种重要的数据形式，其处理和分析在许多领域中具有重要意义，如医疗影像分析、自动驾驶、安防监控等。然而，传统的图像处理方法在面对海量图像数据时显得力不从心。Hadoop作为一种分
Python 应用无监督学习（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/6b15c463e64a9f03f0d968a77b424918译者：飞龙协议：CCBY-NC-SA4.0前言关于本节简要介绍了作者、本书的内容覆盖范围、开始时你需要的技术技能，以及完成所有活动和练习所需的硬件和软件要求。本书简介无监督学习是一种在没有标签数据的情况下非常有用且实用的解决方案。Python应用无监督学习引导你使用无监督学习技术与Py
【算法-贪心算法-python】柠檬水找零檀越@新空间 P1 算法与数据结构 s1 Python 算法贪心算法 python
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kuan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
hadoop 集群问题处理一切顺势而行 hadoop 大数据分布式
1.1.JournalNode的作用在HDFSHA配置中，为了实现两个NameNode之间的状态同步和故障自动切换，Hadoop使用了一组JournalNode来管理共享的编辑日志。具体来说，JournalNode的主要职责包括：共享编辑日志：JournalNode节点组成了一个分布式系统，用于存储HDFS的编辑日志（EditLogs）。这两个日志文件记录了对HDFS所做的所有更改，如文件创建、删
sqoop从mysql导数据到hdfs，出现java.lang.ClassNotFoundException: Class QueryResult not found 无级程序员大数据 sqoop mysql hdfs
运行sqoop从postgresql/mysql导入数据到hdfs,结果出现如下错误：2025-07-1816:59:13,624INFOorm.CompilationManager:HADOOP_MAPRED_HOMEis/opt/datasophon/hadoop-3.3.3Note:/opt/sqoop/bin/QueryResult.javausesoroverridesadeprecat
datasophon下dolphinscheduler执行脚本出错无级程序员大数据 hive 硬件架构 hadoop
执行hive脚本出错：错误消息：FAILED:RuntimeExceptionErrorloadinghooks(hive.exec.post.hooks):java.lang.ClassNotFoundException:org.apache.atlas.hive.hook.HiveHookatjava.net.URLClassLoader.findClass(URLClassLoader.ja
hive 分区表select全部数据_hive分区表 Xenophon Tony hive 分区表select全部数据
内部表和外部表内部表：createtable，copy数据到warehouse,删除表时数据也会删除外部表：createexternaltable，不copy数据到warehouse,删除表时数据不会删除表的分区分区的好处：如果不建立分区的话，则会全表扫描数据通过目录划分分区，分区字段是特殊字段目录结构：/pub/{dt}/{customer_id}/添加分区：ALTERTABLEfsADDPAT
【Kafka】深入理解 Kafka MirrorMaker2 - 理论篇
文章目录MirrorMaker2架构：不止是一个工具，更是一个框架工作原理揭秘1.远程主题（RemoteTopics）2.消费位移同步（OffsetSync）3.工作流图核心配置参数详解总结实战注意事项与最佳实践最近，我们团队启动了一个新项目，需要从零开始搭建一套高可用的Kafka集群。谈到高可用，异地容灾是绕不开的话题。我们选择了Kafka官方推荐的MirrorMaker2(MM2)作为我们的跨
【Kafka】深入理解 Kafka MirrorMaker2 - 实战篇 showyoui Kafka kafka 分布式开源大数据容灾
文章目录一、把“家伙事儿”都备齐二、部署其实很简单三、配置MirrorMaker2四、修改启动脚本五、集群启动与验证六、这集群“结实”吗？聊聊它的高可用它没有“大脑”，但活得很好极限测试：干掉两个节点会怎样？写在最后最近在跟Kafka死磕，想着搭一个跨机房的数据同步方案，MirrorMaker2自然就成了首选。所以，我决定自己从头到尾摸索一遍，把整个过程记录下来，权当是写给未来自己的备忘录，也希望
hive底层原理 sql执行过程_Hive原理总结（完整版）
目录课程大纲(HIVE增强)31.Hive基本概念41.1Hive简介41.1.1什么是Hive41.1.2为什么使用Hive41.1.3Hive的特点41.2Hive架构51.2.1架构图51.2.2基本组成51.2.3各组件的基本功能51.3Hive与Hadoop的关系61.4Hive与传统数据库对比61.5Hive的数据存储62.Hive基本操作72.1DDL操作72.1.1创建表72.1.
hive的sql优化思路-明白底层运行逻辑 ycllycll hive sql hadoop
一、首先要明白底层map、shuffle、reduce的顺序之中服务器hdfs数据文件在内存与存储之中是怎么演变的，因为hive的性能瓶颈基本在内存，具体参考以下他人优秀文章：1.HiveSQL底层执行过程详细剖析2.HiveJOIN性能调优二是要明白hive对应的sql它底层的mapreduce的过程中sql字段的执行顺序，来理解map的key、value会填充什么值，才能深刻理解怎么一步一步的
六、深度剖析 Hadoop 分布式文件系统（HDFS）的数据存储机制与读写流程
深度剖析Hadoop分布式文件系统（HDFS）的数据存储机制与读写流程在当今大数据领域当中，Hadoop分布式文件系统（HDFS）作为极为关键的核心组件之一，为海量规模的数据的存储以及处理构筑起了坚实无比的根基。本文将会对HDFS的数据存储机制以及读写流程展开全面且深入的探究，通过将原理与实际的实例紧密结合的方式，助力广大读者更加全面地理解HDFS的工作原理以及其具体的应用场景。一、HDFS概述H
python连接数据库的方法,Python 连接数据库的多种方法 AI MIU python连接数据库的方法
JZGKCHINAPython是一种计算机程序设计语言，它是一种动态的、面向对象的脚本语言。它是一种跨平台的，可以运行在Windows，Mac和Linux/Unix系统上。在日常使用中需要对大量数据进行数据分析，那么就必然用到数据库，我们常用的数据库有SQLServer,MySQL,Oracle,DB2,SQLite，Hive，PostgreSQL,MongoDB还有其他常用的MicrosoftA
filebeat改造支持rocketmq 余很多之很多 go Java rocketmq
继续分享下以前在gitchat上发布的文章：filebeat改造支持rocketmq1.概述1.1问题概述现在越来越多的日志采集使用FileBeat，FileBeat是个轻量型日志采集器，采用Go语言实现，性能稳健，占用资源少。FileBeat现在支持采集的日志内容发送到Redis、Elasticsearch、Kafka、Logstash。那么我们如果想通过FileBeat采集日志到RocketM
Apache Kafka 学习笔记
一、Kafka简介1.1Kafka是什么？Kafka是一个高吞吐、可扩展、分布式的消息发布-订阅系统，主要用于：日志收集与处理流式数据处理事件驱动架构实时分析管道最初由LinkedIn开发，后捐赠给Apache基金会。1.2Kafka的核心特性特性描述高吞吐每秒百万级消息处理能力，依赖顺序写磁盘、批量处理分布式支持水平扩展，多个Broker组成集群持久化消息写入磁盘（通过segmentfiles+
Linux教程（4）----[hive数据仓库工具] .房东的猫 Linux教程（完善中~~）linux
Hive基本概念Hive简介什么是HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。为什么使用Hive直接使用hadoop所面临的问题人员学习成本太高
Kafka 集群架构与高可用方案设计（一）计算机毕设定制辅导-无忧 #Kafka kafka 架构分布式
Kafka集群架构与高可用方案设计的重要性在大数据和分布式系统的广阔领域中，Kafka已然成为了一个中流砥柱般的存在。它最初由LinkedIn开发，后捐赠给Apache软件基金会并成为顶级项目，凭借其卓越的高吞吐量、可扩展性以及持久性，被广泛应用于日志收集、实时数据处理、流计算、数据集成等诸多关键领域。在日志收集场景下，以大型互联网公司为例，每天都会产生海量的日志数据，如用户的访问记录、系统操作日
Kafka 集群架构与高可用方案设计（二）计算机毕设定制辅导-无忧 #Kafka kafka 架构分布式
Kafka集群架构与高可用方案的优化策略合理配置参数在Kafka集群的配置中，参数的合理设置对于系统的高可用性和性能表现起着关键作用。例如，min.insync.replicas参数定义了ISR（In-SyncReplicas，同步副本）集合中的最少副本数，它直接关系到数据的持久性和一致性。当acks设置为all或-1时，生产者需要等待ISR中的所有副本都确认写操作后才认为成功，此时min.ins
大数据集成方案对比：Kafka vs Flume vs Sqoop AI天才研究院计算 AI大模型应用入门实战与进阶 Agentic AI 实战大数据 kafka flume ai
大数据集成方案对比：KafkavsFlumevsSqoop关键词：大数据集成、Kafka、Flume、Sqoop、流处理、批量迁移、日志收集摘要：在大数据生态中，数据集成是连接数据源与数据处理平台的关键环节。本文深度对比Kafka、Flume、Sqoop三大主流集成工具，从核心架构、技术原理、适用场景到实战案例展开系统性分析。通过数学模型量化性能差异，结合实际项目经验总结选型策略，帮助开发者根据业
【Hadoop】onekey_install脚本菜萝卜子 Linux hadoop 大数据分布式
hosts[root@kafka01hadoop-script]#cat/etc/hosts127.0.0.1localhostlocalhost.localdomainlocalhost4localhost4.localdomain4::1localhostlocalhost.localdomainlocalhost6localhost6.localdomain6192.168.100.150k
flink sql读hive catalog数据，将string类型的时间戳数据排序后写入kafka，如何保障写入kafka的数据是有序的 fzip Flink flink sql hive
在FlinkSQL中，要确保从Hive读取的STRING类型时间戳数据排序后有序写入Kafka，需要结合批处理模式、时间类型转换、单分区写入和Kafka生产者配置。以下是完整解决方案：一、核心解决方案1.批处理模式+全局排序将作业设置为批处理模式，并对字符串时间戳进行类型转换后排序：--设置为批处理模式（关键！）SET'execution.runtime-mode'='batch';--从Hive
Kafka面试问题1 小小少年Boy
1请说明什么是ApacheKafka?Kafka是分布式发布-订阅消息系统。Kafka是一个分布式的，可划分的，冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。它可以同时用于在线消息数据处理，和离线的数据文件处理。2、请说明什么是传统的消息传递方法?传统的消息传递方法包括两种：排队：在队列中，一组用户可以从服务器中读取消息，每条消息都发送给其中一个人。发布-订阅：在这个模型中，消息被广播
flink-sql读写hive-1.13 第一片心意 flink flink sql hive
1.版本说明本文档内容基于flink-1.13.x，其他版本的整理，请查看本人博客的flink专栏其他文章。1.1.概述ApacheHive已经成为了数据仓库生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎，同样也是一个数据管理平台，可用于发现，定义，和演化数据。Flink与Hive的集成包含两个层面。一是利用了Hive的MetaStore作为持久化的Catalog，用户可通
flink sql如何对hive string类型的时间戳进行排序
在FlinkSQL中对Hive表的STRING类型时间戳进行排序，需要先将字符串转换为时间类型，再基于时间类型排序。以下是具体方法和示例：一、核心解决方案1.字符串转TIMESTAMP后排序若Hive中的时间戳格式为'yyyy-MM-ddHH:mm:ss'（如'2024-01-0112:00:00'），可直接转为TIMESTAMP排序：SELECT*FROMhive_tableORDERBYTO_
分布式定时器：原理设计与技术挑战你一身傲骨怎能输架构设计分布式
文章摘要分布式定时器用于在分布式系统中可靠、准确地触发定时任务，常见实现方案包括：基于数据库/消息队列的定时扫描、分布式任务调度框架（如Quartz集群、xxl-job）、时间轮/延迟队列（如Redis/Kafka）以及Zookeeper/Etcd协调服务。主要技术挑战包括时钟同步、任务幂等、高可用、负载均衡和故障恢复等。核心难点在于保证任务唯一性、调度精度与分布式一致性，技术选型需权衡轻量级（R
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S

hadoop生态面试总结(离线采集)

你可能感兴趣的:(Hadoop,hadoop,kafka,flume,hive)