Francek Chen

MapReduce分布式编程

一、MapReduce概述

（一）MapReduce定义

（二）MapReduce优缺点

（三）MapReduce核心原理

二、MapReduce编程示例

三、任务调度框架

（一）经典MapReduce任务调度模型

（二）Yarn资源调度器

四、MapReduce的数据类型

五、MapReduce的文件输入/输出格式

（一）输入格式

（二）输出格式

一、MapReduce概述

（一）MapReduce定义

MapReduce是一个分布式运算程序的编程框架，用于大规模数据集的并行处理，是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。
MapReduce将一个数据处理过程拆分为Map和Reduce两部分：Map是映射，负责数据的过滤分发；Reduce是规约，负责数据的计算归并。开发人员只需通过编写Map和Reduce函数，不需要考虑分布式计算框架内部的运行机制，即可在Hadoop集群上实现分布式运算。引入MapReduce框架后，开发人员可将精力集中在业务逻辑的开发上，分布式计算的复杂性交由框架来处理。MapReduce把对数据集的大规模操作分发到计算节点，计算节点会周期性地返回其工作的最新状态和结果。如果节点保持沉默超过一个预设时间，主节点则标记该节点为死亡状态，并把已分配给这个节点的数据发送到别的节点重新计算，从而实现数据处理任务的自动调度。

MapRedcue分布式编程的主要步骤：

（1）编写Hadoop中org.apache.hadoop.mapreduce.Mapper类的子类，并实现map方法；
（2）编写Hadoop中org.apache.hadoop.mapreduce.Reducer类的子类，并实现reduce方法；
（3）编写main程序，设置MapReduce程序的配置，并指定任务的Map程序类（第一步的Java类）、Reduce程序类等（第二步的Java类），指定输入/输出文件及格式，提交任务等；
（4）将（1）～（3）的类文件与Hadoop自带的包打包为jar文件，并分发到Hadoop集群的任意节点；
（5）运行main程序，任务自动在Hadoop集群上运行；
（6）到指定文件夹查看计算结果。

（二）MapReduce优缺点

1、优点

（1）MapReduce易于编程
        它简单的实现一些接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量廉价的PC机器上运行。也就是说你写一个分布式程序，跟写一个简单的串行程序是一模一样的。就是因为这个特点使得MapReduce编程变得非常流行。
（2）良好的扩展性
        当你的计算资源不能得到满足的时候，你可以通过简单的增加机器来扩展它的计算能力。
（3）高容错性
        MapReduce设计的初衷就是使程序能够部署在廉价的PC机器上，这就要求它具有很高的容错性。比如其中一台机器挂了，它可以把上面的计算任务转移到另外一个节点上运行，不至于这个任务运行失败，而且这个过程不需要人工参与，而完全是由Hadoop内部完成的。
（4）适合PB级以上海量数据的离线处理
        可以实现上千台服务器集群并发工作，提供数据处理能力。

2、缺点

（1）不擅长实时计算
        MapReduce无法像MySQL一样，在毫秒或者秒级内返回结果。
（2）不擅长流式计算
        流式计算的输入数据是动态的，而MapReduce的输入数据集是静态的，不能动态变化。这是因为MapReduce自身的设计特点决定了数据源必须是静态的。
（3）不擅长DAG（有向图）计算
        多个应用程序存在依赖关系，后一个应用程序的输入为前一个的输出。在这种情况下，MapReduce并不是不能做，而是使用后，每个MapReduce作业的输出结果都会写入到磁盘，会造成大量的磁盘IO，导致性能非常的低下。

（三）MapReduce核心原理

1、分布式的运算程序往往需要分成至少2个阶段。
2、第一个阶段的MapTask并发实例，完全并行运行，互不相干。
3、第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。
4、MapReduce 编程模型只能包含一个Map阶段和一个 Reduce阶段，如果用户的业务逻辑非常复杂，那就只能多个MapReduce程序，串行运行。

二、MapReduce编程示例

1、首先，启动hdfs和yarn进程。

[root@bigdata mycode]# start-all.sh

2、在家目录下创建文件夹mycode，在该文件下创建文件word.txt，并在该文件中输入如下内容：

[root@bigdata zhc]# mkdir mycode
[root@bigdata zhc]# cd mycode
[root@bigdata mycode]# pwd
/home/zhc/mycode
[root@bigdata mycode]# vi word.txt

hello world
hello hadoop
hello mapreduce
hadoop is good

3、在HDFS系统中创建文件夹input，并将本地的word.txt文件上传到HDFS文件系统的/input目录下。

[root@bigdata mycode]# hdfs dfs -mkdir /input
[root@bigdata mycode]# hdfs dfs -put word.txt /input
2023-12-09 19:01:37,929 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
[root@bigdata mycode]# hdfs dfs -ls /input
Found 1 items
-rw-r--r--   1 root supergroup         56 2023-12-09 19:01 /input/word.txt

4、先切换到/hadoop/share/hadoop/mapreduce目录下，再使用hadoop-mapreduce-examples-3.1.3.jar程序对/input目录下的文件进行单词个数统计。（注意：指定输出结果的路径/output，该路径不能已存在）

[root@bigdata zhc]# cd /usr/local/servers/hadoop/share/hadoop/mapreduce
[root@bigdata mapreduce]# pwd
/usr/local/servers/hadoop/share/hadoop/mapreduce
[root@bigdata mapreduce]# hadoop jar hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

5、输入命令查看HDFS文件系统中/output目录下的结果。

[root@bigdata mapreduce]# hdfs dfs -ls /output
Found 2 items
-rw-r--r--   1 root supergroup          0 2023-12-09 19:16 /output/_SUCCESS
-rw-r--r--   1 root supergroup         49 2023-12-09 19:16 /output/part-r-00000
[root@bigdata mapreduce]# hdfs dfs -cat /output/part-r-00000

三、任务调度框架

对MapReduce编程，程序员只需关心map和reduce函数实现即可，有关文件IO，在集群中数据交换、任务调度问题都是由Hadoop 框架自动完成的。但理解MapReduce任务调度框架有助于开发高质量的应用程序，下面分别介绍Hadoop 2.0前后MapReduce任务调度模型。Hadoop 2.0前的调度模型我们称之为经典MapRedcue任务调度模型，或者MR V1；当前主流的调度框架采用YARN，或者称为MR V2。

（一）经典MapReduce任务调度模型

1、基本架构

经典MapReduce任务调度模型采用主从结构（Master/Slave），包含4个组成部分：Client、JobTracker、TaskTracker、Task。支撑MapReduce计算框架的是JobTracker和TaskTracker两类后台进程。基本框架结构如下所示：

1、Client
        每一个Job在Client端将运行MapReduce程序所需要的所有Jar文件和类的集合，打包成一个Jar文件存储在HDFS中，并把文件路径提交到JobTracker。
2、JobTracker
        JobTracker主要负责资源的监控和作业调度，一个Hadoop集群只有一个JobTracker，并不参与具体的计算任务。根据提交的Job，JobTracker会创建一系列Task（即MapTask和ReduceTask），分发到每个TaskTracker服务中去执行。常用的作业调度算法主要包括FIFO调度器（默认）公平调度器、容量调度器等。
3、TaskTracker
        TaskTracker主要负责汇报心跳和执行JobTracker分发的任务。TaskTracker会周期性地通过HeartBeat将本节点上资源的使用情况和任务的运行进度汇报给JobTracker，JobTracker会根据心跳信息和当前作业运行情况为TaskTracker下达任务，主要包括启动任务、提交任务、杀死任务和重新初始化命令等。
4、Task
        Task分为MapTask和ReduceTask两种，均由TaskTracker启动，执行JobTracker分发的任务。MapTask解析每条数据记录，传递给用户编写的map函数并执行，最后将输出结果写入HDFS；ReduceTask从MapTask的执行结果中，对数据进行排序，将数据按分组传递给用户编写的reduce函数执行。
        TaskTracker分布在Map-Reduce集群每个节点上，主要是监视所在机器的资源情况和当前机器的tasks运行状况。TaskTracker通过HeartBeat发送给JobTracker，JobTracker会根据这些信息给新提交的job分配计算节点。
        经典MapReduce框架MR V1模型简单直观，但是不能满足大规模集群任务调度的需要。主要表现为以下四点：
（1）JobTracker是MapReduce 的集中处理点，存在单点故障问题；
（2）当MapReduce job非常多的时候，会造成很大的内存开销，就增加了JobTracker失败的风险，业界普遍认为该调度模型支持的上限为4000个节点；
（3）在TaskTracker端，以Map/Reduce Task 的数目作为资源的表示过于简单，没有考虑到CPU/内存的占用情况，如果两个大内存消耗的Task被调度到一起，就很容易出现内存消耗殆尽的问题；
（4）TaskTracker把资源强制划分为Map Task Slot和Reduce Task Slot，如果当系统中只有Map Task 或者只有Reduce Task时，会造成资源的浪费，导致集群资源利用不足。

2、工作流程

MapReduce运行阶段数据传递经过输入文件、Map阶段、中间文件、Reduce阶段、输出文件五个阶段，用户程序只与Map阶段和Reduce阶段的Worker直接相关，其他事情由Hadoop平台根据设置自行完成。

从用户程序User Program开始，用户程序User Program链接了MapReduce库，实现了最基本的map函数和reduce函数。
（1）MapReduce库先把User Program的输入文件划分为M份（M为用户定义），每一份通常16MB～64MB，如图4.5左方所示将数据分成了分片0～4；然后使用fork将用户进程复制到集群内其他机器上。
（2）User Program的副本中有一个称为Master，其余称为Worker，Master是负责调度的，为空闲Worker分配作业（Map作业或者Reduce作业），Worker的数量也是可以由用户指定的。
（3）被分配了Map作业的Worker，开始读取对应分片的输入数据，Map作业数量是由输入文件划分数M决定的，和分片一一对应；Map作业将输入数据转化为键值对表示形式，传递给map函数，map函数产生的中间键值对被缓存在内存中。
（4）缓存的中间键值对会被定期写入本地磁盘，而且被分为R个区，R的大小是由用户定义的，将来每个区会对应一个Reduce作业；这些中间键值对的位置会被通报给Master，Master负责将信息转发给Reduce Worker。
（5）Master通知分配了Reduce作业的Worker负责数据分区，Reduce Worker读取键值对数据并依据键排序，使相同键的键值对聚集在一起。注意，同一个分区可能存在多个键的键值对，而reduce函数的一次调用的键值是唯一的，所以必须进行排序处理。
（6）Reduce Worker遍历排序后的中间键值对，对于每个唯一的键，都将键与关联的值传递给reduce函数，reduce函数产生的输出会写回到数据分区的输出文件中。
（7）当所有的Map和Reduce作业都完成了，Master唤醒User Program，MapReduce函数调用返回User Program。

（二）Yarn资源调度器

为了从根本上解决经典MapReduce框架的性能瓶颈，Hadoop的MapReduce框架完全重构，叫做Yarn或者MR V2。Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。

1、基本架构

Yarn的基本思想就是将经典调度框架中JobTracker的资源管理和任务调度/监控功能分离成两个单独的组件，即一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。ResourceManager 负责整个系统资源的管理和分配，而ApplicationMaster 则负责单个应用程序的资源管理。
Yarn调度框架包括ResourceManager、 ApplicationMaster、 NodeMananger及Container等组件概念。下图为Yarn基本架构。

        ResourceManager是基于应用程序对资源的需求进行调度的。每一个应用程序需要不同类型的资源，因此就需要不同的容器。这些资源包括内存、CPU、磁盘、网络等。
        ApplicationMaster负责向调度器申请、释放资源，请求Node Manager运行任务、跟踪应用程序的状态和监控它们的进程。
        NodeManager是Yarn中单个节点的代理，负责与应用程序的ApplicationMaster和集群管理者ResourceManager交互；从ApplicationMaster上接收有关Container的命令并执行（例如，启动、停止Container）；向ResourceManager汇报各个Container执行状态和节点健康状况，并读取有关Container 的命令；执行应用程序的容器、监控应用程序的资源使用情况并且向ResourceManager 调度器汇报。
        Container是Yarn中资源的抽象，它封装了节点上一定量的资源（CPU和内存等）。一个应用程序所需的Container分为两类：一类是运行ApplicationMaster 的Container，是由ResourceManager（向内部的资源调度器）申请和启动的，用户提交应用程序时，可指定唯一的ApplicationMaster所需的资源；另一类是运行各类任务的Container，是由ApplicationMaster向ResourceManager申请的，并由ApplicationMaster与NodeManager通信后启动。

2、工作流程

用户向Yarn提交一个应用程序后，Yarn将分为两个阶段运行该应用程序：第一个阶段是启
动ApplicationMaster；第二个阶段是由ApplicationMaster创建应用程序，为它申请资源，并监控它的整个运行过程，直到运行成功。
Yarn任务调度流程如图所示。

（1）用户向Yarn提交应用程序；
（2）ResourcelManager为该应用程序在某个NodeManager分配一个Container，并要求Nodemanger 启动应用程序的ApplicationMaster；
（3）ApplicationMaster启动后立即向ResourceManager注册，此时用户可以直接通过Resource Manager查看应用程序的运行状态，然后它将为各个任务申请分布在某Nodemanager上的容器资源，并监控它的运行状态（步骤（4）~（7）），直到运行结束；
（4）ApplicationMaster采用轮询的方式向ResourceManager申请和领取资源；
（5）ApplicationMaster申请到资源后，即与资源容器所在的NodeManager通信，要求其在容器
内启动任务；
（6）NodeManager为任务初始化运行环境（包括环境变量、jar包、二进制程序等），启动任务；
（7）运行各个任务的容器通过向ApplicationMaster汇报自己的状态和进度，使ApplicationMaster随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务。用户可以向ApplicationMaster查询应用程序的当前运行状态；
（8）应用程序运行完成后，ApplicationMaster向ResourceManager注销并关闭。

Yarn框架和经典的MR V1调度框架相比，主要有以下优化。
（1）ApplicationMaster使得检测每一个Job子任务状态的程序分布式化，减少了JobTracker资源消耗；
（2）在Yarn中，用户可以对不同的编程模型写自己的ApplicationMaster，可以让更多类型的编程模型运行在Hadoop集群上，如Spark基于内存的计算模型。
（3）Container提供Java虚拟机内存的隔离，优化了经典调度框架中Map Slot和Reduce Slot分
开造成集群资源闲置的不足。

四、MapReduce的数据类型

MapReduce运算将完成的Map任务的计算结果发送给Reduce任务，Reduce收到任务后进行规约计算。Map和Reduce任务多数情况分布在不同的计算节点上，这就要求在网络上传递可序列化的Java对象。对象序列化是指把Java对象转化成字节序列的过程，反序列化是把字节序列转化成对象。Hadoop重新定义Java中常用的数据类型，并让它们具有序列化的特点。

Hadoop定义的数据类型与Java类型对照表
Java基本类型	Hadoop封装的类型	说明
byte	ByteWritable	单字节数值
int	IntWritable	整型数值
long	LongWritable	长整型数值
float	FloatWritable	浮点型数值
double	DoubleWritable	双字节数值
boolean	BooleanWritable	标准布尔型数值
String	Text	UTF8格式存储的文本

五、MapReduce的文件输入/输出格式

（一）输入格式

Map任务处理的输入块称为输入分片（Split），每个分片被划分为若干条记录，每条记录就是一个键值对，map函数一个接一个地处理记录。输入分片在Java中被表示为InputSplit抽象类的子类的对象。

InputFormat类的层次结构图

1、FileInputFormat类
FileInputFormat是所有文件作为数据源的InputFormat的实现类，主要有两个功能：指定输入文件位置和输入文件生成分片的实现代码段。换句话说，它并不生成分片，只是返回文件位置，并且实现了分片算法。 FileInputFormat提供了四种静态方法指定Job输入路径：

Public static void addInputPath(Job job,Path path);
Public static void addInputPaths(Job job,String paths);
Public static void setInputPaths(Job job,Path ...inputPaths);
Public static void setInputPaths(Job job,String paths);

其中，addInputPath()和addInputPaths()方法可以将一个或多个路径加入到路径列表，可以调用这两种方法建立路径列表。setInputPaths()方法一次设定完整的路径列表，其中路径可以是一个文件、一个目录，或者一个glob（即一个文件和记录的集合），当路径是一个目录时表示包含目录下的所有文件。

2、TextlnputFormat类
TextlnputFormat是FileInputFormat的子类，文本文件的每一行数据就是一条记录。TextlnputFormat的key是LongWritable类型的，存储该行在整个文件的偏移量，value是Text类型，存储该行的内容。
使用TextlnputFormat类时，reduce函数的键为每行在文件中的字节偏移量。有时候文件的每一行是一个使用某个分界符进行分割的键值对。此时，可以使用KeyValueTextlnputFormat。可以通过mapreduce.input.keyvaluelinerecordreader.key.value.seperator属性指定分隔符。默认是一个制表符，其中这个键是分隔符前的文本，值是分隔符后的文本，其类型都是text类型。如：

key1:this is first line text
key2:this is second line text

键、值的分隔符为“：”，则通过KeyValueTextInputFormat读取后，文件被分为两条记录，分别是：

(key1,this is first line text)
(key2,this is second line text)

3、NLineInputFormat类
在TextInputFormat和KeyValueTextInputFormat中，每个Map任务收到的输入行数并不确定，行数取决于输入分片的大小和行的长度。如果希望Map收到固定行数的输入，可以使用NLineInputFormat作为InputFormat。与TextInputFormat一样，键是文件中行的字节偏移量，值是行的内容。N是每个Map任务收到的输入行数，默认是1。可以通过mapreduce.input.lineinputformat.linespermap属性设置。以4行输入为例：

Life is a journey
not the destination
but the scenery along the should be
and the mood at the view.

当N=2时，每个输入分片包含两行。一个Map任务收到前两行键值对：

（0，Life is a journey）
（17，not the destination）

另一个Map任务收到后两行键值对：

（37，but the scenery along the should be）
（72，and the mood at the view.）

4、SequenceFileInputFormat类
当需要使用顺序文件作为MapReduce的输入时，应该使用SequenceFileInputFormat。键和值由顺序文件指定，只需要保证Map输入的类型匹配。例如，输入文件中键的格式是DoubleWritable，值是Text，则Mapper的格式应该是Mapper，K和V是Mapper输出的键和值的类型。SequenceFileAsTextInputFormat是SequenceFileInputFormat的变体，将顺序文件的键和值转化为Text对象；SequenceFileAsBinaryInputFormat是SequenceFileInputFormat的一种变体，获取顺序文件的键和值作为二进制对象。

（二）输出格式

OutputFormat类的层次结构图：

OutputFormat类的层次结构图

1、TextOutputFormat类
TextOutputFormat是默认的输出格式，每条记录写为一行。键和值可以是任意类型，因为TextOutputFormat要调用toString()把它们转换为字符串。键值默认使用制表符分割，可以使用mapreduce.output.textoutputformat.separator属性改变分割符。与TextOutputFormat对应的输入格式是KeyValueTextInputFormat，通过可配置的分隔符将键值对文本行分隔。

2、SequenceFileOutputFormat类
将输出写为一个顺序文件，当输出需要作为后续的MapReduce输入的时候，这种输出非常合适，因为它格式紧凑，容易被压缩。SequenceFileAsBinaryOutputForamt与SequenceFileAsBinaryInputFormat对应，将输出的键和值作为二进制格式写到SequenceFile容器中。

分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
RocketMQ 之死信队列 firepation RocketMQ rocketmq
在分布式消息系统中，消息的可靠传递和处理至关重要。然而，由于各种原因（如消息处理失败、消费超时等），一些消息可能无法被正常消费。这些无法被消费的消息如果不加以处理，会影响系统的稳定性和数据一致性。为了解决这一问题，RocketMQ提供了死信队列（DeadLetterQueue，DLQ）机制。本文将深入探讨RocketMQ的死信队列，包括其实现原理、应用场景以及使用示例。什么是死信队列？死信队列是一
AI Agent开发学习系列 - langchain之Chains的使用(7)：用四种处理文档的预制链轻松实现文档对话 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
在LangChain中，四种文档处理预制链（stuff、refine、mapreduce、mapre-rank）是实现文档问答、摘要等任务的常用高阶工具。它们的核心作用是：将长文档切分为块，分步处理，再整合结果，极大提升大模型处理长文档的能力。stuff直接拼接所有文档内容到prompt，一次性交给大模型处理。适合文档较短、token不超限的场景。refine递进式摘要。先对第一块文档生成初步答案
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
Vue3 tailwindcss
1、安装tailwindcsspnpmi-Dtailwindcsspostcssautoprefixer#yarnadd-Dtailwindcsspostcssautoprefixer#npmi-Dtailwindcsspostcssautoprefixer2、创建TailwindCSS配置文件npxtailwindcssinit-ptailwind.config.js/**@type{impor
ZooKeeper架构及应用场景详解走过冬季学习笔记 zookeeper 架构分布式
ZooKeeper是一个开源的分布式协调服务，由Apache软件基金会维护。它旨在为分布式应用提供高性能、高可用、强一致性的基础服务，解决分布式系统中常见的协调难题（如配置管理、命名服务、分布式锁、服务发现、领导者选举等）。核心软件架构ZooKeeper的架构设计围绕其核心目标（协调）而优化，主要包含以下关键组件：集群模式(Ensemble):ZooKeeper通常部署为集群（称为ensemble
zookeeper etcd区别 sun007700 zookeeper etcd 分布式
ZooKeeper与etcd的核心区别体现在设计理念、数据模型、一致性协议及适用场景等方面。‌ZooKeeper基于ZAB协议实现分布式协调，采用树形数据结构和临时节点特性，适合传统分布式系统；而etcd基于Raft协议，以高性能键值对存储为核心，专为云原生场景优化，是Kubernetes等容器编排系统的默认存储组件。‌‌1‌‌2‌架构与设计目标差异‌‌ZooKeeper‌。‌设计定位‌:专注于分
信创海光x86服务器，定义、特点及应用详解
信创海光x86服务器是中国近年来在信息技术领域努力实现自主可控的成果之一，旨在打破国外技术封锁和限制，这类服务器的核心特点基于x86架构，这是一种广泛应用于全球的微处理器架构，由英特尔公司最初设计，海光作为国产处理器的代表之一，其技术基础来源于AMDZen的授权，主要面向服务器市场。服务器核心：海光C863350处理器海光C863350处理器是一款基于x86架构的高性能CPU，具体参数包括8核心1
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
分布式选举算法＜一＞ Bully算法
分布式选举算法详解：Bully算法引言在分布式系统中，节点故障是不可避免的。当主节点（Leader）发生故障时，系统需要快速选举出新的主节点来保证服务的连续性。Bully算法是一种经典的分布式选举算法，以其简单高效的特点被广泛应用于各种分布式系统中。什么是Bully算法？Bully算法是一种基于优先级的分布式选举算法。每个节点都有一个唯一的ID，ID值越大的节点优先级越高。当主节点故障时，优先级最
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Python爬虫实战：基于最新技术的定时签到系统开发全解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言人工智能自动化知识图谱
摘要本文详细介绍了如何使用Python开发一个功能完善的定时签到爬虫系统。文章从爬虫基础知识讲起，逐步深入到高级技巧，包括异步请求处理、浏览器自动化、验证码破解、分布式架构等最新技术。我们将通过一个完整的定时签到项目案例，展示如何构建一个稳定、高效且具有良好扩展性的爬虫系统。文中提供了大量可运行的代码示例，涵盖requests、aiohttp、selenium、playwright等多种技术方案，
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
web3中的ipfs 财神爷首席大弟子 web3 去中心化区块链
什么是web3：是基于区块链技术的分布式网络，主要目标是建立一个去中心化与信任化的互联网去中心化以及是信任化区块链：将所有的交易记录和什么护具存储在分布式网络中，每一个node都有完整的数据副本任何一个node修改都需要得到其他节点的认可，确保数据的真实性和和可信度web3有一些关键技术和标准，例如以太坊，IPFS，ENS，ERC标准等以太坊：以太币是一个开源的有智能合约功能的公共区块链平台，通过
使用ceph-ansible部署分布式存储Ceph-octopus版本降世神童云计算技术专栏分布式 ceph ansible
使用ceph-ansible部署分布式存储Ceph-octopus版本1.Ceph基础概念及部署方式1.1.Ceph基本概念1.2.Ceph部署方式2.系统初始化配置3.Ceph集群部署3.1.Ansible安装与配置3.2.ceph-ansible安装与配置3.2.1.下载ceph-ansible3.2.2.安装ceph-ansible依赖3.2.3.修改ceph配置文件3.3.开始部署ceph
2024年运维最新分布式存储ceph osd 常用操作_ceph查看osd对应硬盘(1)，2024年最新Linux运维编程基础教程 2401_83944328 程序员运维分布式 ceph
最全的Linux教程，Linux从入门到精通======================linux从入门到精通(第2版)Linux系统移植Linux驱动开发入门与实战LINUX系统移植第2版Linux开源网络全栈详解从DPDK到OpenFlow第一份《Linux从入门到精通》466页====================内容简介====本书是获得了很多读者好评的Linux经典畅销书**《Linu
【赵渝强老师】基于PostgreSQL的分布式数据库：Citus
由于PostgreSQL具有强大的功能和良好的可扩展性，因此基于PostgreSQL很容易就可以实现分布式架构。Citus便是具体的一种实现方式。它以扩展的插件形式与PostgreSQL进行集成，且独立于PostgreSQL内核，部署也比较简单。Citus是现在非常流行的基于PostgreSQL的分布式解决方案。一、Citus基础下面是百度百科中对分布式数据库的定义：分布式数据库系统通常使用较小的
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
使用HarmonyOS 5和CodeGenie辅助工具开发鸿蒙运动健康类应用的项目总结哼唧唧_ CodeGenie 运动健康 Harmony OS5 harmonyos 华为
一、项目背景与目标随着鸿蒙生态在穿戴设备、智能家居领域的快速扩展，我团队基于HarmonyOS5操作系统，开发了一款面向运动健康场景的智能应用——“Harmony健康伴侣”。项目采用华为官方推出的智能编程助手CodeGenie进行辅助开发，旨在验证CodeGenie在提升鸿蒙应用开发效率与质量方面的实际效果。二、核心功能实现该应用深度融合HarmonyOS分布式能力，支持跨设备无缝协同，主要功能包
万物智联时代启航：鸿蒙OS重塑全场景开发新生态黑巧克力可减脂鸿蒙开发鸿蒙系统
目录HarmonyOS简介：分布式操作系统，开启万物智联新时代HarmonyOS发展历程：从破局到引领核心特性：分布式技术三支柱应用场景：全场景覆盖的鸿蒙生态什么选择鸿蒙开发？技术红利与市场蓝海结语：拥抱鸿蒙，赢在万物智联起点HarmonyOS简介：分布式操作系统，开启万物智联新时代什么是鸿蒙？HarmonyOS（鸿蒙操作系统）是华为自主研发的面向全场景的分布式操作系统，其核心使命是打破设备孤岛，
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

MapReduce分布式编程

一、MapReduce概述

（一）MapReduce定义

（二）MapReduce优缺点

（三）MapReduce核心原理

二、MapReduce编程示例

三、任务调度框架

（一）经典MapReduce任务调度模型

（二）Yarn资源调度器

四、MapReduce的数据类型

五、MapReduce的文件输入/输出格式

（一）输入格式

（二）输出格式

你可能感兴趣的:(大数据技术基础,mapreduce,分布式,大数据,yarn)