半_调_子

hadoop源码解读

一、hadoop rpc总结

1、RPC指的是不同进程的方法调用，分为客户端和服务端，客户端调用服务端的方法，方法的执行在服务端。

2、如何实现Hadoop RPC的调用，必须要实现协议，这个协议其实就是一个接口，但是这个接口必须要有一个重要的特征，里面必须有VersionID.

3、RPC的服务端必须实现这些协议（接口）。

4、如何构建RPV的调用。

服务端：（构建者模式）

Server server = new RPC.Builder(new Configuration())

   			 .setBindAddress("localhost")

			 .setPort(9999)

			.setProtocol(ClientProtocol.class)

			.setInstance(new NameNodeRpcServer())

			.build();

	客户端：获取代理以及各种参数

	ClientProtocol namenode = RPC.getProxy(ClientProtocol.class, 1234L,

                new InetSocketAddress("localhost",9999),

                new Configuration());

Hadoop源码中有两种RPC，一种Hadoop RPC,另一种是HttpServer RPC,有什么区别？

应对的数据量不同，如果传输的数据量比较大，比如读写日志,用httpserver rpc,数据量比较小时，就是RPC之间的调用，用Hadoop RPC.

二、源码流程解读启动

NameNode启动流程：

在createNameNode方法中通过不同的场景switch …… case进入（format,rollBack,checkPoint,recover）默认进入实例化 NameNode(new NameNode)

默认进入实例化NameNode（new NameNode）-> initialize(conf)初始化方法。

startHttpServer方法 -> 设置主机名和端口号（50070），绑定多个servlet（功能）
加载元数据

loadFromDisk(conf) -> loadFsImage（startOpt）

1）合并元数据，将fsimage和editlog合并

2）把合并出来新的fsimage写到磁盘，老的删掉

3）打开一个新的editlog，开始写日志。

3. 创建RPC服务端

createRpcServer(conf) -> NameNodeRpcServer -> 启动ServiceRpcServer

4. 启动公共服务，NameNode RPC的服务就在里面启动的

1）进行资源检查，检查存储元数据的磁盘空间是否足够

a. 如果磁盘空间不足；会在日志里打印告警，且hasResourceAvailable = false

2）进入安全模式检查，检查是否可以退出安全模式

HDFS进入安全模式的三个条件（或关系）：

条件一：计算阈值，block 块数 * 0.999，判断目录元数据是否大于阈值

threshold != 0 && blockSafe < blockThreshold

HDFS的元数据那儿程序总计分析出来上一次关闭集群之前

假设有1000个complete的block,默认是阈值的计算比例是0.999

这样blockThreshold的值是999

现在集群起来了以后，发现累计datanode汇报过来的complete的block个数（blockSafe）

如果小于999就让集群处于安全模式。

条件二：判断存活dataNode个数是否大于配置数目

datanodeThreshold != 0 && getNumLiveDataNodes() < datanodeThreshold

如果存活的datanode的个数小于一定的数目的时候，也会进去安全模式

默认是0，所以相当于没启用，但是我们也可以配置，如果存活的datanode个数

少于多少就让HDFS集群出入安全模式。

条件三：检查NameNode写元数据目录是否大于100M

!nameNodeHasResourcesAvailable()

就是前面检查NameNode写的元数据的目录空间是否大于100M,

如果目录的空间小于100M，nameNodeHasResourcesAvailable 就为false

hdfs就会进入安全模式。

DataNode 总结：

1）一个集群里面可以有很多个DataNode，这些DataNode就是用来存储数据（hdfs上block文件块）。

2）DataNode启动了以后会周期性的跟NameNode进行通信（心跳，块汇报），客户端也可以跟DataNode进行交互或者DataNode之间也可以进行相互通信。

3）NameNode不能直接操作DataNode.而是通信心跳返回值指令的方式操做DataNode.DataNode也会去响应NameNode,响应NameNode发送过来的一些指令，比如：删除block，复制block等操作。

4) DataNode启动了以后开放了一个socket的服务（RPC）,等待别人去调用他。DataNode启动的时候会把自己的主机名和端口号汇报给NameNode.也就是说如果Client和DataNode想要去访问某个DataNode.首先要跟NameNode进行通信；从NameNode那儿获取到目标DataNode的主机名和端口号。这样才可以访问到对应的DataNode了。

DataNode启动流程：

secureMain -> createDataNode(初始化DataNode) -> instantiateDataNode（实例化DataNode） -> makeInstance -> new DataNode -> startDataNode(启动DataNode)

initDataXceiver （初始化DataXceiver，dataNode用来接收客户端和其它DataNode传来block数据的服务）

startInforServer （启动HttpServer服务，绑定了多个servlet）

initRpcServer （初始化RPC服务）

new BlockPoolManager 创建了BlockPoolManager对象

refreshNameNodes

1. 向NameNode进行注册

2. 跟NameNode进行心跳

doRefreshNameNode

1）如果是联邦架构，里面会有多个NameService

2）一个联邦就是一个NameService

a. 一个联邦对应一个BPOfferService

b. 一个联邦的一个NameNode就是一个BPServiceActor

c. 正常来说一个BPOfferService对应NameNode个数个BPServiceActor

3. startAll（DataNode向NameNode进行注册和心跳）

HDFS心跳流程：

心跳主要就是两个目的：

1. 更改存储信息

2. 更新上一次的心跳时间

总结：在分布式场景下

注册：从节点向主节点进行注册本质上，就是把自己的主机名、端口号等信息写到主机的各种内存结构中。

心跳：对于分布式文件系统，就是把自己的存储信息告诉主节点，更新上一次的心跳时间

三、源码流程解读写数据场景

HDFS元数据管理流程

HDFS双缓冲机制

思考三个问题：

1. 交换内存的条件是什么？

2. 将磁盘写改为内存写，会不会存在丢数据的风险？

3. 当数据从SyncBufffer内存往磁盘写数据还没写完的同时，client请求由于高并发的原因往CurrentBuffer内存中写数据写满，NameNode会有什么表现形式？

元数据创建流程：

创建元数据目录树
通过双缓冲机制将元数据写到本地和Journalnode（通过自己实现的NIO）
standBy NameNode从JournalNode读取元数据（跨服务跨进程读取，后台的线程），把获取到的元数据作用到自己的元数据里面。

通过创建了一个HttpURLConnection对象，发送一个Http请求（相当于一个RPC），读取数据流。通过流对烤方式将元数据写到standBy NameNode目录树上。

定期checkPoint，将内存中的目录树合并元数据并持久化到磁盘上，替换fsImage，将已经合并完的日志删除。

checkPoint两个条件（或）：

1. 时间（距上次checkPoint时间，默认一个小时）

2. 数量（比如多少条日志，默认100万条）

checkPoint步骤：

1. 把元数据持久化到磁盘

2. 开启一个异步线程，把刚从内存里面的数据持久化到磁盘，上传数据到active namenode上面

HDFS上传文件源码流程：

create抽象方法，DistributedFileSystem实现类中的create方法实现（客户端）

a) 创建了一个DFSOutputStream，做很多初始化操作

1）往文件目录树里面添加INodeFile

2）添加了[契约（Lease）]管理

1⃣️ 先查看这个契约是否已经存在

a. 如果没有（第一次进来）肯定创建一个契约

存储到数据结构中（可以排序<实现compare进行升序排序>，底层是红黑树数据结构）

2⃣️ 如果有（第二次进来）那就是续约

3）启动了DataStreamer（写数据流程关键服务）/重要

第一次进入时，dataQuene没有数据，会启用线程阻塞

b) 开启续约（契约）

调用线程run方法，进行周期性续约

超过30秒没有进行续约就进行续约（当前时间-上一次续约时间）

续约和心跳类似，获取namenode的代理进行续约，续约完修改上一次续约时间，如果有契约，先从数据结构中删除契约，修改上一次的契约心跳时间，再把修改完以后的契约加入到数据结构中。同样会有个类似于心跳的监控线程，去检查契约是否过期；从最老的契约开始检查。

2. write方法

HDFS文件 -> Block块（128M）-> packet（64K）= chunk（127个chunk构成一个packet） -> chunk(521 bit) + chunksum(校验值 4 Bit) = 516 Bit

1. 计算出chunk的校验和

2. 按照chunk的大小遍历数据

一个一个的chunk去写数据

创建packet

往packet里面写chunk的校验和（4 Bit）

往packet里面写chunk（512 Bit）

写满127个chunk就是一个完整的packet

写满128M就是一个block

写满一个packet，就把这个packet写入队列（如果队列写满就等待）

唤醒之前睡眠的队列（因为此时已经有数据了）

3. 从dataQuene队列里面获取到数据（packet）

4. 建立数据通道

A. 向namenode申请block

因为申请block或者建立数据管道，这些都是重要的操作，肯定要执行成功，但是这些操作都涉及到网络请求，网络这个事，就不好说了，可能会有网络抖动什么的，所以代码中执行一次，不是说失败就失败了，肯定要多次尝试，所以HDFS源码里面很多地方就会用到循环。

服务端那边的操作：

1⃣️ 创建一个block，往文件目录树中挂载了block的信息

2⃣️ 在磁盘上记录了元数据信息

3⃣️ 往blockManager里面记录了block的元数据信息

B. 建立数据通道

1建立数据管道的目的就是提前将就收数据的线程或者socket服务启动起来，启动起来以后就构建好数据管道。

2 HDFS中就是客户端往hadoop1中写，在从hadoop1往hadoop2写。。。

这样设计的目的：

1. 减少客户端网络带宽连接压力

2. 客户端和hadoop1服务夸机房或者夸地域，这样传输的性能会差

3然后发送写数据请求，通过之前初始化好的DataXceiver来写数据

1.接收socket请求，每发送过来一个block，都启动一个DataVceiver去处理这个block，就是启动一个线程去处理。先去读取此次请求的类型（option）

2.根据请求类型进行处理，（写block）

3.通过writeBlock实现，里面创建BlockReceiver，并且查看是否有下游的服务器，有的话就创建镜像（副本），接着往下游发送socket连接

4⃣️ 建立管道时，有可能遇到管道建立不上，某个服务器连接不上

如果管道建立不成功，客户端调用服务器（namenode）代码，去放弃这个block，并且重新去申请Block，同时记录记录出问题那台服务器的编号。（记录原因：需要重新去申请block，namenode根据负载均衡和机架感知去重新申请，就得记录下来失败的那台机器，再一次重试的时候，就排除有故障的服务器）

5. 启动了ResponseProcessor，用来监听一个packet是否发送成功

DataStream会将数据（packet）发送到datanode上面，datanode到底有没有写成功，需要返回一个成功的响应（ACK），最终向客户端汇报处理的结果。

这个过程中会有一个AckQueue配合使用，会将这个packet先放到AckQueue中（把当前接收到的packet放大ackQueue，唤醒wait的线程，同时将dataQueue中的packet移除），再把当前的这个packet发送给下游的节点（数据管道里面），然后校验数据，没问题，就将数据写到本地磁盘上面；写成功的话就返回写成功，写失败的话，先重试，不行就会将AckQueue中的这个packet重新返回给dataQueue，dataQueue有这个数据后，就会将这个数据重新写一遍。（写到各个磁盘上面应该是同步的）

如果写成功，就会将这个packet从AckQueue中移除。

容错，写的过程中，很可能会遇到问题，通过try…catch捕获异常，捕获到异常，就会将hasError标识改为true，本身就是分布式的代码，循环执行的，他会再次进入代码，但是会有判断，进入时就会进，关闭流和线程的代码，并且进入processDatanodeError方法去处理，首先关闭流，重新把ackQueue的数据加入到dataQueue中，并将ackQueue中的packet清空，重新建立数据管道，这次建立管道会将有问题的服务器排除，直接传输正常的服务器节点。那么这样一来，副本数就会少一个，不用担心，等到datanode和namenode心跳的时候，会进行容错，将正常节点上的副本复制到之前有问题的节点上。还有一种情况，集群中超过一半的节点有问题，问题就比较大了，这时候就需要推倒重来，重新申请block，重新建立管道。

先引入一个小的背景，假如多个客户端同时要并发的写Hadoop HDFS上的一个文件，这个事儿能成吗? 明显不可以接受啊，因为HDFS上的文件是不允许并发写的，比如并发的追加一些数据什么。所以HDFS里有一个机制，叫做文件契约机制。也就是说，同一时间只能有一个客户端获取NameNode上面一个文件的契约，然后才可以向获取契约的文件写入数据。

此时如果其他客户端尝试获取文件契约的时候，就获取不到，只能干等着。通过这个机制，可以保证同一时间只有一个客户端在写一个文件。在获取到了文件契约之后，在写文件的过程期间，那个客户端需要开启一个线程，不停的发送请求给 NameNode进行文件续约，告诉NameNode: NameNode大哥，我还在写文件啊，你给我一直保留那个契约好吗? 而NameNode内部有一个专门的后台线程，负责监控各个契约的续约时间。如果某个契约很长时间没续约了，此时就自动过期掉这个契约，让别的客户端来写。

1. 创建文件

2. 创建契约

3. 启动了DataStramer线程

4. 开启了续约

5. 契约的检查

6. 创建packet

7. 申请Block

8. 建立数据管道

9. ResponseProcessor线程

10. PacketResponder线程

四、RPC示例：

/**
*在pom.xml引入依赖
*/

    
        org.apache.hadoop
        hadoop-client
        2.7.0
    



/**
 * 网络协议
 */
public interface Protocol {
    //定义版本号，可自定义
    long versionID=123456789L;
    void hello(String msg);
    void add(int num);
}

/**
*定义服务端实现类
*/
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.ipc.RPC;
import org.apache.hadoop.ipc.Server;

import java.io.IOException;

public class NameNodeRPCServer implements Protocol {
    public void hello(String msg) {
        System.out.println(" hello " + msg);
    }

    public void add(int num) {

    }
    public static void main(String[] args) throws IOException {
        Server server = new RPC.Builder(new Configuration())
                .setBindAddress("localhost")
                .setPort(9999)
                .setProtocol(Protocol.class)
                .setInstance(new NameNodeRPCServer())
                .build();
        //启动服务端
        System.out.println("我是RPC服务端，我准备启动了");
        server.start();
        System.out.println("启动完成");
    }
}

/**
*定义客户端类
*/
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.ipc.RPC;

import java.io.IOException;
import java.net.InetSocketAddress;

public class Client {
    public static void main(String[] args) throws IOException {

            Protocol namenode = RPC.getProxy(Protocol.class,
                    Protocol.versionID,
                    new InetSocketAddress("localhost", 9999),
                    new Configuration());

            namenode.hello("hadoop architechure");
        }
    }

启动NameNodeRPCServer，到服务器控制台执行jps，你会发现多了一个NameNodeRPCServer进程，所以不管是NameNode还是DataNode，其实都是一个RPC进程，于是我们可以从NameNode和DataNode这两个类入手.

NameNode服务既管理了HDFS的集群的命名空间和 "inode table"。
一个HDFS集群里面只有一个NameNode.(除了HA方案，或者是联邦)

Namenode管理了两张极其重要的表：
1）一张表管理了文件与block之间的映射关系。
2）另一张表管理了block文件块与 DataNode主机之间的映射关系。

第一张表存储到了磁盘上面。(因为文件与block块之间的关系是不会发生变化的)
每次NameNode重启的时候重新构建第二张映射表。

Namenode服务是由三个重要的类支撑的：
1）NameNode类：
管理配置的参数
2）NameNode server：
IPC Server:
NameNodeRPCServer:开放端口，等待别人调用.比如：8020/9000
HTTP Server:
NameNodeHttpServer：开放50070界面，我们可以通过这个界面了解HDFS的情况
3) FSNameSystem:
这个类非常重要，管理了HDFS的元数据。

分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
RocketMQ 之死信队列 firepation RocketMQ rocketmq
在分布式消息系统中，消息的可靠传递和处理至关重要。然而，由于各种原因（如消息处理失败、消费超时等），一些消息可能无法被正常消费。这些无法被消费的消息如果不加以处理，会影响系统的稳定性和数据一致性。为了解决这一问题，RocketMQ提供了死信队列（DeadLetterQueue，DLQ）机制。本文将深入探讨RocketMQ的死信队列，包括其实现原理、应用场景以及使用示例。什么是死信队列？死信队列是一
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
ZooKeeper架构及应用场景详解走过冬季学习笔记 zookeeper 架构分布式
ZooKeeper是一个开源的分布式协调服务，由Apache软件基金会维护。它旨在为分布式应用提供高性能、高可用、强一致性的基础服务，解决分布式系统中常见的协调难题（如配置管理、命名服务、分布式锁、服务发现、领导者选举等）。核心软件架构ZooKeeper的架构设计围绕其核心目标（协调）而优化，主要包含以下关键组件：集群模式(Ensemble):ZooKeeper通常部署为集群（称为ensemble
zookeeper etcd区别 sun007700 zookeeper etcd 分布式
ZooKeeper与etcd的核心区别体现在设计理念、数据模型、一致性协议及适用场景等方面。‌ZooKeeper基于ZAB协议实现分布式协调，采用树形数据结构和临时节点特性，适合传统分布式系统；而etcd基于Raft协议，以高性能键值对存储为核心，专为云原生场景优化，是Kubernetes等容器编排系统的默认存储组件。‌‌1‌‌2‌架构与设计目标差异‌‌ZooKeeper‌。‌设计定位‌:专注于分
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
分布式选举算法＜一＞ Bully算法
分布式选举算法详解：Bully算法引言在分布式系统中，节点故障是不可避免的。当主节点（Leader）发生故障时，系统需要快速选举出新的主节点来保证服务的连续性。Bully算法是一种经典的分布式选举算法，以其简单高效的特点被广泛应用于各种分布式系统中。什么是Bully算法？Bully算法是一种基于优先级的分布式选举算法。每个节点都有一个唯一的ID，ID值越大的节点优先级越高。当主节点故障时，优先级最
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Python爬虫实战：基于最新技术的定时签到系统开发全解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言人工智能自动化知识图谱
摘要本文详细介绍了如何使用Python开发一个功能完善的定时签到爬虫系统。文章从爬虫基础知识讲起，逐步深入到高级技巧，包括异步请求处理、浏览器自动化、验证码破解、分布式架构等最新技术。我们将通过一个完整的定时签到项目案例，展示如何构建一个稳定、高效且具有良好扩展性的爬虫系统。文中提供了大量可运行的代码示例，涵盖requests、aiohttp、selenium、playwright等多种技术方案，
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
web3中的ipfs 财神爷首席大弟子 web3 去中心化区块链
什么是web3：是基于区块链技术的分布式网络，主要目标是建立一个去中心化与信任化的互联网去中心化以及是信任化区块链：将所有的交易记录和什么护具存储在分布式网络中，每一个node都有完整的数据副本任何一个node修改都需要得到其他节点的认可，确保数据的真实性和和可信度web3有一些关键技术和标准，例如以太坊，IPFS，ENS，ERC标准等以太坊：以太币是一个开源的有智能合约功能的公共区块链平台，通过
使用ceph-ansible部署分布式存储Ceph-octopus版本降世神童云计算技术专栏分布式 ceph ansible
使用ceph-ansible部署分布式存储Ceph-octopus版本1.Ceph基础概念及部署方式1.1.Ceph基本概念1.2.Ceph部署方式2.系统初始化配置3.Ceph集群部署3.1.Ansible安装与配置3.2.ceph-ansible安装与配置3.2.1.下载ceph-ansible3.2.2.安装ceph-ansible依赖3.2.3.修改ceph配置文件3.3.开始部署ceph
2024年运维最新分布式存储ceph osd 常用操作_ceph查看osd对应硬盘(1)，2024年最新Linux运维编程基础教程 2401_83944328 程序员运维分布式 ceph
最全的Linux教程，Linux从入门到精通======================linux从入门到精通(第2版)Linux系统移植Linux驱动开发入门与实战LINUX系统移植第2版Linux开源网络全栈详解从DPDK到OpenFlow第一份《Linux从入门到精通》466页====================内容简介====本书是获得了很多读者好评的Linux经典畅销书**《Linu
【赵渝强老师】基于PostgreSQL的分布式数据库：Citus
由于PostgreSQL具有强大的功能和良好的可扩展性，因此基于PostgreSQL很容易就可以实现分布式架构。Citus便是具体的一种实现方式。它以扩展的插件形式与PostgreSQL进行集成，且独立于PostgreSQL内核，部署也比较简单。Citus是现在非常流行的基于PostgreSQL的分布式解决方案。一、Citus基础下面是百度百科中对分布式数据库的定义：分布式数据库系统通常使用较小的
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
使用HarmonyOS 5和CodeGenie辅助工具开发鸿蒙运动健康类应用的项目总结哼唧唧_ CodeGenie 运动健康 Harmony OS5 harmonyos 华为
一、项目背景与目标随着鸿蒙生态在穿戴设备、智能家居领域的快速扩展，我团队基于HarmonyOS5操作系统，开发了一款面向运动健康场景的智能应用——“Harmony健康伴侣”。项目采用华为官方推出的智能编程助手CodeGenie进行辅助开发，旨在验证CodeGenie在提升鸿蒙应用开发效率与质量方面的实际效果。二、核心功能实现该应用深度融合HarmonyOS分布式能力，支持跨设备无缝协同，主要功能包
万物智联时代启航：鸿蒙OS重塑全场景开发新生态黑巧克力可减脂鸿蒙开发鸿蒙系统
目录HarmonyOS简介：分布式操作系统，开启万物智联新时代HarmonyOS发展历程：从破局到引领核心特性：分布式技术三支柱应用场景：全场景覆盖的鸿蒙生态什么选择鸿蒙开发？技术红利与市场蓝海结语：拥抱鸿蒙，赢在万物智联起点HarmonyOS简介：分布式操作系统，开启万物智联新时代什么是鸿蒙？HarmonyOS（鸿蒙操作系统）是华为自主研发的面向全场景的分布式操作系统，其核心使命是打破设备孤岛，
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
HIVE（二） 2301_78012738 hive 数据仓库
目录访问HIVE的三种方式DDLDML数据操作向表中装载数据数据导出常用函数Like和RLike分组Join排序分区表和分桶表访问HIVE的三种方式启动Hive命令，CtrlC退出客户端，执行测试语句，与sql一致[wyc@hadoop102hive]$bin/hive经验小结：在hive中执行语句报错：ExecutionError,returncode2fromorg.apache.hadoop
redis锁java实现 brave_zhao redis java 数据库
以下是几种常见的Redis分布式锁的Java实现方式：1.基于SETNX命令的实现SETNX命令（对应Java中的setIfAbsent方法）是实现Redis分布式锁的基础。以下是实现代码：importredis.clients.jedis.Jedis;publicclassRedisLock{privateJedisjedis;publicRedisLock(Jedisjedis){this.j
服务实现99.99%高可用的核心措施
在分布式系统中，高可用性（HA）是衡量服务可靠性的核心指标。99.99%的可用性意味着系统每年的停机时间不超过约52.6分钟，这对金融交易、电信服务等关键业务至关重要。一、冗余设计与故障转移原理：通过冗余部署消除单点故障，确保部分节点故障时服务仍可用。故障转移机制自动将流量切换至健康节点，缩短服务中断时间。Java服务实现：集群部署：使用SpringCloudAlibaba或Dubbo构建微服务集
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement

hadoop源码解读

一、hadoop rpc总结

你可能感兴趣的:(hadoop,大数据,分布式)