程序员胖五

【大数据之路2】分布式文件系统 HDFS

2. 分布式文件系统 HDFS

- 1. 引入HDFS【面试点】
- 2. HDFS 概述
- - 1. HDFS 设计思路
  - 2. HDFS 架构
  - 3. HDFS 优缺点
- 3. HDFS 操作
- - - HDFS 读写基准测试
  - 1. HDFS Shell 操作【重点】
  - 2. HDFS API 操作
  - - 1. 访问数据
    - - 1. 获取 FileSystem
      - 2. 文件的遍历
      - 3. 创建文件夹
      - 4. 文件的上传
      - 5. 文件的下载
    - 2. 合并小文件
    - - 1. 合并小文件上传
      - 2. 合并小文件下载
- 4. HDFS 原理
- - 1. HDFS 的启动流程【重要】
  - 2. DataNode 页面信息介绍
  - 3. HDFS 的读写剖析
  - - 1. HDFS 读数据流程
    - 2. HDFS 写数据流程
    - 3. 读写异常情况
- 5. HDFS 三大机制（核心设计）
- - 1. 心跳机制【重要】
  - 2. 安全模式【重要】
  - - 1. 进入安全模式
    - 2. 退出安全模式
  - 3. 副本存放策略
- 6. HDFS 三大组件
- - 1. NameNode 主节点
  - - 1. 职责
    - 2. 元数据
    - 3. NameNode 宕机了怎么办
  - 2. DataNode 从节点
  - - 1. 职责
    - 2. DataNode 上下线
  - 3. SecondaryNameNode
- 7. HDFS 的高可用和联邦【重点】
- - 1. 高可用（HA）
  - 2. 联邦（Federation）

1. 引入HDFS【面试点】

问题一：如果一个文件中有 10 个数值，一行一个，并且都可以用 int 来度量。现在求 10 个数值的和

思路：

逐行读取文件的内容
把读取到的内容转换成 int 类型
把转换后的数据进行相加
输出最后的一个累加和

问题二：10000 个文件，每个文件 2T，文件里的内容依然是每行一个数值，求这一堆文件的所有数值的和

思路与方案：

使用单进程的程序执行，即一行一行读取（串行），可能会计算出结果，但效率很低，且大概率是算不出来
将串行改为并行，即分布式运算：
- 第一阶段：先把大的任务切分成小的任务，然后将集群中的每个节点都可以对这些小任务进行计算
- 第二阶段：将之前中间性的结果进行汇总

问题三：问题二中的 10000 个 2T 的文件应该怎么分布才能让这 10000 个任务的执行效率达到最高？

思路：

如果集群有 10000 个节点，每个节点都放了一个文件，然后对每个节点上的数据启动计算引擎进行任务的计算，这样效率高
计算在 A 节点，存储的数据在 B 节点，这样效率不高；计算和存储在同一个节点效率高。因为数据传输肯定有延迟，从而降低效率

问题四：数据的处理（存储和计算）是这么设计的？

答：存储和计算相互依赖。在涉及存储时必须考虑计算，反之相同

存储：HDFS；计算：MapReduce

HDFS 设计思想：把存入到 HDFS 集群的数据均匀分散的存储到整个集群中

说明：集群的配置是去全局的

案例1： 100G 数据分多少集群节点存储的比较

都是 100G 数据，假设 1G 的数据需要 1秒的运算时间

序号	集群节点数	切分存储块的大小	存储方式	运算所需时间（秒）
1	100	1G	每个节点 1G 数据量	1
2	90	1G	10 台存 2G，80 台存 1G	2
3	90	512M	20 台存 1.5G，70 台存 1G	1.5

上述案例得出：切分的块是不是越小越好？但有弊端：小文件很多时，会有问题

案例2： 大文件 access.log 100G 的切分方法

第一种切分法：block0 50G + block1 50G
第二种切分法：block0 20G + block1 20G + block2 20G + block3 20G + block4 20G

对于用户来说，一个文件是完整的存储到 HDFS 进来的，所以用户再去下载该文件时要的是完整的文件整体，要把所有的块合并起来且顺序不能错。块越少拼接越容易
上述案例得出：切分的块是不是越大越好？

总结：不大不小最好。不大不小：HDFS 在设计时考虑到不同的应用场景，在每个不同的应用场景中可能需要的块的大小不一样，可以自己配置。

HDFS 块的默认大小为：

Hadoop2.x 版本以前，默认块的大小：64M
Hadoop2.x 版本（含）以后，默认块的大小：128M

让大数据能够存储到 HDFS 集群，并考虑计算的效率问题，让文件切分存储，并让这些块均匀分散的存储到整个集群中

HDFS 集群存储的使用场景：

数据量特别多
前期数据量不大，后期数据量快速增长，可能导致数据量快速增多

HDFS 集群理论上可无限制的增加节点，但有上限：

HDFS 集群是主从架构，主节点 NameNode
加的机器的性能一般（数据安全）

问题五：HDFS 如何保障数据安全？

解决：配置多份

多份数据分布的原则：

数据备份的数量由用户指定
如果一个文件存储多份，这多份数据完全没必要存储在一个节点上

小问题： 若集群有 3 个存储节点，但用户指定存储 4 份，则 HDFS 上最终有几份数据？3 份

结论：HDFS 集群中的任何一个节点，肯定没有完全相同的两份数据

问题六：HDFS 核心思想：分而治之，冗余备份

分散存储： 一个大的文件要存储，必须要借助分布式的存储系统，将大文件进行 分而治之（分治）
冗余备份： 整个 HDFS 集群架设在不是特别牢靠的服务器上，所以要保证数据安全。采用副本的策略，针对用户上传的整个文件，将该文件切分出来的多个块备份多份

冗余备份的默认值：3 份。备份数量的配置文件路径：

/software/hadoop/etc/hadoop/hdfs-site.xml 更改后重启服务生效

<property>
	<name>dfs.replicationname>
	<value>1value>
property>

知识点1：如果节点机器性能有差异怎么均匀分散？

数据节点机器性能差异不是特别多，若某一台机器的性能比较差，可设置该机器少存一些数据。设置：

hadoop fs -setrep [-R] [-w] <numPeplicas> <path>

知识点2：block 块的大小设置多少？

默认 128M，实际生产最多 256M。若不懂就按照默认的，大部分都是按默认的

知识点3：HDFS 集群节点很多会导致什么情况

元数据信息 fsimage 很多，加载到内存中的时间越来越长

DataNode 节点多，节点保存的数据块的个数也多

知识点4：跨网络肯定有数据延迟和丢失问题

知识点5：HDFS 不适合存储小文件

与分布在多个文件中的少量数据相比，HDFS 更适合单个文件中的大量数据集。

存储小文件的危害：

占 NameNode 元数据内存（不管文件多小，都要占用 150 字节）
- 比如存储一亿个小文件，大小仅仅 1T，但要消耗 20G 左右的内存
- 文件存储在硬盘上，存储文件元信息（比如文件的创建者、文件的创建日期和文件的大小等）的区域叫 iNode（中文译名为 “索引节点” ），iNode 是有限的。当有成千上万个小文件存储于服务器的文件系统中时，最先消耗完的肯定不是磁盘的空间，而是 iNode，这会导致大量空闲磁盘的空间无法使用。小文件带来的问题归根结底是由于其小且数量巨大
- 128G 内存的 NameNode 能存储多少个文件夹
```
128g * 1024m * 1024kb * 1024字节 / 150字节 ≈ 9亿
```
增加切片（一个文件一个切片），进而影响增加 MapTask 个数（1G），增加计算内存

解决方案：

har 归档：把多个小文件归档到一个文件块
CombineTextInputFormat：改变切片（多个文件放在一起统一去切）
JVM 重用
- 参数配置：mapred-site.xml 的 mapreduce.job.jvm.numtasks，通常在 10~20 之间
- 方法：将两个过程的上一个结束和下一个开始去掉，让他一直干活直到干完

较为普遍的方法：将一定数量的小文件合并为一个个的大文件，并且只存储合并后的大文件，那存储系统中的文件数量就会大大减少，通过一定方式再从合并后的大文件中分离出小文件，按需获取想要的数据即可

知识点：文件存储在硬盘上，硬盘的最小存储单位叫做 “扇区”（sector）。每个扇区存储 512 字节（相当于0.5KB）。操作系统读取硬盘时，不会一个个扇区的读取，这样效率太低，而是一次性连续读取多个扇区，即一次性读取一个 “块”（block）。这种由多个扇区组成的 “块”，是文件存储的最小单位。“块” 的大小，最常见的是 4KB，即连续 8 个 sector 组成一个 block。文件数据都存储在 “块” 中，那么很显然，我们还必须找到一个地方存储文件的元信息，比如文件的创建者、文件的创建日期、文件的大小等等。这种存储文件元信息的区域就叫做 iNode。

知识点6：HDFS Block 和 Input Split 有什么区别

HDFS Block 是数据的物理划分，而 Input Split 是数据的逻辑划分
HDFS 将数据划分为块，以块存储；而对于处理，MapReduce 将数据划分为输入拆分并将其分配给映射器函数

2. HDFS 概述

HDFS 是大数据存储的基础，几乎所有的大数据分布式存储需求都会使用到。

1. HDFS 设计思路

HDFS 被设计成使用低廉的服务器进行海量数据的存储，如何做到？分散存储

大文件被切割成小文件，使用分而治之的思想对同一个文件进行管理
每个切分后的块都进行冗余备份，高可用不丢失

2. HDFS 架构

主从架构。下边三个节点的架构是最基础的，高可用会有 StandbyNameNode，用于防止 NameNode 宕机。

NameNode 主节点：掌管文件系统的目录树，处理客户端的请求，保存元数据信息
DataNode 从节点：存储实际数据，处理真正的读写
SecondaryNameNode（单机/伪分布式/分布式）：分担 NameNode 的压力，协助合并元数据信息

3. HDFS 优缺点

优点：

可构建在廉价机器上，通过多个副本来提高可靠性，文件切分多个块进行存储
高容错性。数据可自动保存多个副本，副本丢失后可自动恢复
适合批处理。移动计算比移动数据更方便
流式文件访问。一次写入，多次读取。可以保证数据一致性

缺点：（不适合以下操作）

要求高的数据访问。比如毫秒级
小文件存储。寻道时间超过读取时间
并发写入，文件随机修改。一个文件只能有一个写（即仅支持独占写入，一个客户端连接并写入时，另一个客户端请求打开写入会被拒绝），仅支持追加写入

3. HDFS 操作

HDFS 读写基准测试

搭建完 Hadoop 集群后，需要对 HDFS 读写性能和 MR 计算能力测试，测试 jar 包在 Hadoop 的 share 文件夹下

（1）HDFS 写数据性能测试：

hadoop jar /software/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.4-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB
# 最终返回：
		Total committed heap usage (bytes)=2058158080
	Shuffle Errors
		BAD_ID=0
		CONNECTION=0
		IO_ERROR=0
		WRONG_LENGTH=0
		WRONG_MAP=0
		WRONG_REDUCE=0
	File Input Format Counters 
		Bytes Read=1120
	File Output Format Counters 
		Bytes Written=78
23/04/21 14:11:38 INFO fs.TestDFSIO: ----- TestDFSIO ----- : write
23/04/21 14:11:38 INFO fs.TestDFSIO:            Date & time: Fri Apr 21 14:11:38 CST 2023
23/04/21 14:11:38 INFO fs.TestDFSIO:        Number of files: 10
23/04/21 14:11:38 INFO fs.TestDFSIO: Total MBytes processed: 1280.0
23/04/21 14:11:38 INFO fs.TestDFSIO:      Throughput mb/sec: 12.893347838349651
23/04/21 14:11:38 INFO fs.TestDFSIO: Average mb/sec: 15.180811882019043
23/04/21 14:11:38 INFO fs.TestDFSIO:  IO rate std deviation: 6.37014503146436
23/04/21 14:11:38 INFO fs.TestDFSIO:     Test exec time sec: 81.974
23/04/21 14:11:38 INFO fs.TestDFSIO:

说明：

Number of files		写入文件数
Throughput				吞吐率，此处为 12.89MB/s
Average IO rate		平均吞吐率，此处的速率为 15.18MB/s

（2）HDFS 读数据性能测试：

hadoop jar /software/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.4-tests.jar TestDFSIO -read -nrFiles 10 -fileSize 128MB
# 最终返回：
Total committed heap usage (bytes)=1383833600
	Shuffle Errors
		BAD_ID=0
		CONNECTION=0
		IO_ERROR=0
		WRONG_LENGTH=0
		WRONG_MAP=0
		WRONG_REDUCE=0
	File Input Format Counters 
		Bytes Read=1120
	File Output Format Counters 
		Bytes Written=81
23/04/21 14:20:28 INFO fs.TestDFSIO: ----- TestDFSIO ----- : read
23/04/21 14:20:28 INFO fs.TestDFSIO:            Date & time: Fri Apr 21 14:20:28 CST 2023
23/04/21 14:20:28 INFO fs.TestDFSIO:        Number of files: 10
23/04/21 14:20:28 INFO fs.TestDFSIO: Total MBytes processed: 1280.0
23/04/21 14:20:28 INFO fs.TestDFSIO:      Throughput mb/sec: 109.27095782823972
23/04/21 14:20:28 INFO fs.TestDFSIO: Average IO rate mb/sec: 169.2237548828125
23/04/21 14:20:28 INFO fs.TestDFSIO:  IO rate std deviation: 122.63479701786028
23/04/21 14:20:28 INFO fs.TestDFSIO:     Test exec time sec: 58.044
23/04/21 14:20:28 INFO fs.TestDFSIO:

（3）清除测试数据文件：

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.4-tests.jar TestDFSIO -clean

1. HDFS Shell 操作【重点】

命令	功能	举例
hadoop fs hdfs dfs	两种方式操作 hdfs 文件的命令前缀
-help	输出这个命令参数手册	`hadoop fs -help`
-ls	显示目录信息	`hadoop fs -ls hdfs://ip:9000/` `hadoop fs -ls /`
-put	本地文件上传至 hdfs	把当前目录下的 a.txt 上传到 hdfs： `hadoop fs -put a.txt /hdfsPath`
-get	从 hdfs 下载文件到本地	`hadoop fs -get /a.txt localPath`
-cp	从 hdfs 的一个路径拷贝到另一个路径	把 /a.txt 拷贝到 /aa 下，并更名为 a2.txt `hadoop fs -cp /a.txt /aa/a2.txt`
-mv	在 hdfs 目录中移动文件	`hadoop fs -mv /a.txt /aa`
-mkdir	创建文件夹	`hadoop fs -mkdir /b`
-rm	删除文件或文件夹	`hadoop fs -rm -r /aa/bb`
-rmdir	删除空目录	`hadoop fs -rmdir /aa/bb`
-moveFromLocal	从本地剪切到 hdfs	`hadoop fs -moveFromLocal /home/a.txt /aa/bb`
-moveToLocal	从 hdfs 剪切到本地	`hadoop fs -moveToLocal /aa/bb/a.txt /home`
-copyFromLocal	从本地文件系统中拷贝文件到 hdfs	`hadoop fs -copyFromLocal ./a.txt /aa`
-copyToLocal	从 hdfs 拷贝到本地	`hadoop fs -copyToLocal /a.txt .`
-appendToFile	追加一个文件到已经存在的文件末尾	`hadoop fs -appendToFile ./a.txt /a.txt`
-cat	显示文件内容	`hadoop fs -cat /aa/a.txt`
-tail	显示一个文件的末尾	`hadoop fs -tail /aa/a.txt`
-text	以字符形式打印一个文件的内容	`hadoop fs -text /aa/a.txt`
-chmod	与 Linux 文件系统的用法一样，对文件设置权限	`hadoop fs -chmod 666 /aa/a.txt`
-df	统计文件夹的大小信息	`hadoop fs -df -sh /aa/*`
-count	统计一个指定目录下的文件节点数量	`hadoop fs -count /aa`
-setrep	设置 hdfs 中文本的副本数量	`hadoop fs -setrep 3 /aa/a.txt`
hdfs dfsadmin -report	查看 hdfs 集群工作状态	`Live datanodes (2)` 说明有两台是正常运行的数据节点

2. HDFS API 操作

HDFS 的 API 操作所需的 maven 依赖导入 pom.xml 文件的 module_name 和之间，并等待下载完成

<dependencies>
  <dependency>
    <groupId>org.apache.hadoopgroupId>
    <artifactId>hadoop-commonartifactId>
    <version>2.7.4version>
  dependency>
  <dependency>
    <groupId>org.apache.hadoopgroupId>
    <artifactId>hadoop-clientartifactId>
    <version>2.7.4version>
  dependency>
  <dependency>
    <groupId>org.apache.hadoopgroupId>
    <artifactId>hadoop-hdfsartifactId>
    <version>2.7.4version>
  dependency>
  <dependency>
    <groupId>org.apache.hadoopgroupId>
    <artifactId>hadoop-mapreduce-client-coreartifactId>
    <version>2.7.4version>
  dependency>
dependencies>
<build>
  <plugins>
    <plugin>
      <groupId>org.apache.maven.pluginsgroupId>
      <artifactId>maven-compiler-pluginartifactId>
      <version>3.1version>
      <configuration>
        <source>1.8source>
        <target>1.8target>
        <encoding>UTF-8encoding>
        
      configuration>
    plugin>
    <plugin>
      <groupId>org.apache.maven.pluginsgroupId>
      <artifactId>maven-shade-pluginartifactId>
      <version>2.4.3version>
      <executions>
        <execution>
          <phase>packagephase>
          <goals>
            <goal>shadegoal>
          goals>
          <configuration>
            <minimizeJar>trueminimizeJar>
          configuration>
        execution>
      executions>
    plugin>
  plugins>
build>
<properties>
  <maven.compiler.source>16maven.compiler.source>
  <maven.compiler.target>16maven.compiler.target>
properties>

1. 访问数据

1. 获取 FileSystem

// FileSystem.get()
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import java.io.IOException;

public class hdfs01GetFileSystem {
  public static void main(String[] args) throws IOException {
    // 1. 创建Configuration对象
    Configuration conf = new Configuration();
    // 2. 设置文件系统类型
    // 第二个参数是访问域名，做过域名解析可设置成 hdfs://hadoop0:8020
    conf.set("fs.defaultFS", "hdfs://hadoop0:8020");
    // 3. 获取指定文件系统
    FileSystem fileSystem = FileSystem.get(conf);
    // 4. 打印输出
    System.out.println(fileSystem);
}}

执行上述代码返回下图所示结果即成功：

2. 文件的遍历

// FileSystem.listFiles() + for循环
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;

public class traverseFile {
  public static void main(String[] args) throws IOException, URISyntaxException, InterruptedException {
    // 1. 获取FileSystem，默认端口8020
    FileSystem fileSystem = FileSystem.get(new URI("hdfs://hadoop0:8020"), new Configuration(), "root");
    // 2. 调用 listFile()方法 获取根目录下所有的文件信息
    RemoteIterator<LocatedFileStatus> iterator = fileSystem.listFiles(new Path("/"), true);
    // 3. 遍历迭代器
    while (iterator.hasNext()) {
      LocatedFileStatus fileStatus = iterator.next();
      // 获取文件的绝对路径：hdfs://172.16.15.100/xxx
      System.out.println(fileStatus.getPath() + "===" + fileStatus.getPath().getName());
      // 文件的block信息
      BlockLocation[] blockLocations = fileStatus.getBlockLocations();
      for (BlockLocation blockLocation : blockLocations) {
        String[] hosts = blockLocation.getHosts();
        for (String host : hosts) {
          System.out.println("主机为：" + host);
        }}
      System.out.println("block数量为：" + blockLocations.length);
}}}

输出结果：

hdfs://hadoop0:8020/0320/data.txt===data.txt
主机为hadoop1
主机为hadoop2
block数量为：1
hdfs://hadoop0:8020/0320/merge.txt===merge.txt
主机为hadoop2
主机为hadoop1
block数量为：1
...

3. 创建文件夹

// FileSystem.mkdirs()
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;

public class hdfs03CreateFolder {
  public static void main(String[] args) throws IOException, URISyntaxException, InterruptedException {
    // 1. 获取FileSystem
    FileSystem fileSystem = FileSystem.get(new URI("hdfs://hadoop0:8020"), new Configuration(), "root");
    // 2. 创建文件夹
    fileSystem.mkdirs(new Path("/0320"));
    // 3. 关闭FileSystem
    fileSystem.close();
}}

执行结果：

4. 文件的上传

// FileSystem.copyFromLocalFile()
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;

public class hdfs04FileUpload {
  public static void main(String[] args) throws InterruptedException, IOException, URISyntaxException {
    hdfs04FileUpload fileUpload = new hdfs04FileUpload();
    fileUpload.FileUpload();
  }

  /* 定义上传文件的方法 */
  public void FileUpload() throws URISyntaxException, IOException, InterruptedException {
    // 1. 获取文件系统
    FileSystem fileSystem = FileSystem.get(new URI("hdfs://hadoop0:8020"), new Configuration(), "root");
    // 2. 上传文件
    fileSystem.copyFromLocalFile(new Path("/Users/jason93/Desktop/BigData/file/data.txt"), new Path("/0320"));
    // 3. 关闭FileSystem
    fileSystem.close();
}}

执行结果：

5. 文件的下载

// IOUtils.copy()
import org.apache.commons.io.IOUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import java.io.FileOutputStream;
import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;

public class hdfs05FileDownload {
  public static void main(String[] args) throws IOException, URISyntaxException, InterruptedException {
    // 1. 获取FileSystem
    FileSystem fileSystem = FileSystem.get(new URI("hdfs://hadoop0:8020"), new Configuration(), "root");
    // 2. 获取hdfs的输入流
    FSDataInputStream inputStream = fileSystem.open(new Path("/0320/data.txt"));
    // 3. 获取本地文件的输出流
    FileOutputStream outputStream = new FileOutputStream("/Users/jason93/Desktop/BigData/file/hdfs/dataDown.txt");
    // 4. 文件的拷贝
    IOUtils.copy(inputStream, outputStream);
    // 5. 关闭流
    IOUtils.closeQuietly(inputStream);
    IOUtils.closeQuietly(outputStream);
    fileSystem.close();
}}

运行结果：（其文件内容与 data.txt 一样）

2. 合并小文件

1. 合并小文件上传

首先准备几个小文件

# /Users/jason93/Desktop/BigData/file/hdfs/merge/
# data1.txt
hello,world
# data2.txt
hello,hadoop
# data3.txt
hello,hdfs

代码：

// IOUtils.copy()
import org.apache.commons.io.IOUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;

public class hdfs06MergeFileUpload {
  public static void main(String[] args) throws URISyntaxException, IOException, InterruptedException {
    // 1. 获取FileSystem
    FileSystem fileSystem = 
      FileSystem.get(new URI("hdfs://hadoop0:8020"), new Configuration(), "root");
    // 2. 获取hdfs大文件的输出流
    FSDataOutputStream fsDataOutputStream = 
      fileSystem.create(new Path("/0320/hdfs/merge.txt"));
    // 3. 获取一个本地文件系统
    LocalFileSystem localFileSystem = FileSystem.getLocal(new Configuration());
    // 4. 获取本地文件夹下所有文件的详情
    FileStatus[] fileStatuses = localFileSystem.listStatus(new Path("/Users/jason93/Desktop/BigData/file/hdfs/merge"));
    // 5. 遍历每个文件，获取每个文件的输入流
    for (FileStatus fileStatus : fileStatuses) {
      FSDataInputStream fsDataInputStream = localFileSystem.open(fileStatus.getPath());
      // 6. 将小文件的内容复制到大文件
      IOUtils.copy(fsDataInputStream, fsDataOutputStream);
      IOUtils.closeQuietly(fsDataInputStream);
    }
    // 7. 关闭流
    IOUtils.closeQuietly(fsDataOutputStream);
    localFileSystem.close();
    fileSystem.close();
}}

运行后看结果

2. 合并小文件下载

方式一：通过命令行方式

将 hdfs 的/0320/hdfs/下的三个文件合并下载到本地
说明：若本地该文件不存在则创建写入，若存在则覆盖文件的原内容

# 合并指定目录下的所有文件
hadoop fs -getmerge /0320/hdfs/* /home/data/hdfs/mergeDown.txt
# 合并目录下的指定文件也可以(相对路径)
hadoop fs -getmerge /0320/hdfs/data1.txt /0320/hdfs/data3.txt mergeDown13.txt
# 查看结果：
[root@hadoop0 hdfs]# ls
mergeDown13.txt  mergeDown.txt  merge.txt
[root@hadoop0 hdfs]# cat mergeDown.txt 
hello,world
hello,hadoop
hello,hdfs
[root@hadoop0 hdfs]# cat mergeDown13.txt 
hello,world
hello,hdfs

方式二：通过 Java API方式

// IOUtils.copy()
import org.apache.commons.io.IOUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;

public class hdfs07MergeFileDownload {
  public static void main(String[] args) throws URISyntaxException, IOException, InterruptedException {
    // 1. 获取FileSystem
    FileSystem fileSystem = FileSystem.get(new URI("hdfs://hadoop0:8020"), new Configuration(), "root");
    // 2. 获取一个本地文件系统
    LocalFileSystem localFileSystem = FileSystem.getLocal(new Configuration());
    // 3. 获取本地大文件的输出流
    FSDataOutputStream outputStream = localFileSystem.create(new Path("/Users/jason93/Desktop/BigData/file/hdfs/mergeDown.txt"), true);
    // 4. 获取hdfs下的所有小文件
    RemoteIterator<LocatedFileStatus> listFiles = fileSystem.listFiles(new Path("/0320/hdfs"), true);
    // 5. 遍历
    while (listFiles.hasNext()) {
      LocatedFileStatus locatedFileStatus = listFiles.next();
      FSDataInputStream inputStream = fileSystem.open(locatedFileStatus.getPath());
      // 6. 将小文件复制到大文件中
      IOUtils.copy(inputStream, outputStream);
      IOUtils.closeQuietly(inputStream);
    }
    // 7. 关闭流
    IOUtils.closeQuietly(outputStream);
    localFileSystem.close();
    fileSystem.close();
}}

运行结果：

4. HDFS 原理

1. HDFS 的启动流程【重要】

先启动 NameNode 进程
加载 NameNode 文件夹中存储的磁盘的元数据信息（fsimage + edits_inprogress）
NameNode 在启动完毕后，会在 NameNode 节点启动一个服务，该服务会等待所有 DataNode 上线后汇报块信息
DataNode 一旦上线，就会通过心跳机制把自身所持有的所有块信息汇报给 NameNode
只有 NameNode 等到了所有的 DataNode 的上线以及把所有的块信息都汇报完毕后，最后 NameNode 才能得知：当前集群中所有文件的所有块的副本的分布。这样才代表 NameNode 正常启动

2. DataNode 页面信息介绍

信息说明：

Node：地址和端口
Last Contact：最近通讯时间（正常是 0/1/2 的间隔，若不正常则为最后一次的通讯时间）
Admin State：管理员状态
Capacity：HDFS 容量
Used：已使用容量
Non DFS Used：非 HDFS 使用容量
Remaining：剩余容量
Blocks：块容量
Block pool used：块使用占比
Failed Volumes：失败卷的个数，确定当前数据节点停止服务允许卷出错的服务，0 代表任何卷出错都停止服务
Version：版本

3. HDFS 的读写剖析

1. HDFS 读数据流程

客户端把要读取的文件路径发送给 NameNode
NameNode 获取文件的元信息（主要信息是 block 块的存放位置）返回给客户端
- NameNode 根据 block 块所在节点与客户端的距离判断返回哪个节点，哪个节点离客户端最近就返回哪个
客户端根据返回的信息找到相应 DataNode，然后逐个获取文件的 block，并在客户端本地进行数据追加合并，从而获得整个文件

异常情况： HDFS 在读取文件时，如果其中一个块突然坏掉了怎么办？

客户端在 DataNode 上读取完后，会对读取到的数据进行 checksum 验证（该验证就是将读取到数据和 HDFS 块的元数据进行校验），如果校验过程中发现了错误，则说明该 DataNode 读取的数据不完整，可能这个 DataNode 坏掉了，这时客户端会跟 NameNode 通讯，告诉它存在异常的 DataNode，而客户端可以从拥有该 block 备份的其他 DataNode 上重新读取文件
当 DataNode 确认数据异常后，将会启动异步删除，并同时告诉 NameNode 更新元数据信息，若没有其余副本，则需通过 SecondaryNameNode 进行数据恢复

2. HDFS 写数据流程

具体步骤：

Client 发送写数据请求
NameNode 响应请求，然后做一系列校验，如果能上传该数据则返回该文件的所有切块应该被存放在哪些 DataNode 上的 DataNode 列表
```
block-001: hadoop2 hadoop3
block-002: hadoop3 hadoop4
```
Client 拿到 DataNode 列表后，开始传数据
首先传第一个block-001，DataNode 列表就是 hadoop2 和 hadoop3，Client 就把 block-001 传到 hadoop2 和 hadoop3 上
以此类推，用传第一个数据块的方式传其他的数据
当所有的数据块都传完后，Client 会给 NameNode 返回一个状态信息，表示数据已全部写入成功，或者失败
NameNode 接收到 Client 返回的状态信息来判断当次写入数据的请求是否成功，若成功则更新元数据信息

3. 读写异常情况

场景一：HDFS 在上传文件时，若其中一个 DataNode 突然挂掉了怎么办？

客户端上传文件时与 DataNode 建立 pipeline 管道，管道正向是客户端向 DataNode 发送的数据包，管道反向是 DataNode 向客户端发送 ACK 确认，也就是正确接收到数据包后发送一个已确认接收到的应答
当 DataNode 突然挂掉了，客户端接收不到该 DataNode 发送的 ACK 确认，此时不会立刻终止写入（如果立刻终止，易用性和可用性都太不友好），客户端会通知 NameNode，NameNode 检查该块的副本与规定的不符，会通知其他 DataNode 去复制副本，并将挂掉的 DataNode 作下线处理，不再让它参与文件上传与下载，该过程称为 pipeline recovery

场景二：HDFS 向 DataNode 写入数据失败怎么办？（上传 100MB 的文件，上传到 50MB，突然断了，或 block 由于网络等原因异常了，HDFS 会怎么处理？）

Pipeline 数据流管道会被关闭，ACK 队列中的 packets 会被添加到数据队列的前面以确保数据包不丢失
在已正常存储 block 块的 DataNode 的 blockID 版本会更新（升级），这样发生故障的 DataNode 节点上的 block 数据会在节点恢复正常后被删除，失效节点也会从 Pipeline 中删除
剩下的数据会被写入到 Pipeline 数据流管道中的其他节点上

5. HDFS 三大机制（核心设计）

HDFS 三大核心机制：心跳机制、安全模式、副本存放策略

1. 心跳机制【重要】

Hadoop 是 Master/Slave 架构，Master 中有 NameNode 和 ResourceManager，Slave 中有 DataNode 和 NodeManager。

【心跳机制】：DataNode 每隔一段时间（默认 3 秒）就会跟 NameNode 取得一次联系，从而证明自己还活着，让 NameNode 能够识别到当前集群中有多少存活的节点。

详细点：Master 启动时会启动一个 IPC（Inter-Process Communication，进程间通信）server 服务，等待 Slave 连接；Slave 启动时会主动连接 Master 的 IPC server 服务，并且每隔 3 秒连接一次 Master，这个每隔一段时间去连接一次的机制称为心跳。Slave 通过心跳给 Master 汇报自己的信息，Master 也通过心跳给 Slave 下达命令。NameNode 通过心跳得知 DataNode 的状态，ResourceManager 通过心跳得知 NodeManager 的状态。如果 Master 长时间都没收到 Slave 的心跳，就认为该 Slave 挂掉了。

NameNode 判断 DataNode 是否宕机需要一个标准：超时

timeout（超时时长） = 10 * 心跳时长（3秒） + 2 * 检测心跳是否正常工作的间隔（5分钟）

即 10 * 3 + 2 * 5 * 60 = 630 秒

超时时间可在 hdfs-site.xml 文件中配置 dfs.heartbeat.interval 参数，或使用 Zookeeper 做一个监控，有节点宕机可迅速感知。

心跳机制分两个方面：

命令：NameNode 给 DataNode 发
汇报：DataNode 给 NameNode 发

心跳机制作用：

让 NameNode 能够识别当前各个 DataNode 的状态
DataNode 向 NameNode 传送 心跳数据包

心跳数据包：

该节点自身状态：磁盘使用量、block 块的数量、block 块的状态
该 DataNode 节点保存的所有 block 块的信息
- block 块的信息在 Linux 系统的文件位置：

2. 安全模式【重要】

在正常的启动范围内，HDFS 集群会进入安全模式，无法对外提供服务。安全模式下，客户端不能对任何数据进行操作，只能查看元数据信息。

1. 进入安全模式

进入安全模式的场景：

大概率是因为集群出现问题时进入安全模式
当 HDFS 集群中部分 DataNode 节点宕机后，HDFS 启动服务做恢复
当丢失数据的比例超过 0.1% 时会进入安全模式
- 丢失率 可手动配置
  - 默认是：dfs.safemode.threshold.pct=0.999f
  - 新版本的配置是：dfs.namenode.safemode.threshold-pct=0.999f

若要强制对外提供服务，可使用HDFS命令操作：

hdfs dfsadmin -safemode leave		# 退出安全模式
hdfs dfsadmin -safemode enter		# 进入安全模式
hdfs dfsadmin -safemode get			# 获取安全模式状态
hdfs dfsadmin -safemode wait		# 等待

2. 退出安全模式

hdfs dfsadmin -safemode leave

说明：

找到集群的问题进行修复（比如修复宕机的 DataNode），修复好了会自动退出安全模式
手动强行退出安全模式，并没有真正解决数据丢失的问题

3. 副本存放策略

决定一个数据块的那几个副本（默认是 3）到底该存储到哪些服务器上

原则：

任意一个节点上不可能存储两个一样的副本块
如果一个数据块要保存完整的 3 个副本块，则至少有 3 个节点

副本存放策略：

策略：

第一个副本块选取和客户端相同的节点
第二个副本块选取跟第一个副本块存储节点相邻的机架（Rack）上面的任意一个节点
第三个副本块存放在和第二个副本块所在机架不同的节点上

策略是一个参考，不是硬性标准。所以实际选取存储空间大、不忙的节点

方法： 将每个文件的数据分块存储，每一个数据块又保存多个副本，这些数据块副本分布在不同的机器节点上

作用：数据分块存储和副本存放，是保证可靠性和高性能的关键

6. HDFS 三大组件

重点：组件的职责、元数据

1. NameNode 主节点

1. 职责

维护元数据（查询、修改）
响应客户端的读写数据请求
配置副本存放策略
管理集群数据库负载均衡问题

2. 元数据

如何管理元数据？ 使用 WAL（Write-Ahead Logging）预写日志系统

WAL：数据库中一种高效的日志算法，对于非内存数据库而言，磁盘 I/O 操作是数据库效率的一大瓶颈。在相同的数据量下，采用 WAL 日志的数据库系统在事务提交时，磁盘写操作只有传统的回滚日志的一半左右，大大提高了数据库磁盘 I/O 操作的效率，从而提高了数据库的性能。

说明：MySQL 实现了 WAL，所有的事务操作都会记录日志，若某张表的数据丢失后，可根据该日志拿到对应数据，对表进行恢复

元数据信息的位置：${HADOOP_HOME}/data/namenode/current/ 。示例如下：

相关说明：

（1）edits_inprogress_000… 文件：它是时刻操作的文件，按一定时间或一定大小（不同版本有差异）分割为若干 edits_000… 文件

edits 和 fsimage 的关系：操作性文件 edits_00…-000… 合并起来为镜像文件 fsimage_00… 。比如 fsimage_000…0013725，表示 edits_000…0013725 及之前所有的 edits_000xxx 文件合并后的文件；fsimage_000…0013727 表示 edits_000…0013727 及之前所有的 edits_000xxx 文件合并后的文件。至于什么时候合并，有个 Checkpoint 检查点。后一个 fsimage 包含前一个 fsimage 和更新的 edits 文件，生成两个 fsimage 是起到备份的作用。若合并 edits_000…0013727 时失败，则在 hdfs 冷启动时加载 fsimage_000…0013726、edits_000…0013727 和 edits_inprogress_000… 三个文件即可；当然若合并 edits_000…0013727 成功了，则只加载 fsimage_000…0013727 和 edits_inprogress_000… 两个文件即可
通过生成一个可查看的 xml 文件查看 edits 和 fsimage 文件信息：

# edits 文件：
hdfs oev -i edits_0000000000000013664-0000000000000013665 -o edits.xml
cat edits.xml

# fsimage 文件：
hdfs oiv -i fsimage_0000000000000013725 -p XML -o fsimage.xml
cat fsimage.xml

（2）seen_txid：存放 edits_inprogress_00… 日志最新的 id（存放 transactionId 的文件），比如 edits_inprogress_00xxx0013728，则（3）seen_txid 为13728。format 之后是 0

（4）VERSION：存放 HDFS 集群的版本信息

（5）fsimage_000xxx.md5：校验性文件

NameNode 元数据存储机制：

内存中的元数据信息：metadata，内存中一份完整的元数据信息（目录树结构 + 文件块映射 + 数据库和 DataNode 的映射）
- 目录树结构：文件地址的目录信息
- 文件块映射：文件切分成哪些块
磁盘中的元数据镜像：fsimage 快照 + edits 编辑日志 + edits_inprogress（实时操作变化日志），在 NameNode 的工作目录中
用于衔接内存 metadata 和持久化元数据镜像 fsimage 之间的操作日志（edits 文件）
- 当客户端对 HDFS 中的文件进行新增或修改时，操作记录首先被写入 edits 日志文件中，当客户端操作成功后，相应的元数据会更新到内存 metadata 中

元数据合并的好处【面试点】

大大缩小操作日志的大小
合并后的镜像磁盘文件可以被快速加载到内存中去。可以不用加载所有的操作性文件，只加载 fsimage 和 edits_inprogress 两个文件，有利于加快程序的冷启动

元数据的 Checkpoint： 每隔一段时间，会有 SecondaryNameNode 将 NameNode 上积累的所有 edits 和一个最新的 fsimage 下载到本地，并加载到内存中进行 merge（合并），该过程称为 Checkpoint。

3. NameNode 宕机了怎么办

NameNode 恢复过程包括以下步骤来启动和运行 Hadoop 集群：

使用文件系统元数据副本（FsImage）启动一个新的 NameNode
然后，配置 DataNode 和客户端，以便它们可以确认这个新的 NameNode，即启动
现在，新的 NameNode 将在完成加载最后一个检查点 FsImage（用于元数据信息）并从 DataNode 接收到足够的块报告后开始为客户端提供服务

而在大型 Hadoop 集群上，NameNode 恢复过程可能会消耗大量时间，这在日常维护的情况下成为更大的挑战

2. DataNode 从节点

1. 职责

维护 NameNode 分配给它的 block 块（存储管理用户的文件块数据）
通过心跳机制汇报自身所有的块信息给 NameNode
真正的提供读写数据

数据块的两个参数： 块的大小、副本的个数

data 数据的存放目录：

${HADOOP_HOME}/data/datanode/current/BP-1365453085-172.16.15.103-1646548673937/current/finalized/subdir0/

2. DataNode 上下线

例1：一个集群有 500 个节点，现增加 10 个节点。HDFS 如何表现？

新增加的 DataNode 启动后，会按照配置文件寻找 HDFS 集群的 NameNode 进行汇报
新上线的 DataNode 没有任何数据块的信息，只有自身的状态信息
原来的 DataNode 和新加的 DataNode 之间存在数据倾斜的问题

解决数据倾斜的方法：负载均衡

负载均衡类型：服务器之间的负载均衡、磁盘之间的负载均衡
说明：启动负载均衡需要手工启动一个 start-balance 的进程
负载均衡举例：比如一个节点 4 个磁盘，每个盘 2T，该节点存储了 1T 的数据，若该 1T 的数据都在第一个磁盘上，就意味着其他 3 个磁盘没用到，这时最好做负载均衡：每个磁盘 256G

例2：一个集群 500 个节点，现减少 10 个节点，这 10 个节点上的数据块信息丢失。HDFS 如何表现？

HDFS 集群会利用自身的恢复机制恢复到原来副本块的个数

知识点：

下线节点，在被动情况下，某个块的所有副本所在节点都宕机了，怎么处理？
- 若之前做过 异地灾备，可以从异地机房做数据恢复
- 若之前没做过异地灾备，那数据就丢失了
假设一个节点异常，数据被负载到其他节点上了，后来该节点又恢复了，那数据会重新分配吗？
- 某个数据所在的节点异常，在一个时间间隔（630秒）之内数据不会进行恢复；超过该时间后，若原来是 3 个数据块副本，现在是 2 个，则启动恢复模式恢复成 3 个数据块副本。原节点恢复过来后，会在一个时间间隔后向 NameNode 汇报，NameNode 检测到该数据块副本已经正常了，则恢复过来的节点就不起作用了

3. SecondaryNameNode

职责： 分担 NameNode 合并元数据信息（镜像文件和操作日志）的压力

注意： SecondaryNameNode 不要和 NameNode 配置在一个节点上

说明：

SecondaryNameNode 并不是 NameNode 的热备份，所以当 NameNode 挂掉后不能代替 NameNode 工作，对外提供服务
SecondaryNameNode 只在单机模式、伪分布模式和分布式模式中使用，在高可用、联邦集群中由 StandbyNameNode 取代，所以 SecondaryNameNode 与 StandbyNameNode 是互斥的关系，二者存且仅存一个
SecondaryNameNode 只能帮助 NameNode 恢复部分数据，因为当 SecondaryNameNode 接收到 NameNode 的编辑日志 edits 和镜像文件 fsimage 之后，NameNode 之中的操作还会记录到它本身的编辑日志（edits）中，不会同步到 SecondaryNameNode，所以，SecondaryNameNode 只有 checkpoint 之前的数据，只能恢复部分的数据，如果 NameNode 将 checkpoint 之后的数据丢失则无法恢复

工作机制：

SecondaryNameNode 向 NameNode 发出请求，看 NameNode 是否需要进行 checkpoint 活动
NameNode 返回自己是否需要 checkpoint 活动的结果，若需要则继续，若不需要就没有后续了
SecondaryNameNode 在接收到 NameNode 需要进行 checkpoint 的请求后，会向 NameNode 发起 checkpoint 请求
NameNode 接收到请求后，对编辑日志（edits）进行回滚，然后将编辑日志（edits）和镜像文件（fsimage）拷贝到 SecondaryNameNode 中
SecondaryNameNode 将 NameNode 拷贝过来的 fsimage 和 edits 加载到内存中进行合并，生成新的 fsimage.chkpoint
SecondaryNameNode 将 fsimage.chkpoint 拷贝到 NameNode 中
NameNode 将 fsimage.chkpoint 重新命名为 fsimage

7. HDFS 的高可用和联邦【重点】

1. 高可用（HA）

集群要对外提供服务，首先要保证 NameNode 正常，不能宕机。因为企业一般都 7*24 小时不间断提供服务。保证 NameNode 实时提供服务而不宕机的机制：HA（High Available）高可用

SPOF（Single Point Of Failure）单点故障，是主从架构存在的通性问题

单点故障具体解决方案：做备份

为防止 Active 的 NameNode 宕机，在旁边准备一台 Standby 节点。假设 Active 的 NameNode 节点是 Hadoop0，Standby 的 NameNode 节点是 Hadoop4，若 Hadoop0 宕机了，Hadoop4 会代替它运行。

HDFS 高可用功能，用配置过 Active/Standby 两个 NameNode 实现在集群中对 NameNode 的热备份来解决 NameNode 机器宕机或软硬件升级导致集群无法使用的问题。

元数据信息在 NameNode 节点 Hadoop0 中，当它宕机后，Hadoop4 要迅速取代 Hadoop0，也就意味着 Hadoop4 和 Hadoop0 要存储一模一样的元数据信息，即 Hadoop4 是 Hadoop0 的一个热备份。【重要】

不管 Active 节点做了什么操作，Standby 节点都要 时刻保持同步。

保持同步的方法：创建 JournalNode 集群，NameNode（Active）写入该集群，NameNode（Standby）从该集群中读取。JournalNode 集群的各个节点跟 Zoopeeper 集群类似，每个节点都有可能成为主节点，因此不存在单点故障。至于区分 Active 和 Standby，由 Zookeeper 集群的文件目录树决定。该目录树是一个 LOCK，两个 NameNode 谁先抢到谁就是 Active。

为了保险起见，设置多个 Standby 是否可以？可以，但有条件，也不建议特别多，个位数。

条件：Hadoop2.x 版本中不行，一个 Active 只能对应一个 Standby；Hadoop3.x 版本中可以

多主多从：主节点是一个小集群，从节点也是一个集群（比如 Kudu）

2. 联邦（Federation）

元数据信息加载到内存中，有可能内存放不下，导致 内存受限。解决内存受限问题：联邦

HDFS Federation：指 HDFS 集群可同时存在多个 NameNode，包含多组 HA，每组 HA 中各 NameNode 存储相同元数据，元数据分多份，均分到各组 HA 的 NameNode中。

这种设计可解决单 NameNode 存在的以下问题：

HDFS 集群扩展性
性能更高效
良好的隔离性

HDFS Federation方案：

你可能感兴趣的:(大数据,大数据,hdfs,分布式,hadoop)

GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
华为云分布式缓存服务DCS 8月新特性发布华为云PaaS服务小智华为云分布式缓存
分布式缓存服务（DistributedCacheService，简称DCS）是华为云提供的一款兼容Redis的高速内存数据处理引擎，为您提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力，满足用户高并发及数据快速访问的业务诉求。此次为大家带来DCS8月的特性更新内容，一起来看看吧！
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
KVM+GFS分布式存储系统构建KVM高可用 henan程序媛分布式 GFS 高可用 KVM
一、案列分析1.1案列概述本章案例主要使用之前章节所学的KVM及GlusterFs技术,结合起来从而实现KVM高可用。利用GlusterFs分布式复制卷，对KVM虚拟机文件进行分布存储和冗余。分布式复制卷主要用于需要冗余的情况下把一个文件存放在两个或两个以上的节点,当其中一个节点数据丢失或者损坏之后，KVM仍然能够通过卷组找到另一节点上存储的虚拟机文件，以保证虚拟机正常运行。当节点修复之后，Glu
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
慢速连接攻击是什么？慢速连接攻击怎么防护？快快小毛毛网络 ddos 服务器
慢速连接攻击（SlowConnectionAttack），又称慢速攻击（SlowlorisAttack），是一种网络攻击技术，旨在通过占用服务器上的所有可用连接资源来使其无法响应正常请求。与传统的拒绝服务（DoS）和分布式拒绝服务（DDoS）攻击不同，慢速攻击并不依赖于发送大量数据包来消耗带宽，而是利用HTTP、TCP或SSL等协议的特性，通过发送大量不完整的请求或缓慢发送数据来占用服务器资源，使
分布式锁和spring事务管理暴躁的鱼锁及事务分布式 spring java
最近开发一个小程序遇到一个需求需要实现分布式事务管理业务需求用户在使用小程序的过程中可以查看景点，对景点地区或者城市标记是否想去，那么需要统计一个地点被标记的人数，以及记录某个用户对某个地点是否标记为想去，用两个表存储数据，一个地点表记录改地点被标记的次数，一个用户意向表记录某个用户对某个地点是否标记为想去。由于可能有多个用户同时标记一个地点，每个用户在前端点击想去按钮之后，后台接收到请求，从数据
Gobelieve 架构 weixin_34099526 数据库 golang json
Gobelievegithub地址声明:转简书JackieF的文章,为了自己方便copy了一份,加一些自己的东西.链接：https://www.jianshu.com/p/8121d6e85282IMCore主要分三大块:im客户连接服务器（可分布式部署，暂无负载均衡模块)imr路由查询服务器（主要解决im分布式部署的问题）ims存储服务器(主从部署)基础模块1.数据包协议包：header(12)
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
linux挂载文件夹小码快撩 linux
1.使用NFS（NetworkFileSystem）NFS是一种分布式文件系统协议，允许一个系统将其文件系统的一部分共享给其他系统。检查是否安装NFSrpm-qa|grepnfs2.启动和启用NFS服务假设服务名称为nfs-server.service，你可以使用以下命令启动和启用它：sudosystemctlstartnfs-server.servicesudosystemctlenablenf
Kafka 基础与架构理解 StaticKing KAFKA kafka
目录前言Kafka基础概念消息队列简介：Kafka与传统消息队列（如RabbitMQ、ActiveMQ）的对比Kafka的组件Kafka的工作原理：消息的生产、分发、消费流程Kafka系统架构Kafka的分布式架构设计Leader-Follower机制与数据复制Log-basedStorage和持久化Broker间通信协议Zookeeper在Kafka中的角色总结前言Kafka是一个分布式的消息系
Rides实现分布式锁，保障数据一致性,Redisson分布式事务处理朱杰jjj 缓存分布式
分布式环境下分布式锁有三种方式：基于数据库分布式锁基于Redis分布式锁基于zk分布式锁本帖只介绍Redis分布式锁为什么需要用到分布式锁？在单机环境下一个服务中多个线程对同一个事物或数据资源进行操作时，可以通过添加加锁方式（synchronized和lock）来解决数据一致性的问题。但是如果出现多个服务的情况下，这时候我们在通过synchronized和lock的方式来加锁会出现问题，因为多个服
机电综合管理系统架构小熊coder 机载系统系统架构
文章目录一、机电综合管理系统架构1.系统概述2.架构层次3.核心组件二、余度管理1.余度概述2.硬件冗余3.软件冗余4.通信冗余三、总线架构1.MIL-STD-1553B总线2.ARINC429总线3.ARINC629总线4.AFDX/ARINC664总线四、未来发展趋势1.分布式架构2.高速网络3.智能化与自动化结语机电综合管理系统（ElectromechanicalManagementSyst
华为云分布式缓存服务DCS与开源服务差异对比 hcinfo_18 redis使用华为云 Redis5.0 分布式缓存服务 Redis客户端
分布式缓存服务DCS提供单机、主备、集群等丰富的实例类型，满足用户高读写性能及快速数据访问的业务诉求。支持丰富的实例管理操作，帮助用户省去运维烦恼。用户可以聚焦于业务逻辑本身，而无需过多考虑部署、监控、扩容、安全、故障恢复等方面的问题。DCS基于开源Redis、Memcached向用户提供一定程度定制化的缓存服务，因此，除了拥有开源服务缓存数据库的优秀特性，DCS提供更多实用功能。一、与开源Red
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
Dubbo架构概览：服务注册与发现、远程调用、监控与管理木南曌 dubbo 架构
Dubbo是一个成熟的、高性能的、基于Java的微服务开发框架，它主要用于解决分布式系统中的服务治理问题，包括服务的注册与发现、远程过程调用（RPC）、服务监控与管理等多个关键环节。以下是Dubbo架构概览的详细介绍：服务注册与发现Dubbo的服务注册与发现机制是其核心功能之一，它依赖于注册中心来管理服务的生命周期和定位服务提供者。1.服务提供者（Provider）服务提供者是实际提供服务的节点，
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持