王义凯_Rick

分布式文件系统：HDFS 核心原理

基础架构

HDFS Client

NameNode和DataNode

fsimage和edits

SecondaryNameNode

高可用架构

JournalNode

联邦机制

副本机制

机架感知

安全模式

平衡策略

读写原理

读原理

写原理

删除恢复机制

HDFS相关内容：

HDFS超有用的知识点
Hadoop3新特性之HDFS纠删码
HDFS常用管理命令
HDFS的副本数量配置
HDFS查看namenode状态
统计HDFS目录下文件行数及文件大小

基础架构

HDFS（Hadoop Distributed File System）是 Apache Hadoop 项目的一个子项目，Hadoop 非常适于存储大型数据, 其就是使用 HDFS 作为存储系统，而HDFS 使用多台计算机存储文件，并且提供统一的访问接口，像是访问一个普通文件系统一样使用分布式文件系统。作为大数据生态最重要的组件之一，HDFS充当着大数据时代的数据管理者的角色，为各种分布式计算组件提供用于处理的数据存储的能力。

HDFS 基础架构由四个角色组成：HDFS Client、NameNode、DataNode 和 SecondaryNameNode。

HDFS Client

HDFS客户端提交读写命令到HDFS，它负责：

文件切分：文件上传 HDFS的时候，Client 将文件切分成一个个Block（数据块），然后进行存储。
与 NameNode 交互：获取文件真实的位置信息。
与 DataNode 交互：读取或写入数据。
Client 提供一些命令来管理和访问HDFS，比如启动或者关闭HDFS。

NameNode和DataNode

NameNode 是HDFS的Master节点，它负责：

管理 HDFS 的名称空间；
管理数据块（Block）映射信息；
配置副本策略；
处理客户端读写请求；
周期性的接收心跳和块的状态信息报告；

DataNode 是HDFS的Slave节点，它负责：

存储实际的数据块；
执行数据块的读/写操作；
周期性向NameNode汇报心跳信息；
周期性向NameNode汇报数据块信息；
周期性向NameNode汇报缓存数据块信息；

fsimage和edits

在Hadoop集群当中，NameNode的所有元数据信息都保存在fsimage 与 edits 文件中, 这两个文件记录了所有的数据的元数据信息，当集群重启时NameNode首先会从fsimage和edits文件中将元数据信息加载到内存中，因此NameNode机器对内存的要求相对会比DataNode高很多，元数据信息的保存目录配置在了 hdfs-site.xml 中的这两个参数：dfs.namenode.name.dir，dfs.namenode.edits.dir。

edits

存放了客户端最近一段时间的操作日志；
客户端对 HDFS 进行写文件时的操作会先被记录在 edits 文件中；
edits 修改时元数据也会更新；

fsimage

NameNode 中关于元数据的镜像，一般称为检查点，fsimage 存放了一份比较完整的元数据信息；
因为 fsimage 是 NameNode 的完整的镜像, 如果每次都加载到内存生成树状拓扑结构，这是非常耗内存和CPU, 所以一般开始时对NameNode 的操作都放在 edits 中；
fsimage 内包含了 NameNode 管理下的所有 DataNode 文件和文件 block 以及 block所在的 DataNode 的元数据信息；
随着 edits 内容增大，就需要在一定策略下和 fsimage 合并；

由于集群重启时NameNode会重新加载fsimage和edits文件，fsimage文件加载起来很快，但edits文件内记录的都是操作日志，因此edits文件不能无限增长，否则重放日志很慢，会影响到集群启动的速度，因此edits文件和fsimage会定期进行合并。

SecondaryNameNode

SecondaryNameNode不是NameNode 的热备。当NameNode 挂掉的时候，它并不能马上替换 NameNode 并提供服务，而是作为一个辅助者分担NameNode的工作量。在后面的内容中介绍的HDFS的高可用中会介绍真正的NameNode热备机制。

定期合并 fsimage和edits，并推送给NameNode，把 edits 控制在一个范围内。
在紧急情况下，可辅助恢复 NameNode。

上面提到edits文件会根据一定策略和fsimage合并，主要由core-site.xml文件中的两个参数来管理：



  fs.checkpoint.period
  3600



  fs.checkpoint.size
  67108864

当edits和fsimage文件合并策略触发时，合并流程如下：

SNN（SecondaryNameNode）通知NN（NameNode）暂时切换将日志写到edits.new内；
SNN通过GET请求将NN中的edits和fsimage文件加载到内存中；
SNN将内存中的edits和fsimage合并生成新的fsimage.ckpt文件；
SNN通过POST请求将生成的fsimage.ckpt文件传给NN；
NN将收到的fsimage.ckpt替换旧的fsimage文件；
NN将edits.new替换旧的edits文件；

高可用架构

JournalNode

上面我们介绍的都是HDFS的基础架构，从上面的内容中我们也可以看出，NameNode对于HDFS很重要，整个HDFS文件系统的元数据信息都由NameNode来管理，NameNode的可用性直接决定了Hadoop 的可用性，一旦NameNode进程不能工作了，就会影响整个集群的正常使用。因此在Hadoop2.x版本中加入了HDFS HA的特性，在典型的HA集群中，两台独立的机器被配置为NameNode。在工作集群中，NameNode机器中的一个处于Active状态，另一个处于Standby状态。Active NameNode负责群集中的所有客户端操作，而Standby充当从服务器，Standby机器保持足够的状态以提供快速故障切换。

两个NameNode为了数据同步，会通过一组称作JournalNodes的独立进程进行相互通信。当Active 状态的NameNode的命名空间有任何修改时，会告知大部分的JournalNodes进程。Standby 状态的NameNode有能力读取JNs中的变更信息，并且一直监控edit log的变化，把变化应用于自己的命名空间。Standby 可以确保在集群出错时，命名空间状态已经完全同步了，以此达到快速故障切换。

在HA架构下，SecondaryNameNode被JournalNode替代，实现两个NameNode之间的信息同步，由Zookeeper实现两个NameNode之间的高可用，相关的组件如下：

ZKFailoverController：是基于Zookeeper的故障转移控制器，它负责控制NameNode的主备切换，ZKFailoverController会监测NameNode的健康状态，当发现Active NameNode出现异常时会通过Zookeeper进行一次新的选举，完成Active和Standby状态的切换；
HealthMonitor：周期性调用NameNode的HAServiceProtocol RPC接口（monitorHealth 和 getServiceStatus），监控NameNode的健康状态并向ZKFailoverController反馈；
ActiveStandbyElector：接收ZKFC的选举请求，通过Zookeeper自动完成主备选举，选举完成后回调ZKFailoverController的主备切换方法对NameNode进行Active和Standby状态的切换；
DataNode：NameNode包含了HDFS的元数据信息和数据块信息（blockmap），为了确保快速切换，Standby 状态的NameNode有必要知道集群中所有数据块的位置。为了做到这点，所有的DataNode必须配置两个NameNode的地址，同时发送数据块位置信息和心跳给他们两个。
共享存储系统（JournalNode）：共享存储系统负责存储HDFS的元数据（EditsLog），Active NameNode（写入）和 Standby NameNode（读取）通过共享存储系统实现元数据同步，在主备切换过程中，新的Active NameNode必须确保元数据同步完成才能对外提供服务；对于HA集群而言，确保同一时刻只有一个NameNode处于active状态是至关重要的。否则，两个NameNode的数据状态就会产生分歧，可能丢失数据，或者产生错误的结果。为了保证这点，JNs必须确保同一时刻只有一个NameNode可以向自己写数据。

Hadoop3.x版本中的新特性允许2个以上的NameNode节点，该功能能够通过运行更多Standby NameNode来提供更高的容错性，满足一些部署的需求。比如，通过配置3个NameNode和5个JournalNode，集群能够满足允许两个节点故障的容错。

联邦机制

虽然HA模式保证了NameNode的高可用，但HDFS中其实最严重的问题就是小文件过多导致的NameNode维护的元数据信息过多，由此引起的性能下降的问题，因此无论在MapReduce还是Spark程序中都应当尽量避免产生过多小文件。同时HDFS也推出了NameNode的水平扩展方案：联邦机制（Federation）。

HDFS联邦机制表示有多个NameNode，但和HA模式下的多个NameNode的意思不同，在HA模式下的NameNode是主备的概念，而联邦机制中的多NameNode类似分管，表示某个NameNode管理某块命名空间（namespace）内的元数据信息，将本来大量的元数据信息分散在多个NameNode上进行管理，它们之间相互独立不需要互相协助，各自分工，管理自己的区域。

同一个namespace下的block集合被称为Block Pool（存储池），因此在联邦机制下，每个NameNode对应一个Block Pool，对应到DataNode中就是一个个的Block Pool，分别有对应的ID，这时候在DataNode上就不仅仅存储一个Block Pool下的数据了,而是多个，且存储在DataNode的datadir路径里的名为BP-xx.xx的目录。

联邦机制的好处是，多个NameNode共有一个集群里的存储资源，且每个NameNode都可以单独对外提供服务，解决了单个Active NameNode的内存瓶颈问题。但联邦还是没有解决单点故障的问题，假如维护namespace为BP-003的NameNode宕机，则客户端也无法读取DataNode中的/BP-003的数据，因此当集群规模较大的时候，应采用HA+Federation的部署方案，即上图中每个Active NameNode都对应了一个Standby NameNode提升可用性。

副本机制

HDFS中的文件以Block块的形式存储在HDFS文件系统中，目的为：

一个文件有可能大于集群中任意一个磁盘，引入块机制,可以很好的解决这个问题；
使用块作为文件存储的逻辑单位可以简化存储子系统；
块非常适合用于数据备份，提供数据容错能力；

在 Hadoop1.x 当中, 文件的 block 块默认大小是 64M，在Hadoop2.x中, 文件的 block 块大小默认是128M, block 块的大小和副本数量可以通过 hdfs-site.xml 当中的配置文件进行指定：



    dfs.block.size
    134217728




    dfs.replication
    3

注意：

当文件大于配置的块大小时会被拆分，如130M的文件会被拆分为两个块，一个128M另一个2M。

当文件小于配置的块大小时不会拆分，如100M的文件不会拆分，只有一个100M的块。

机架感知

分布式的集群通常包含非常多的机器，由于受到机架槽位和交换机网口的限制，通常大型的分布式集群都会跨好几个机架，由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之间的网络速度，并且机架之间机器的网络通信通常受到上层交换机间网络带宽的限制。

Hadoop在设计时考虑到数据的安全与高效，数据文件默认在HDFS上存放三份，存储策略为:

第一个block副本放在客户端所在的数据节点里（如果客户端不在集群范围内，则从整个集群中随机选择一个合适的数据节点来存放）；
第二个副本放置在与第一个副本所在节点不同的机架内的数据节点上（随机选择）；
第三个副本放置在不同机架的节点上；
如果还有其他副本，则随机放在其他节点上；

这样设计的好处是：

当本地数据损坏时，节点可以从同一机架内的相邻节点拿到数据，速度肯定比从跨机架节点上拿数据要快；
当整个机架的网络出现异常，也能保证在其它机架的节点上找到数据；

为了降低整体的带宽消耗和读取延时，HDFS会尽量让程序读取离它最近的节点上的副本，以节约带宽和提升性能。HDFS通过机架感知这一特性实现此功能。

在默认情况下，机架感知没有被启用，所有的机器hadoop都默认在同一个默认的机架下，名为 “/default-rack”，这种情况下，任何一台datanode机器，不管物理上是否属于同一个机架，都会被认为是在同一个机架下，此时，就很容易出现增添机架间网络负载的情况。因为此时hadoop集群的HDFS在选机器的时候，是随机选择的，也就是说，很有可能由于副本的随机分配导致大量的网络传输从而影响性能和集群的服务。

通过修改配置文件core-site.xml 中的参数 topology.script.file.name 开启机架感知，value指定为一个可执行程序，通常为一个脚本（根据入参IP返回该IP地址对应的datanode所在的rack）。

例：网络拓扑如下图：

开启机架感知后，NameNode就可以画出上图所示的datanode网络拓扑图。D1,R1都是交换机，最底层是datanode。则H1的rackid=/D1/R1/H1，H1的parent是R1，R1的parent是D1。有了这些rackid信息就可以计算出任意两台datanode之间的距离。

distance(/D1/R1/H1,/D1/R1/H1)=0  相同的datanode
distance(/D1/R1/H1,/D1/R1/H2)=2  同一rack下的不同datanode
distance(/D1/R1/H1,/D1/R1/H4)=4  同一IDC下的不同datanode
distance(/D1/R1/H1,/D2/R3/H7)=6  不同IDC下的datanode

安全模式

安全模式是hadoop的一种保护机制，用于保证集群中的数据块的安全性。当集群启动的时候，会首先进入安全模式，当系统处于安全模式时会检查数据块的完整性。

假设我们设置的副本数（即参数dfs.replication）是5，那么在datanode上就应该有5个副本存在，假设只存在3个副本，那么比例就是3/5=0.6。在配置文件hdfs-default.xml中定义了一个最小的副本的副本率0.999，我们的副本率0.6明显小于0.99，因此系统会自动的复制副本到其他的dataNode,使得副本率不小于0.999.如果系统中有8个副本，超过我们设定的5个副本，那么系统也会删除多余的3个副本。

在安全模式下，系统会处于只读状态，NameNode不会处理任何数据块的复制和删除命令。DataNode会向NameNode上传他们数据块的列表，让NameNode得到数据块的位置信息，并对每个文件对应的数据块副本进行统计：

当最小副本条件满足时，即：一定比例的数据块都到达最小副本数，系统会在30s后退出安全模式。
当最小的副本条件未达到要求时，就会对副本数不足的数据块安排DataNode进行复制，直到达到最小的副本数。

注意：在启动一个刚刚格式化的HDFS时由于没有数据块，所以系统不会进入安全模式。

HDFS安全模式操作命令：

hdfs dfsadmin  -safemode  get #查看安全模式状态
hdfs dfsadmin  -safemode enter #进入安全模式
hdfs dfsadmin  -safemode leave #离开安全模式

安全模式相关参数在hdfs-site.xml 文件中配置：



    dfs.namenode.safemode.threshold-pct
    0.999f




    dfs.namenode.safemode.extension
    30000

如果 NameNode 长时间处于安全模式，可能是因为 hdfs 的数据损坏过多。使用命令hadoop fsck / 检查 hdfs 文件分布的情况。

平衡策略

在HDFS的DN节点间的数据不平衡情况下，尤其在新增和下架节点、或者人为干预副本数量的时候，会大大的影响数据读取的性能，降低任务的执行速度甚至崩溃，因此HDFS有一个组件叫做Balancer，使用该组件可以保证每个节点的数据均衡分布。

#开始数据平衡：
#用默认的10%的阈值启动balancer
start-balancer.sh    
#或指定3%的阈值启动balancer
hdfs dfs balancer -threshold 3
start-balancer.sh -threshold 3    

#停止数据平衡：
stop-balancer.sh

hdfs balancer
      [-threshold ]
      [-policy ]
      [-exclude [-f  | ]]
      [-include [-f  | ]]
      [-idleiterations ]

-threshold  10      #集群平衡的条件，datanode间磁盘使用率相差阈值，区间选择：0~100。Threshold参数为集群是否处于均衡状态设置了一个目标
-policy datanode    #默认为datanode，datanode级别的平衡策略
-exclude  -f  /tmp/ip1.txt  #默认为空，指定该部分ip不参与balance， -f：指定输入为文件
-include  -f  /tmp/ip2.txt  #默认为空，只允许该部分ip参与balance，-f：指定输入为文件
-idleiterations  5          #最大迭代次数，默认为 5

可选的配置参数如下：

#并行移动的block数量，默认5
dfs.datanode.balance.max.concurrent.moves

#Balance工具所占用的带宽，默认1048576(1MB)
dfs.datanode.balance.bandwidthPerSec

#用于执行block移动的线程池大小，默认1000
dfs.balancer.moverThreads

#每次balance进行迭代的过程最大移动数据量，默认10737418240(10GB)
dfs.balancer.max-size-to-move

#获取block的数量，默认2147483648(2GB)
dfs.balancer.getBlocks.size

#用来平衡的最小block大小，默认10485760（10MB）
dfs.balancer.getBlocks.minblock-size

平衡算法根据各Datanode的使用情况，将集群中的节点分为四类：过度闲置、平均值以下、平均值以上、过度使用。

然后根据划分的角色进行配对：

过度使用--> 过度闲置
过度使用-->平均值下
平均值上-->过度闲置

为了保证HDFS数据安全性，数据块移动策略如下：

源DataNode的存储类型和目的DataNode的存储类型一致；
该block的副本未被安排；
目的DataNode不包含同样的副本；
移动之后该机架上的block不会减少；

根据角色配对以及移动策略，Balancer数据均衡流程为：

与NameNode交互，获取DataNode磁盘使用情况；
根据数据分布情况对DataNode进行角色划分并配对；
根据移动策略从源DataNode移动block到目标DataNode，并删除源DataNode上的block；
获取移动结果，并继续移动其他数据块，直到没有数据可以移动或者HDFS集群以及达到了平衡的标准为止，然后向NameNode提交更新后的DataNode信息；

当触发下面的条件时，Balancer会自动退出：

集群已达到均衡状态；
没有block能被移动；
连续5次(参数：idleiterations) 迭代移动没有任何一个block被移动；
当与NameNode交互时出现了IOException；
另一个Balancer进程在运行中。

读写原理

读原理

客户端向HDFS发送读取文件的请求完整流程如下：

客户端向NN提交读请求；
NN进行权限检查、获取文件块列表：{blk_a_1: dn1,dn2,dn4 ;blk_a_2: dn2,dn3,dn4}
NN根据机架感知将距离客户端最近的文件块所在的DN列表返回给客户端：{blk_a_1:dn1, blk_a_2:dn2}
客户端和每个block所在的DN建立管道;
客户端读取数据，以数据包packet(64k)进行传输;
客户端将接收到的block合并为一个完整的文件；

NameNode会视情况返回文件的部分或者全部block列表，对于每个block，NameNode 都会返回含有该 block 副本的 DataNode 地址；这些返回的 DN 地址，会按照集群拓扑结构得出 DataNode 与客户端的距离，然后进行排序，排序两个规则：网络拓扑结构内距离Client 近的排靠前；心跳机制中超时汇报的 DN 状态为 STALE，这样的排靠后；以此来提升网络传输的效率。

客户端选取排序靠前的 DataNode 来读取 block，如果客户端本身就是DataNode,那么将从本地直接获取数据（短路读取）。

每读取完一个 block 都会进行 checksum 验证，如果读取 DataNode 时出现错误，客户端会通知 NameNode，然后再从下一个拥有该block 副本的DataNode 继续读。

写原理

客户端向HDFS发送上传文件的请求完整流程如下：

客户端向NameNode提交写请求；
NN进行权限检查、判断是否满足写条件；
NN返回信息：可以上传；并将写操作记录在edits日志内。
客户端根据HDFS的块策略将文件切分为n个block文件块；
请求上传第一个文件块blk_a_1；
根据DN上的block信息和机架感知，选出可以上传的DN列表：(dn1,dn2,dn4)；
NN返回可上传的DN列表(dn1,dn2,dn4)；
客户端和DN建立数据传输管道，上传的DN之间也建立管道；
客户端向DN以数据包packet(64k)传递数据，dn1收到一个packet会传给dn2，dn2收到会传给dn4，每传一个packet会放入一个应答队列等待应答；
DN将收到的packet数据包进行缓存；
在管道的反方向上, DN逐个发送 ack（命令正确应答）, 最终由管道中第一个DN节点dn1将ack发送给客户端；
当文件块block的packet传输完成则将缓存的临时文件放置在指定的HDFS上传路径；
继续上传其余的block文件块；
所有block上传完毕后返回完成信号给NN；

删除恢复机制

当从HDFS中删除某个文件时，这个文件并不会立刻从HDFS中删除，而是将这个文件重命名并转移到回收站 /trash目录，只要这个文件还在/trash目录下，该文件就可以迅速被恢复。回收站的位置在HDFS上的/user/$USER/.Trash/Current/

文件在/trash目录中存放的时间默认为6个小时，当超过这个时间时，NN就会将文件从名称空间中删除；

删除文件会使得该文件相关的数据块被释放；注意：从用户删除文件到HDFS空闲空间的增加之间会有一定时间的延迟；

通过修改hdfs-site.xml文件中下面的配置可以修改回收站过期的时间：

#时间单位是秒

    fs.trash.interval
    1440

希望本文对你有帮助，请点个赞鼓励一下作者吧~ 谢谢！

你可能感兴趣的:(#,hdfs)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
【HDFS】【HDFS架构】【HDFS Architecture】【架构】资源存储库 hdfs 架构 hadoop
目录1Introduction介绍2AssumptionsandGoals假设和目标HardwareFailure硬件故障StreamingDataAccess流式数据访问LargeDataSets大型数据集SimpleCoherencyModel简单凝聚力模型“MovingComputationisCheaperthanMovingData”“移动计算比移动数据更便宜”PortabilityAc
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
hdfs启动流程 weixin_44352020 hadoop hdfs hadoop
Namenode1.init()namenode初始化，执行加载配置文件等操作2.loadFsImage()开始加载元数据将FsImage护额徐为目录树，保存在内存中FsImage中主要包含了问价你和数据块的对应关系3.loadEditlog()加载Editlog，将Editlog中记录的元数据修改应用到内存中；4.saveCheckpoint()将内存中最新的目录树持久化为新的FsImage到磁
hdfs开机启动流程鸭梨山大哎 hadoop hdfs
第一步：加载name目录下最新的那个fsimage_xxx019文件，将里面存储的元数据（目录树结构）维护到内存中，但是还不是关机前的状态第二步：将关机前的最后使用的edits_inprogress_xxxx0160进行重命名edits_0000000000000000160-0000000000000000169操作，然后生成一个最新的edits_inprogress_xxx170文件，并修改s
hadoop启动HDFS命令 m0_67401228 java 搜索引擎 linux 后端
启动命令：/hadoop/sbin/start-dfs.sh停止命令：/hadoop/sbin/stop-dfs.sh
【HDFS主从集群】存在两个独立的问题和解决方案流辉fglow 大数据 #HDFS hdfs java hadoop 大数据分布式学习
主从集群存在两个独立的问题和解决方案单点“主”的两个独立的问题以下是解决方案HA高可用方案：解决单点故障导致集群整体不可用问题Federation联邦机制：解决NN压力过大问题总结一般很多技术都是主从结构（最简单的结构）优点：结构相对简单，主与从协作“主”是单点，好处有，缺点也有好处：单点NameNode，数据一致性好掌握因为一个人管，说一不二的单点“主”的两个独立的问题关键词：独立：两套独立
【HDFS】角色的架构设计流辉fglow #HDFS 大数据 hdfs hadoop 大数据学习分布式
HDFS角色的架构设计前置知识：Windows与Linux文件系统的差异HDFS中的角色及功能HDFS的架构NameNodeDataNodeNameNode元数据的持久化说明：/表示两个词是同一语义，方便你理解的前置知识：Windows与Linux文件系统的差异Windows&LInux虽然都有硬盘/分区、目录，但感受很不同的是：Windows：有很强的分区概念，要先通过不同的“盘符”去找文件在命
HDFS的启动过程 ffbc2020 HDFS HDFS
HDFS的启动过程HDFS的启动过程分为四个阶段：第一阶段：NameNode读取包含元数据信息的fsimage文件，并加载到内存；第二阶段：NameNode读取体现HDFS最新状态的edits日志文件，并加载到内存中第三阶段：生成检查点，SecondaryNameNode将edits日志中的信息合并到fsimage文件中第四阶段：进入安全模式，检查数据块的完整性HDFS的安全模式什么是安全模式安全
集群hdfs启动 sxu~源 hdfs hadoop big data
1）各个模块分开启动/停止（配置ssh是前提）常用（1）整体启动/停止HDFSstart-dfs.sh/stop-dfs.sh（2）整体启动/停止YARNstart-yarn.sh/stop-yarn.sh2）各个服务组件逐一启动/停止（1）分别启动/停止HDFS组件hdfs--daemonstart/stopnamenode/datanode/secondarynamenode（2）启动/停止Y
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
Hadoop常见面试题整理及解答叶青舟 Linux hdfs 大数据 hadoop linux
Hadoop常见面试题整理及解答一、基础知识篇：1.把数据仓库从传统关系型数据库转到hadoop有什么优势？答：（1）关系型数据库成本高，且存储空间有限。而Hadoop使用较为廉价的机器存储数据，且Hadoop可以将大量机器构建成一个集群，并在集群中使用HDFS文件系统统一管理数据，极大的提高了数据的存储及处理能力。（2）关系型数据库仅支持标准结构化数据格式，Hadoop不仅支持标准结构化数据格式
hive表格统计信息不准确 weixin_41956627 hive hive hadoop 数据仓库
问题描述有个hive分区表，orc存储格式，有个分区，查询selectcount(1)fromtablewheredt='yyyyMMdd'结果是0，但查询select*fromtablewheredt='yyyyMMdd'又能查到数据，去hdfs对应目录下查看，也能看到有数据文件解决执行如下sqlANALYZETABLEdb.table1PARTITION(dt='20240908')COMPU
人生苦短我用Python pandas文件格式转换程序喵D 人生苦短我用Python python pandas
人生苦短我用Pythonpandas文件格式转换前言示例1excel与csv互转常用格式的方法FlatfileExcelJSONXML示例2常用格式转换简要需求依赖export方法main方法附其它格式的方法HTMLPicklingClipboardLatexHDFStore:PyTables(HDF5)FeatherParquetORCSASSPSSSQLGoogleBigQuerySTATA前
深入解析HDFS：定义、架构、原理、应用场景及常用命令 CloudJourney hdfs 架构 hadoop
引言Hadoop分布式文件系统（HDFS，HadoopDistributedFileSystem）是Hadoop框架的核心组件之一，它提供了高可靠性、高可用性和高吞吐量的大规模数据存储和管理能力。本文将从HDFS的定义、架构、工作原理、应用场景以及常用命令等多个方面进行详细探讨，帮助读者全面深入地了解HDFS。1.HDFS的定义1.1什么是HDFSHDFS是Hadoop生态系统中的一个分布式文件系
解决flume在抽取不断产生的日志文件时，hdfs上出现很多小文件的问题 lzhlizihang flume hdfs 大数据
问题在使用flume时，需要编写conf文件，然后执行，明明sinks已经指定了roll的三个参数：a1.sinks.k1.hdfs.rollInterval=0（根据写入时间来切割）a1.sinks.k1.hdfs.rollSize=0（根据写入的文件大小来切割）a1.sinks.k1.hdfs.rollCount=0（根据Event数量来切割）其中0代表不根据其属性来切割文件但是hdfs上还会
Hadoop的搭建流程 lzhlizihang hadoop 大数据分布式
文章目录一、配置IP二、配置主机名三、配置主机映射四、关闭防火墙五、配置免密六、安装jdk1、第一步：2、第二步：3、第三步：4、第四步：5、第五步：七、安装hadoop1、上传2、解压3、重命名4、开始配置环境变量5、刷新配置文件6、验证hadoop命令是否可以识别八、全分布搭建7、修改配置文件core-site.xml8、修改配置文件hdfs-site.xml9、修改配置文件hadoop-en
hive搭建 -----内嵌模式和本地模式 lzhlizihang hive hadoop
文章目录一、内嵌模式（使用较少）1、上传、解压、重命名2、配置环境变量3、配置conf下的hive-env.sh4、修改conf下的hive-site.xml5、启动hadoop集群6、给hdfs创建文件夹7、修改hive-site.xml中的非法字符8、初始化元数据9、测试是否成功10、内嵌模式的缺点二、本地模式（最常用）1、检查mysql是否正常2、上传、解压、重命名3、配置环境变量4、修改c
详解 JuiceFS sync 新功能，选择性同步增强与多场景性能优化 Juicedata 性能优化
JuiceFSsync是一个强大的数据同步工具，支持在多种存储系统之间进行并发同步或迁移数据，包括对象存储、JuiceFS、NFS、HDFS、本地文件系统等。此外，该工具还提供了增量同步、模式匹配（类似Rsync）、分布式同步等高级功能。在最新的v1.2版本中，针对Juicesync我们引入了多项新功能，并对多个场景进行了性能优化，以提高用户在处理大目录和复杂迁移时的数据同步效率。新增功能增强选择
Hadoop HDFS中的NameNode、SecondaryNameNode和DataNode BigDataMLApplication 大数据 hadoop hadoop hdfs 大数据
HadoopHDFS中的NameNode、SecondaryNameNode和DataNode目录1.定义2.主要作用3.官方链接1.定义在HadoopHDFS（Hadoop分布式文件系统）中，有三个关键的组件：NameNode、SecondaryNameNode和DataNode。NameNodeNameNode是HDFS的主要组件之一，负责管理文件系统的命名空间、存储文件的元数据信息以及处理客
【Hadoop|HDFS篇】NameNode和SecondaryNameNode Vez'nan的幸福生活 hadoop hdfs 大数据
1.NN和2NN的工作机制思考：NameNode中的元数据是存储在哪里的？首先，我们做个假设，如果存储在NameNode节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需要存放在内存中。但如果只存在内存中，一旦断电，元数据丢失，整个集群就无法工作了。因此产生在磁盘中备份元数据的Fslmage。这样又会带来新的问题，当在内存中的元数据更新时，如果同时更新FsIm
Hbase的简单使用示例傲雪凌霜，松柏长青后端大数据 hbase 数据库大数据
HBase是基于HadoopHDFS构建的分布式、列式存储的NoSQL数据库，适用于存储和检索超大规模的非结构化数据。它支持随机读写，并且能够处理PB级数据。HBase通常用于实时数据存取场景，与Hadoop生态紧密集成。使用HBase的Java示例前置条件HBase集群：确保HBase集群已经安装并启动。如果没有，你可以通过本地伪分布模式或Docker来运行HBase。Hadoop配置：HBas
HBase 傲雪凌霜，松柏长青大数据后端 hbase 数据库大数据
ApacheHBase是一个基于Hadoop分布式文件系统（HDFS）构建的分布式、面向列的NoSQL数据库，主要用于处理大规模、稀疏的表结构数据。HBase的设计灵感来自Google的Bigtable，能够在海量数据中提供快速的随机读写操作，适合需要低延迟和高吞吐量的应用场景。HBase核心概念表（Table）：HBase的数据存储在表中，与传统的关系型数据库不同，HBase的表是面向列族（Co
Hive的优势与使用场景傲雪凌霜，松柏长青后端大数据 hive hadoop 数据仓库
Hive的优势Hive作为一个构建在Hadoop上的数据仓库工具，具有许多优势，特别是在处理大规模数据分析任务时。以下是Hive的主要优势：1.与Hadoop生态系统的紧密集成Hive构建在Hadoop分布式文件系统(HDFS)之上，能够处理海量数据并进行分布式计算。它利用Hadoop的MapReduce或Spark来执行查询，具备高度扩展性，适合大数据处理。2.支持SQL-like查询语言(Hi
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S