Flood_Dragon

Hadoop中HDFS文件系统NameNode的Federation设计文档(HDFS-1052：Hdfs scalability with multiple namenodes)

原文请参：
https://issues.apache.org/jira/browse/HDFS-1052
https://issues.apache.org/jira/secure/attachment/12453067/high-level-design.pdf

译文如下：

1 Introduction

Terminology:

Federated HDFS, Namenode Federation：容许多个namespace在一个Hdfs集群，并且在多个集群之间进行协作。这个文档中主要是指一个HDFS集群中，存在多个namespace

Horizontal Scaling：通过增加额外的单元来进行扩展，如servers。

Hdfs Cluster：当前集群是指，一个单一的Namespace(NameNode)以及多个Datanodes。新的集群是指，多个Namespace(NameNode)共享多个Datanodes的Storage

Namenode：一个能够访问Namespace的server

Namespace Volume：包含Namespace及其block集，独立的管理集合。

Vertical Scaling：通过使用更强大的unit，如大server，大memory，更多cores

目前的HDFS使用一个Namenode来管理Namespace，单一的NN导致了以下的缺陷：

1、Scalability：NN使用内存来管理的文件系统的metadata，内存的大小直接限制了文件系统的大小（包括Storage和Namespace）

2、Performance：文件系统吞吐量也完全由单一的NN限制

3、Isolation：多个私立的环境没法做到隔离，Namenode作为中心节点容易无法隔离各个环境

4、Availability：NN是HDFS集群的SPOF。

Limits to Vertical Scaling of Namenode

单一server的内存大小终究是有限的，优化NN去更有效的使用内存是一个很复杂的事情，另外大内存带来的GC问题，以及启动时间加长，调试内存信息也更困难，大JVM下调试工具支持有限。

1、1 Background

当前HDFS架构有两层，如下：

1、Namespace管理层：管理Namespace中的 directories, files and blocks。提供文件和目录的 creation/modification/deletion/listing

2、Block管理层：主要由两个部分组成：

1、Block管理：管理Datanodes，提供Block相关的操作，如： creation/deletion/modification/gettingLocation/ replicaPlacement/blockR eplication

2、Storage管理：物理存储管理，访问block数据

当前的HDFS实现架构如下：

1、NN实现Namespace和Block的管理。

DN提供物理的存储和访问Blk数据，DN注册到NN的blk管理层，为HDFS提供Storage层。尽管从现在代码来看，DN注册到NN，然后与NN进行通信，但是实际2、上DN仅仅与NN的blk管理层通信而不会参与的Namespace管理。

3、因此blk管理层一部分在DN中，一部分在NN中

现在的实现及JavaApi都没有提供比较干净的隔离

Block Identification：每个文件都是由一个或多个blk组成，每个blk有一个64位的数字id，在全局唯一。当前的集群中仅有一个Namespace和一个blk pool来做Storage。

2 Federated HDFS and Block Storage Architecture Overview

在这个设计中，为了提升Scalability，多个Namespace/Namenode会在一个集群中。每个Namespace Volume使用所有的DNs在一个或多个blk pools

HDFS Cluster 定义：

当前的HDFS：

1、一个HDFS集群的Namespace在单一的NN中实现，一个单一的 storage -pool由所有的DNs组成。

Federated HDFS：

1、多个独立的HDFS Namespace独自实现在各个分离的NN中

2、一个单一的 storage -pool由所有的DNs组成，DNs不会进行分区(partitioned)，DN能够给所有的NN提供Storage。整个Storage包含多个独立的blk-pools，每个blk-pools由单一的NN管理。

Salient features of Block Storage:

1、一个blk-pool是一个独立的blks集合，属于单一的Namespace。一个blk-pools在管理上和其他的pools是独立的，不需要与其他pools进行协调
blk管理，管理集群DNs来提供blk的Storage，提供Block相关的操作，如： creation/deletion/modification/gettingLocation/ replicaPlacement/blockR eplication
2、DN提供共享的Storage层，存储属于所有blk-pools的blks

3、DN管理blk的归属，在blk-pool层次而不是在单一的blk层次。

4、每个DN和NN的blk管理层通信，如下：

1、注册及定期发送Heartbeat

2、为每个blk-pool发送BRs

3、接受NN对blk的管理命名(copy,delete,etc)

Salient features of Multiple Namespaces:

1、Namespace加上对应的blk-pool才称之为Namespace Volume。在管理上这是一个独立的单元。

2、GC独立：当NN/NS被删除时，对应的blk-pool也能被删除

3、Namespace Volume不需要与其他Namespace Volume协作

2、1 Benefits

Benefits of Block Storage Layer:

1、单独拎出block storage层次，好处在于：

a、能够在blk-storage-layer上实现一个non-hdfs的Namespace

b、Hbase之类的应用可以直接使用blk-storage-layer

c、blk-storage-layer的独立使得将来的分布式Namespace变得可能

2、多个应用公用同一个DN-pools(而不partitioned)使得storage能够更优化的被使用。其余优点在Appendix-B中详述。

3、正在调查特殊的blk-pools提供给mr作为temp storage

Benefits and drawbacks of multiple namespaces:

1、为Namespace及整个集群提供水平扩展。

2、多个NN使得可以将用户进行分区，提供可用性和可管理性

3、缺点在于：需要考虑多个Namespace和NN，Hdfs-1053在客户端通过client-side-mount来提供统一视图。

3 High Level Design

Terminology:

BP：Block Pool

Birthmark：实体的全局

（跨集群）唯一标识

前面的架构讨论定义了一个抽象的层次，但没有提及到边界定义。这一节提供架构的具体实现，定义抽象层的各个部分都在哪个server中。下图描述的设计中，具有以下特性：

1、每个Namespace只用一个blk-pools（在一个Namespace中使用多个blk-pools在第一阶段中暂未支持）

2、和现阶段一致，一个Namenode包含两个层次(Namespace和blk-management)，一个Namenode管理一个Namespace Volume。尽管目前仍然由NN来实现这两个层次，但是目标还要将这两层从逻辑上彻底分开，方便后续很多工作

3、各个Namenode之间相互独立

4、整个集群作为一个整体或升级或rollback，和现在一样。

3 Managing Namespace Volumes and Block Pools

以下几点必须在设计blockpool的功能设计中考虑到：

1、一个由BlockPoolID标识的blockpool属于一个单一的Namespace，违反了这个规则将会发生错误，并且系统必须检测这个错误以及采取适当的措施。

2、DN在停止一段长时间之后，可能使用一个老的且不再使用的blokpool，因为其对应的Namespace可能已经被删除。

3、当DN或者人为的或无意的移动到另一个集群的时候，必须被检测到，而且DN上的BP不能与新cluster上的BP冲突。

4、可选：设计中必须考虑简化两个cluster的合并

3.1 Identifiers

Block Pool ID：

一个block pool id标识一个block pool，并且是跨集群的全局唯一。当一个新的Namespace被创建的时候(format过程的一部分)会创建并持久化一个唯一ID。在创建过程构建全局唯一的BlockPoolID比人为的配置更可靠一些。NN将BlockPoolID持久化到磁盘中，在后续的启动过程中，会再次load并使用。下表中对比描述当前集群与Federated集群的各种标识对比：

3.1.1 FAQ

1、为毛需要一个ClusterID？

通过全局的唯一的BlockPoolID或者NamespaceID 并不能解决问题，在federation的情况下，一个DN需要与多个NN进行通信。如果一个DN无意中移到另一个Cluster，这个DN保留老的blocks，然后为新Cluster的NN创建新的blockpools，NamespaceID在这个情况下将不能阻止这种移动。

2、为毛blockpoolID需要全局唯一

a、与其由admin来配置这个全局唯一的BlockPoolID，还不如让程序生成

b、显然BlockPoolID必须在集群内唯一，还不如多增加几个字节来让它变成全局唯一

c、删除一个BlockPool将不需要考虑其ID 可能的被重用，之前确实考虑集群内唯一，还被迫加了一个BP-BirthMark来防止重用。

d、容许集群合并

e、如果BPID不唯一，那么BPID可能被重用，必须要使用BirthMark来区分。

3、为毛不直接使用NamespaceID来作为BlockPoolID(或者不需要BlockPoolID这个东西了)

a、错误的抽象层，block层并不关注谁在上层使用自己，因此这个名字必须是BlockPoolID，而不是NamespaceID(你可以争论用BlockPoolID来取代NamespaceID)

b、将来一个Namespace将支持多个blockpools

c、将来可以将一个blockpoo从一个NN移动到另一个NN上，那个时候NamespaceID唯一定义这个单一的owner

3.2 Namespace Volume management

3、2、1 Current Cluster and Namespace management

1、当期集群配置：

当前的集群配置在conf文件（ core‐site.xml/hdfs‐site.xml ）中，集群中所有的node都会share这个配置文件。DN使用这个配置来PrimaryNN沟通。

PrimaryNN设置以下两个文件：

1、dfs.include - 列举所有容许注册到NN的DN

2、dfs.exclude - 列举所有不容许注册到NN的DNs，如果一个DN之前已经注册了，一旦出现在这个文件上。那么该DN将会进行Decommission

另外，下面两个文件被用来启动及停止集群

1、master - 包含 SecondaryNameNode 的信息，启动脚本启动的时候，将会在这些nodes上面启动SecondaryNameNode。

2、slaves - 包含所有的datanodes信息，启动脚本将会在这些nodes上面启动datanode进程

2、当前Namespace的创建：

当一个NN被格式化的时候，会创建一个由NamespaceID唯一标识的Namespace。NameNode会将这个NamespaceID持久化并且在DN注册时候发送到DN。DN也会将这个NamespaceID持久化，然后DN仅仅与这个NN进行交互。
3、当前Namespace的删除：

格式化NN和所有的DN将会删除这个HDFS集群，但是没有办法通过NN来对DN进行全局格式化。

3.2.2 Federated Cluster and Namespace Volume management

1、新的集群配置方式

一个HDFS集群的初始化被视为在集群的第一个Namespace Volum创建的时候，在NN进行format的时候，如果带上"-newCluster"参数时，将会生成一个全局唯一的ClusterID和一个全局唯一的BlockPoolID并持久化在NN上：

1、后续的过程中，NN必须一直使用这个ClusterID

2、每个DN将会在注册的时候收到这个ClusterId，然后绑定到这个cluster。

3、任何时候，如果一个NN或者DN尝试加入到另一个cluster，那么另一个cluster上的NN或者DN必须拒绝。
下表列出新式集群配置

下面两个文件被用来启动及停止集群，HDFS代码并不会读取到。

1、master - 包含 SecondaryNameNode 的信息，启动脚本启动的时候，将会在这些nodes上面启动SecondaryNameNode。

2、slaves - 包含所有的datanodes信息，启动脚本将会在这些nodes上面启动datanode进程

2、 Namespace Volume creation

1、NN进行format的时候，会创建一个新的Namespace及对应的BlockPool。NN持久化NamespaceID和BlockPoolID

2、DN在registion之前的hanhshake中会获取NN的这些NamespaceID，BlockPoolID，ClusterID信息。在第一次DN注册到了NN上时，DN将会依据获取的这些信息来初始化一个新的BlockPool

3、 Adding a Namespace Volume (namenode) to the cluster

1、在新的NN进行format的时候，如果提供了一个ClusterID的话，那么NN只会生成BlockPoolID并且将它与提供的ClusterID持久化

2、集群中的DN将会收到NN-refresh命令去重新读取NN的配置文件：

每个DN注册到新的NN都会为这个NN的BlockPool创建一个新的Directory

如果DN宕机，在重启的时候也会读取到最新的配置文件并且注册到新的NN

4、 Adding a new datanodes to the cluster

1、首先在dfs.include文件中添加

2、格式化DN并启动

3、DN读取NN列表，并注册到每个NN上：

a、在注册到第一个NN的时候，DN就能获取到ClusterID并成为该集群的一部分

b、为每个NN创建一个directory来存储NN的BlockPool中的blocks

5、 Adding a new datanodes to the cluster

1、启动集群，删除所有NN的volume中的文件

2、重新格式化NN

3、在每个DN上发布delete BP命令，如果block pool没有block，那么立马就删除。如果带了"-force"命令，那么block pool中即使有block也会被删除。

6、 Move a namespace from one namenode to another namenode within a cluster

1、停止NN

2、拷贝必须的元数据(TBD)到另一个NN

3、在conf配置文件中更新NN的Address和DNS Name

4、确保老的Namenode有hi家停止，启动新的。
7、 Move part of a namespace from one namenode to another namenode

1、使用distcp拷贝文件

2、删除这个子空间

3、将来可能支持创建copy-on-write的快照，然后移动这个快照
8、 Move a namespace to another cluster

1、使用distcp复制该空间到另一个cluster

2、在第一个cluster中删除该空间
9、 Merging two clusters into a single Federated Cluster.
1、在两个集群都关闭的情况下，将其中的某个cluster的ClusterID重命名为另一个cluster的ClusterID。

2、合并两者的dfs.include和dfs.exclude

3、启动两个集群

4、可选：使用Balancer来进行存储均衡

5、更新client side mount table来支持透明访问两个集群

3.3 Block Storage

1、当前架构：

DN将block数据存储在本地文件系统的disk上，整个block存储的目录结构如下：

如Hadoop-702所示，目录 previous and current是在升级过程中保持数据的完整性而使用的。升级时，在NN和DN中创建文件快照，以备rollback使用。

在创建快照的过程中：

1、 <datadir>/current 移动到 <datadir>/previous

2、DN的元数据将在 <datadir>/current下创建

3、block文件在 <datadir>/current下创建，并被硬链接到Previous目录下

在rollback过程中，Previous目录移回到Current。

2、Federation下的block storage 架构

DN的存储目录架构需要改变并包含BlockPoolID，有以下三个选择：

选择1：这个架构仅支持DN级别的snapshot，单一的NN升级使得所有的blockpool进行快照，这个方案不适应于独立的Namenode升级管理操作

选择2：能解决选择1的blockpool级别的快照问题，但是为了能够进行rollback，<datadir>目录下的Previous目录仍是必须的，这个目录在升级的finalizing过程中被删除。

选择3：支持选项2的功能，并能支持DN级别的快照，如果未来DN的升级与DN解耦的话。而且还能支持各个NN在blockpool级别独立创建快照。

3.4 Single Checkpointer

当前每个PrimaryNN都一个CheckPointNN( either backup or secondary namenode )， CheckPointNN主要完成合并fsiamge和Editlog来产生新的Fsimage，为了减少节点数，可以使用单一的CheckpointerNN来为所有的PrimaryNN完成这个工作。细节工作留待实现阶段讨论。

3.5 Network Partition and Federated Cluster

在网络发生分区时，NN可能会和大片的DN失去联系，这可能导致replication风暴并把仅有的一些DN空间给占满。这个问题在当前集群也存在，但是在Federation的环境下，这个问题更糟，网络分区的时候，可能导致各个NN看到的DN不同。HDFS-779通过在丢失大片的replica的时候，将NN退回到safemode来解决了这个问题，

4 Cluster Management

4.1 Web UI

4.1.1 Namenode Web UI

1、Cluster Summary:

集群信息汇总的部分将会增加ClusterID，blockpoolID，storage使用情况等等。

2、 Live Nodes:

DN详细信息列表中也会增加 Block Pool Used and Block Pool Used %来表明各个blockpool占总空间的量和比重

3、 Decommissioning status:

展示每个blockpool的 Decommissioning status和整个DN的Decommissioning status

4.1.2 Cluster Web UI

NN的servlet和jsp将会产生结构化数据来帮助构建cluster web ui，主要包括以下信息：

1、展示整个集群的占用情况，NN列表，blockpool列表，blockpool使用情况，blockmissing信息，DN健康汇总数据

2、点击每个NN都会引导到NN web ui界面

4.2 Upgrade

4.2.1 Upgrade Mechanism

1、当前升级机制

当前的NN的升级将会引起整个集群的升级，当DN链接到NN时发现"ctime"和"layout-version"与自己的不匹配时，将会建立一个blocks的快照然后执行本地升级。整个集群由此升级到一个新版本，并且不能回退。

在Federation环境下，第一阶段，并不容许出现混合集群，即：一些NN和DN在不同的software version上运行。每个NN可以进行独立的升级，DN在注册到该NN阶段升级与之对应的blockpool。过程如下：

1、DN在pre-registration的handshake阶段获取NN的software version，如果DN运行在另一个版本，并且比NN的要新，那么将不会注册到该NN。然后DN定期尝试检查该NN是否更新了到新版本

2、在DN的 pre-registration的handshake阶段，如果DN的blockpool的 "ctime"和"layout-version"与NN的不同时，那么DN会将该blockpool创建快照并且进行升级。别的blockpool将不会改变

3、在rollback过程找那个，DN将会rollback所有的blockpool。如果集群中的某个NN没有rollback，DN将不会注册到该NN，然后定期重试等待该NNrollback。

注：如果集群中仅有一个NN升级了，其余的因为某些原因失败了。那么这个集群的上job可能在一个Namespace不在情况下仍然可以跑。当admin使得其余的NN可以进行升级并升级之后，DN将会尝试链接新的NN，然后创建快照进行升级。这个过程会影响正在跑的job。为了避免这样的情况，可以设置设置一个选项使DN在下一个预定的升级阶段之前不会重试链接新NN。

4.2.2 Upgrading to Federation release

Namenode changes

1、NN刚刚启动时候创建BlockpoolID，ClusterID，并持久化到VERSION文件中

2、NN加载该新的BlockPooID下所有的blocks到内存中。

Datanode changes:

1、启动之后，存储该新的ClusterID

2、在首次注册的时候，发送的StorageID及BlockPoolID都为null

3、从注册返回信息中获取ClusterID，NamespaceID，BlockPoolID，如果该DN上还木有任何的BlockPoolID，DN将所有的blocks移动到新的BlockPoolID下。

4、DN将发送该BlockPoolID下的Block Report

rollback仍然和之前的一样，只需将 <datadir>/previous 移动到 <datadir>/current.

4.2.3 Backward compatibility

扩展BlockID类为 ExtendedBlockID 来BlockPoolID字段，这个改变最好不能改变用户的application，而只能影响到input/output流，对application而言是不可见的。

4.3 Decommissioning

当前的Decommissioning工作流程如下：

1、DN首先加入dfs.exclude，并且在NN端进行refresh node list

2、NN将该DN的状态标记为 decommission_in_progress并且开始为该DN进行blocks进行replication

3、DN的状态在web ui上展示

4、当replication完成了之后，DN将会标记为Decommissioned，最后会shutdown。

在Federation下，当所有的BlockPool中的所有的blocks都完成了replication时， DN才会变成Decommissioned。新的工具提供：

1、开始decommissioning过程

2、查询decommission状态

3、这个工具可以在集群中的任何一个节点上开始运行

新的decommissioing过程如下：

1、DN加入到dfs.exclude，新的工具通过ssh传送该exclude文件到所有的NN并开始进行decommissioing。然后NN开始进行decommissioing和现阶段的decommissioing过程一样

2、各个NN将各自在该DN上BlockPool的block进行replicate，当所有的blocks完成了replicate，那么NN更新DN的状态为decommissioned。但是NN并不会关闭该DN。

3、新的工具将查询所有的NN进行关于该DN的decommission状态，主要有如下状体：

1、 Decommissioned 此时所有的NN已将该DN标识为decommissioned

2、 Decommissioning Started 如果所有的NN要么标识该DN为 decommissioned 要么为 decommission_in_progress .

3、 Decomissioning Partially Started 如果某些NN没有标识该DN为正常的decommission状态( not decommissioned or decommission_in_progress )，这可能由于某些NN不可达到，或者NN在start decommission命令之后刚刚加入，或者接到命令之后重启了，等等。这个时候需要重新运行该start decommission命令，因为该命令是幂等。
4、新工具将会提供shutdown已经完成Decommission的DN。

4.4 Distributed Upgrade

Distributed upgrade并不在本地执行，而是需要集群中的nodes进行协作。例如：当CRC被移动到meta文件，DN之间需要通信来确认同一个block的crc是一致的。Federation本身并不需要进行 Distributed upgrade，未来有需要进行 Distributed upgrade的时候，必须要考虑到Federation的情况。

4.5 Balancer

1、当前均衡机制

当前balancer与单一的NN协同工作，NN中有所有的DN的资源占用信息，如果Banlancer指定了阀值t%作为输入，那么DN的Balance过程在以下情况下将会触发：

2、Federation下的存储均衡机制

由于BlockPool的存在，存储均衡的目标是：

1、与当前一样必须要均衡DN的存储

2、另外，每个BlockPool必须满足：

均衡机制如下：

Balancer均衡所有的blockpool，当所有的blockpool都被均衡。DN也就均衡了，Balancing算法的机制如下：

while (cluster_balanced is not true) {

// Balance one block pool at a time – as much as possible

for (block pool b : block pool list) {

if (b is not balanced)

balance b as much as possible or for time unit x;

}

if (all block pools are balanced)

cluster_balanced = true;

}

4.6 Cluster startup/shutdown

现阶段HDFS使用start-all.sh和start-dfs.sh来启动或停止NNs和DNs。salves机器从任列出所有的DN，集群中任何一个机器上都能够发起该命令。

有了blockpool之后，需要以下脚本：

1、启动或停止集群中所有的DN

2、启动或停止集群中所有的NN，指定的某些NN，某个NN

3、启动或停止整个集群(所有的DN和NN)

5 Security

当前JobTracker使用delegation tokens来代表用户提交job，taskes在与NN交互的过程中使用合适的delegation token。在向NN发起请求时，DFSCilent已经处理了这个。
Client side mount table将包含多个delegation token来与多个NN交互，通信时client必须选择合适的delegation token。

DFSClient现在已经能够使用delegation token与DN交互。加入Federation之后，该token需要包含blockpool和block的信息

Appendix A ‐ Use Cases

Following use cases have been considered in the document:

Use case 1. Creating a new Federated HDFS Cluster

See section 4.2.2.1

Use case 2. Adding datanodes to a cluster

See section 4.2.2.4

Use case 3. Adding a namenode/namespace volume to a cluster

See section 4.2.2.3

Use case 4. Delete a namenode/namespace volume from a cluster

See section 4.2.2.5

Use case 5. Datanode is misconfigured and accidentally moved to a cluster

Use case 6. Move a namespace from one namenode to a different namenode with in the cluster

See section 4.2.2.6

Use case 7. Move a part of namespace from one namenode to a different namenode with in the cluster

See section 4.2.2.7

Use case 8. Move a namespace from one cluster to another cluster.

See section 4.2.2.8

Use case 9. Upgrade cluster from old release to a new release with federation

See section 5.2.2

Use case 10. Rollback a cluster from release with federation back to the previous release

See section 5.2.2

Use case 11. Decommissioning datanodes

See section 5.4

Use case 12. Balancing storage utilization

See section 5.5

Use case 13. Centralized cluster monitoring

See section 5.1

Use case 14. Merging two cluster into a single federated HDFS cluster

Section 4.2.2.9

Following use cases are not considered in the document:

Use case 15. Splitting a federated cluster into multiple clusters.

Appendix B ‐ Separating Block Storage Layer

在HDFS中block storage是一个独立的层次，Namespace用它来存储blocks，下图展示Block Storage层的接口

分离出Block storage层具有以下优势：

1、将Namespace从Block storage干净的分离出来

2、其他应用可以绕过Namespace/Namenode来从Block Storage中获取block信息。
依据block管理层的位置，下面两个情况变得可能：

1、 Block Storage interface as a library ‐ 作为一个lib包被应用引入，如NN中引入该lib包

2、Block Storage as a service ‐ 用几个独立的nodes来提供服务，这些nodes与DNs构成存储集群。
将Storeage层作为一个独立的服务能够解决：

1、容易的扩展block管理层，考虑到blockid的空间是平的，可以采用hashing来在多个blockmanager nodes上分布blocks/blockpools。

2、应用可以独立block管理层进行扩展，另外应用也无需要关注头痛的replication storm，DN失效等

3、上层应用无须进行协作，而blockmanagement层需要进行协作来得到整个集群的存储状态，这样能够带来：

1、简化和减少DN与blockmanager的交互，如注册，Heartbeat

2、Blockmanager层能够更高效的进行Balancing，Decommissioning，处理network partions
4、Blockmanager提供中心化的集群WebUI，来管理，启动，停止这个集群。

Appendix C – Namenode and Datanode metadata changes

DN存储目录

1、以下文件将会保留，并且不做改变

<data>/in_use.lock

<data>/storage

2、下表中的文件/目录将会改变以增加bpid

3、DN VERSION 文件

当前DN的VERSION文件在 <data>/current/VERSION，并且包含以下信息：

o Type of node (DATA_NODE)

o StorageID

o NamespaceID

o ctime

o LayoutVersion

Federation下，这个文件被查房成两个，包含以下信息：

1. <data>/current/ID

o Type of node (DATA_NODE)

o StorageID

o ClusterID

2. <data>/current>/bpid/VERSION (one for each block pool)

o NamespaceID

o BlockPoolID

o ctime

o LayoutVersion

4、NameNode VERSION文件

当前的NN下的VERSION文件存储以下信息：

o Type of node (NAME_NODE)

o NamespaceID

o ctime

o LayoutVersion

Federation下该文件被拆分成：

1. <data>/ID

o ClusterID

o NamespaceID

o BlockPoolID

o Type of node (NAME_NODE)

2. <data>/VERSION

o ctime

o LayoutVersion

Appendix D ‐ Namespace Volume creation

1、更新hdfs_nn.xml包含新的NN

2、在NN上运行format-NN，NN生成唯一的BlockPoolID并持久化到ID文件(该文件持久化 ClusterID, NamespaceID , BlockPoolID , type of node )。VERSION文件包含 ( ctime , LayoutVersion )。具体请看： Appendix C.

3、在DN上，发送一个refresh-nn命令到每个DN，每个DN将会注册到新的NN。

1、在DN首次注册到新NN并发现该新的Namespace/block pool时，过程如下：

1、DN发起versionRequest请求

2、NN在响应中发送NamespaceInfo( LayoutVersion, NamespaceID, BlockPoolID, ctime,BuildVersion, DistributedUpgradeVersion )

3、如果DN没有任何ClusterID，那么DN将会保存ClusterID，StorageID，NodeType等到ID文件

4、DN格式化新的BlockPool，并将信息持久化到各个BlockPool目录下的VERSION文件( LayoutVersion , NamespaceID , BlockPoolID , ctime )，具体见Appendix C。

2、DN的后续启动注册过程中

1、DN发起versionRequest请求
2、NN在响应中发送NamespaceInfo( LayoutVersion, NamespaceID, BlockPoolID, ctime,BuildVersion, DistributedUpgradeVersion )

3、如果DN的ClusterID与NN响应的不一致，那么DN将不会进行注册，log一条warning信息。

4、如果某个NamespaceID下，DN的BlockPoolID与NN响应的不一致，那么DN将不会注册到NN

5、如果所有的ID都一致，DN将发起注册，并传送参数 BlockPoolID , NamespaceID and ClusterID .

6、如果NN发现任何的ID不一致的情况，将会拒绝DN的注册。

4、DN将BlockPoolID保存在version文件中(如果DN还没有这个BlockPoolID，如果该DN已经有了该BlockPoolID，那么他就会拿各个ID与NN的对比，如果任何的ID不匹配将会导致注册过程中止

Appendix E – Future Improvements

本节讨论与Federation相关后续优化

1、 HDFS Layout Version improvements:

目前HDFS集群中DN与NN都是使用统一的LayoutVersion，所以任何LayoutVersion的改变都会导致NN和DN的升级。这个应该划分为两个LayoutVersion，从而可以帮助各个Ndoe独立的进行升级

2、 Decommissioning improvement:

当前HDFS使用dfs.exclude来指定被禁止与该NN进行注册的DNs，另外NN也用这个文件来指定已经注册到NN的DN从集群中下线。可以增加一个单独的文件来追踪需要下线的nodes，这个可以从语义上解决dfs.exclude的双重角色。已经Decommissioned的DN将不能注册到NN，但是如果在decommissioning过程中发生了cluster重启，那么可能导致这样的nodes会加入到集群中，这会导致数据丢失。不过这个可以通过容许Decommissioned的DN作为read-only的角色加入到集群中来解决

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc

Hadoop中HDFS文件系统NameNode的Federation设计文档(HDFS-1052：Hdfs scalability with multiple namenodes)

你可能感兴趣的:(Hadoop中HDFS文件系统NameNode的Federation设计文档(HDFS-1052：Hdfs scalability with multiple namenodes))