那伊抹微笑

_00004 Hadoop NameNode源码浅析（RPC是基础）

博文作者：妳那伊抹微笑
个性签名：世界上最遥远的距离不是天涯，也不是海角，而是我站在妳的面前，妳却感觉不到我的存在
技术方向： Flume+Kafka+Storm+Redis/Hbase+Hadoop+Hive+Mahout+Spark ... 云计算技术
转载声明：可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明，谢谢合作！
qq交流群： 214293307 （期待与你一起学习，共同进步）

# NameNode源码分析（RPC是基础）

# namenode注释翻译

/**********************************************************

* NameNode servesas both directory namespace manager and

* "inodetable" for the Hadoop DFS. There isa single NameNode

* running in anyDFS deployment. (Well, except when there

* is a secondbackup/failover NameNode.)

* The NameNodecontrols two critical tables:

* 1) filename->blocksequence (namespace)

* 2) block->machinelist ("inodes")

* The first tableis stored on disk and is very precious.

* The second tableis rebuilt every time the NameNode comes

* up.

* 'NameNode'refers to both this class as well as the 'NameNode server'.

* The'FSNamesystem' class actually performs most of the filesystem

* management. The majority of the 'NameNode' class itselfis concerned

* with exposingthe IPC interface and the http server to the outside world,

* plus someconfiguration management.

* NameNodeimplements the ClientProtocol interface, which allows

* clients to askfor DFS services. ClientProtocol is not

* designed fordirect use by authors of DFS client code. End-users

* should insteaduse the org.apache.nutch.hadoop.fs.FileSystem class.

* NameNode alsoimplements the DatanodeProtocol interface, used by

* DataNodeprograms that actually store DFS data blocks. These

* methods areinvoked repeatedly and automatically by all the

* DataNodes in aDFS deployment.

* NameNode alsoimplements the NamenodeProtocol interface, used by

* secondarynamenodes or rebalancing processes to get partial namenode's

* state, forexample partial blocksMap etc.

**********************************************************/

对于HDFS来说NameNode是一个目录命名空间管理器和”inode table”,它是一个单个的NameNode运行在任何的DFS的部署环境中（好吧,除非是有第二个备份/故障转移NameNode。）

NameNode控制着两个关键表：

1) filename->blocksequence (namespace)第一个表名为文件名，放的是block的顺序

2) block->machinelist ("inodes")第二个表是block，放的是block所存放的机器列表

第一个表存放在硬盘上并且非常珍贵

第二个表在每次NameNode重启的时候会被重构

NameNode指的是这个类以及NameNode server，FSNamesystem这个类实际上执行的大多数文件系统管理。NameNode这个类主要的工作就是关注暴露的IPC接口以及向外部世界（用户）提供一些http服务，加上一些配置管理。

NameNode实现了ClientProtocol接口,它允许客户请求DFS服务。ClientProtocol不是专门为直接使用DFS客户机代码的作者设计的，终端用户（程序员）应该使用FileSystem这个类。

NameNode也实现了DatanodeProtocol接口,被DataNode的程序使用去完成DFS数据块的存储。在一个DFS的环境中NameNode实现了DatanodeProtocol接口中的方法会被所有的DataNode自动重复的调用执行。

NameNode也实现了NamenodeProtocol接口,被secondarynamenode使用或在平衡过程的进程中得到NameNode 的部分状态,例如部分blocksMap等等

# 知道了RPC原理才能更好的理解NameNode

# 首先看namenode类的结构，主要实现了ClientProtocol, DatanodeProtocol, NamenodeProtocol这三个接口

# 进入NameNode的源代码找到publicclass NameNodeimplements ClientProtocol, DatanodeProtocol, NamenodeProtocol,FSConstants,RefreshAuthorizationPolicyProtocol,

RefreshUserMappingsProtocol {

# 接下来进入main方法(由于NameNode是一个RPC的服务端，所以我们进入RPC的main方法，为了证明NameNode是一个RPC的服务端)

public static void main(String argv[]) throws Exception {

try {

StringUtils.startupShutdownMessage(NameNode.class,argv,LOG);

NameNode namenode = createNameNode(argv,null);

if (namenode != null)

namenode.join();

} catch (Throwable e) {

LOG.error(StringUtils.stringifyException(e));

System.exit(-1);

}

# 进入createNameNode方法（只看重点，会有下面这么一行）

NameNodenamenode = new NameNode(conf);

# 再点进去

public NameNode(Configuration conf) throws IOException {

try {

initialize(conf);

} catch (IOException e) {

this.stop();

throw e;

}

# 进入initialize(conf)方法（只看重点代码）

this.namesystem =newFSNamesystem(this, conf);

if (UserGroupInformation.isSecurityEnabled()){

namesystem.activateSecretManager();

}

// create rpc server

InetSocketAddress dnSocketAddr =getServiceRpcServerAddress(conf);

if (dnSocketAddr !=null) {

int serviceHandlerCount =

conf.getInt(DFSConfigKeys.DFS_NAMENODE_SERVICE_HANDLER_COUNT_KEY,

DFSConfigKeys.DFS_NAMENODE_SERVICE_HANDLER_COUNT_DEFAULT);

this.serviceRpcServer = RPC.getServer(this, dnSocketAddr.getHostName(),

dnSocketAddr.getPort(),serviceHandlerCount,

false, conf,namesystem.getDelegationTokenSecretManager());

this.serviceRPCAddress =this.serviceRpcServer.getListenerAddress();

setRpcServiceServerAddress(conf);

}

this.server = RPC.getServer(this, socAddr.getHostName(),

socAddr.getPort(),handlerCount, false, conf,namesystem

.getDelegationTokenSecretManager());

// The rpc-server port can be ephemeral... ensure we have the correct info

this.serverAddress =this.server.getListenerAddress();

FileSystem.setDefaultUri(conf,getUri(serverAddress));

LOG.info("Namenode up at: " +this.serverAddress);

startHttpServer(conf);

this.server.start(); //start RPC server

if (serviceRpcServer !=null) {

serviceRpcServer.start();

}

startTrashEmptier(conf);

namesystem后面再解释（namenode的初始化，namenode启动加载fsimage以及一些配置，后面详细解释）

//create rpc server 意思就是创建 RPC服务端，也就是说NameNode是一个RPC的服务端

注意：这里不是启动了一个rpc的服务端，而是启动了两个rpc的服务端。

serviceRpcServer：RPC服务器为了HDFS服务通信。备份节点（secondarynamenode）,Datanodes和所有其他服务应该连接到这个服务器配置。客户应该只去调用NameNode 下的server的RPC服务端（这个是程序内部调用的）

server：主要是用来给客户端调用的

# 然后再来看startHttpServer(conf);（开启一个Http的服务器）这个方法，跟进去

try {

this.httpServer = ugi.doAs(new PrivilegedExceptionAction() {

@Override

public HttpServer run()throws IOException,InterruptedException {

String infoHost =infoSocAddr.getHostName();

int infoPort = infoSocAddr.getPort();

httpServer = new HttpServer("hdfs", infoHost,infoPort,

infoPort == 0, conf,

SecurityUtil.getAdmin

# 在进入HttpServer 的构造方法，跟进new HttpServer("hdfs", infoHost, inf

public HttpServer(String name, String bindAddress, int port,

boolean findPort, Configuration conf,AccessControlList adminsAcl)

throws IOException {

this(name, bindAddress, port, findPort, conf,adminsAcl,null);

}

# 再跟进this(name, bindAddress, port, findPort, conf,adminsAcl,null);

public HttpServer(String name, String bindAddress, int port,

boolean findPort, Configuration conf,AccessControlList adminsAcl,

Connector connector) throws IOException{

webServer =new Server();

this.findPort = findPort;

this.conf = conf;

this.adminsAcl = adminsAcl;

if(connector ==null) {

到这里就行了，把鼠标放到new Server()上面去，可以看到这么一行提示信息

org.mortbay.jetty.Server.Server()

这里额外说明一下jetty，jetty跟tomcat一样，也是一个服务器，只是更小而已，被内置到NameNode中去了。

到了这里之后就可以看出来NameNode开启了一个jetty服务，也就是可以通过浏览器访问，也就是我们经常访问的http://hadoopip:50070（这里hadoopip表示你的hadoop机器的ip地址）出现的web界面

# NameNode启动过程详细剖析

# NameNode中几个关键的数据结构

# FSImage

Namenode会将HDFS的文件和目录元数据存储在一个叫fsimage的二进制文件中，每次保存fsimage之后到下次保存之间的所有hdfs操作，将会记录在editlog文件中，当editlog达到一定的大小（bytes，由fs.checkpoint.size参数定义）或从上次保存过后一定时间段过后（sec，由fs.checkpoint.period参数定义），namenode会重新将内存中对整个HDFS的目录树和文件元数据刷到fsimage文件中。Namenode就是通过这种方式来保证HDFS中元数据信息的安全性。

Fsimage是一个二进制文件，当中记录了HDFS中所有文件和目录的元数据信息，在我的hadoop的HDFS版中，该文件的中保存文件和目录的格式如下：

当namenode重启加载fsimage时，就是按照如下格式协议从文件流中加载元数据信息。从fsimag的存储格式可以看出，fsimage保存有如下信息：

1. 首先是一个image head，其中包含：

a) imgVersion(int)：当前image的版本信息

b) namespaceID(int)：用来确保别的HDFSinstance中的datanode不会误连上当前NN。

c) numFiles(long)：整个文件系统中包含有多少文件和目录

d) genStamp(long)：生成该image时的时间戳信息。

2. 接下来便是对每个文件或目录的源数据信息，如果是目录，则包含以下信息：

a) path(String)：该目录的路径，如”/user/build/build-index”

b) replications(short)：副本数（目录虽然没有副本，但这里记录的目录副本数也为3）

c) mtime(long)：该目录的修改时间的时间戳信息

d) atime(long)：该目录的访问时间的时间戳信息

e) blocksize(long)：目录的blocksize都为0

f) numBlocks(int)：实际有多少个文件块，目录的该值都为-1，表示该item为目录

g) nsQuota(long)：namespaceQuota值，若没加Quota限制则为-1

h) dsQuota(long)：disk Quota值，若没加限制则也为-1

i) username(String)：该目录的所属用户名

j) group(String)：该目录的所属组

k) permission(short)：该目录的permission信息，如644等，有一个short来记录。

3. 若从fsimage中读到的item是一个文件，则还会额外包含如下信息：

a) blockid(long)：属于该文件的block的blockid，

b) numBytes(long)：该block的大小

c) genStamp(long)：该block的时间戳

当该文件对应的numBlocks数不为1，而是大于1时，表示该文件对应有多个block信息，此时紧接在该fsimage之后的就会有多个blockid，numBytes和genStamp信息。

因此，在namenode启动时，就需要对fsimage按照如下格式进行顺序的加载，以将fsimage中记录的HDFS元数据信息加载到内存中。

# BlockMap

从以上fsimage中加载如namenode内存中的信息中可以很明显的看出，在fsimage中，并没有记录每一个block对应到哪几个datanodes的对应表信息，而只是存储了所有的关于namespace的相关信息。而真正每个block对应到datanodes列表的信息在hadoop中并没有进行持久化存储，而是在所有datanode启动时，每个datanode对本地磁盘进行扫描，将本datanode上保存的block信息汇报给namenode，namenode在接收到每个datanode的块信息汇报后，将接收到的块信息，以及其所在的datanode信息等保存在内存中。HDFS就是通过这种块信息汇报的方式来完成 block-> datanodes list的对应表构建。Datanode向namenode汇报块信息的过程叫做blockReport，而namenode将block -> datanodeslist的对应表信息保存在一个叫BlocksMap的数据结构中。

BlocksMap的内部数据结构如下：

如上图显示，BlocksMap实际上就是一个Block对象对BlockInfo对象的一个Map表，其中Block对象中只记录了blockid，block大小以及时间戳信息，这些信息在fsimage中都有记录。而BlockInfo是从Block对象继承而来，因此除了Block对象中保存的信息外，还包括代表该block所属的HDFS文件的INodeFile对象引用以及该block所属datanodes列表的信息（即上图中的DN1，DN2，DN3，该数据结构会在下文详述）。

因此在namenode启动并加载fsimage完成之后，实际上BlocksMap中的key，也就是Block对象都已经加载到BlocksMap中，每个key对应的value(BlockInfo)中，除了表示其所属的datanodes列表的数组为空外，其他信息也都已经成功加载。所以可以说：fsimage加载完毕后，BlocksMap中仅缺少每个块对应到其所属的datanodeslist的对应关系信息。所缺这些信息，就是通过上文提到的从各datanode接收blockReport来构建。当所有的datanode汇报给namenode的blockReport处理完毕后，BlocksMap整个结构也就构建完成。

# BlockMap中datanode列表数据结构

在BlockInfo中，将该block所属的datanodes列表保存在一个Object[]数组中，但该数组不仅仅保存了datanodes列表，“。实际上该数组保存了如下信息：

上图表示一个block包含有三个副本，分别放置在DN1，DN2和DN3三个datanode上，每个datanode对应一个三元组，该三元组中的第二个元素，即上图中prev block所指的是该block在该datanode上的前一个BlockInfo引用。第三个元素，也就是上图中next Block所指的是该block在该datanode上的下一个BlockInfo引用。每个block有多少个副本，其对应的BlockInfo对象中就会有多少个这种三元组。

Namenode采用这种结构来保存block->datanodelist的目的在于节约namenode内存。由于namenode将block->datanodes的对应关系保存在了内存当中，随着HDFS中文件数的增加，block数也会相应的增加，namenode为了保存block->datanodes的信息已经耗费了相当多的内存，如果还像这种方式一样的保存datanode->blocklist的对应表，势必耗费更多的内存，而且在实际应用中，要查一个datanode上保存的block list的应用实际上非常的少，大部分情况下是要根据block来查datanode列表，所以namenode中通过上图的方式来保存block->datanode list的对应关系，当需要查询datanode->blocklist的对应关系时，只需要沿着该数据结构中next Block的指向关系，就能得出结果，而又无需保存datanode->blocklist在内存中。

# NameNode启动过程

# fsimage加载过程

Fsimage加载过程完成的操作主要是为了：

1. 从fsimage中读取该HDFS中保存的每一个目录和每一个文件

2. 初始化每个目录和文件的元数据信息

3. 根据目录和文件的路径，构造出整个namespace在内存中的镜像

4. 如果是文件，则读取出该文件包含的所有blockid，并插入到BlocksMap中。

整个加载流程如下图所示：

如上图所示，namenode在加载fsimage过程其实非常简单，就是从fsimage中不停的顺序读取文件和目录的元数据信息，并在内存中构建整个namespace，同时将每个文件对应的blockid保存入BlocksMap中，此时BlocksMap中每个block对应的datanodes列表暂时为空。当fsimage加载完毕后，整个HDFS的目录结构在内存中就已经初始化完毕，所缺的就是每个文件对应的block对应的datanode列表信息。这些信息需要从datanode的RPC远程调用blockReport中获取，所以加载fsimage完毕后，namenode进程进入rpc等待状态，等待所有的datanodes发送blockReports。

# blockReport阶段

每个datanode在启动时都会扫描其机器上对应保存hdfs block的目录下(dfs.data.dir)所保存的所有文件块，然后通过namenode的rpc调用将这些block信息以一个long数组的方式发送给namenode，namenode在接收到一个datanode的blockReport rpc调用后，从rpc中解析出block数组，并将这些接收到的blocks插入到BlocksMap表中，由于此时BlocksMap缺少的仅仅是每个block对应的datanode信息，而namenoe能从report中获知当前report上来的是哪个datanode的块信息，所以，blockReport过程实际上就是namenode在接收到块信息汇报后，填充BlocksMap中每个block对应的datanodes列表的三元组信息的过程。其流程如下图所示:

当所有的datanode汇报完block，namenode针对每个datanode的汇报进行过处理后，namenode的启动过程到此结束。此时BlocksMap中block->datanodes的对应关系已经初始化完毕。如果此时已经达到安全模式的推出阈值，则hdfs主动退出安全模式，开始提供服务。

# NameNode源码分析总结

一个hdfs的cluster包含了一个NameNode和若干个DataNode，NameNode是master，主要负责管理hdfs文件系统，具体的包括namespace管理（目录结构）和block管理（具体filename->blocksequence（namespace），block->datanode list(“inodes”)）。前者是通过FSImage写入到本地文件系统中，而后者是通过每次hdfs启动时，datanode进行blockreport后在内存中重构的数据结构。在hdfs的程序代码中，namenode类其实只是一个用来被动接收调用的服务的包装，它实现了ClientProtocol接口，用来接收来自DFSClient的RPC请求；它实现了DatanodeProtocol接口，用来接收来自datanode的各种服务请求；同时还实现了NamenodeProtocol，用来提供跟SeconddaryNameNode之间的RPC的请求和通信。对以上数据结构进行维护的是hdfs中的FSNamesystem类。对于NameNode的各种请求，比如创建，修改，删除，移动，getLocations的操作，在NameNode内部都是通过FSNamesystem提供的接口对内部数据结构进行的访问。

NameNode是一个目录命名空间的管理器，NameNode在hdfs中只有一个。（当启动一个NameNode的时候，会产生一个锁文件，是锁住的，所以起不了第二个NameNode了）

NameNode维护这两张核心表：

1. Filename------blocksequence (“namespace”)也就是block的顺序

2. block------machinelist(“inodes”) 每个block的存储的机器(dataNode)列表

NameNode其实就是一个RPC的服务端，并且启动了两个RPC服务端（这里又涉及到了RPC原理了，看不懂的话就看下RPC的原理），并且还开启了一个jetty服务器，对外界提供了WEB的访问方式。

妳那伊抹微笑

The you smile until forever 、、、、、、、、、、、、、、、、、、、、、

你可能感兴趣的:(hadoop,源码分析,hadoop)

EasyCwmp源码分析与接口实现详解：深入理解源码架构，掌握核心接口
EasyCwmp源码分析与接口实现详解：深入理解源码架构，掌握核心接口去发现同类优质开源项目:https://gitcode.com/在开源项目中，寻找一款能够提升开发效率、简化流程的工具是每个开发者的追求。今天，我们要介绍的这款开源项目EasyCwmp，正是为了帮助开发者深入了解源码架构，掌握核心接口实现，从而加速项目开发进程。以下是关于EasyCwmp源码分析与接口实现详解的项目推荐文章。项目
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
Elasticsearch混合搜索深度解析（下）：执行机制与完整流程 GeminiJM ES学习笔记 elasticsearch jenkins 大数据
引言在上篇中，我们发现了KNN结果通过SubSearch机制被保留的关键事实。本篇将继续深入分析混合搜索的执行机制，揭示完整的处理流程，并解答之前的所有疑惑。深入源码分析1.SubSearch的执行机制1.1KnnScoreDocQueryBuilder的实现KNN结果被转换为KnnScoreDocQueryBuilder，这个类负责在查询阶段重新执行KNN搜索：//server/src/main
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
kotlin - 协程 launch 源码分析
kotlin-协程launch源码分析CoroutineScope(Dispatchers.Main).launch{}1.launch函数入口launch是CoroutineScope的扩展函数，定义在kotlinx.coroutines库中：publicfunCoroutineScope.launch(context:CoroutineContext=EmptyCoroutineContext
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
HIVE（二） 2301_78012738 hive 数据仓库
目录访问HIVE的三种方式DDLDML数据操作向表中装载数据数据导出常用函数Like和RLike分组Join排序分区表和分桶表访问HIVE的三种方式启动Hive命令，CtrlC退出客户端，执行测试语句，与sql一致[wyc@hadoop102hive]$bin/hive经验小结：在hive中执行语句报错：ExecutionError,returncode2fromorg.apache.hadoop
[netty5: LifecycleTracer & ResourceSupport]-源码分析 idolyXyz netty5-源码阅读 netty netty-buffer
LifecycleTracer@UnstableApipublicabstractclassLifecycleTracer{//默认关闭staticfinalbooleanlifecycleTracingEnabled=SystemPropertyUtil.getBoolean("io.netty5.buffer.lifecycleTracingEnabled",false);//重点!publi
Golang类型断言在反射中的应用：深入源码分析 Golang编程笔记 Golang编程笔记 golang 网络服务器 ai
Golang类型断言在反射中的应用：深入源码分析关键词：Golang、类型断言、反射、运行时、接口、类型系统、源码分析摘要：本文深入探讨Golang中类型断言与反射机制的底层关联，通过解析Go运行时源码和反射包实现，揭示类型断言在反射场景中的核心作用。从接口类型的内存布局出发，分析类型断言的两种实现形式（安全断言与暴力断言）在反射API中的具体应用，结合实际案例演示如何通过反射动态获取类型信息并进
安全运维的 “五层防护”：构建全方位安全体系 KKKlucifer 安全运维
在数字化运维场景中，异构系统复杂、攻击手段隐蔽等挑战日益突出。保旺达基于“全域纳管-身份认证-行为监测-自动响应-审计溯源”的五层防护架构，融合AI、零信任等技术，构建全链路安全运维体系，以下从技术逻辑与实践落地展开解析：第一层：全域资产纳管——筑牢安全根基挑战云网基础设施包含分布式计算（Hadoop/Spark）、数据流处理（Storm/Flink）等异构组件，通信协议繁杂，传统方案难以全面纳管
python 64式: 第27式、分布式锁与群组管理__2、tooz应用之负载均衡天地一扁舟 python 64式
python中分布式锁与群组管理系列最近有接触到分布式锁的相关问题。基于openstack相关组件源码,tooz官网文档和自己对组件使用的一点点心得，想整理一下这部分的内容。主要想分为四个部分介绍:分布式锁与群组管理1、tooz介绍分布式锁与群组管理2、tooz应用之负载均衡分布式锁与群组管理3、tooz应用之分布式锁分布式锁与群组管理4、tooz源码分析下面是第2部分的内容1引言ceilomet
腾讯QQ2009通信协议源码分析与应用欧学东
本文还有配套的精品资源，点击获取简介：本资源深入解析了腾讯QQ2009的私有通信协议，涉及登录、消息发送与接收的核心功能，为开发者提供了一套理解QQ通信机制的工具。通过分析源码，开发者可以掌握构造登录请求、消息格式设计、加密算法应用等网络编程技巧，并了解如何保持通信连接和处理消息错误。但需要注意，对QQ协议的研究应避免侵犯腾讯的知识产权。1.腾讯QQ2009协议源码概述1.1协议源码的重要性腾讯Q
Spring Boot + Spring JPA + JDBC + Druid实现动态数据源切换 Apr01Chell 代码片段 spring java 数据库
SpringBoot+SpringJPA+JDBC+Druid实现动态数据源切换目录SpringBoot+SpringJPA+JDBC+Druid实现动态数据源切换AbstractRoutingDataSource源码分析需求代码实现DynamicDataSourceDBContextHolderDruidDbConfigDataSourcePropertiesAllDataSourcesExec
Android网络层架构：统一错误处理的问题分析到解决方案与设计实现 wzj_what_why_how Android #Android——架构和设计 android 架构
前言在Android项目开发中，我们经常遇到需要统一处理某些特定状态码的场景。本文分享一个项目中遇到的4406状态码（实名认证）处理不统一问题，从问题分析到完整解决方案，提供一套可复用的架构设计模式。目录前言问题分析不同框架的回调处理机制解决方案关键技术细节添加应用拦截器循环依赖问题与回调接口模式问题分析解决方案：回调接口模式ResponseBody流管理问题现象原因总结源码分析总结其设计原理重复
Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
Hera调度系统运行时架构源码分析 Code Monkey’s Lab 源码分析 Java 架构 hera 调度系统
目录一、Hera启动过程二、Master节点启动流程三、Worker节点启动流程四、心跳机制实现五、任务调度执行流程六、架构特点总结在笔者的职业生涯中，Hera调度系统是使用过的所有开源调度系统中最符合用户操作习惯、最贴近业务实际需求的一款产品——没有之一。若论产品成熟度与用户体验，或许只有部分大厂自研的调度平台才能与之比肩。与DolphinScheduler等主流开源调度系统相比，Hera的设计
Eclipse IDE 4.7.3 源码分析与定制开发指南魔法小药丸
本文还有配套的精品资源，点击获取简介：EclipseIDE4.7.3是一个广泛使用的开源集成开发环境，主要用于Java编程。本指南将深入分析EclipseIDE4.7.3的源码，涵盖关键知识点，如插件架构、Workbench、OSGi、JDT、PDE、运行时库、二进制代码、功能包和插件。通过研究源码，开发者可以优化性能、修复bug，开发新工具，并参与到Eclipse社区的改进中。1.Eclipse
Docker快速构建Hive测试环境静谧星光 docker hive 容器编程
Docker是一种流行的容器化平台，可以帮助我们快速构建和管理应用程序的环境。在本文中，我们将学习如何使用Docker快速构建Hive测试环境。Hive是一个基于Hadoop的数据仓库基础设施，它提供了一种类似于SQL的查询语言，用于分析和处理大规模数据集。步骤1：安装Docker和DockerCompose首先，我们需要安装Docker和DockerCompose。您可以根据您的操作系统类型，从
HDFS 伪分布模式搭建与使用全攻略（适合初学者 & 开发测试环境） huihui450 hdfs hadoop 大数据
HDFS（HadoopDistributedFileSystem）作为Hadoop生态系统的核心组件，广泛应用于海量数据的分布式存储场景。对于开发者而言，伪分布模式提供了一种低成本、高还原度的学习与测试方式。本文将详细介绍如何在本地搭建并使用HDFS的伪分布模式，包括环境准备、配置过程、常用命令及常见问题排查，帮助你快速入门Hadoop分布式文件系统的实践操作。一、什么是伪分布模式？Hadoop有
Java技术栈/面试题合集(16)-SpringCloud篇霸道流氓气质 Java进阶 Java SpringCloud 微服务面试
场景Java入门、进阶、强化、扩展、知识体系完善等知识点学习、性能优化、源码分析专栏分享：Java入门、进阶、强化、扩展、知识体系完善等知识点学习、性能优化、源码分析专栏分享_java高级进阶-CSDN博客通过对面试题进行系统的复习可以对Java体系的知识点进行查漏补缺。注：博客：霸道流氓气质-CSDN博客实现什么是SpringCloud？一、SpringCloud的核心定位1.定义SpringC
C# List源码分析上班摸鱼君 c#list windows
关键属性publicclassList:IList,System.Collections.IList,IReadOnlyList{privateconstint_defaultCapacity=4;privateT[]_items;[ContractPublicPropertyName("Count")]privateint_size;privateint_version;[NonSerializ
文件系统数据持久化：C++实现中的日志结构与恢复算法源码分析～郭俊辉@ c++
在C++底层文件系统设计中，数据持久化是确保系统可靠性的核心环节。面对系统崩溃、断电等突发故障，文件系统需要保证数据的一致性和完整性。日志结构与恢复算法是实现数据持久化的重要手段，通过记录关键操作和恢复数据状态，使文件系统在故障后能快速恢复正常。本文将深入剖析C++文件系统中日志结构与恢复算法的设计理念，并结合源码解析其具体实现。一、数据持久化面临的挑战1.一致性问题：文件系统操作涉及多个步骤，如
12.Java SDK源码分析系列笔记-PriorityQueue Thinker QAQ Java SDK源码分析 java 笔记 python
文章目录1.PriorityQueue是什么2.使用3.源码分析3.1.属性3.2.有参构造3.2.1.初始化元素到数组中3.2.2.维护堆的属性3.2.2.1.下沉操作3.3.插入3.3.1.上浮操作3.4.删除3.4.1.下沉操作4.参考1.PriorityQueue是什么是一个队列，只不过加上了优先级的概念，换句话说队列里的元素是根据某种规则排好序的2.使用publicclassPriori
DPDK探测设备并初始化分享放大价值 DPDK dpdk probe 设备初始化 mmap
本文整理下之前的学习笔记，基于DPDK17.11版本源码分析。主要看一下DPDK探测网卡设备，并进行初始化的流程，用到了类似kernel中的总线-设备-驱动模型。本文的重点之一是DPDK如何在用户态操作网卡寄存器，这里先给个答案:想要操作网卡寄存器，需要用到网卡的基地址BAR，intel网卡一般使用BAR0就行，通过mmap此文件/sys/bus/pci/devices/'pciaddress'/
Java进阶学习路径与资源推荐 java
Java的进阶之路Java作为一门成熟且广泛应用的编程语言，进阶学习需要系统性地掌握多个领域的知识。以下是一个清晰的Java进阶路径：一、Java核心深入JVM深度理解内存模型：堆、栈、方法区、元空间垃圾回收机制与算法：G1、CMS、ZGC等类加载机制与字节码增强JVM调优实战并发编程专家级Java内存模型(JMM)并发工具包深入：AQS、Fork/Join并发容器源码分析无锁编程与性能优化Jav
YARN container cpu超核如何解决 fzip YARN 超核
在ApacheHadoopYARN中，ContainerCPU超核（即Container使用的CPU资源超过分配量）是一个常见问题，可能导致集群性能下降或不稳定。以下是解决该问题的详细步骤：1.问题诊断1.1确认超核现象查看YARNWebUI：访问http://:8088，检查Container的CPU使用率是否持续超过分配的vCore数。检查NodeManager日志：查看/var/log/ha
Hadoop-Mapreduce入门
Hadoop-Mapreduce入门MapReduce介绍mapreduce设计MapReduce编程规范入门案例WordCountMapReduce介绍MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。知识。Map负责“分”，把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Redu
Hadoop MapReduce入门且行且安~ 数据分析进阶之路 Linux命令 hadoop MapReduce入门
入门简介计算过程分为两个阶段Map和ReduceMap阶段并行处理输入数据Reduce阶段对Map结果进行汇总针对python语言来说：map函数或者reduce函数来说，输出的数据格式为元组tuple一个简单的MapReduce程序只需要指定map()reduce()input()output()剩下的由框架完成。Linux常见命令：-读取文件（文本文件，在Windows下使用记事本打开的文件）
Hadoop MapReduce 入门
一、Hadoop3.0.4环境准备1.环境要求Java8（Hadoop3.0.4不支持Java11+）单节点或多节点Linux系统（推荐Ubuntu18.04+）至少4GB内存（建议8GB+）50GB以上磁盘空间2.安装Java#安装Java8sudoapt-getinstallopenjdk-8-jdk#验证安装java-version3.下载与安装Hadoop3.0.4#下载Hadoop3.0
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f