lsr40

【Hadoop】RPC在client端的源码解析

最近在看《Hadoop 2.X HDFS源码剖析》这本书（其实看了挺久的，但是进度比较慢），要看懂hadoop源码真的是需要一定的代码和框架的基础，用到的东西还真是蛮多的，真的厉害，哎，我太菜了~

我们会用hadoop的api或者hadoop的命令来执行一些相应的操作，那么当我们执行了一个rename的方法的时候，实际上到底发生了什么呢？

一、我们从一段客户端的代码开始

代码非常的简单

创建了FileSystem，然后通过FileSystem调用rename，重名名hdfs上的文件名

    public static void main(String[] args) throws Exception{
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(conf);
        fs.rename(new Path("path1"),new Path("path2"));
        fs.close();
    }

1、创建conf，生成对应FileSystem

通过外层的FileSystem.get方法，一路追踪，发现构造具体的FileSystem代码如下：

（1）、如下图第二个红框，是获得具体FileSystem实现类的Class类

（2）、第三个红框，是通过反射的机制，创建出该Class类的对象，并且初始化

那么如何获得具体的Class类呢？见下面的loadFileSystems方法

hadoop通过java提供的ServiceLoader类，初始化了FileSystem中的SERVICE_FILE_SYSTEMS属性

ServiceLoader详解：https://www.cnblogs.com/aspirant/p/10616704.html

当for循环跑完之后，已经将所有的FlieSystem的实现类加载到了SERVICE_FILE_SYSTEMS这个map中，key是schema，value是具体的class的类名

但是这里我有一个疑问，我翻了下源码，META-INF.services这个包下面的FileSystem也才只有4个实现类，不知道hadoop从哪里加载了另外5个，如果有知道的小伙伴烦请指点指点我~
org.apache.hadoop.fs.LocalFileSystem
org.apache.hadoop.fs.viewfs.ViewFileSystem
org.apache.hadoop.fs.ftp.FTPFileSystem
org.apache.hadoop.fs.HarFileSystem

这样，我们就可以根据core-site里面fs.defaultFS得到schema（hdfs），来获得完整的org.apache.hadoop.hdfs.DistributedFileSystem的Class类，进而通过反射，创建出了fs具体的实现类的对象，所以代码中的rename方法，就要跳到DistributedFileSystem里，去看具体的实现了！

2、DistributedFileSystem的rename方法

我们看到这里调用的dfs其实是一个DFSClient，那么这个在哪里初始化的呢？

记得吗，这个initialize的方法，是在createFileSystem方法获得具体的FileSystem对象的时候，被调用了（可参见一-1-(2)的第一张图）

3、DFSClient的rename方法

我们发现DFSClient方法的rename方法，实际上是调用了namenode这个对象的方法，这个对象是啥，在哪里创建的呢（从这里开始，说起来就比较复杂了）

4、namenode对象如何生成之一

如下图，我们有2个东西要记住，一个是xface传了什么东西过来（ClientProtocol.class），要接着往下传

另一个是这个失败处理的proxy，因为HA的模式，把这个对象传进去了

5、namenode对象如何生成之二和三

（1）、先看非HA模式

看到一堆if了吗，这个方法应该是在多个地方会被调用，然后DFSClient传入了ClientProtocol.class，就走了第一个方法

这个方法里的核心，就是设置RPC的引擎（ProtobufRpcEngine.class），然后创建出ClientNamenodeProtocolPB对象

大家有兴趣可以百度下，protobuf，是谷歌的一种高性能的数据序列化方式，Netty里也可以用这个，是业内RPC中比较常见和常用的技术

如下第一个红框的代码，设置了RPC的引擎到conf之中，后面的代码就可以直接通过ClientNamenodeProtocolPB这个，获得ProtobufRpcEngine引擎的完整类名

这里的return会创建一个Engine，并且调用该对象的getProxy的方法

如下图，我们先看看如何创建Engine引擎，看到这里你就发现，哦原来ProtobufRpcEngine对象，是反射的机制创建出来的！！

接着我们找到具体ProtobufRpcEngine的getProxy方法，原来是通过java的Proxy类来反射出ClientNamenodeProtocolPB对象

大家可以百度下Proxy.newProxyInstance方法，核心点在于Invoker！

大家可以参考如下文章：

java动态代理Proxy.newProxyInstance：https://blog.csdn.net/u012326462/article/details/81293186（徐海兴）

所以下一步我们要看看Invoker里的invoke方法的代码逻辑！

Invoker是ProtobufRpcEngine的私有的内部静态类

invoke方法比较长，我就不截图了，直接把代码贴上来

    @Override
    public Object invoke(Object proxy, Method method, Object[] args)
            throws ServiceException {
        long startTime = 0;
        if (LOG.isDebugEnabled()) {
            startTime = Time.now();
        }
        //判断传入的两个参数，实际上调用的rename是ClientNamenodeProtocolTranslatorPB的rename
        //传入两个参数如下一个是null
        // 另一个是将请求的参数从字符串转换为Protocolbuf的请求
        // RenameRequestProto req = RenameRequestProto.newBuilder().setSrc(src).setDst(dst).build();
        // rpcProxy.rename(null, req).getResult();
        if (args.length != 2) { // RpcController + Message
            throw new ServiceException("Too many parameters for request. Method: ["
                    + method.getName() + "]" + ", Expected: 2, Actual: "
                    + args.length);
        }
        if (args[1] == null) {
            throw new ServiceException("null param while calling Method: ["
                    + method.getName() + "]");
        }

        TraceScope traceScope = null;
        // if Tracing is on then start a new span for this rpc.
        // guard it in the if statement to make sure there isn't
        // any extra string manipulation.
        if (Trace.isTracing()) {
            traceScope = Trace.startSpan(
                    method.getDeclaringClass().getCanonicalName() +
                            "." + method.getName());
        }
        //构造请求头域，标明在什么借口上调用什么方法
        RequestHeaderProto rpcRequestHeader = constructRpcRequestHeader(method);
        
        if (LOG.isTraceEnabled()) {
            LOG.trace(Thread.currentThread().getId() + ": Call -> " +
                    remoteId + ": " + method.getName() +
                    " {" + TextFormat.shortDebugString((Message) args[1]) + "}");
        }

        //获取实际的请求参数，
        Message theRequest = (Message) args[1];
        final RpcResponseWrapper val;
        try {
            //真正将数据发送给远端服务！！！
            val = (RpcResponseWrapper) client.call(RPC.RpcKind.RPC_PROTOCOL_BUFFER,
                    new RpcRequestWrapper(rpcRequestHeader, theRequest), remoteId,
                    fallbackToSimpleAuth);

        } catch (Throwable e) {
            if (LOG.isTraceEnabled()) {
                LOG.trace(Thread.currentThread().getId() + ": Exception <- " +
                        remoteId + ": " + method.getName() +
                        " {" + e + "}");
            }
            if (Trace.isTracing()) {
                traceScope.getSpan().addTimelineAnnotation(
                        "Call got exception: " + e.getMessage());
            }
            throw new ServiceException(e);
        } finally {
            if (traceScope != null) traceScope.close();
        }

        if (LOG.isDebugEnabled()) {
            long callTime = Time.now() - startTime;
            LOG.debug("Call: " + method.getName() + " took " + callTime + "ms");
        }

        Message prototype = null;
        try {
            //获得返回参数
            prototype = getReturnProtoType(method);
        } catch (Exception e) {
            throw new ServiceException(e);
        }
        Message returnMessage;
        try {
            //序列化相应信息并返回
            returnMessage = prototype.newBuilderForType()
                    .mergeFrom(val.theResponseRead).build();

            if (LOG.isTraceEnabled()) {
                LOG.trace(Thread.currentThread().getId() + ": Response <- " +
                        remoteId + ": " + method.getName() +
                        " {" + TextFormat.shortDebugString(returnMessage) + "}");
            }

        } catch (Throwable e) {
            throw new ServiceException(e);
        }
        //返回结果
        return returnMessage;
    }

（2）、再看HA模式

看到RetryProxy的create方法传入了一个失败重试的适配器

这不就跟刚才的一样吗，Proxy.newProxyInstance，所以我们要看RetryInvocationHandler里的invoke方法的和非HA模式的invoke方法的区别

    @Override
    public Object invoke(Object proxy, Method method, Object[] args)
            throws Throwable {
        RetryPolicy policy = methodNameToPolicyMap.get(method.getName());
        if (policy == null) {
            policy = defaultPolicy;
        }

        // The number of times this method invocation has been failed over.
        int invocationFailoverCount = 0;
        final boolean isRpc = isRpcInvocation(currentProxy.proxy);
        final int callId = isRpc? Client.nextCallId(): RpcConstants.INVALID_CALL_ID;
        int retries = 0;
        while (true) {
            // The number of times this invocation handler has ever been failed over,
            // before this method invocation attempt. Used to prevent concurrent
            // failed method invocations from triggering multiple failover attempts.
            long invocationAttemptFailoverCount;
            synchronized (proxyProvider) {
                invocationAttemptFailoverCount = proxyProviderFailoverCount;
            }

            if (isRpc) {
                Client.setCallIdAndRetryCount(callId, retries);
            }
            try {
                //可以拉到下面看下这个方法的实现，也是反射调用方法
                //如果调用成功，那么方法就结束了，如果失败，就要走下面的catch来进行重试
                Object ret = invokeMethod(method, args);
                hasMadeASuccessfulCall = true;
                return ret;
            } catch (Exception e) {
                //通过Idempotent注解判断，该方法是否幂等（多次调用没有影响）
                boolean isIdempotentOrAtMostOnce = proxyProvider.getInterface()
                        .getMethod(method.getName(), method.getParameterTypes())
                        .isAnnotationPresent(Idempotent.class);
                if (!isIdempotentOrAtMostOnce) {
                    isIdempotentOrAtMostOnce = proxyProvider.getInterface()
                            .getMethod(method.getName(), method.getParameterTypes())
                            .isAnnotationPresent(AtMostOnce.class);
                }
                //通过shouldRetry来分析处理如上的异常，这里的policy，默认是FailoverOnNetworkExceptionRetry
                //shouldRetry方法里面的逻辑不复杂大家可以自行看下
                //大概就是:
                // 1、失败次数超过最大次数，返回FAIL表示失败
                // 2、如果是连接，host解析不了等类型的异常，就返回FAILOVER_AND_RETRY，表示要执行performFailover方法，更新active的namenode引用
                // 3、如果是端口或者IO异常，判断是否幂等，如果非幂等方法就直接失败FAIL，否则就返回FAILOVER_AND_RETRY
                RetryPolicy.RetryAction action = policy.shouldRetry(e, retries++,
                        invocationFailoverCount, isIdempotentOrAtMostOnce);
                //以下的代码就是来处理action返回的具体enum
                //第一种情况：返回FAIL直接失败
                if (action.action == RetryPolicy.RetryAction.RetryDecision.FAIL) {
                    if (action.reason != null) {
                        LOG.warn("Exception while invoking " + currentProxy.proxy.getClass()
                                + "." + method.getName() + " over " + currentProxy.proxyInfo
                                + ". Not retrying because " + action.reason, e);
                    }
                    throw e;
                } else { // retry or failover
                    // avoid logging the failover if this is the first call on this
                    // proxy object, and we successfully achieve the failover without
                    // any flip-flopping
                    //其他两种情况：需要重试或者刷新activenamenode的引用
                    boolean worthLogging =
                            !(invocationFailoverCount == 0 && !hasMadeASuccessfulCall);
                    worthLogging |= LOG.isDebugEnabled();
                    if (action.action == RetryPolicy.RetryAction.RetryDecision.FAILOVER_AND_RETRY &&
                            worthLogging) {
                        String msg = "Exception while invoking " + method.getName()
                                + " of class " + currentProxy.proxy.getClass().getSimpleName()
                                + " over " + currentProxy.proxyInfo;

                        if (invocationFailoverCount > 0) {
                            msg += " after " + invocationFailoverCount + " fail over attempts";
                        }
                        msg += ". Trying to fail over " + formatSleepMessage(action.delayMillis);
                        LOG.info(msg, e);
                    } else {
                        if(LOG.isDebugEnabled()) {
                            LOG.debug("Exception while invoking " + method.getName()
                                    + " of class " + currentProxy.proxy.getClass().getSimpleName()
                                    + " over " + currentProxy.proxyInfo + ". Retrying "
                                    + formatSleepMessage(action.delayMillis), e);
                        }
                    }

                    if (action.delayMillis > 0) {
                        Thread.sleep(action.delayMillis);
                    }

                    if (action.action == RetryPolicy.RetryAction.RetryDecision.FAILOVER_AND_RETRY) {
                        // Make sure that concurrent failed method invocations only cause a
                        // single actual fail over.
                        synchronized (proxyProvider) {
                            if (invocationAttemptFailoverCount == proxyProviderFailoverCount) {
                                //这个就是刷新引用的方法
                                proxyProvider.performFailover(currentProxy.proxy);
                                proxyProviderFailoverCount++;
                            } else {
                                LOG.warn("A failover has occurred since the start of this method"
                                        + " invocation attempt.");
                            }
                            currentProxy = proxyProvider.getProxy();
                        }
                        invocationFailoverCount++;
                    }
                }
            }
        }
    }

    //通过反射调用method对象的方法
    protected Object invokeMethod(Method method, Object[] args) throws Throwable {
        try {
            if (!method.isAccessible()) {
                method.setAccessible(true);
            }
            //当主备发生切换，currentProxy.proxy这个东西就会变成新的active的namenode地址
            return method.invoke(currentProxy.proxy, args);
        } catch (InvocationTargetException e) {
            throw e.getCause();
        }
    }

@Override
    public RetryPolicy.RetryAction shouldRetry(Exception e, int retries,
                                               int failovers, boolean isIdempotentOrAtMostOnce) throws Exception {
        if (failovers >= maxFailovers) {
            return new RetryPolicy.RetryAction(RetryPolicy.RetryAction.RetryDecision.FAIL, 0,
                    "failovers (" + failovers + ") exceeded maximum allowed ("
                            + maxFailovers + ")");
        }
        if (retries - failovers > maxRetries) {
            return new RetryPolicy.RetryAction(RetryPolicy.RetryAction.RetryDecision.FAIL, 0, "retries ("
                    + retries + ") exceeded maximum allowed (" + maxRetries + ")");
        }

        if (e instanceof ConnectException ||
                e instanceof NoRouteToHostException ||
                e instanceof UnknownHostException ||
                e instanceof StandbyException ||
                e instanceof ConnectTimeoutException ||
                isWrappedStandbyException(e)) {
            return new RetryPolicy.RetryAction(RetryPolicy.RetryAction.RetryDecision.FAILOVER_AND_RETRY,
                    getFailoverOrRetrySleepTime(failovers));
        } else if (e instanceof RetriableException
                || getWrappedRetriableException(e) != null) {
            // RetriableException or RetriableException wrapped
            return new RetryPolicy.RetryAction(RetryPolicy.RetryAction.RetryDecision.RETRY,
                    getFailoverOrRetrySleepTime(retries));
        } else if (e instanceof SocketException
                || (e instanceof IOException && !(e instanceof RemoteException))) {
            if (isIdempotentOrAtMostOnce) {
                return RetryPolicy.RetryAction.FAILOVER_AND_RETRY;
            } else {
                return new RetryPolicy.RetryAction(RetryPolicy.RetryAction.RetryDecision.FAIL, 0,
                        "the invoked method is not idempotent, and unable to determine "
                                + "whether it was invoked");
            }
        } else {
            return fallbackPolicy.shouldRetry(e, retries, failovers,
                    isIdempotentOrAtMostOnce);
        }
    }
}

二、总结

所以我们看出了一下几点东西，我来总结下

1、hadoop的这部分代码中，还是比较喜欢用反射的

2、用反射的目的，其实一来是可以直接通过类名加载出对象，二来是可以做invoke，这样就可以在使用者无感知的情况下，将某个方法的参数，通过某个具体的引擎序列化，然后发送出去，接着接受到的数据也是再反序列化成用户能看懂的参数

3、代码中还是用到了不少java提供的一些很方便的类，例如ServiceLoader，因此看hadoop的代码还是能够学到很多东西的，特别是在不使用spring那一套框架的情况下，去完成一些在spring中常见的操作（spring提供了很方便的aop，类的装载，其实也是通过反射实现的）

4、希望大家有空可以自己去跟踪下这部分代码，看完之后相信你对hadoop或者对于rpc，对于protocolbuf，都会有更进一步的了解

哎，又臭又长的文章，但是完整的写出来，真的是很爽，写的很辛苦，也希望大家能够静下心来帮我看看有没有哪里写的有问题的地方，欢迎批评指正

其实很早之前就一直想花时间认真看看hadoop的源码~感谢坚持到现在的自己！！22:40分了，下班回家~

特别感谢：

Hadoop RPC调用实例分析：https://blog.csdn.net/yexiguafu/article/details/107378511（作者：叹了口丶气）

Hadoop 2.X HDFS源码剖析（作者：徐鹏）

【Linux 下的 bash 无法正常解析, Windows 的 CRLF 换行符问题导致的】待磨的钝刨 linux bash windows
文章目录报错原因：解决办法：方法一：用`dos2unix`修复方法二：手动转换换行符方法三：VSCode或其他编辑器手动改总结这个错误很常见，原因是你的wait_for_gpu.sh脚本文件格式不对，具体来说是Windows的CRLF换行符问题导致的，Linux下的bash无法正常解析。hadoop@hadoop:~/anaconda3$bashwait_for_gpu.sh:invalidopt
大数据技术实战---项目中遇到的问题及项目经验一个“不专业”的阿凡大数据
问题导读：1、项目中遇到过哪些问题？2、Kafka消息数据积压，Kafka消费能力不足怎么处理？3、Sqoop数据导出一致性问题？4、整体项目框架如何设计？项目中遇到过哪些问题7.1Hadoop宕机（1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
【Hive】-- hive 3.1.3 伪分布式部署（单节点） oo寻梦in记 Apache Paimon 大数据服务部署 hive 分布式 hadoop
1、环境准备1.1、版本选择apachehive3.1.3apachehadoop3.1.0oraclejdk1.8mysql8.0.15操作系统：Macos10.151.2、软件下载https://archive.apache.org/dist/hive/https://archive.apache.org/dist/hadoop/1.3、解压tar-zxvfapache-hive-4.0.0-
【Linux】Hadoop-3.4.1的伪分布式集群的初步配置孤独打铁匠Julian Linux linux hadoop ubuntu
配置步骤一、检查环境JDK#目前还是JDK8最适合Hadoopjava-versionecho$JAVA_HOMEHadoophadoopversionecho$HADOOP_HOME二、配置SSH免密登录Hadoop需要通过SSH管理节点（即使在伪分布式模式下）sudoaptinstallopenssh-server#安装SSH服务（如未安装）cd~/.ssh/ssh-keygen-trsa#生
Hadoop 集群规划与部署最佳实践 AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2009年2月2日，ApacheHadoop项目诞生。它是一个开源的分布式系统基础架构，用于存储、处理和分析海量的数据。Hadoop具有高容错性、可靠性、可扩展性、适应性等特征，因而广泛应用于数据仓库、日志分析、网络流量监测、推荐引擎、搜索引擎等领域。由于Hadoop采用“分而治之”的架构设计理念，因此可以轻松应对数据量、计算能力和存储成本的增长。2013年底，
MySQL 到 Hadoop：Sqoop 数据迁移 ETL Ice星空 ETL
文章目录ETL：Extract-Transform-Load数据迁移过程一、Extract数据抽取1.ODS：OperationalDataStore-可操作数据存储2.DW：DataWarehouse-数据仓库3.DM：DataMart-数据集市二、Transform数据清洗和转换1.数据清洗2.数据转换三、Load数据加载四、数据迁移方法1.Sqoop1.1MySQL->Hive1.1.1im
HBase安装 lianhedaxue Hadoop hbase
HBase安装本章将介绍如何安装HBase和初始配置。需要用Java和Hadoop来处理HBase，所以必须下载java和Hadoop并安装系统中。安装前设置安装Hadoop在Linux环境下之前，需要建立和使用LinuxSSH(安全Shell)。按照下面设立Linux环境提供的步骤。创建一个用户首先，建议从Unix创建一个单独的Hadoop用户，文件系统隔离Hadoop文件系统。按照下面给出创建
HBase的架构介绍，安装及简单操作 pk_xz123456 大数据 hbase 架构数据库
一、HBase安装1.环境准备Java环境：确保系统中已经安装了Java8或更高版本。可以通过在命令行中输入java-version来检查Java版本。Hadoop环境：HBase依赖于Hadoop，需要先安装并配置好Hadoop集群。确保Hadoop的相关服务（如HDFS、YARN等）已经正常启动。2.下载HBase从HBase官方网站（https://hbase.apache.org/）下载适
HDFS相关的面试题努力的搬砖人. java 面试 hdfs
以下是150道HDFS相关的面试题，涵盖了HDFS的基本概念、架构、操作、数据存储、高可用性、权限管理、性能优化、容错机制、与MapReduce的结合、安全性、数据压缩、监控与管理、与YARN的关系、数据一致性、数据备份与恢复等方面，希望对你有所帮助。HDFS基本概念1.HDFS是什么？它的设计目标是什么？•HDFS是Hadoop分布式文件系统，设计目标是实现对大规模数据的高吞吐量访问，适用于一次
hadoop3.x--搭建hadoop高可用集群（HA模式）运维小菜 hadoop hadoop hdfs
hadoop高可用集群（HA模式）一、安装前1.集群规划2.安装前配置3.安装jdk与hadoop4.克隆虚拟机与互信配置5.搭建zookeeper集群二、HDFS1.配置hdfs2.初始化启动hdfs集群三、MapReduce与Yarn1.配置MapReduce2.配置yarn3.启动yarn四、验证1.查看java进程2.hdfs与yarn前台页面一、安装前1.集群规划hostnameipNN
在虚拟机上安装Hadoop 杜清卿 hadoop
基本步骤与安装java一致:先用finalshell将hadoop-3.1.3.tar.gz导入到opt目录下面的software文件夹下面，然后解压,最后配置环境变量。1.使用finalshell上传。这里直接鼠标拖动操作即可。2.解压。进入到Hadoop安装包路径下，cd/opt/software/，再解压安装文件到/opt/module下，对应的命令是:tar-zxvfhadoop-.1.3
hadoop集群配置-scp拓展使用杜清卿 hadoop 服务器大数据
任务1：在hadoop102上，将hadoop101中/opt/module/hadoop-3.1.3目录拷贝到hadoop102上。分析：使用scp进行拉取操作：先登录到hadoop2使用命令：scp-rroot@hadoop101:/opt/module/hadoop-3.1.3/opt/module/任务2：在hadoop101上操作，将hadoop100中/opt/module目录下所有目
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
ssh命令满分对我强制爱 linux 服务器运维 spark
ssh命令无需密码也可登录要先关闭防火墙，命令如下：systemctlstopfirewalldsystemctldisablefirewalldsystemctlstatusfirewalldeg：目标：hadoop100通过ssh访问hadoop101,hadoop102时不需要密码，其他两台设备也类似。具体操作如下：1.在hadoop100中生成公钥和密码。ssh-keygen-trsa三次
Hive面试题御风行云天面试题大全 hive hadoop 数据仓库面试
Hive面试题1Hive基础概念1.1解释Hive是什么以及它的用途Hive的主要用途：1.2描述Hive架构和组件1.HiveCLI/Beeline和WebUI2.HiveQL3.HiveDriver（驱动）4.Metastore5.Compiler（编译器）6.Optimizer（优化器）7.Executor（执行器）8.HadoopCoreComponents（核心组件）9.HiveUDFs
#Hadoop全分布式安装 #mysql安装 #hive安装砸吧砸吧 hadoop hive yarn mysql
分布式（多台机器部署不同组件）与集群（多台机器部署相同组件）概念。Linux基础命令linux具有文件数：目录、文件，从根目录开始，路径具有唯一性。pwd：显示当前路径特殊符号：/：根目录.：隐藏文件，如果路径以.开始，表示当前目录下..：当前目录下的上一级~：当前目录的home目录--help：帮助命令使用linux常用操作命令tab键：自动补全ls：显示指定目录内容默认：当前路径-a：显示所有
Hadoop（在Linux中安装jdk）錠诗味 linux hadoop 运维
安装之前需准备：1.需要远程连接软件2.需要jdk3.需要准备两个文件夹01/export/software安装包02/export/servers解压文件夹现在正式开始安装1.将压缩包存放在/export/software目录下2.进入到software目录进行解压cd/export/software（切换目录）tar-zxvfjdk-8u202-linux-x64.tar.gz-C/expor
数据仓库和非结构化数据。 weixin_30631587 数据库
数据仓库包含标准化数据。还包含外部数据/非结构化数据如果外部数据量小可以保持数据库内部或者专用服务器。如果量大只能记住地址，在etl加载当然也有需求是实时数据比如股票汇率拿只能etl过程处理非结构化数据包含图片，视频音频如果是传统数据库db2oracle存在里面是不合适的。存储影响性能如果是hadoop无所谓影响不大，但是从使用者的角度非结构化数据只能转换关系使用建一张元数据表存储非结构化存储位置
CentOS 7系统中hadoop的安装和环境配置代码小张z centos hadoop linux
1.创建Hadoop安装解压路径：mkdir-p/usr/hadoop2.进入路径：cd/usr/hadoop3.下载安装包（我这里用的是阿里云镜像压缩包）：wgethttps://mirrors.aliyun.com/apache/hadoop/common/hadoop-3.3.5/hadoop-3.3.5.tar.gz4.解压安装包到hadoop文件路径：tar-zxvf/usr/hadoo
尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
Hadoop 实战笔记（二）-- HDFS 常用 shell 命令总结 dazhong2012 Hadoop hdfs hadoop
一、HDFS命令显示当前目录结构#显示当前目录结构hadoopfs-ls#递归显示当前目录结构hadoopfs-ls-R#显示根目录下内容hadoopfs-ls/创建目录#创建目录hadoopfs-mkdir#递归创建目录hadoopfs-mkdir-p删除操作#删除文件hadoopfs-rm#递归删除目录和文件hadoopfs-rm-R从本地加载文件到HDFS#二选一执行即可hadoopfs-p
How Spark Read Sftp Files from Hadoop SFTP FileSystem IT•轩辕 Cloudy Computation spark hadoop 大数据
GradleDependenciesimplementation('org.apache.spark:spark-sql_2.13:3.5.3'){excludegroup:"org.apache.logging.log4j",module:"log4j-slf4j2-impl"}implementation('org.apache.hadoop:hadoop-common:3.3.4'){exc
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地