happylzs2008

Yarn之ResourceManager详细分析笔记（一）待续

http://zengzhaozheng.blog.51cto.com/8219051/1438204/

一、概述

本文将介绍ResourceManager在Yarn中的功能作用，从更细的粒度分析RM内部组成的各个组件功能和他们相互的交互方式。

二、ResourceManager的交互协议与基本职能

1、ResourceManager交互协议

在整个Yarn框架中主要涉及到7个协议，分别是ApplicationClientProtocol、MRClientProtocol、ContainerManagementProtocol、ApplicationMasterProtocol、ResourceTracker、LocalizationProtocol、TaskUmbilicalProtocol，这些协议封装了各个组件交互的信息。ResourceManager现实功能需要和NodeManager以及ApplicationMaster进行信息交互，其中涉及到的RPC协议有ResourceTrackerProtocol、ApplicationMasterProtocol和ResourceTrackerProtocol。

ResourceTracker

NodeManager通过该协议向ResourceManager中注册、汇报节点健康情况以及Container的运行状态，并且领取ResourceManager下达的重新初始化、清理Container等命令。NodeManager和ResourceManager这种RPC通信采用了和MRv1类似的“pull模型”（ResourceManager充当RPC server角色，NodeManager充当RPC client角色），NodeManager周期性主动地向ResourceManager发起请求，并且领取下达给自己的命令。

ApplicationMasterProtocol

应用程序的ApplicationMaster同过该协议向ResourceManager注册、申请和释放资源。该协议和上面协议同样也是采用了“pull模型”，其中在RPC机制中，ApplicationMaster充当RPC client角色，ResourceManager充当RPC server角色。
ApplicationClientProtocol
客户端通过该协议向ResourceManager提交应用程序、控制应用程序（如杀死job）以及查询应用程序的运行状态等。在该RPC 协议中应用程序客户端充当RPC client角色，ResourceManager充当RPC server角色。

整理一下ResourceManager与NodeManager、ApplicationMaster和客户端RPC协议交互的信息：

上图中的ResourceTrackeServer、ApplicationMasterService 、ClientRMServer是ResourceManager中处理上述功能的组件。

1、ResourceManager基本职能

ResourceManager基本职能概括起来就以下几方面：

与客户端进行交互，处理来自于客户端的请求，如查询应用的运行情况等。
启动和管理各个应用的ApplicationMaster，并且为ApplicationMaster申请第一个Container用于启动和在它运行失败时将它重新启动。
管理NodeManager，接收来自NodeManager的资源和节点健康情况汇报，并向NodeManager下达管理资源命令，例如kill掉某个container。
资源管理和调度，接收来自ApplicationMaster的资源申请，并且为其进行分配。这个是它的最重要的职能。

三、ResourceManager内部组成架构分析

ResourceManager在底层代码实现上将各个功能模块分的比较细，各个模块功能具有很强的独立性。下图所示的是ResourceManager中的大概的功能模块组成：

1、用户交互模块

用户交互模块即上图显示的User Service管理模块。在这里边还可以看到根据不同的用户类型启用了不同的服务进行处理，AdminService处理管理员相关请求，ClientRMService处理普通客户相关请求，这样使得管理员不会因为普通客户请求太多而造成堵塞。下面看看这2个服务的具体实现代码：

ClientRMService

 
          public  
          class  
          ClientRMService  
          extends  
          AbstractService  
          implements 
         
          ApplicationClientProtocol { 
         
          private  
          static  
          final  
          ArrayList EMPTY_APPS_REPORT =  
          new  
          ArrayList(); 
         
          private  
          static  
          final  
          Log LOG = LogFactory.getLog(ClientRMService. 
          class 
          ); 
         
          final  
          private  
          AtomicInteger applicationCounter =  
          new  
          AtomicInteger( 
          0 
          ); 
         
          final  
          private  
          YarnScheduler scheduler; 
          //调度器 
         
          final  
          private  
          RMContext rmContext; 
          //RM上下文对象，其包含了RM大部分运行时信息，如节点列表、队列列表、应用程序列表等 
         
          private  
          final  
          RMAppManager rmAppManager; 
          //app管理对象 
         
          private  
          Server server; 
          //一个RPC Server 
         
          protected  
          RMDelegationTokenSecretManager rmDTSecretManager; 
         
          private  
          final  
          RecordFactory recordFactory = RecordFactoryProvider.getRecordFactory( 
          null 
          ); 
         
          InetSocketAddress clientBindAddress; 
         
          //访问控制对象，例如，一些应用程序在提交时设置了查看权限的话，其他普通用户就无法查看。 
         
          private  
          final  
          ApplicationACLsManager applicationsACLsManager; 
         
          private  
          final  
          QueueACLsManager queueACLsManager; 
         
          ...... 
         
          @Override 
         
          protected  
          void  
          serviceStart()  
          throws  
          Exception { 
         
          Configuration conf = getConfig(); 
         
          YarnRPC rpc = YarnRPC.create(conf); 
         
          this 
          .server =    
          //实现RPC协议ApplicationClientProtocol  
         
          rpc.getServer(ApplicationClientProtocol. 
          class 
          ,  
          this 
          , 
         
          clientBindAddress, 
         
          conf,  
          this 
          .rmDTSecretManager, 
         
          conf.getInt(YarnConfiguration.RM_CLIENT_THREAD_COUNT,  
         
          YarnConfiguration.DEFAULT_RM_CLIENT_THREAD_COUNT)); 
         
          // Enable service authorization? 
         
          if  
          (conf.getBoolean( 
         
          CommonConfigurationKeysPublic.HADOOP_SECURITY_AUTHORIZATION,  
         
          false 
          )) { 
         
          refreshServiceAcls(conf,  
          new  
          RMPolicyProvider()); 
         
          } 
         
          this 
          .server.start(); 
         
          ...... 
         
          }

从上面ClientRMService的基本代码架构我们可以看出：

（1）ClientRMService是一个RPC Server，主要为来自于普通客户端的各种RPC请求。从代码实现的角度看，它是ApplicationClientProtocol协议的一个实现。

（2）之前我们已经说了，普通用户可以通过该服务来获得正在运行应用程序的相关信息，如进度情况、应用程序列表等。上面代码中都将ResourceManager运行信息封装在RMContxt接口中了，下面来看看这个接口的一个实现对象RMContextImpl:

 
          public  
          class  
          RMContextImpl  
          implements  
          RMContext { 
         
          //中央异步调度器。RM中的各个服务和组件以及它们处理和输出的事件类型都是通过中央异步调度器组织在一起的，这样可以有效提高系统的吞吐量。 
         
          private  
          final  
          Dispatcher rmDispatcher; 
         
          private  
          final  
          ConcurrentMap applications 
          //应用程序列表 
         
          =  
          new  
          ConcurrentHashMap(); 
         
          private  
          final  
          ConcurrentMap nodes 
          //节点列表 
         
          =  
          new  
          ConcurrentHashMap(); 
         
          private  
          final  
          ConcurrentMap inactiveNodes 
          //非活跃节点列表 
         
          =  
          new  
          ConcurrentHashMap(); 
         
          //正在运行中的AP心跳监控对象 
         
          private  
          AMLivelinessMonitor amLivelinessMonitor; 
          //正在运行中的AP心跳监控对象 
         
          //运行完毕后的AM心跳监控对象 
         
          private  
          AMLivelinessMonitor amFinishingMonitor; 
         
          //用于存储ResourceManager运行状态 
         
          private  
          RMStateStore stateStore =  
          null 
          ; 
         
          //用于Container的超时监控，应用程序必须在一定时间内（默认10Min）使用分配到的Container去运行task，否则会被回收 
         
          private  
          ContainerAllocationExpirer containerAllocationExpirer; 
         
          //下面变量都是与安全管理相关的对象 
         
          private  
          final  
          DelegationTokenRenewer delegationTokenRenewer; 
         
          private  
          final  
          AMRMTokenSecretManager amRMTokenSecretManager; 
         
          private  
          final  
          RMContainerTokenSecretManager containerTokenSecretManager; 
         
          private  
          final  
          NMTokenSecretManagerInRM nmTokenSecretManager; 
         
          private  
          final  
          ClientToAMTokenSecretManagerInRM clientToAMTokenSecretManager; 
         
          private  
          ClientRMService clientRMService; 
         
          private  
          RMDelegationTokenSecretManager rmDelegationTokenSecretManager; 
         
          ...... 
         
          }

AdminService

AdminService和ClientRMService一样都是作为RPC的服务端，它针对的处理管理员RPC请求，负责访问权限的控制，中Yarn中管理员权限的设定可以在yarn-site.xml中yarn.admi.acl项进行设置，该项的默认值是*，也就是说如果不进行设置的话就当所有的用户都是管理员。从代码上看，它是ResourceManagerAdministrationProtocol协议的一个实现：

 
          public  
          class  
          AdminService  
          extends  
          AbstractService  
          implements  
          ResourceManagerAdministrationProtocol { 
         
          private  
          static  
          final  
          Log LOG = LogFactory.getLog(AdminService. 
          class 
          ); 
         
          private  
          final  
          Configuration conf; 
         
          private  
          final  
          ResourceScheduler scheduler; 
         
          private  
          final  
          RMContext rmContext; 
         
          private  
          final  
          NodesListManager nodesListManager; 
         
          private  
          final  
          ClientRMService clientRMService; 
         
          private  
          final  
          ApplicationMasterService applicationMasterService; 
         
          private  
          final  
          ResourceTrackerService resourceTrackerService; 
         
          private  
          Server server; 
         
          private  
          InetSocketAddress masterServiceAddress; 
         
          private  
          AccessControlList adminAcl; 
         
          private  
          final  
          RecordFactory recordFactory =  
         
          RecordFactoryProvider.getRecordFactory( 
          null 
          ); 
         
          ..... 
         
          }

AdminService代码和ClientRMService比较相似，它各类功能对象也差不多。

2、NodeManager管理

NodeManager主要是通过NMLivelinessMonitor、ResourceTrackerService和NodeListManager这3大组件来对NodeManager的生命周期、心跳处理以及黑名单处理。

（1）ResourceTrackerService

ResourceTrackerService是RPC协议ResourceTracker的一个实现，它作为一个RPC Server端接收NodeManager的RPC请求，请求主要包含2种信息，注册NodeManager和处理心跳信息。NodeManger启动时第一件事就是像ResourceManager注册，注册时NodeManager发给ResourceTrackerService的RPC包主要包含NodeManager所在节点的可用资源总量、对外开放的htpp端口、节点的host和port等信息，具体代码看ResourceTrackerService#registerNodeManager方法：

 
          @SuppressWarnings 
          ( 
          "unchecked" 
          ) 
         
          @Override 
         
          public  
          RegisterNodeManagerResponse registerNodeManager( 
         
          RegisterNodeManagerRequest request)  
          throws  
          YarnException, 
         
          IOException { 
         
          NodeId nodeId = request.getNodeId(); 
          //从NodeManager带来的NodeID 
         
          String host = nodeId.getHost(); 
          //NodeManager所在节点的host 
         
          int  
          cmPort = nodeId.getPort();  
          //NodeManager所在节点的port 
         
          int  
          httpPort = request.getHttpPort(); 
          //对外开放的http端口 
         
          Resource capability = request.getResource(); 
          //获得NodeManager所在节点的资源上限 
         
          RegisterNodeManagerResponse response = recordFactory 
         
          .newRecordInstance(RegisterNodeManagerResponse. 
          class 
          ); 
         
          // Check if this node is a 'valid' node 
         
          //检测节点host名称的的合法性 
         
          if  
          (! 
          this 
          .nodesListManager.isValidNode(host)) { 
         
          String message = 
         
          "Disallowed NodeManager from  "  
          + host 
         
          +  
          ", Sending SHUTDOWN signal to the NodeManager." 
          ; 
         
          LOG.info(message); 
         
          response.setDiagnosticsMessage(message); 
         
          response.setNodeAction(NodeAction.SHUTDOWN); 
         
          return  
          response; 
         
          } 
         
          ..... 
         
          }

ResourceTrackerService另外一种功能就是处理心跳信息了，当NodeManager启动后，它会周期性地调用RPC函数ResourceTracker#nodeHeartbeat汇报心跳，心跳信息主要包含该节点的各个Container的运行状态、正在运行的Application列表、节点的健康状况等，随后ResourceManager为该NodeManager返回需要释放的Container列表、Application列表等信息。其中心跳信息处理的流程：首先，从NodeManager发来的心跳包中获得节点的状态状态信息，然后检测该节点是否已经注册过，然后检测该节点的host名称是否合法，例如是否在excluded列表中，然后再检测该次心跳是不是第一次心跳信息，这点非常重要，因为关系到心跳的重复发送与应答的相关问题。其实ResourceTrackerService和NodeManager的心跳处理机制和之前Hadoop1.x中的JobTracker与TaskTacker之间的心跳处理很想象，具体请看我之前写的一篇blog:http://zengzhaozheng.blog.51cto.com/8219051/1359887 ，再然后，为NodeManager返回心跳应答信息，最后，想RMNode发送该NodeManager的状态信息并且保存最近一次心跳应答信息。再具体看看ResourceTracker#nodeHeart方法：

 
          public  
          NodeHeartbeatResponse nodeHeartbeat(NodeHeartbeatRequest request) 
         
          throws  
          YarnException, IOException { 
         
          //从RPC Clinet中获得nodeManager所在节点的健康状况 
         
          NodeStatus remoteNodeStatus = request.getNodeStatus(); 
         
          /** 
         
          * Here is the node heartbeat sequence... 
         
          * 1. Check if it's a registered node 
         
          * 2. Check if it's a valid (i.e. not excluded) node  
         
          * 3. Check if it's a 'fresh' heartbeat i.e. not duplicate heartbeat  
         
          * 4. Send healthStatus to RMNode 
         
          */ 
         
          NodeId nodeId = remoteNodeStatus.getNodeId(); 
         
          // 1. Check if it's a registered node 
         
          RMNode rmNode =  
          this 
          .rmContext.getRMNodes().get(nodeId); 
         
          if  
          (rmNode ==  
          null 
          ) { 
         
          /* node does not exist */ 
         
          String message =  
          "Node not found resyncing "  
          + remoteNodeStatus.getNodeId(); 
         
          LOG.info(message); 
         
          resync.setDiagnosticsMessage(message); 
         
          return  
          resync; 
         
          } 
         
          // Send ping 
         
          this 
          .nmLivelinessMonitor.receivedPing(nodeId); 
         
          // 2. Check if it's a valid (i.e. not excluded) node 
         
          if  
          (! 
          this 
          .nodesListManager.isValidNode(rmNode.getHostName())) { 
         
          String message = 
         
          "Disallowed NodeManager nodeId: "  
          + nodeId +  
          " hostname: " 
         
          + rmNode.getNodeAddress(); 
         
          LOG.info(message); 
         
          shutDown.setDiagnosticsMessage(message); 
         
          this 
          .rmContext.getDispatcher().getEventHandler().handle( 
         
          new  
          RMNodeEvent(nodeId, RMNodeEventType.DECOMMISSION)); 
         
          return  
          shutDown; 
         
          } 
         
          // 3. Check if it's a 'fresh' heartbeat i.e. not duplicate heartbeat 
         
          NodeHeartbeatResponse lastNodeHeartbeatResponse = rmNode.getLastNodeHeartBeatResponse(); 
         
          if  
          (remoteNodeStatus.getResponseId() +  
          1  
          == lastNodeHeartbeatResponse 
         
          .getResponseId()) { 
         
          LOG.info( 
          "Received duplicate heartbeat from node " 
         
          + rmNode.getNodeAddress()); 
         
          return  
          lastNodeHeartbeatResponse; 
         
          }  
          else  
          if  
          (remoteNodeStatus.getResponseId() +  
          1  
          < lastNodeHeartbeatResponse 
         
          .getResponseId()) { 
         
          String message = 
         
          "Too far behind rm response id:" 
         
          + lastNodeHeartbeatResponse.getResponseId() +  
          " nm response id:" 
         
          + remoteNodeStatus.getResponseId(); 
         
          LOG.info(message); 
         
          resync.setDiagnosticsMessage(message); 
         
          // TODO: Just sending reboot is not enough. Think more. 
         
          this 
          .rmContext.getDispatcher().getEventHandler().handle( 
         
          new  
          RMNodeEvent(nodeId, RMNodeEventType.REBOOTING)); 
         
          return  
          resync; 
         
          } 
         
          // Heartbeat response 
         
          NodeHeartbeatResponse nodeHeartBeatResponse = YarnServerBuilderUtils 
         
          .newNodeHeartbeatResponse(lastNodeHeartbeatResponse. 
         
          getResponseId() +  
          1 
          , NodeAction.NORMAL,  
          null 
          ,  
          null 
          ,  
          null 
          ,  
          null 
          , 
         
          nextHeartBeatInterval); 
         
          rmNode.updateNodeHeartbeatResponseForCleanup(nodeHeartBeatResponse); 
         
          populateKeys(request, nodeHeartBeatResponse); 
         
          // 4. Send status to RMNode, saving the latest response. 
         
          this 
          .rmContext.getDispatcher().getEventHandler().handle( 
         
          new  
          RMNodeStatusEvent(nodeId, remoteNodeStatus.getNodeHealthStatus(), 
         
          remoteNodeStatus.getContainersStatuses(),  
         
          remoteNodeStatus.getKeepAliveApplications(), nodeHeartBeatResponse)); 
         
          return  
          nodeHeartBeatResponse; 
         
          }

（2）NodeListManager

NodeListManager主要分管黑名单（include列表）和白名单（exlude列表）管理功能，分别有yarnresouecemanager.nodes.include-path和yarnresourcemanager.nodes.exclude-path指定。黑名单列表中的nodes不能够和RM直接通信（直接抛出RPC异常），管理员可以对这两个列表进行编辑，然后使用$HADOOP_HOME/bin/yarn rmadmin-refreshNodes动态加载修改后的列表，使之生效。

（3）NMLivelinessMonitor

NMLivelinessMonitor主要是分管心跳异常请求。该服务会周期性地遍历集群中的所有NodeManager，如果某个NodeManager在一定时间内（默认10min，可以有参数yarn.nm.liveness-monitor.expiry-interval-ms配置）没有进行心跳汇报，那么则认为它已经死掉，同时在该节点上运行的Container也会被置为运行失败释放资源。那么这些被置为失败的Container是不会直接被RM分配执行的，RM只是负责将这些被置为失败的Container信息告诉它们所对应的ApplicationMaster，需不需要重新运行它说的算，如果需要从新运行的话，该ApplicationMaster要从新向RM申请资源，然后由ApplicationMaster与对应的NodeManager通信以从新运行之前失败的Container。

2、ApplicationMaster管理模块

后面部分请看：http://zengzhaozheng.blog.51cto.com/8219051/1542067

本文出自 “蚂蚁” 博客，请务必保留此出处http://zengzhaozheng.blog.51cto.com/8219051/1438204

你可能感兴趣的:(hadoop)

搭建单机伪分布式Hadoop+spark+scala 啥也不会0-0 分布式 hadoop spark
目录一、准备环境包：二、创建centos7虚拟机并配置ip三、链接Xshell并上环境包四、安装JDK1.解压jdk2.设置JAVA环境变量3.执行source使设置生效：4.检查JAVA是否可用。五、免密登陆1.创建ssh秘钥，输入如下命令，生成公私密钥2.将master公钥id_dsa复制到master进行公钥认证，实现本机免密登陆，测试完exit退出六、安装Hadoop软件1.解压hadoo
Hadoop 与 Spark：大数据处理的比较王子良. 大数据经验分享 hadoop spark 大数据
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
虚拟机VMware Workstation Pro安装集群+hadoop+spark+scala 落枫兮 hadoop spark scala
参考资料：参考视频教程链接：大数据实验虚拟机安装Hadoop和Spark_哔哩哔哩_bilibiliup主：孤独时代的硕硕namenode安装选择镜像、路径、磁盘（最好不要c盘）、内存和处理器编辑名称与位置可点击此处自定义硬盘进行设置。选择语言、时区、软件、位置和网络
Hadoop分布式文件系统-HDFS架构 Fancs2024 hadoop hadoop hdfs
一、HDFS的简介HDFS全称HadoopDistributedFileSystem，是分布式文件管理系统。主要是为了解决大数据如何存储的问题，跟一般文件系统不同的是，它可以通过扩展服务器结点来扩充存储量，可以用低成本的硬件构建出支持高吞吐量的文件系统。二、HDFS的特点高容错性：一个HDFS集群会包含非常多的结点，HDFS将文件分块存储，并且会保存多个副本到不同的机器节点上以保证数据的安全，而且
TiDB 对 Hadoop 的影响：大数据时代的新选择狮歌~资深攻城狮 tidb 数据仓库数据分析数据库分布式
TiDB对Hadoop的影响：大数据时代的新选择随着大数据时代的到来，各种处理和存储海量数据的技术应运而生。Hadoop和TiDB都是这个时代的代表性技术，但它们的设计初衷、使用场景和应用方式却有所不同。那么，TiDB作为一个分布式数据库，它对传统的Hadoop生态系统产生了哪些影响呢？今天，我们就来聊聊这个话题。Hadoop简介：大数据的“老牌劲旅”首先，我们需要了解一下Hadoop的背景。Ha
Apache DolphinScheduler 限制秒级别的定时调度数据库
背景ApacheDolphinScheduler定时任务配置采用的7位Crontab表达式，分别对应秒、分、时、月天、月、周天、年。在团队日常开发工作中，工作流的定时调度一般不会细化到秒级别。但历史上出现过因配置的疏忽大意而产生故障时间，如应该配置每分钟执行的工作流被配置长了每秒执行，造成短时间内产生大量工作流实例，对ApacheDolphinScheduler服务可用性和提交任务的Hadoop集
有了TiDB，是否还需要“散装”大数据组件？狮歌~资深攻城狮 tidb 数据仓库数据分析数据库分布式
有了TiDB，是否还需要“散装”大数据组件？最近和同事们讨论一个问题：在大数据应用日益增多的今天，如果使用了TiDB这样的一体化数据库，还需要使用那些传统的大数据组件（比如Hadoop、Spark等）吗？相信大家在公司或项目中，常常遇到需要处理大量数据的场景，特别是互联网、金融、电商等行业。随着TiDB的兴起，它作为一款分布式关系型数据库，似乎能够解决不少大数据问题。那么，问题来了：如果我们已经选
Hadoop是什么，怎么部署安装？狮歌~资深攻城狮 hadoop 大数据分布式
Hadoop是什么？Hadoop是一个由Apache基金会开发的开源分布式系统基础架构，主要用于处理和存储大规模数据集。它包括两个核心组件：Hadoop分布式文件系统（HDFS）和HadoopYARN（YetAnotherResourceNegotiator）。HDFS提供了一个高吞吐量的数据访问接口，允许用户在集群中存储大量数据。它通过将文件分割成多个块并分布在集群的不同节点上来实现高可靠性和可
azkaban的概况北京小峻大数据 azkaban mysql 数据库
Azkaban的性质azkaban是一个任务调度,管理系统,可以帮用户管理,调度各种运算任务的一个web服务器可以调度任何任务,只要你的任务能用脚本启动azkaban的类似的产品还有很多,例如hadoop生态中原生的:oozie,areflow局限性目前azkaban只支持mysql作为元数据管理系统,必须安装mysql服务器角色executorserver有好几个是真正执行的程序,调度用户的任务
基于hadoop的协同过滤算法电影推荐系统的设计与实现 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于hadoop的协同过滤算法电影推荐系统的设计与实现文章目录基于hadoop的协同过滤算法电影推荐系统的设计与实现1.背景介绍1.1电影推荐系统的重要性1.2传统推荐系统的缺陷1.3Hadoop在大数据处理中的作用2.核心概念与联系2.1协同过滤算法2.2基于用户的协同过滤2.3基于项目的协同过滤2.4Hadoop在协同过滤算法中的应用3.核心算法原理具体操作步骤3.1基于用户的协同过滤算法流程
hive电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设计算机毕业设计 hive spring boot 爬虫
hive电影数据分析Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示+[手把手视频教程和开发文档]【功能介绍】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.MR数据清洗data.csv4.Hive汇总处理,将Hive处理的结果数据保存到本地Mysql数据库中5.Springboot+Vu
hadoop电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 计算机毕业设计毕业设计大数据毕设 hadoop spring boot 爬虫
全套视频教程全套开发文档hadoop电影数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示【Hadoop项目】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.data.csv数据清洗4.MR数据汇总处理,将Reduce的结果数据保存到本地Mysql数据库中5.Springboot
spark电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设计算机毕业设计 spark spring boot 爬虫大数据电影推荐电影分析
spark电影数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示+[手把手视频教程和开发文档【功能介绍】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.MR数据清洗data.csv4.Spark汇总处理,将Spark处理的结果数据保存到本地Mysql数据库中5.Springboo
hadoop图书数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫1万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设图书数据分析 hadoop spring boot 爬虫
hadoop图书数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫1万+数据大屏数据展示+[手把手视频教程和开发文档]【亮点功能】1.Springboot+Vue+Element-UI+Mysql前后端分离2.Echarts图表统计数据,直观展示数据情况3.发表评论后，用户可以回复评论,回复的评论可以被再次回复,一级评论可以添加图片附件4.爬虫图书数据1万+5.推荐图书列表展示,推荐图
2024年最全（一）大数据---Hadoop整体介绍（架构层）----（组件，并发知识体系大全 2401_84586689 程序员大数据 hadoop 架构
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！Hadoop方案一、大数据介绍============
大数据分析专业毕业设计最新最全选题精华汇总--持续更新中⑤ 源码空间站11 python django 大数据分析数据可视化 hadoop hive 大数据分析毕设
目录前言开题指导建议更多精选选题选题帮助最后前言大家好,这里是源码空间站学长大数据分析专业毕业设计毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了大数据分析专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!以下是学长精心整理的一些选题:21.基于Hadoop和Spa
Hadoop 常用命令 ZenPower hadoop 大数据分布式
查看指定目录下的文件及文件夹hadoopfs-ls/user/hive/warehouse/查看指定目录下的文件及文件夹大小#文件大小（单位Byte）hadoopfs-du/user/hive/warehouse#文件大小（单位人性化）hadoopfs-du-h/user/hive/warehouse#文件大小（只显示汇总）hadoopfs-du-s/user/hive/warehouse删除指定
hadoop常用命令汇总 m0_67402026 java java 后端
1、查看目录下的文件列表：hadoopfs–ls[文件目录]hadoopfs-ls-h/lance2、将本机文件夹存储至hadoop上：hadoopfs–put[本机目录][hadoop目录]hadoopfs-putlance/3、在hadoop指定目录内创建新目录：hadoopfs–mkdir[目录]hadoopfs-mkdir/lance4、在hadoop指定目录下新建一个文件，使用touch
hadoop常用命令我要用代码向我喜欢的女孩表白 hadoop npm 大数据
Yarn查看提交到资源调度器的任务（任何用yarn资源的都可以看，比如spark、tez、mapreduce）看正在运行的yarn任务yarnapplication-list杀死对应的yarn任务yarnapplication-kill{application_Id}（id可以通过-list看到）hdfs查看hdfs目录hdfsdfs-ls/（查看本集群的目录）hdfsdfs-lshdfs://i
Kylin入门教程 -龙川- 介绍学习笔记 kylin
引言ApacheKylin是一个开源的分布式分析引擎，提供Hadoop上的多维分析（OLAP）能力，使得超大规模数据集的实时查询和分析成为可能。它通过预计算数据立方体来加速查询，使得复杂查询可以在亚秒级响应。本文将详细介绍Kylin的基本概念、安装与配置、基本操作及高级功能，帮助你全面掌握这款强大的数据分析工具。第一部分：Kylin简介1.1什么是Kylin？Kylin是由eBay开发并捐赠给Ap
flume系列之：flume落cos 快乐骑行^_^ 日常分享专栏 flume系列
flume系列之：flume落cos一、参考文章二、安装cosjar包三、添加hadoop-cos的相关配置四、flume环境添加hadoop类路径五、使用cos路径六、启动/重启flume一、参考文章Kafka数据通过Flume存储到HDFS或COSflumetocos使用指南二、安装cosjar包将对应hadoop版本的hadoop-cos的jar包(hadoop-cos-{hadoop.ve
Hadoop 和 Spark 的内存管理机制分析王子良. 经验分享 hadoop spark 大数据
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
SS00023.PBpositions——|Hadoop&PB级离线数仓.v02|——|Griffin.v02|Griffin部署| yanqi_vip 数据库 hadoop hive 大数据 hdfs
一、Griffin编译准备###---软件解压缩[root@hadoop02~]#ls/opt/yanqi/software/griffin-griffin-0.5.0.zip/opt/yanqi/software/griffin-griffin-0.5.0.zip[root@hadoop02~]#cd/opt/yanqi/software/[root@hadoop02software]#unzi
解决 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform...警告克里斯蒂亚诺罗纳尔多阿维罗 hadoop
这个警告意味着Hadoop在加载本地本机库时遇到了问题。通常情况下，Hadoop会尝试加载本地的本机库以提高性能，但是如果找不到适合你的操作系统和架构的本地库，它会退而使用内置的Java类来模拟所需的功能。虽然这个警告会影响Hadoop的性能，但它并不会导致Hadoop无法正常工作。你仍然可以使用Hadoop，但可能会遇到性能上的损失。解决方法：在Hadoop中，配置'java.library.p
Hive 数据类型全解析：大数据开发者的实用指南大鳥 sql hive 数据仓库
在大数据处理领域，Hive作为一款基于Hadoop的数据仓库工具，被广泛应用于数据的存储、查询和分析。而理解Hive的数据类型是有效使用Hive的基础，本文将深入探讨Hive的数据类型，帮助大家更好地掌握Hive的使用。Hive数据类型概述Hive支持多种数据类型，主要可分为数值类型、日期/时间类型、字符类型、Misc类型以及复杂类型。这些数据类型为存储和处理各种不同格式的数据提供了有力的支持。以
Java 大视界 -- 解锁 Java 与 Hadoop HDFS 交互的高效编程之道（二）青云交大数据新视界 Java 大视界 HDFS Java 流代码示例性能优化读写操作大数据 Hadoop java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
Yarn工作机制？思维导图代码示例（java 架构) 用心去追梦 java 架构开发语言
YARN工作机制YARN（YetAnotherResourceNegotiator）是Hadoop生态系统中的资源管理和调度框架，它负责管理集群中的所有资源，并为应用程序提供调度服务。以下是关于YARN工作机制的详细介绍：YARN架构组件ResourceManager(RM)：管理整个集群的资源分配。负责启动和监控ApplicationMaster。NodeManager(NM)：每个节点上的代理
使用 Hadoop 实现大数据的高效存储与查询王子良. 经验分享大数据 hadoop 分布式
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
集群间hive数仓迁移 one code database
方式一：(此方法需要建库建表)第一步：建库建表在原集群hive上查看迁移表的建表语句及所在库，然后在新集群hive上建库建表；showcreatetabletb_name;createdatabasedb_name;createtabletb_name.....第二步：转移数据文件到新集群；在旧集群中下载数据到本地hadoopfs-get/user/hive/warehouse/dc_ods.db
Hive中没有超级管理员，如何进行权限控制二进制_博客大数据 hive hadoop 数据仓库
Hive中没有超级管理员，任何用户都可以进行Grant/Revoke操作开发实现自己的权限控制类，确保某个用户为超级用户比如任何用户都可以grant权限给别的用户。grantselectontabletest2touserhadoop;如何开发一个超级管理员：创建一个项目，导入mavanjar包，然后开始编写hook类importcom.google.common.base.Joiner;impo
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。