yongjian_luo

<转>YARN源码分析(四)-----Journalnode

前言

最近在排查公司Hadoop集群性能问题时,发现Hadoop集群整体处理速度非常缓慢,平时只需要跑几十分钟的任务时间一下子上张到了个把小时,起初怀疑是网络原因,后来证明的确是有一部分这块的原因,但是过了没几天,问题又重现了,这次就比较难定位问题了,后来分析hdfs请求日志和Ganglia的各项监控指标,发现namenode的挤压请求数持续比较大,说明namenode处理速度异常,然后进而分析出是因为写journalnode的editlog速度慢问题导致的,后来发现的确是journalnode的问题引起的,后来的原因是因为journalnode的editlog目录没创建,导致某台节点写edillog一直抛FileNotFoundException,所以在这里提醒大家一定要重视一些小角色,比如JournalNode.在问题排查期间,也对YARN的JournalNode相关部分的代码做了学习,下面是一下学习心得,可能有些地方分析有误,敬请谅解.

JournalNode

可能有些同学没有听说过JournalNode,只听过Hadoop的Datanode,Namenode,因为这个概念是在MR2也就是Yarn中新加的,journalNode的作用是存放EditLog的,在MR1中editlog是和fsimage存放在一起的然后SecondNamenode做定期合并,Yarn在这上面就不用SecondNamanode了.下面是目前的Yarn的架构图,重点关注一下JournalNode的角色.

上面在Active Namenode与StandBy Namenode之间的绿色区域就是JournalNode,当然数量不一定只有1个,作用相当于NFS共享文件系统.Active Namenode往里写editlog数据,StandBy再从里面读取数据进行同步.

QJM

下面从Yarn源码的角度分析一下JournalNode的机制,在配置中定义JournalNode节点的个数是可多个的,所以一定会存在一个类似管理者这样的角色存在,而这个管理者就是QJM,全程QuorumJournalManager.下面是QJM的变量定义:

[java]  view plain   copy 
      
     
   print ? 
    
 /** 
  * A JournalManager that writes to a set of remote JournalNodes, 
  * requiring a quorum of nodes to ack each write. 
  * JournalManager可以写很多记录数据给多个远程JournalNode节点 
  */  
 @InterfaceAudience.Private  
 public class QuorumJournalManager implements JournalManager {  
   static final Log LOG = LogFactory.getLog(QuorumJournalManager.class);  
   
   // Timeouts for which the QJM will wait for each of the following actions.  
   private final int startSegmentTimeoutMs;  
   private final int prepareRecoveryTimeoutMs;  
   private final int acceptRecoveryTimeoutMs;  
   private final int finalizeSegmentTimeoutMs;  
   private final int selectInputStreamsTimeoutMs;  
   private final int getJournalStateTimeoutMs;  
   private final int newEpochTimeoutMs;  
   private final int writeTxnsTimeoutMs;  
   
   // Since these don't occur during normal operation, we can  
   // use rather lengthy timeouts, and don't need to make them  
   // configurable.  
   private static final int FORMAT_TIMEOUT_MS            = 60000;  
   private static final int HASDATA_TIMEOUT_MS           = 60000;  
   private static final int CAN_ROLL_BACK_TIMEOUT_MS     = 60000;  
   private static final int FINALIZE_TIMEOUT_MS          = 60000;  
   private static final int PRE_UPGRADE_TIMEOUT_MS       = 60000;  
   private static final int ROLL_BACK_TIMEOUT_MS         = 60000;  
   private static final int UPGRADE_TIMEOUT_MS           = 60000;  
   private static final int GET_JOURNAL_CTIME_TIMEOUT_MS = 60000;  
   private static final int DISCARD_SEGMENTS_TIMEOUT_MS  = 60000;  
     
   private final Configuration conf;  
   private final URI uri;  
   private final NamespaceInfo nsInfo;  
   private boolean isActiveWriter;  
     
   //远程节点存在于AsyncLoggerSet集合中  
   private final AsyncLoggerSet loggers;  
   
   private int outputBufferCapacity = 512 * 1024;  
   private final URLConnectionFactory connectionFactory;  

上面定义了很多的操作超时时间,这个过程也是走RPC的方式的.所有JournalNode客户端的代理被包含在了AsyncLoggerSet对象中,在此对象中包含了AsyncLogger对象列表,每个logger对象管控一个独立的Journalnode,下面是QJM中从配置动态创建logger对象

[java]  view plain   copy 
      
     
   print ? 
    
 static List createLoggers(Configuration conf,  
       URI uri, NamespaceInfo nsInfo, AsyncLogger.Factory factory)  
           throws IOException {  
     List ret = Lists.newArrayList();  
     List addrs = getLoggerAddresses(uri);  
     String jid = parseJournalId(uri);  
     for (InetSocketAddress addr : addrs) {  
       ret.add(factory.createLogger(conf, nsInfo, jid, addr));  
     }  
     return ret;  
   }  

然后设置到AsyncLoggerSet集合类中:

[java]  view plain   copy 
      
     
   print ? 
    
 QuorumJournalManager(Configuration conf,  
      URI uri, NamespaceInfo nsInfo,  
      AsyncLogger.Factory loggerFactory) throws IOException {  
    Preconditions.checkArgument(conf != null, "must be configured");  
   
    this.conf = conf;  
    this.uri = uri;  
    this.nsInfo = nsInfo;  
    this.loggers = new AsyncLoggerSet(createLoggers(loggerFactory));  
    ...  

AsyncLoggerSet集合类的定义很简单,就是Logger对象的包装类.

[java]  view plain   copy 
      
     
   print ? 
    
 /** 
  * Wrapper around a set of Loggers, taking care of fanning out 
  * calls to the underlying loggers and constructing corresponding 
  * {@link QuorumCall} instances. 
  */  
 class AsyncLoggerSet {  
   static final Log LOG = LogFactory.getLog(AsyncLoggerSet.class);  
   
   private final List loggers;  
     
   private static final long INVALID_EPOCH = -1;  
   private long myEpoch = INVALID_EPOCH;  
     
   public AsyncLoggerSet(List loggers) {  
     this.loggers = ImmutableList.copyOf(loggers);  
   }  

重新回到Logger对象类中,AsyncLogger对象是一个抽象类,实际起作用的是下面这个管道类

[java]  view plain   copy 
      
     
   print ? 
    
 /** 
  * Channel to a remote JournalNode using Hadoop IPC. 
  * All of the calls are run on a separate thread, and return 
  * {@link ListenableFuture} instances to wait for their result. 
  * This allows calls to be bound together using the {@link QuorumCall} 
  * class. 
  */  
 @InterfaceAudience.Private  
 public class IPCLoggerChannel implements AsyncLogger {  
   
   private final Configuration conf;  
   //JournalNode通信地址  
   protected final InetSocketAddress addr;  
   private QJournalProtocol proxy;  
   
   /** 
    * Executes tasks submitted to it serially, on a single thread, in FIFO order 
    * (generally used for write tasks that should not be reordered). 
    * 单线程串行操作线程池 
    */  
   private final ListeningExecutorService singleThreadExecutor;  
   /** 
    * Executes tasks submitted to it in parallel with each other and with those 
    * submitted to singleThreadExecutor (generally used for read tasks that can 
    * be safely reordered and interleaved with writes). 
    * 并行操作线程池 
    */  
   private final ListeningExecutorService parallelExecutor;  
   private long ipcSerial = 0;  
   private long epoch = -1;  
   private long committedTxId = HdfsConstants.INVALID_TXID;  
     
   private final String journalId;  
   private final NamespaceInfo nsInfo;  
   
   private URL httpServerURL;  
   //journalnode线程metric统计操作  
   private final IPCLoggerChannelMetrics metrics;  

正如这个类的名称一样,作用就是服务端与客户端执行类的连接类,注意,这个类并不是直接执行类.在这个管道类中,定义了许多有用的监控信息变量,ganglia上的journal监控指标就是取自于这里

[java]  view plain   copy 
      
     
   print ? 
    
 ...  
 /** 
    * The number of bytes of edits data still in the queue. 
    * 积压的editlog记录数 
    */  
   private int queuedEditsSizeBytes = 0;  
     
   /** 
    * The highest txid that has been successfully logged on the remote JN. 
    * 最高位的事物Id数量 
    */  
   private long highestAckedTxId = 0;  
   
   /** 
    * Nanotime of the last time we successfully journaled some edits 
    * to the remote node. 
    */  
   private long lastAckNanos = 0;  
   
   /** 
    * Nanotime of the last time that committedTxId was update. Used 
    * to calculate the lag in terms of time, rather than just a number 
    * of txns. 
    */  
   private long lastCommitNanos = 0;  
     
   /** 
    * The maximum number of bytes that can be pending in the queue. 
    * This keeps the writer from hitting OOME if one of the loggers 
    * starts responding really slowly. Eventually, the queue 
    * overflows and it starts to treat the logger as having errored. 
    */  
   private final int queueSizeLimitBytes;  
   
   /** 
    * If this logger misses some edits, or restarts in the middle of 
    * a segment, the writer won't be able to write any more edits until 
    * the beginning of the next segment. Upon detecting this situation, 
    * the writer sets this flag to true to avoid sending useless RPCs. 
    * 非同步状态指标,判断JournalNode是否掉线 
    */  
   private boolean outOfSync = false;  
 ...  

因为管道类方法与真正客户端方法继承了相同的协议,方法定义是相同的,下面列举几个常见方法:

开始执行记录写操作

[java]  view plain   copy 
      
     
   print ? 
    
 @Override  
   public ListenableFuture startLogSegment(final long txid,  
       final int layoutVersion) {  
     return singleThreadExecutor.submit(new Callable() {  
       @Override  
       public Void call() throws IOException {  
         getProxy().startLogSegment(createReqInfo(), txid, layoutVersion);  
         synchronized (IPCLoggerChannel.this) {  
           if (outOfSync) {  
             outOfSync = false;  
             QuorumJournalManager.LOG.info(  
                 "Restarting previously-stopped writes to " +  
                 IPCLoggerChannel.this + " in segment starting at txid " +  
                 txid);  
           }  
         }  
         return null;  
       }  
     });  
   }  

写完之后,执行记录确认finalize操作

[java]  view plain   copy 
      
     
   print ? 
    
 @Override  
   public ListenableFuture finalizeLogSegment(  
       final long startTxId, final long endTxId) {  
     return singleThreadExecutor.submit(new Callable() {  
       @Override  
       public Void call() throws IOException {  
         throwIfOutOfSync();  
           
         getProxy().finalizeLogSegment(createReqInfo(), startTxId, endTxId);  
         return null;  
       }  
     });  
   }  

singleThreadExecutor单线程线程池一般执行的是写操作相关,而并行线程池则进行的是读操作,而且所有的这些操作采用的异步执行的方式,保证了高效性.服务端执行操作函数后,立刻得到一个call列表,并等待回复值

[java]  view plain   copy 
      
     
   print ? 
    
 @Override  
   public void finalizeLogSegment(long firstTxId, long lastTxId)  
       throws IOException {  
     QuorumCall q = loggers.finalizeLogSegment(  
         firstTxId, lastTxId);  
     loggers.waitForWriteQuorum(q, finalizeSegmentTimeoutMs,  
         String.format("finalizeLogSegment(%s-%s)", firstTxId, lastTxId));  
   }  

JournalNode和Journal

与服务端对应的客户端,对每个JournalNode进行操作执行的类是JournalNode

[java]  view plain   copy 
      
     
   print ? 
    
 /** 
  * The JournalNode is a daemon which allows namenodes using 
  * the QuorumJournalManager to log and retrieve edits stored 
  * remotely. It is a thin wrapper around a local edit log 
  * directory with the addition of facilities to participate 
  * in the quorum protocol. 
  */  
 @InterfaceAudience.Private  
 public class JournalNode implements Tool, Configurable, JournalNodeMXBean {  
   public static final Log LOG = LogFactory.getLog(JournalNode.class);  
   private Configuration conf;  
   private JournalNodeRpcServer rpcServer;  
   private JournalNodeHttpServer httpServer;  
   private final Map journalsById = Maps.newHashMap();  
   private ObjectName journalNodeInfoBeanName;  
   private String httpServerURI;  
   private File localDir;  
   
   static {  
     HdfsConfiguration.init();  
   }  
     
   /** 
    * When stopped, the daemon will exit with this code.  
    */  
   private int resultCode = 0;  

里面定义了与服务端对应的log记录操作方法

[java]  view plain   copy 
      
     
   print ? 
    
 ...  
 public void discardSegments(String journalId, long startTxId)  
       throws IOException {  
     getOrCreateJournal(journalId).discardSegments(startTxId);  
   }  
   
   public void doPreUpgrade(String journalId) throws IOException {  
     getOrCreateJournal(journalId).doPreUpgrade();  
   }  
   
   public void doUpgrade(String journalId, StorageInfo sInfo) throws IOException {  
     getOrCreateJournal(journalId).doUpgrade(sInfo);  
   }  
   
   public void doFinalize(String journalId) throws IOException {  
     getOrCreateJournal(journalId).doFinalize();  
   }  
 ...  

而这些方法间接调用的方法又是Journal这个方法,并不约而同的传入了方法journald,journalId难道指的是所在JournalNode节点的标识?起初我也是这么想的,后来证明是错的.

[java]  view plain   copy 
      
     
   print ? 
    
 File[] journalDirs = localDir.listFiles(new FileFilter() {  
       @Override  
       public boolean accept(File file) {  
         return file.isDirectory();  
       }  
     });  
     for (File journalDir : journalDirs) {  
       String jid = journalDir.getName();  
       if (!status.containsKey(jid)) {  
         Map jMap = new HashMap();  
         jMap.put("Formatted", "true");  
         status.put(jid, jMap);  
       }  
     }  

答案其实是目标写目录,从hadoop-yarn-project的测试代码中也能知道

[java]  view plain   copy 
      
     
   print ? 
    
 /** 
    * Set up the given Configuration object to point to the set of JournalNodes  
    * in this cluster. 
    */  
   public URI getQuorumJournalURI(String jid) {  
     List addrs = Lists.newArrayList();  
     for (JNInfo info : nodes) {  
       addrs.add("127.0.0.1:" + info.ipcAddr.getPort());  
     }  
     String addrsVal = Joiner.on(";").join(addrs);  
     LOG.debug("Setting logger addresses to: " + addrsVal);  
     try {  
       return new URI("qjournal://" + addrsVal + "/" + jid);  
     } catch (URISyntaxException e) {  
       throw new AssertionError(e);  
     }  
   }  

JournalUri的格式是下面这种,qjournal://host/jid

[java]  view plain   copy 
      
   print ? 
    
 dfs.namenode.shared.edits.dir   
 qjournal://had1:8485;had2:8485;had3:8485/mycluster

JournalNode中保存了Journal的map图映射对象可以使得不同的节点可以写不同的editlog目录.Journal对象才是最终的操作执行者,并且拥有直接操作editlog输出文件的EditLogOutputStream类.下面是其中一个方法

[java]  view plain   copy 
      
     
   print ? 
    
 /** 
    * Start a new segment at the given txid. The previous segment 
    * must have already been finalized. 
    */  
   public synchronized void startLogSegment(RequestInfo reqInfo, long txid,  
       int layoutVersion) throws IOException {  
     assert fjm != null;  
     checkFormatted();  
     checkRequest(reqInfo);  
       
     if (curSegment != null) {  
       LOG.warn("Client is requesting a new log segment " + txid +   
           " though we are already writing " + curSegment + ". " +  
           "Aborting the current segment in order to begin the new one.");  
       // The writer may have lost a connection to us and is now  
       // re-connecting after the connection came back.  
       // We should abort our own old segment.  
       abortCurSegment();  
     }  
   
     // Paranoid sanity check: we should never overwrite a finalized log file.  
     // Additionally, if it's in-progress, it should have at most 1 transaction.  
     // This can happen if the writer crashes exactly at the start of a segment.  
     EditLogFile existing = fjm.getLogFile(txid);  
     if (existing != null) {  
       if (!existing.isInProgress()) {  
         throw new IllegalStateException("Already have a finalized segment " +  
             existing + " beginning at " + txid);  
       }  
 ...  

具体代码的写逻辑,读者可自行查阅,本文只从整体上梳理一下整个JournalNode的写流程,下面是准备的一张简单架构图,帮助大家理解.

全部代码的分析请点击链接https://github.com/linyiqun/hadoop-yarn,后续将会继续更新YARN其他方面的代码分析。

参考源代码

Apach-hadoop-2.7.1(hadoop-hdfs-project)

大数据技术学习框架（更新中......）小技工丨大数据技术学习大数据学习
Hadoop相关HDFS分布式文件系统MR(MapReduce)离线数据处理MR-图解YARN集群资源管理ZooKeeperZooKeeper分布式协调框架Hive相关Hive-01之数仓、架构、数据类型、DDL、内外部表Hive-02之分桶表、数据导入导出、静动态分区、查询、排序、hiveserver2Hive-03之传参、常用函数、explode、lateralview、行专列、列转行、UDF
60款顶级大数据开源工具 La victoria 大数据
一、Hadoop相关工具1.HadoopApache的Hadoop项目已几乎与大数据划上了等号。它不断壮大起来，已成为一个完整的生态系统，众多开源工具面向高度扩展的分布式计算。支持的操作系统：Windows、Linux和OSX。相关链接：http://hadoop.apache.org2.Ambari作为Hadoop生态系统的一部分，这个Apache项目提供了基于Web的直观界面，可用于配置、管理
基于分布式计算的电商系统设计与实现【系统设计、模型预测、大屏设计、海量数据、Hadoop集群】王小王-123 hadoop 大数据分布式电商系统分析分布式计算
文章目录==有需要本项目的代码或文档以及全部资源，或者部署调试可以私信博主==项目展示项目介绍目录摘要Abstract1引言1.1研究背景1.2国内外研究现状1.3研究目的1.4研究意义2关键技术理论介绍2.1Hadoop相关组件介绍2.2分布式集群介绍2.3Pyecharts介绍2.4Flask框架3分布式集群搭建及数据准备3.1Hadoop全套组件搭建3.2数据集介绍3.3数据预处理4分布式计
[Hadoop]万字长文Hadoop相关优化和问题排查总结王一1995 hadoop jvm java
目录写文章的背景namenode频繁切换的原因namenodeHA如何实现，关键技术难题是什么？namenode优化namenode内存生产配置NameNode心跳并发配置开启回收站配置datanode的优化hdfs调优hadoop的优化YARN的优化HDFS调优的基本原则HDFS调优的常用参数排查哪个任务的cpu占用高hdfs查询慢的原因怎样判断是否是数据倾斜集群重启任务自动重启hadoop宕机
搭建hadoop单机环境 .Passion hadoop hadoop hdfs 大数据
hadoop笔记sbin:一些启动脚本【服务端的serverbin】logs:存放hadoop相关日志bin:客户端的脚本etc:hadoop相关的配置文件格式化文件系统配置免密码登录ssh-keygen-trsa-P''-f~/.ssh/id_rsacat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys#启动namenode#sbin/hadoop-daemon
MPP架构与Hadoop架构是一回事吗？ ThoughtWorks
计算机领域的很多概念都存在一些传播上的“谬误”。MPP这个概念就是其中之一。它的“谬误”之处在于，明明叫做“MassivelyParallelProcessing（大规模并行处理）”，却让非常多的人拿它与大规模并行处理领域最著名的开源框架Hadoop相关框架做对比，这实在是让人困惑——难道Hadoop不是“大规模并行处理”架构了？很多人在对比两者时，其实并不知道MPP的含义究竟是什么、两者的可比性
hadoop主要文件及目录简介我很ruo hadoop
1.hadoop目录概述hadoop的解压目录下的主要文件如下图所示：其中：/bin目录存放对Hadoop相关服务（HDFS,YARN）进行操作的脚本；/etc目录存放Hadoop的配置文件/lib目录存放Hadoop的本地库（对数据进行压缩解压缩功能）/sbin目录存放启动或停止Hadoop相关服务的脚本/share目录存放Hadoop的依赖jar包、文档、和官方案例下文将对常用的几个目录进行进
Flume实时读取本地/目录文件到HDFS Francek Chen 大数据技术基础 flume hdfs 大数据
目录一、准备工作二、实时读取本地文件到HDFS（一）案例需求（二）需求分析（三）实现步骤三、实时读取目录文件到HDFS（一）案例需求（二）需求分析（三）实现步骤一、准备工作Flume要想将数据输出到HDFS，必须持有Hadoop相关jar包。将以下jar包拷贝到“/usr/local/flume/lib”目录下。/usr/local/servers/hadoop/share/hadoop/comm
Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集【Updating】 (转) 我爱大海V5 Hadoop hadoop
目录[-]（一）hadoop相关安装部署（二）hive（三）pig（四）hadoop原理与编码（五）数据仓库与挖掘（六）Oozie工作流（七）HBase（八）flume（九）sqoop（十）ZooKeeper（十一）NOSQL（十二）Hadoop监控与管理（十三）Storm（十四）YARN&Hadoop2.0附：（一）hadoop相关安装部署1、hadoop在windowscygwin下的部署：h
Flume基础知识（四）：Flume实战之实时监控单个追加文件依晴无旧大数据 flume 大数据
1）案例需求：实时监控Hive日志，并上传到HDFS中2）需求分析：3）实现步骤：（1）Flume要想将数据输出到HDFS，依赖Hadoop相关jar包检查/etc/profile.d/my_env.sh文件，确认Hadoop和Java环境变量配置正确JAVA_HOME=/opt/module/jdk1.8.0_212HADOOP_HOME=/opt/module/ha/hadoop-3.1.3P
Hadoop相关安装包上传到目录并完成安装余生跟他走数据仓库
1.指定一个安装的目录/usr/local/自己的名字(mkdircdhong、rm-rf*)[root@cdhong01~]#cd/usr/local/[root@cdhong01local]#rm-rf*[root@cdhong01local]#mkdircdhong[root@cdhong01local]#cdcdhong/[root@cdhong01cdhong]#pwd/usr/loca
hive-3.1.2环境安装实验芝士小熊饼干 hive hadoop 数据仓库
1.修改hadoop相关参数1-修改core-site.xml[bigdata@masterhive]$vim/opt/module/hadoop/etc/hadoop/core-site.xmlhadoop.proxyuser.bigdata.hosts*hadoop.proxyuser.bigdata.groups*hadoop.proxyuser.bigdata.users*2.hive解压
Flume监控Hive日志并上传到HDFS 无发可脱丶笔记学习 flume 大数据 flume
一、实时监控单个追加文件1.需求：实时监控Hive日志，并上传到HDFS2.实现步骤：（1）上传Hadoop相关jar包到flume/lib目录下flume相关jar包https://blog.csdn.net/Dj_hanhan/article/details/110097742（2）进入usr/flume/job目录，创建flume-file-hdfs.conf文件#Namethecompon
实时监控 Hive 日志，并上传到 HDFS 中夏殿灬青葛石 Flume hdfs hive hadoop
Flume要想将数据输出到HDFS，依赖Hadoop相关jar包检查/etc/profile.d/my_env.sh文件，确认Hadoop和Java环境变量配置正确创建flume-file-hdfs.conf文件注：要想读取Linux系统中的文件，就得按照Linux命令的规则执行命令。由于Hive日志在Linux系统中所以读取文件的类型选择：exec即execute执行的意思。表示执行Linux命
【log4j漏洞】log4j 1.x漏洞依赖包解决方案秦拿希 log4j java springboot
一问题描述log4j1.x被证实有漏洞，公司要求升级log4j版本到最新，在升级过程中发现问题。对于应用中我们自己写的程序全部替换为新版本。但是在打包发布镜像到harbor时还是被检测出log4j的引用。二问题分析那么自己的程序中确定是没有引用了，那log4j的引用必定是程序中的第三方依赖包了。于是继续检查本地程序，在pom中一个个的排查依赖包，发现是hadoop相关的包引用到了log4j1.x，
【Hadoop】安装部署-完全分布式搭建 db_lmr_2071 分布式 hadoop 大数据
文章目录前言一、部署需要的软件二、Hadoop配置环境1.配置网络环境关闭防火墙2.安装jdk和hadoop2.1配置jdk环境变量2.2配置Hadoop环境变量三、准备三台虚拟机1.修改主机名与IP映射2.修改主机上的hadoop相关配置文件2.1core-site.xml2.2hdfs-site.xml2.3yarn-site.xml2.4slaves3.将主机上的hadoop配置文件，同步到
数仓开发面试题之Hadoop相关话数Science 面试大数据 hadoop 大数据
提纲MapReduce原理，map数、reduce数的参数说一下mapjoin与reducejoinhivesql怎么优spark和hive的区别数据倾斜几种解决方式数据如何清洗说一下udf、udtf、udaf，集成的类、接口，怎么写hive文件存储格式，对比内外表区别hive执行的job数是怎么确定的cube、groupingsets、grouping__idorderby、sortby、dis
Hadoop相关小美美大白蛋 hadoop 大数据分布式
hdfsgetconf-confKeydfs.namenode.http-address查看Hadoop工作端口的信息hdfsgetconf-confKeydfs.datanode.http.address查看HDFS的NameNode组件的HTTP端口。
60款顶级大数据开源工具 weixin_34006965 大数据操作系统 java
一、Hadoop相关工具1.HadoopApache的Hadoop项目已几乎与大数据划上了等号。它不断壮大起来，已成为一个完整的生态系统，众多开源工具面向高度扩展的分布式计算。支持的操作系统：Windows、Linux和OSX。相关链接：http://hadoop.apache.org2.Ambari作为Hadoop生态系统的一部分，这个Apache项目提供了基于Web的直观界面，可用于配置、管理
Flink on yarn模式部署 fragrans CDH和大数据组件 Flink flink yarn java
目录1.基于docker部署cdh2.遇到的异常2.1flink下缺少hadoop相关依赖2.2jdk7造成的错误3.启动flinkonyarn模式<
HADOOP集群大数据词频统计及设计比较（完整教程）鸷鸟之不群 Hadoop相关 hadoop 网络 linux
###如若发现错误，或代码敲错，望能评论指正！！！通过百度网盘分享的文件：Hadoop相关需要的软件链接:https://pan.baidu.com/s/1XzDvyhP4_LQzAM1auQCSrg?pwd=tph5提取码:tph5VMware下安装CentOS一、先安装一个虚拟机安装好后要右键，找到用管理员的方式打开也可以设置成每次打开都是以管理员身份运行二、安装一个CentOS，这里使用的是
Hadoop环境搭建星星失眠️ hadoop 大数据分布式
1Hadoop集群环境搭建概述所谓集群，就是一组通过网络互联的计算机，集群中的每一台计算机称作一个节点，Hadoop集群搭建就是在这个物理集群之上安装部署Hadoop相关的软件，然后对外提供大数据存储和分析等相关服务。一个前提：Hadoop是为了在Linux平台上使用而开发的一个现实：我们的电脑不是Linux系统如何解决？？？搭建虚拟机，在虚拟机上安装Linux操作系统虚拟机是什么？虚拟的计算机，
Hadoop相关知识点浪漫的诗人 hadoop 大数据分布式
文章目录一、主要命令二、配置虚拟机2.1设置静态ip2.2修改主机名及映射2.3修改映射2.4单机模式2.5伪分布式2.6完全分布式三、初识Hadoop四、三种模式的区别4.1、单机模式与伪分布式模式的区别4.2、特点4.3、配置文件的差异4.3.1、单机模式4.3.2、伪分布式模式4.3.3、完全分布式模式五、问答题六、shell访问hdfs(通过HDFS*Shell命令)6.1、问答题6.2、
本地报 HADOOP_HOME and hadoop.home.dir are unset 错误处理 HoneyYHQ9988 Hadoop 配置hadoop环境
在本地idea上运行Hadoop相关服务，控制台打印出此错误“HADOOP_HOMEandhadoop.home.dirareunset”，这是由于在本地Windows系统配置hadoop环境就会报此错误。第一步：下载winutils-master.zip蓝奏云：https://www.lanzous.com/i55ccnc对照你自己版本选择合适的插件。第二步：配置window上环境变量1、新建H
HBase（hbase-0.96.2）安装数大招疯 hadoop HBase 0.96.2 安装配置
明天要讲HBase课程，由于以前使用的是0.92的版本，所以在此记录下新版本的安装步骤（基于hadoop-2.2.0安装，hadoop2.2安装有空补上）。一、检查hadoop是否已安装且能正常运行方法一：检查hadoop相关进程是否都存在方法二：能否通过浏览器访问hdfs与mapred对应的端口二、安装HBase1、下载安装包：http://mirror.esocc.com/apache/hba
Flink on yarn 不废话集群部署病妖 flink flink yarn big data
文章目录Flinkonyarn集群部署前言先安装好yarn集群，在我们这个环境中使用的是CDH6.3，也就是基于hadoop3.0的大数据生态环境flink部署1.包下载2.将所下载的包放置/opt/flink下进行解压安装3.切换到相关目录4.配置hadoop相关路径5.如果第四步采用后仍然报错找不到相关包，则切换到lib包中并将相关hadoop包放置lib目录下6.确保你的环境有足够的内存能够
从零开始的Hadoop学习（三）| 集群分发脚本xsync 庭前云落 Hadoop hadoop 学习大数据
1.Hadoop目录结构bin目录：存放对Hadoop相关服务（hdfs，yarn，mapred）进行操作的脚本etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）sbin目录：存放启动或停止Hadoop相关服务的脚本share目录：存放Hadoop的依赖jar包、文档、和官方案例2.Hadoop运行模式本地模式、伪分布
2 hadoop的目录水无痕simon Hadoop hadoop 大数据分布式
1.目录结构：其中比较的重要的路径有：hdfs,mapred,yarn（1）bin目录：存放对Hadoop相关服务（hdfs，yarn，mapred）进行操作的脚本（2）etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件（3）lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）（4）sbin目录：存放启动或停止Hadoop相关服务的脚本（5）share目录：存放Hado
mac 下编译hadoop源码疯狂的哈丘
本篇博客主要介绍社区版的hadoop源码的编译，以及会遇到的一些问题。一、获取hadoop源码可以通过hadoop的官网获取hadoop相关源码包:https://hadoop.apache.org/releases.html。或者直接通过git去github拉取最新的源码:gitclonehttps://github.com/apache/hadoop#拉完代码后进入源码目录cdhadoop#通
MPP架构与Hadoop架构是一回事吗？ Thoughtworks思特沃克中国新兴技术 big data 数据库新兴技术
计算机领域的很多概念都存在一些传播上的“谬误”。MPP这个概念就是其中之一。它的“谬误”之处在于，明明叫做“MassivelyParallelProcessing（大规模并行处理）”，却让非常多的人拿它与大规模并行处理领域最著名的开源框架Hadoop相关框架做对比，这实在是让人困惑——难道Hadoop不是“大规模并行处理”架构了？很多人在对比两者时，其实并不知道MPP的含义究竟是什么、两者的可比性
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

<转>YARN源码分析(四)-----Journalnode

前言

JournalNode

QJM

JournalNode和Journal

参考源代码

你可能感兴趣的:(Hadoop相关)