Androidlushangderen

YARN源码分析(四)-----Journalnode

前言

最近在排查公司Hadoop集群性能问题时,发现Hadoop集群整体处理速度非常缓慢,平时只需要跑几十分钟的任务时间一下子上张到了个把小时,起初怀疑是网络原因,后来证明的确是有一部分这块的原因,但是过了没几天,问题又重现了,这次就比较难定位问题了,后来分析hdfs请求日志和Ganglia的各项监控指标,发现namenode的挤压请求数持续比较大,说明namenode处理速度异常,然后进而分析出是因为写journalnode的editlog速度慢问题导致的,后来发现的确是journalnode的问题引起的,后来的原因是因为journalnode的editlog目录没创建,导致某台节点写edillog一直抛FileNotFoundException,所以在这里提醒大家一定要重视一些小角色,比如JournalNode.在问题排查期间,也对YARN的JournalNode相关部分的代码做了学习,下面是一下学习心得,可能有些地方分析有误,敬请谅解.

JournalNode

可能有些同学没有听说过JournalNode,只听过Hadoop的Datanode,Namenode,因为这个概念是在MR2也就是Yarn中新加的,journalNode的作用是存放EditLog的,在MR1中editlog是和fsimage存放在一起的然后SecondNamenode做定期合并,Yarn在这上面就不用SecondNamanode了.下面是目前的Yarn的架构图,重点关注一下JournalNode的角色.

上面在Active Namenode与StandBy Namenode之间的绿色区域就是JournalNode,当然数量不一定只有1个,作用相当于NFS共享文件系统.Active Namenode往里写editlog数据,StandBy再从里面读取数据进行同步.

QJM

下面从Yarn源码的角度分析一下JournalNode的机制,在配置中定义JournalNode节点的个数是可多个的,所以一定会存在一个类似管理者这样的角色存在,而这个管理者就是QJM,全程QuorumJournalManager.下面是QJM的变量定义:

/**
 * A JournalManager that writes to a set of remote JournalNodes,
 * requiring a quorum of nodes to ack each write.
 * JournalManager可以写很多记录数据给多个远程JournalNode节点
 */
@InterfaceAudience.Private
public class QuorumJournalManager implements JournalManager {
  static final Log LOG = LogFactory.getLog(QuorumJournalManager.class);

  // Timeouts for which the QJM will wait for each of the following actions.
  private final int startSegmentTimeoutMs;
  private final int prepareRecoveryTimeoutMs;
  private final int acceptRecoveryTimeoutMs;
  private final int finalizeSegmentTimeoutMs;
  private final int selectInputStreamsTimeoutMs;
  private final int getJournalStateTimeoutMs;
  private final int newEpochTimeoutMs;
  private final int writeTxnsTimeoutMs;

  // Since these don't occur during normal operation, we can
  // use rather lengthy timeouts, and don't need to make them
  // configurable.
  private static final int FORMAT_TIMEOUT_MS            = 60000;
  private static final int HASDATA_TIMEOUT_MS           = 60000;
  private static final int CAN_ROLL_BACK_TIMEOUT_MS     = 60000;
  private static final int FINALIZE_TIMEOUT_MS          = 60000;
  private static final int PRE_UPGRADE_TIMEOUT_MS       = 60000;
  private static final int ROLL_BACK_TIMEOUT_MS         = 60000;
  private static final int UPGRADE_TIMEOUT_MS           = 60000;
  private static final int GET_JOURNAL_CTIME_TIMEOUT_MS = 60000;
  private static final int DISCARD_SEGMENTS_TIMEOUT_MS  = 60000;
  
  private final Configuration conf;
  private final URI uri;
  private final NamespaceInfo nsInfo;
  private boolean isActiveWriter;
  
  //远程节点存在于AsyncLoggerSet集合中
  private final AsyncLoggerSet loggers;

  private int outputBufferCapacity = 512 * 1024;
  private final URLConnectionFactory connectionFactory;

上面定义了很多的操作超时时间,这个过程也是走RPC的方式的.所有JournalNode客户端的代理被包含在了AsyncLoggerSet对象中,在此对象中包含了AsyncLogger对象列表,每个logger对象管控一个独立的Journalnode,下面是QJM中从配置动态创建logger对象

static List<AsyncLogger> createLoggers(Configuration conf,
      URI uri, NamespaceInfo nsInfo, AsyncLogger.Factory factory)
          throws IOException {
    List<AsyncLogger> ret = Lists.newArrayList();
    List<InetSocketAddress> addrs = getLoggerAddresses(uri);
    String jid = parseJournalId(uri);
    for (InetSocketAddress addr : addrs) {
      ret.add(factory.createLogger(conf, nsInfo, jid, addr));
    }
    return ret;
  }

然后设置到AsyncLoggerSet集合类中:

 QuorumJournalManager(Configuration conf,
      URI uri, NamespaceInfo nsInfo,
      AsyncLogger.Factory loggerFactory) throws IOException {
    Preconditions.checkArgument(conf != null, "must be configured");

    this.conf = conf;
    this.uri = uri;
    this.nsInfo = nsInfo;
    this.loggers = new AsyncLoggerSet(createLoggers(loggerFactory));
    ...

AsyncLoggerSet集合类的定义很简单,就是Logger对象的包装类.

/**
 * Wrapper around a set of Loggers, taking care of fanning out
 * calls to the underlying loggers and constructing corresponding
 * {@link QuorumCall} instances.
 */
class AsyncLoggerSet {
  static final Log LOG = LogFactory.getLog(AsyncLoggerSet.class);

  private final List<AsyncLogger> loggers;
  
  private static final long INVALID_EPOCH = -1;
  private long myEpoch = INVALID_EPOCH;
  
  public AsyncLoggerSet(List<AsyncLogger> loggers) {
    this.loggers = ImmutableList.copyOf(loggers);
  }

重新回到Logger对象类中,AsyncLogger对象是一个抽象类,实际起作用的是下面这个管道类

/**
 * Channel to a remote JournalNode using Hadoop IPC.
 * All of the calls are run on a separate thread, and return
 * {@link ListenableFuture} instances to wait for their result.
 * This allows calls to be bound together using the {@link QuorumCall}
 * class.
 */
@InterfaceAudience.Private
public class IPCLoggerChannel implements AsyncLogger {

  private final Configuration conf;
  //JournalNode通信地址
  protected final InetSocketAddress addr;
  private QJournalProtocol proxy;

  /**
   * Executes tasks submitted to it serially, on a single thread, in FIFO order
   * (generally used for write tasks that should not be reordered).
   * 单线程串行操作线程池
   */
  private final ListeningExecutorService singleThreadExecutor;
  /**
   * Executes tasks submitted to it in parallel with each other and with those
   * submitted to singleThreadExecutor (generally used for read tasks that can
   * be safely reordered and interleaved with writes).
   * 并行操作线程池
   */
  private final ListeningExecutorService parallelExecutor;
  private long ipcSerial = 0;
  private long epoch = -1;
  private long committedTxId = HdfsConstants.INVALID_TXID;
  
  private final String journalId;
  private final NamespaceInfo nsInfo;

  private URL httpServerURL;
  //journalnode线程metric统计操作
  private final IPCLoggerChannelMetrics metrics;

正如这个类的名称一样,作用就是服务端与客户端执行类的连接类,注意,这个类并不是直接执行类.在这个管道类中,定义了许多有用的监控信息变量,ganglia上的journal监控指标就是取自于这里

...
/**
   * The number of bytes of edits data still in the queue.
   * 积压的editlog记录数
   */
  private int queuedEditsSizeBytes = 0;
  
  /**
   * The highest txid that has been successfully logged on the remote JN.
   * 最高位的事物Id数量
   */
  private long highestAckedTxId = 0;

  /**
   * Nanotime of the last time we successfully journaled some edits
   * to the remote node.
   */
  private long lastAckNanos = 0;

  /**
   * Nanotime of the last time that committedTxId was update. Used
   * to calculate the lag in terms of time, rather than just a number
   * of txns.
   */
  private long lastCommitNanos = 0;
  
  /**
   * The maximum number of bytes that can be pending in the queue.
   * This keeps the writer from hitting OOME if one of the loggers
   * starts responding really slowly. Eventually, the queue
   * overflows and it starts to treat the logger as having errored.
   */
  private final int queueSizeLimitBytes;

  /**
   * If this logger misses some edits, or restarts in the middle of
   * a segment, the writer won't be able to write any more edits until
   * the beginning of the next segment. Upon detecting this situation,
   * the writer sets this flag to true to avoid sending useless RPCs.
   * 非同步状态指标,判断JournalNode是否掉线
   */
  private boolean outOfSync = false;
...

因为管道类方法与真正客户端方法继承了相同的协议,方法定义是相同的,下面列举几个常见方法:

开始执行记录写操作

@Override
  public ListenableFuture<Void> startLogSegment(final long txid,
      final int layoutVersion) {
    return singleThreadExecutor.submit(new Callable<Void>() {
      @Override
      public Void call() throws IOException {
        getProxy().startLogSegment(createReqInfo(), txid, layoutVersion);
        synchronized (IPCLoggerChannel.this) {
          if (outOfSync) {
            outOfSync = false;
            QuorumJournalManager.LOG.info(
                "Restarting previously-stopped writes to " +
                IPCLoggerChannel.this + " in segment starting at txid " +
                txid);
          }
        }
        return null;
      }
    });
  }

写完之后,执行记录确认finalize操作

@Override
  public ListenableFuture<Void> finalizeLogSegment(
      final long startTxId, final long endTxId) {
    return singleThreadExecutor.submit(new Callable<Void>() {
      @Override
      public Void call() throws IOException {
        throwIfOutOfSync();
        
        getProxy().finalizeLogSegment(createReqInfo(), startTxId, endTxId);
        return null;
      }
    });
  }

singleThreadExecutor单线程线程池一般执行的是写操作相关,而并行线程池则进行的是读操作,而且所有的这些操作采用的异步执行的方式,保证了高效性.服务端执行操作函数后,立刻得到一个call列表,并等待回复值

@Override
  public void finalizeLogSegment(long firstTxId, long lastTxId)
      throws IOException {
    QuorumCall<AsyncLogger,Void> q = loggers.finalizeLogSegment(
        firstTxId, lastTxId);
    loggers.waitForWriteQuorum(q, finalizeSegmentTimeoutMs,
        String.format("finalizeLogSegment(%s-%s)", firstTxId, lastTxId));
  }

JournalNode和Journal

与服务端对应的客户端,对每个JournalNode进行操作执行的类是JournalNode

/**
 * The JournalNode is a daemon which allows namenodes using
 * the QuorumJournalManager to log and retrieve edits stored
 * remotely. It is a thin wrapper around a local edit log
 * directory with the addition of facilities to participate
 * in the quorum protocol.
 */
@InterfaceAudience.Private
public class JournalNode implements Tool, Configurable, JournalNodeMXBean {
  public static final Log LOG = LogFactory.getLog(JournalNode.class);
  private Configuration conf;
  private JournalNodeRpcServer rpcServer;
  private JournalNodeHttpServer httpServer;
  private final Map<String, Journal> journalsById = Maps.newHashMap();
  private ObjectName journalNodeInfoBeanName;
  private String httpServerURI;
  private File localDir;

  static {
    HdfsConfiguration.init();
  }
  
  /**
   * When stopped, the daemon will exit with this code. 
   */
  private int resultCode = 0;

里面定义了与服务端对应的log记录操作方法

...
public void discardSegments(String journalId, long startTxId)
      throws IOException {
    getOrCreateJournal(journalId).discardSegments(startTxId);
  }

  public void doPreUpgrade(String journalId) throws IOException {
    getOrCreateJournal(journalId).doPreUpgrade();
  }

  public void doUpgrade(String journalId, StorageInfo sInfo) throws IOException {
    getOrCreateJournal(journalId).doUpgrade(sInfo);
  }

  public void doFinalize(String journalId) throws IOException {
    getOrCreateJournal(journalId).doFinalize();
  }
...

而这些方法间接调用的方法又是Journal这个方法,并不约而同的传入了方法journald,journalId难道指的是所在JournalNode节点的标识?起初我也是这么想的,后来证明是错的.

File[] journalDirs = localDir.listFiles(new FileFilter() {
      @Override
      public boolean accept(File file) {
        return file.isDirectory();
      }
    });
    for (File journalDir : journalDirs) {
      String jid = journalDir.getName();
      if (!status.containsKey(jid)) {
        Map<String, String> jMap = new HashMap<String, String>();
        jMap.put("Formatted", "true");
        status.put(jid, jMap);
      }
    }

答案其实是目标写目录,从hadoop-yarn-project的测试代码中也能知道

/**
   * Set up the given Configuration object to point to the set of JournalNodes 
   * in this cluster.
   */
  public URI getQuorumJournalURI(String jid) {
    List<String> addrs = Lists.newArrayList();
    for (JNInfo info : nodes) {
      addrs.add("127.0.0.1:" + info.ipcAddr.getPort());
    }
    String addrsVal = Joiner.on(";").join(addrs);
    LOG.debug("Setting logger addresses to: " + addrsVal);
    try {
      return new URI("qjournal://" + addrsVal + "/" + jid);
    } catch (URISyntaxException e) {
      throw new AssertionError(e);
    }
  }

JournalUri的格式是下面这种,qjournal://host/jid

<property> 
<name>dfs.namenode.shared.edits.dir</name> 
<value>qjournal://had1:8485;had2:8485;had3:8485/mycluster</value>
</property>

JournalNode中保存了Journal的map图映射对象可以使得不同的节点可以写不同的editlog目录.Journal对象才是最终的操作执行者,并且拥有直接操作editlog输出文件的EditLogOutputStream类.下面是其中一个方法

/**
   * Start a new segment at the given txid. The previous segment
   * must have already been finalized.
   */
  public synchronized void startLogSegment(RequestInfo reqInfo, long txid,
      int layoutVersion) throws IOException {
    assert fjm != null;
    checkFormatted();
    checkRequest(reqInfo);
    
    if (curSegment != null) {
      LOG.warn("Client is requesting a new log segment " + txid + 
          " though we are already writing " + curSegment + ". " +
          "Aborting the current segment in order to begin the new one.");
      // The writer may have lost a connection to us and is now
      // re-connecting after the connection came back.
      // We should abort our own old segment.
      abortCurSegment();
    }

    // Paranoid sanity check: we should never overwrite a finalized log file.
    // Additionally, if it's in-progress, it should have at most 1 transaction.
    // This can happen if the writer crashes exactly at the start of a segment.
    EditLogFile existing = fjm.getLogFile(txid);
    if (existing != null) {
      if (!existing.isInProgress()) {
        throw new IllegalStateException("Already have a finalized segment " +
            existing + " beginning at " + txid);
      }
...

具体代码的写逻辑,读者可自行查阅,本文只从整体上梳理一下整个JournalNode的写流程,下面是准备的一张简单架构图,帮助大家理解.

全部代码的分析请点击链接https://github.com/linyiqun/hadoop-yarn,后续将会继续更新YARN其他方面的代码分析。

参考源代码

Apach-hadoop-2.7.1(hadoop-hdfs-project)

深度优先搜索DFS 顾北辰20 Java数据结构算法数据结构 java
目录类`GraphDFS`的定义深度优先搜索方法`dfs`访问顺序的获取`order`深度优先搜索（DFS,Depth-FirstSearch）算法。深度优先搜索是一种用于遍历或搜索树或图的算法，其特点是从某个起始顶点出发，首先访问这个顶点，然后递归地访问与这个顶点直接相连的一个未访问过的顶点，再从这个顶点出发，继续访问它的未访问过的邻接顶点，如此重复，直到不能再深入为止，再回溯，直到所有能到达的
Hadoop常用端口号海洋之心 Hadoop问题解决 hadoop hbase 大数据
Hadoop是一个由多个组件构成的分布式系统，每个组件都会使用一些特定的端口号来进行通信和交互。以下是Hadoop2.x常用的端口号列表：HDFS端口号：NameNode：50070SecondaryNameNode：50090DataNode：50010DataNode（数据传输）：50020YARN端口号：ResourceManager：8088NodeManager：8042MapReduc
Pinia入门 qincjun 前端学习指南 pinia
一、铺垫pinia官网：https://pinia.vuejs.org/zh/getting-started.html以下的内容全部来自官网；只不过有时候访问官网上不去；只能自己扒下来；pinia的前端使用非常简单；只需要掌握几个步骤就可以二、套路1.用你喜欢的包管理器安装pinia：yarnaddpinia#或者使用npmnpminstallpinia2.创建一个pinia实例(根store)并
大数据之-hdfs+hive+hbase+kudu+presto集群(6节点) 管哥的运维私房菜大数据 hdfs hive kudu presto hbase
几个主要软件的下载地址：prestohttps://prestosql.io/docs/current/index.htmlkudurpm包地址https://github.com/MartinWeindel/kudu-rpm/releaseshivehttp://mirror.bit.edu.cn/apache/hive/hdfshttp://archive.apache.org/dist/ha
Hadoop 的分布式缓存机制是如何实现的？如何在大规模集群中优化缓存性能？晚夜微雨问海棠呀分布式 hadoop 缓存
Hadoop的分布式缓存机制是一种用于在MapReduce任务中高效分发和访问文件的机制。通过分布式缓存，用户可以将小文件（如配置文件、字典文件等）分发到各个计算节点，从而提高任务的执行效率。分布式缓存的工作原理文件上传：用户将需要缓存的文件上传到HDFS（HadoopDistributedFileSystem）。文件路径可以在作业配置中指定。作业提交：在提交MapReduce作业时，用户可以通过
HBase的合并操作 b1gx HBase
compact的作用flush操作会将memstore的数据落地为一个个StoreFile（HFile），那么随着时间的增长在HDFS上面就会有很多的HFile文件，这样对读操作会产生比较大的影响（读操作会对HFile进行归并查询），并且对DataNode的压力也会比较大。为了降低对读操作的影响，可以对这些HFile进行compact操作，但是compact操作会产生大量的IO，所以可以看出com
nodejs第五天 npm yarn pnpm 包管理器大盗夕落笔记 npm javascript 前端
文章目录npmpackage.json安装包全局安装配置镜像yarn安装使用镜像配置pnpm使用镜像npmnode中的包管理器叫做npm（nodepackagemanage），我们可以将自己开发的包上传到npm中共别人使用，也可以直接从npm中下载别人开发好的包npm由以下三个部分组成：npm网站https://www.npmjs.com/npmCLI（CommandLineInterface即命
npm, yarn, pnpm之间的区别夕阳_醉了 npm 前端 node.js yarn
前言在现代化的开发中，一个人可能同时开发多个项目，安装的项目越来越多，所随之安装的依赖包也越来越臃肿，而且有时候所安装的速度也很慢，甚至会安装失败。因此我们就需要去了解一下，我们的包管理器，在前端比较主流的包管理器主要有三个（当然还有其他优秀的包管理器，本文主要介绍这三个），分别是：npm，yarn，pnpm幽灵嵌套（PhantomDependency）在了解包管理器之前，我们先了解一下包管理的一
深入HBase——引入黄雪超大数据基础 #深入HBase 大数据数据库 hbase
引入前面我们通过深入HDFS到深入MapReduce，从设计和落地，去深入了解了大数据最底层的基石——存储与计算是如何实现的。这个专栏则开始来看大数据的三驾马车中最后一个。通过前面我们对于GFS和MapReduce论文实现的了解，我们知道GFS在数据写入时，只对顺序写入有比较弱的一致性保障，而对于数据读取，虽然GFS支持随机读取，但在当时的硬件条件下，实际上也是支撑不了真正的高并发读取的；此外，M
Ubuntu下配置安装Hadoop 2.2 weixin_30501857 大数据 java 运维
---恢复内容开始---这两天玩Hadoop，之前在我的Mac上配置了好长时间都没成功的Hadoop环境，今天想在win7虚拟机下的Ubuntu12.0464位机下配置，然后再建一个组群看一看。参考资料：1.InstallingsinglenodeHadoop2.2.0onUbuntu：http://bigdatahandler.com/hadoop-hdfs/installing-single-
vue 使用 wangeditor 富文本编辑器＊且听风吟 #Vue 2.x vue.js javascript 前端
wangeditor是一个轻量级web富文本编辑器，配置方便，使用简单。1）安装wangeditor终端安装wangeditor库：yarnadd@wangeditor/editor#或者npminstall@wangeditor/editor--save2）页面绑定创建一个xxx.vue页面，在div上设置id：3）页面引入在xxx.vue页面引入wangeditor：importEfrom'w
名词解释：npm，cnpm，yarn，vite，vue，electron 几道之旅 npm vue.js electron
1.npm(NodePackageManager)读音:“N-P-M”或者直接读作“npm”。npm是Node.js的官方包管理器，用于安装、发布和管理JavaScript软件包。它允许开发者轻松地共享代码，并且可以通过命令行工具来管理依赖关系。通过npminit命令可以交互式地初始化一个项目，而npminstall则可以安装指定的软件包到当前项目中。2.cnpm(ChinaNodePackage
yarn : 无法加载文件 C:\Users\Think\AppData\Roaming\npm\yarn.ps1，因为在此系统上禁止运行脚本。有关详细信息，请参阅 https:/go.microso 张张Z7 npm 前端 node.js
这个错误通常是由于在系统上的执行策略限制导致的。执行策略是一种安全功能，用于控制在计算机上运行的脚本的权限级别1、打开PowerShell作为管理员：右键点击开始菜单，选择"WindowsPowerShell（管理员）"2、输入以下命令来更改执行策略Set-ExecutionPolicy-ScopeCurrentUser-ExecutionPolicyUnrestricted3、在确认提示中输入"
PapaParse 用于解析 CSV 和 TSV 文件 JavaScript 库孩子你要相信光 javascript 前端
PapaParse是一个用于解析CSV和TSV文件的JavaScript库，它在浏览器和Node.js环境中都能很好地工作。以下是如何使用PapaParse以及它的一些主要功能。安装首先，你需要安装PapaParse。你可以通过npm或yarn来安装：npminstallpapaparse或者yarnaddpapaparse基本用法解析CSV字符串importPapafrom'papaparse'
Yarn安装与使用详细介绍林中静月下仙 Vue yarn vue web
一、背景在Node生态系统中，依赖通常安装在项目的node_modules文件夹中。然而，这个文件的结构和实际依赖树可能有所区别，因为重复的依赖可以合并到一起。npm客户端把依赖安装到node_modules目录的过程具有不确定性。这意味着当依赖的安装顺序不同时，node_modules目录的结构可能会发生变化。这种差异可能会导致类似“我的电脑上可以运行，别的电脑上不行”的情况，并且通常需要花费大
蓝易云 - HBase基础知识蓝易云 hbase 数据库大数据 php python 人工智能
HBase是一个分布式、可伸缩、列式存储的NoSQL数据库，它建立在Hadoop的HDFS之上，提供高可靠性、高性能的数据存储和访问。以下是HBase的基础知识：数据模型：HBase以表的形式存储数据，每个表由行和列组成，可以动态添加列族。每行由唯一的行键标识，列族和列限定符（Qualifier）用于唯一标识列。架构：HBase采用分布式架构，数据被分散存储在多个RegionServer上，每个R
【前端开发学习笔记12】Vue_5 wei387245232 学习笔记 vue.js
Vuex构建多组件共享的数据环境index.js://创建一个空仓库//目标：安装vuex插件，初始化一个空仓库//1.安装vuex：yarnaddvuex@3//2.新建vuex模块文件：新建store/index.js专门存放vuex//3.创建仓库：Vue.use(Vuex)，创建仓库newVuex.Store()//4.main.js导入挂载：在main.js中导入挂载到Vue实例上//这
react和react-native中redux @reduxjs/toolkit的使用九段刀客 ReactNative react.js react native javascript
下面的示例是在react-native中使用yarnaddreact-redux@reduxjs/toolkit一、store中store/module/dict.jsimport{createSlice}from'@reduxjs/toolkit';import{api_dict_biz}from'~/api/dict'
使用 bcryptjs 对用户密码进行加密开发小途 bcrypt
bcryptjs是一个在Node.js环境中用于密码哈希的库，它是对bcrypt算法的纯JavaScript实现。使用bcryptjs可以有效地对用户密码进行加密存储，以及后续进行验证。以下是如何使用bcryptjs对用户密码进行加密和验证的基本步骤：安装bcryptjs首先，你需要安装bcryptjs。在你的Node.js项目中，通过npm或yarn来安装它：npminstallbcryptjs
react 前端项目搭建 weixin_44254297 前端 react.js javascript
安装node全局安装react框架npminstall-gcreate-react-apppnpmcreatereact-app项目名称--templatetypesctiptoryarncreatereact-app项目名称--templatetypescriptcd项目名称进入项目安装eslint和prettier进行代码规范管理pnpmadd-Deslintprettiereslint-pl
关于虚拟机的Unknown command 真的不想写实验后端 hadoop java linux
浅浅的记录一下，由于我直接复制了这条命令./bin/hdfsdfs–mkdirinput导致出现–mkdir:Unknowncommand的错误，原因在于我复制的这条命令中的-和虚拟机的编码不一样，导致出错，所以应该手敲这个符号“-”，这样就可以啦！这是错误截图：这是正确截图：如果对你有帮助的话，就点个赞吧o(￣▽￣)ｄ
Flink-DataStream快速上手 code@fzk 大数据 flink 大数据 java
文章目录1.安装部署安装2.执行任务Standalone模式启动/停止执行任务Yarn模式Session-cluster模式启动yarn-session执行任务Per-Job-Cluster模式3.执行环境EnvironmentgetExecutionEnvironment（常用）createLocalEnvironmentcreateRemoteEnvironmentSource、SinkTra
hadoop 1.0 基本概念了解 fenggfa hadoop hadoop 大数据 mapreduce
hadoop基本概念了解common：hadoop组件公共常用工具类Avro：Avro是用于数据序列化的系统。不同机器之间数据交流的保障。MapReduce：MapReduce是一种编程模型，分为Map函数和Reduce函数。Map函数负责将输入数据转化为中间值,中间值再通过Reduce函数转化成输出数据HDFS：HDFS是一个分布式文件系统。通过一次写入，多次读出来实现。Chukwa：Chukw
深入理解Hadoop 1.0.0源码架构及组件实现隔壁王医生
本文还有配套的精品资源，点击获取简介：Hadoop1.0.0作为大数据处理的开源框架，在业界有广泛应用。该版本包含核心分布式文件系统HDFS、MapReduce计算模型、Common工具库等关键组件。通过分析源码，可深入理解这些组件的设计和实现细节，包括数据复制、任务调度、容错机制以及系统配置管理。本课程旨在指导学生和开发者深入学习Hadoop的核心原理和实践应用，为其在大数据领域的进一步研究和开
Spark 源码 | 脚本分析总结董可伦 spark 源码脚本
前言最初是想学习一下Spark提交流程的源码，比如SparkOnYarn、Standalone。之前只是通过网上总结的文章大概了解整体的提交流程，但是每个文章描述的又不太一样，弄不清楚到底哪个说的准确，比如Client和CLuster模式的区别，Driver到底是干啥的，是如何定义的，为了彻底弄清楚这些疑问，所以决定学习一下相关的源码。因为不管是服务启动还是应用程序启动，都是通过脚本提交的，所以我
Flink 内存模型各部分大小计算公式 bluedraam_pp flink 大数据
Flink的运行平台如果Flink是运行在yarn或者standalone模式的话，其实都是运行在JVM的基础上的，所以首先Flink组件运行所需要给JVM本身要耗费的内存大小。无论是JobManager或者TaskManager，他们JVM内存的大小都是一样的，都是由JVMmetaspace和JVMoverhead组成的。metaspace元空间的部分，保存JVM中class类等区域，然后JVM
HiveQL命令（三）- Hive函数 BigDataMagician HiveQL命令 hive hadoop 数据仓库
文章目录前言一、Hive内置函数1.数值函数2.字符串函数3.日期与时间函数4.条件函数5.聚合函数6.集合函数7.类型转换函数8.表生成函数(UDTF)前言在大数据处理和分析的过程中，数据的转换和处理是至关重要的环节。ApacheHive作为一种流行的数据仓库工具，提供了丰富的内置函数，帮助用户高效地处理和分析存储在Hadoop分布式文件系统（HDFS）中的数据。这些内置函数涵盖了数值计算、字符
npm、cnpm 、yarn、pnpm的优势点和缺点米粒宝的爸爸前端 npm 前端 node.js
他们都是干什么的？npm、cnpm和yarn都是用于管理JavaScript项目依赖的工具。npm(NodePackageManager)官方性：由Node.js官方提供的默认包管理器。性能：在早期版本中，npm的安装速度较慢，因为它是串行安装依赖项的。不过，在后续版本中有所改进。缓存机制：npm从5.x版本开始有了更好的缓存机制，减少了重复下载的情况。锁文件：npm5引入了package-loc
掌握大数据--Hive全面指南纪祥_ee1 大数据 hive hadoop
1.Hive简介2.Hive部署方式3.Hive的架构图4.Hive初体验5.HiveSQL语法--DDL操作数据库1.Hive简介ApacheHive是建立在Hadoop之上的一个数据仓库工具，它提供了一种类似于SQL的查询语言，称为HiveQL，用于查询和分析存储在Hadoop分布式文件系统（HDFS）中的大规模结构化数据。以下是Hive的一些主要特点和介绍：1.类SQL查询语言：HiveSQ
【Flink实战】Flink -C实现类路径配置与实现UDF Jar roman_日积跬步-终至千里 #flink 实战 flink jar 大数据
文章目录1.描述2.使用语法3.`-C`适用的Flink运行模式4.USINGJAR不可用1.描述Flink中的-C选项用于将URL添加到作业的类加载器中。URL可以指向本地、HTTP服务器或HDFS等资源的Jar文件。注意：此处的classpath的url必须是一个能够在client，JM和TM都被访问到的位置。此位置从client端的提交到JM的分发到TM的访问的过程中，不会发生文件移动的动作
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

YARN源码分析(四)-----Journalnode

前言

JournalNode

QJM

JournalNode和Journal

参考源代码

你可能感兴趣的:(hdfs,yarn)