首席数据师

Spark HadoopRDD读取HDFS文件

前置条件

Hadoop版本: Hadoop 2.6.0-cdh5.15.0
Spark版本: SPARK 1.6.0-cdh5.15.0

概述

源码分析Spark HadoopRDD是如何读取HDFS上的文件
分析HadoopRDD预分区的计算方式，非首个分区的开始位置计算
来三种情况分析，不同情部下HadoopRDD的分区计算方式

HDFS数据文件

a b k l j
c a n m o

HDFS 数据文件图解

HDFS 数据文件图解(对比）

图一

图二

断点位置

org.apache.hadoop.mapred.LineRecordReader 241行, 246行, 248行,136行

HadoopRDD partition预划分方式(实际会有小的调整)

每个partition的长度= 文件的总长度 / 最小的分区数(默认分区数为2) //注意，是除，结果会取整, 即 goalSize = totalSize / numSplits
示例中每个partition的长度 = 20 / 2 =10 // 即为10个byte
然后依次从0开始划分10个byte长度为一个partition,最后一个小于等于10个byte的为最后一个partition
所以 parition(0) = hdfs文件(0 + 10) //即从文件偏移量为0开始，共10byte,0 <= 值 < 10
所以 parition(1) = hdfs文件(10 + 10) //即从文件偏移量为10开始，共10byte,10 <= 值 < 20
即 partition(i) = hdfs文件( i * goalSize + 10 )

HadoopRDD partition划分原理

由于需要考虑，每个partition谁先执行是不确定的，所以每个partition执行时，都需要可明确计算当前partition的数据范围
由于直接按partition预划分方式，会把有的一行数据拆分，有些场景不适合(如钱金额，词组一般都不希望被拆分，所以一般按行拆分)
所以需要按行做为最小的数据划分单元，来进行partition的数据范围划分
HadoopRDD是这样划分的partition,还是按partition预划分方式进行预先划分，不过在计算时会进行调整
对于首个partition,也就是partition(0),分区数据范围的开始位置就是从0开始(0 + goalSize )
对于非首个partition，的开始位置需要从新计算，从预划分的当前partition的开始位置开始找第一个换行符位置(indexNewLine),当前partition的开始位置为= indexNewLine + 1,长度还是goalSize
对于首个partition一定能分到数据(只要HDFS文件有数据)
非首个partition,有可能分不到数据的情况，分不到数据的情况，就是数据被上一个partition划分完了

partition分不到数据(以下情况同时满足)

是非首个partition,也就是不是partition为索引为0
partition从预分区开始位置往后读到的第一个换行符大于等于预分区的结束位置 (或者该partition就没有一个换行符)

源码分析

HadoopRdd partition的开始位置计算(文档详情) : https://github.com/opensourceteams/spark-scala-maven/blob/master/md/HadoopRddPartitionDivide.md
HadoopRDD 我还是要推荐下我自己创建的大数据资料分享群834325294，这是大数据学习交流的地方，不管你是小白还是大牛，小编都欢迎，不定期分享干货，包括我整理的一份适合零基础学习大数据资料和入门教程。

 override def compute(theSplit: Partition, context: TaskContext): InterruptibleIterator[(K, V)] = {
    val iter = new NextIterator[(K, V)] {

      val split = theSplit.asInstanceOf[HadoopPartition]
      logInfo("Input split: " + split.inputSplit)
      val jobConf = getJobConf()

      val inputMetrics = context.taskMetrics.getInputMetricsForReadMethod(DataReadMethod.Hadoop)

      // Sets the thread local variable for the file's name
      split.inputSplit.value match {
        case fs: FileSplit => SqlNewHadoopRDDState.setInputFileName(fs.getPath.toString)
        case _ => SqlNewHadoopRDDState.unsetInputFileName()
      }

      // Find a function that will return the FileSystem bytes read by this thread. Do this before
      // creating RecordReader, because RecordReader's constructor might read some bytes
      val bytesReadCallback = inputMetrics.bytesReadCallback.orElse {
        split.inputSplit.value match {
          case _: FileSplit | _: CombineFileSplit =>
            SparkHadoopUtil.get.getFSBytesReadOnThreadCallback()
          case _ => None
        }
      }
      inputMetrics.setBytesReadCallback(bytesReadCallback)

      var reader: RecordReader[K, V] = null
      //返回TextInputFormat对象
      val inputFormat = getInputFormat(jobConf)
      HadoopRDD.addLocalConfiguration(new SimpleDateFormat("yyyyMMddHHmm").format(createTime),
        context.stageId, theSplit.index, context.attemptNumber, jobConf)
      //实例化对象 org.apache.hadoop.mapred.LineRecordReader
      //new LineRecordReader()实例方法中， 并且会重新计算当前partition的开始位置(与预分区的会有出入)
      reader = inputFormat.getRecordReader(split.inputSplit.value, jobConf, Reporter.NULL)

      // Register an on-task-completion callback to close the input stream.
      context.addTaskCompletionListener{ context => closeIfNeeded() }
      val key: K = reader.createKey()
      val value: V = reader.createValue()

      override def getNext(): (K, V) = {
        try {
          //调用 org.apache.hadoop.mapred.LineRecordReader.next()方法
          finished = !reader.next(key, value)
        } catch {
          case _: EOFException if ignoreCorruptFiles => finished = true
        }
        if (!finished) {
          inputMetrics.incRecordsRead(1)
        }
        //返回当前一对(key,value)对应的值
        (key, value)
      }

      override def close() {
        if (reader != null) {
          SqlNewHadoopRDDState.unsetInputFileName()
          // Close the reader and release it. Note: it's very important that we don't close the
          // reader more than once, since that exposes us to MAPREDUCE-5918 when running against
          // Hadoop 1.x and older Hadoop 2.x releases. That bug can lead to non-deterministic
          // corruption issues when reading compressed input.
          try {
            reader.close()
          } catch {
            case e: Exception =>
              if (!ShutdownHookManager.inShutdown()) {
                logWarning("Exception in RecordReader.close()", e)
              }
          } finally {
            reader = null
          }
          if (bytesReadCallback.isDefined) {
            inputMetrics.updateBytesRead()
          } else if (split.inputSplit.value.isInstanceOf[FileSplit] ||
                     split.inputSplit.value.isInstanceOf[CombineFileSplit]) {
            // If we can't get the bytes read from the FS stats, fall back to the split size,
            // which may be inaccurate.
            try {
              inputMetrics.incBytesRead(split.inputSplit.value.getLength)
            } catch {
              case e: java.io.IOException =>
                logWarning("Unable to get input size to set InputMetrics for task", e)
            }
          }
        }
      }
    }
    new InterruptibleIterator[(K, V)](context, iter)
  }

TextInputFormat
返回LineRecordReader

  public RecordReader getRecordReader(
                                          InputSplit genericSplit, JobConf job,
                                          Reporter reporter)
    throws IOException {
    
    reporter.setStatus(genericSplit.toString());
    String delimiter = job.get("textinputformat.record.delimiter");
    byte[] recordDelimiterBytes = null;
    if (null != delimiter) {
      recordDelimiterBytes = delimiter.getBytes(Charsets.UTF_8);
    }
    return new LineRecordReader(job, (FileSplit) genericSplit,
        recordDelimiterBytes);
  }

LineRecordReader
实例方法中，重新定位当前partition的开始位置
如果是partition(0),开始位置是0
如果不是partition(0),开始位置重新计算
调用 in.readLine()方法,等于调用 UncompressedSplitLineReader.readLine(),注意此时传的maxLineLength参数为0

public LineRecordReader(Configuration job, FileSplit split,
      byte[] recordDelimiter) throws IOException {
    this.maxLineLength = job.getInt(org.apache.hadoop.mapreduce.lib.input.
      LineRecordReader.MAX_LINE_LENGTH, Integer.MAX_VALUE);
    start = split.getStart();
    end = start + split.getLength();
    final Path file = split.getPath();
    compressionCodecs = new CompressionCodecFactory(job);
    codec = compressionCodecs.getCodec(file);

    // open the file and seek to the start of the split
    final FileSystem fs = file.getFileSystem(job);
    fileIn = fs.open(file);
    if (isCompressedInput()) {
      decompressor = CodecPool.getDecompressor(codec);
      if (codec instanceof SplittableCompressionCodec) {
        final SplitCompressionInputStream cIn =
          ((SplittableCompressionCodec)codec).createInputStream(
            fileIn, decompressor, start, end,
            SplittableCompressionCodec.READ_MODE.BYBLOCK);
        in = new CompressedSplitLineReader(cIn, job, recordDelimiter);
        start = cIn.getAdjustedStart();
        end = cIn.getAdjustedEnd();
        filePosition = cIn; // take pos from compressed stream
      } else {
        in = new SplitLineReader(codec.createInputStream(fileIn,
            decompressor), job, recordDelimiter);
        filePosition = fileIn;
      }
    } else {
      fileIn.seek(start);
	  //读取文件，定位的文件偏移量为，当前partition预分区的开始位置
      in = new UncompressedSplitLineReader(
          fileIn, job, recordDelimiter, split.getLength());
      filePosition = fileIn;
    }
    // If this is not the first split, we always throw away first record
    // because we always (except the last split) read one extra line in
    // next() method.
    if (start != 0) {
	//调用 in.readLine()方法,等于调用 UncompressedSplitLineReader.readLine(),
	//注意此时传的maxLineLength参数为0
	 //定位当前分区的开始位置，等于预分区的位置 + 读到的第一个换行符的长度
	 //也就是从当前partition开始位置计算，到读到的第一次换行符，属于上一个partition,在向后位置偏移位置+1，就是当前分区的实时开始位置
      start += in.readLine(new Text(), 0, maxBytesToConsume(start));
    }
    this.pos = start;
  }

HadoopRDD.compute() 重写迭代器getNext()方法
计算下一个(key,value)的值
具体reader.next()方法为 LineRecordReader.next() 方法

      override def getNext(): (K, V) = {
        try {
          finished = !reader.next(key, value)
        } catch {
          case _: EOFException if ignoreCorruptFiles => finished = true
        }
        if (!finished) {
          inputMetrics.incRecordsRead(1)
        }
        (key, value)
      }

LineRecordReader.next()
遍历当前分区的(key,value)值，就是去计算每个key,对应的值,每计算完一个(key,value)的值后，会把下一个key的索引位置进行更新

/** Read a line. */
  public synchronized boolean next(LongWritable key, Text value)
    throws IOException {

    // We always read one extra line, which lies outside the upper
    // split limit i.e. (end - 1)
	// getFilePosition() 等于 pos位置
    while (getFilePosition() <= end || in.needAdditionalRecordAfterSplit()) {
      key.set(pos);//调置本次的偏移位置

      int newSize = 0;
      if (pos == 0) { //第一个partition(0)
        newSize = skipUtfByteOrderMark(value);
      } else {
        newSize = in.readLine(value, maxLineLength, maxBytesToConsume(pos));
        pos += newSize;
      }

      if (newSize == 0) {
        return false;
      }
      if (newSize < maxLineLength) {
        return true;
      }

      // line too long. try again
      LOG.info("Skipped line of size " + newSize + " at pos " + (pos - newSize));
    }

    return false;
  }

UncompressedSplitLineReader.readLine()
调用LineReader.readLine()方法

@Override
  public int readLine(Text str, int maxLineLength, int maxBytesToConsume)
      throws IOException {
    int bytesRead = 0;
    if (!finished) {
      // only allow at most one more record to be read after the stream
      // reports the split ended
      if (totalBytesRead > splitLength) {
        finished = true;
      }

      bytesRead = super.readLine(str, maxLineLength, maxBytesToConsume);
    }
    return bytesRead;
  }

LineReader.readLine()方法
调用 LineReader.readDefaultLine()方法

/**
   * Read one line from the InputStream into the given Text.
   *
   * @param str the object to store the given line (without newline)
   * @param maxLineLength the maximum number of bytes to store into str;
   *  the rest of the line is silently discarded.
   * @param maxBytesToConsume the maximum number of bytes to consume
   *  in this call.  This is only a hint, because if the line cross
   *  this threshold, we allow it to happen.  It can overshoot
   *  potentially by as much as one buffer length.
   *
   * @return the number of bytes read including the (longest) newline
   * found.
   *
   * @throws IOException if the underlying stream throws
   */
  public int readLine(Text str, int maxLineLength,
                      int maxBytesToConsume) throws IOException {
    if (this.recordDelimiterBytes != null) {
      return readCustomLine(str, maxLineLength, maxBytesToConsume);
    } else {
      return readDefaultLine(str, maxLineLength, maxBytesToConsume);
    }
  }

LineReader.readDefaultLine()方法
具体计算partition的开始位置的方法
注意，此时传过来的maxLineLength参数值为0，也就是先不实际读取数据放到(key,value)的value中
调用 UncompressedSplitLineReader.fillBuffer()方法，实际读取HDFS上的文件

/**
   * Read a line terminated by one of CR, LF, or CRLF.
   * 当maxLineLength=0时，也就是partition不为0时，定位开始位置的时候，该方法会读取到
   */
  private int readDefaultLine(Text str, int maxLineLength, int maxBytesToConsume)
  throws IOException {
    /* We're reading data from in, but the head of the stream may be
     * already buffered in buffer, so we have several cases:
     * 1. No newline characters are in the buffer, so we need to copy
     *    everything and read another buffer from the stream.
     * 2. An unambiguously terminated line is in buffer, so we just
     *    copy to str.
     * 3. Ambiguously terminated line is in buffer, i.e. buffer ends
     *    in CR.  In this case we copy everything up to CR to str, but
     *    we also need to see what follows CR: if it's LF, then we
     *    need consume LF as well, so next call to readLine will read
     *    from after that.
     * We use a flag prevCharCR to signal if previous character was CR
     * and, if it happens to be at the end of the buffer, delay
     * consuming it until we have a chance to look at the char that
     * follows.
     */
    str.clear();
    int txtLength = 0; //tracks str.getLength(), as an optimization
    int newlineLength = 0; //length of terminating newline
    boolean prevCharCR = false; //true of prev char was CR
    long bytesConsumed = 0;
    do {
      int startPosn = bufferPosn; //starting from where we left off the last time
      if (bufferPosn >= bufferLength) {
        startPosn = bufferPosn = 0;
        if (prevCharCR) {
		//bytesConsumed：总计读取的数据长度(包括换行符)
          ++bytesConsumed; //account for CR from previous read
        }
	    /**
		 * 实际读取HDFS文件的方法
		 * buffer:缓冲区
		 * bufferLength : 这一次读到的数据长度
		   
		 */
        bufferLength = fillBuffer(in, buffer, prevCharCR);
        if (bufferLength <= 0) {
          break; // EOF
        }
      }
	  //对读到的buffer数组数据进行遍历，找找第一个换行符
	  // bufferPosn: 读到换行符时的位置(索引)，同一个分区中这个值是会保存的
      for (; bufferPosn < bufferLength; ++bufferPosn) { //search for newline
        if (buffer[bufferPosn] == LF) {
		//调试时prevCharCR = false, 当找到换行符\n时，newlineLength=1
          newlineLength = (prevCharCR) ? 2 : 1;
          ++bufferPosn; // at next invocation proceed from following byte
          break;
        }
        if (prevCharCR) { //CR + notLF, we are at notLF
          newlineLength = 1;
          break;
        }
		//在linux平台测试数据中没看到等于\r的，也就是调试prevCharCR一直等于false
        prevCharCR = (buffer[bufferPosn] == CR);
      }
      int readLength = bufferPosn - startPosn;//这一次读取的数据长度(包括换行符)
      if (prevCharCR && newlineLength == 0) {
        --readLength; //CR at the end of the buffer
      }
	  //总计读取的数据长度(包括换行符)
      bytesConsumed += readLength;
	  //这一次读取的数据长度(不包括换行符)
      int appendLength = readLength - newlineLength;
      if (appendLength > maxLineLength - txtLength) {
	  //如果读到的数据长度，大于最大长度限制，做个控制
	  //如果maxLineLength=0， txtLength =0 时，此时是不需要读数据的，就给appendLength赋值为0
        appendLength = maxLineLength - txtLength;
      }
      if (appendLength > 0) {
	     //如果计算appendLength >0 时，把值赋值给str,也就是我们读到的值
        str.append(buffer, startPosn, appendLength);
		//txtLength变量累加每次实际读到的长度(不包括换行符)
        txtLength += appendLength;
      }
	  //循环条件，是没有读到换行符，并且
    } while (newlineLength == 0 && bytesConsumed < maxBytesToConsume);

    if (bytesConsumed > Integer.MAX_VALUE) {
      throw new IOException("Too many bytes before newline: " + bytesConsumed);
    }
    return (int)bytesConsumed;
  }

UncompressedSplitLineReader.fillBuffer()方法

protected int fillBuffer(InputStream in, byte[] buffer, boolean inDelimiter)
      throws IOException {
    int maxBytesToRead = buffer.length; //缓冲的大小，默认为64KB
	//splitLength 当前partition的预分区大小(长度)
	// totalBytesRead 当前partitition总共读取了的数据长度
    if (totalBytesRead < splitLength) {
	   //说明当前partition预分区长度还没有读完，还需要继续读取剩下的长度
      long leftBytesForSplit = splitLength - totalBytesRead;
      // check if leftBytesForSplit exceed Integer.MAX_VALUE
      if (leftBytesForSplit <= Integer.MAX_VALUE) {
	    //做个比较，当前分区剩余的长度小于等于Integer.MAX_VALUE)，取64KB默认长度和实际长度的一个小的值
        maxBytesToRead = Math.min(maxBytesToRead, (int)leftBytesForSplit);
      }
    }
	//实际读取的数据长度
    int bytesRead = in.read(buffer, 0, maxBytesToRead);

    // If the split ended in the middle of a record delimiter then we need
    // to read one additional record, as the consumer of the next split will
    // not recognize the partial delimiter as a record.
    // However if using the default delimiter and the next character is a
    // linefeed then next split will treat it as a delimiter all by itself
    // and the additional record read should not be performed.
    if (totalBytesRead == splitLength && inDelimiter && bytesRead > 0) {
      if (usingCRLF) {
        needAdditionalRecord = (buffer[0] != '\n');
      } else {
        needAdditionalRecord = true;
      }
    }
    if (bytesRead > 0) {
	//读到了数据，当前partitition读到的总数据长度做个累加
      totalBytesRead += bytesRead;
    }
    return bytesRead;
  }

Linux配置日志级别,linux之日志篇啦啦啦wr Linux配置日志级别
rsysloglinux系统中用来实现日志功能的服务称为rsyslog，是早期syslog服务的增强版本，默认情况下是自动安装，并启动的。1、启动服务[root@37-testlog]#servicersyslogstart2、配置文件[root@37-testlog]#more/etc/rsyslog.conf基本格式：facility.prioritylog_location[root@37-
PCSC读卡器示例程序揭秘与实践路怜涯
本文还有配套的精品资源，点击获取简介：本项目“PCSC_Demo_PCSC_oldct2_读卡_PCSC型读卡器读卡软件_circle7me.zip”展示了一个使用PCSC（个人计算机智能卡）标准接口读取智能卡数据的演示程序。PCSC是智能卡交互的标准，由SCIA制定，允许应用程序通过统一API访问智能卡。项目包含源代码，支持多种编程语言，并展示了PC/SC架构、API接口、智能卡通信协议、读卡器
准确--使用 ThinBackup 插件执行备份和恢复 ascarl2010 Docker java
使用ThinBackup插件执行备份和恢复导出（备份）步骤：进入ManageJenkins>ThinBackup。设置Backupscheduleforfullbackups（可选），并配置Filestoexclude（可选）。点击BackupNow立即执行手动备份。然后去容器中压缩并拷贝出来导入（恢复）步骤：在新（或需要恢复的）Jenkins服务器上安装ThinBackup插件。将备份文件夹（例
基于Java Springboot的校园管理系统的设计与实现（源码+论文+ppt+sql）毕业设计课程设计小盆(￣.￣) Java SpringBoot课程设计毕业设计课程作业 java spring boot 课程设计毕业设计
免责声明：软件源码仅仅供学习参考使用，侵权联系删除。下载地址：https://download.csdn.net/download/qq_40175013/91227954压缩包内容：运行截图(部分)：部署过程：1.1.下载并解压压缩包->打开navicat连接并新建数据库springboot6yjn82.右击新建的数据库->运行sql->选择解压后文件夹中的db.sql3.打开idea->文件-
【Actix Web】构建高性能 Rust API：Actix Web 最佳实践与进阶指南 LCG元前端前端 rust 开发语言
目录一、高性能API架构设计1.1系统架构图1.2核心组件二、项目初始化与配置2.1创建项目2.2添加依赖(Cargo.toml)2.3配置文件(config/default.toml)三、核心模块实现3.1应用状态管理(src/state.rs)3.2数据模型定义(src/models.rs)四、认证与授权系统4.1JWT认证流程4.2JWT工具函数(src/utils/jwt.rs)4.3认证
CentOS企业级文件服务器终极部署指南
方案对比与选择指南（企业级评估）技术方案详细对比表方案协议版本典型应用场景核心优势主要局限性NFSNFSv3/NFSv4.2高性能计算(HPC)、容器持久化存储、AI训练数据集共享内核级支持、RDMA协议支持、10μs级延迟、支持pNFS并行传输默认无加密、ACL管理复杂、Windows需额外客户端SambaSMB3.1.1企业办公协作、Hyper-V虚拟机存储、MicrosoftSQLServe
JavaScript 异步编程的几种方式
在JavaScript中，异步编程是处理延迟操作（如网络请求、文件读写等）的关键技术，确保用户界面保持响应同时处理后台任务。以下是几种主要的异步编程解决方案，包括示例代码：1.回调（Callback）简介：最早的异步处理方式，通过将一个函数（回调函数）作为参数传递给另一个函数，在异步操作完成后执行回调。示例代码：functionfetchData(callback){setTimeout(()=>
C/C++连接mysql（api接口方法详解）陈七. 开发环境问题数据库 mysql c语言 c++数据库
文章目录前言代码笔记CAPI基本接口概述附1：CAPI基本数据结构参考附2：CAPI基本函数参考前言本篇记录C/C++连接mysql利用mysql的api接口的方法：这个方法的代码基本上很久都没有变过了，这里做个笔记来简单学习一下，还有一种方法等有时间了解后再来更新使用API的方式连接，需要先做环境配置，加载mysql的头文件和lib文件。可以看我之前的一篇文章VS中C/C++访问MySQL数据库
react-别名路径配置前端小趴菜05 react.js 前端前端框架
在前端开发中，别名路径配置（AliasPathConfiguration）是一种通过配置工具或框架，将特定的路径别名映射到实际文件路径的方法。这样可以简化文件引用路径，提高代码的可读性和维护性。为什么要进行别名路径配置？在我们做项目的时候一定会引入文件，如果要引入的文件层级太深的话肯定会出现很多'../../../../../'，会增加一些不必要的麻烦。所以我们通过@替代src路径，方便开发过程中
SeaTunnel 社区月报（5-6 月）：全新功能上线、Bug 大扫除、Merge 之星是谁？数据库
在5月和6月，SeaTunnel社区迎来了一轮密集更新：2.3.11正式发布，新增对Databend、Elasticsearch向量、HTTP批量写入、ClickHouse多表写入等多个连接器能力，全面提升了数据同步灵活性。同时，近100个修复与优化PR合入，涵盖Spark引擎并行性修复、Paimon精度兼容性增强、Mongo-CDCExactlyOnce默认值优化、OracleDDL类型支持补全
自学Python笔记开篇奔跑吧茄子 python
自学Python笔记开篇突然喜欢上了Python，大体研究了一下，写了一个excel数据比对的小工具，边学边写，收获很多。这期间学习了xlrd、openpyxl、pandas处理excel文件的基本常识，有时间整理一下，对菜鸟入门或许有帮助。
Cursor AI 编程黑科技实战技巧深山技术宅素养人工智能科技
以下是结合最新实战经验的CursorAI编程黑科技指南，涵盖高效开发、跨工具联动与深度优化技巧：一、核心功能实战技巧智能编辑模式（Ctrl+I）精准上下文理解：跨文件修改时，用自然语言描述需求（如“将utils.py中的日志函数迁移到lib/logger.py并改为异步调用”），自动完成代码迁移与重构。规避幻觉代码：对复杂需求追加约束（例：“用Python连接MySQL，禁用ORM，使用参数化查询
磁链转种子，种子转磁链 CILIFA 爬虫
前段时间做DHT爬虫，，奈何大量INFOHASH无法转换为种子文件，网络上所提供的几种方法也基本上已经失效（/效率低下）未测试DHT009协议，遂通过该思路借助迅雷实现。git地址:https://github.com/ZRory/magnet-torrent测试地址：https://www.orboss.com
AI编程实战：Cursor黑科技全解析 ithadoop python 开发语言
Cursor黑科技：AI编程实战核心技术解析2025年智能编程工具效能革命白皮书一、核心功能架构语义驱动开发基于CodeGraph技术构建跨文件语义图谱，实现类/函数级上下文感知实时生成UML时序图辅助架构设计（快捷键Ctrl+Alt+U）多模态编程#输入："PyTorch实现ResNet50猫狗分类，带数据增强"@AI生成代码transform=transforms.Compose([trans
离线升级docker-compose到2.37.2后，执行docker-compose --version报cannot execute binary file: Exec format error 云游操作系统 docker docker
docker-compose是Docker提供的一个工具，用于定义和运行多容器Docker应用程序。它通过一个YAML文件（通常是docker-compose.yml）来配置应用程序所需的所有服务、网络、卷、环境变量等资源，并通过简单的命令即可启动、停止、重建整个应用环境。一.现象将docker-compose升级到2.37.2，执行docker-compose--version报-bash:/u
Appium+python自动化（十二）- Android UIAutomator 程序员的世界你不懂 appium 自动化运维
Android团队在4.1版本（API16）中推出了一款全新的UI自动化测试工具UiAutomator，用来帮助开发人员更有效率的完成App的Debug工作，同时对于测试人员也是一大福音，为什么这么说呢？UiAutomator提供了以下两种工具来支持UI自动化测试：uiautomatorviewer：用来分析UI控件的图形界面工具，位于SDK目录下的tools文件夹中。uiautomator：一个
srs+ffmpeg+flv.js查看实时监控 nov4th rtmp ffmpeg http-flv srs
一、Linux中搭建srs服务器1、在Linux中下载srsgitclonehttps://github.com/ossrs/srs#下载很慢可以使用下面的地址gitclonehttps://gitee.com/winlinvip/srs.oschina2、编译srs#进入trunk目录cdsrs/trunk#编译./configure&&make3、创建自己的flv配置文件，可以从官方给的去复制
【Docker】docker的数据持久化一直奔跑在路上 Docker docker java 容器
在Docker中，容器的文件系统是临时的。如果容器被删除或重新创建，所有未保存的数据都会丢失。为了解决这个问题，我们可以使用以下两种方式来持久化数据：方式一：使用BindMounts实现数据持久化BindMounts允许你将宿主机文件系统中的目录或文件挂载到容器内的某个目录。这种方式非常直接，适合在开发和测试环境中使用。案例：运行一个Nginx容器，并将宿主机上的html目录挂载到容器内的/usr
spark数据处理练习题番外篇【上】
一.单选题（共23题，100分）1.(单选题)maven依赖应该加在哪个文件中？A.pom.xmlB.log4j.propertiesC.src/main/scala.resourceD.src/test/scala.resource正确答案:A:pom.xml;Maven依赖应该添加在pom.xml文件中，这是Maven项目的核心配置文件。解释：pom.xml(ProjectObjectMode
【Java入门】入门第一天-开发环境的搭建-为什么要搭建环境-搭建步骤头秃仙女 java jvm
了解过Java的发展历史之后，相信大家对Java是什么有了一定的了解。那么现在我们就可以开始Java的入门第一步啦---下载软件，搭建环境。首先了解一下JVM、JRE、JDKJVM(JavaVirtualMachine):Java虚拟机，Java程序运行在其中.java语言编译程序只需生成在Java虚拟机上运行的目标代码(字节码)，就可以在多种平台上不加修改地运行.JVM对上层的Java源文件是不
设计模式 | 原型模式 @hdd 设计模式设计模式原型模式
原型模式通过克隆机制实现对象高效创建，是性能敏感场景的利器。本文结合C++示例详解实现原理、深拷贝陷阱、应用场景，并与工厂模式对比分析。为何需要原型模式？当遇到以下场景时，传统构造方法面临挑战：创建成本高：对象初始化需访问数据库/读取文件（如游戏角色加载资源）状态复杂：对象包含多层嵌套结构（如DOM树节点）动态配置：运行时需基于现有对象微调生成新对象原型模式优势：避开重复初始化开销免去工厂类继承体
unix:///var/run/supervisor/supervisor.sock no such file
在Linux系统中，如果你遇到/var/run/supervisor/supervisor.sock文件不存在的问题，这通常意味着Supervisor服务没有正确运行或者其配置文件没有正确设置来创建这个socket文件。下面是一些解决这个问题的步骤：检查Supervisor是否正在运行首先，你需要确认Supervisor服务是否已经启动。你可以使用以下命令来检查Supervisor的状态：sudo
如何在Ubuntu上运行Jar包？ wljslmz Linux技术 ubuntu jar linux
Java，一种广泛使用的面向对象编程语言，以其“编写一次，到处运行”的理念著称，是跨平台应用程序开发的首选。其核心优势在于Java虚拟机（JVM），它使得编写的Java代码能够在任何安装了JVM的设备上运行，无需重新编译。Ubuntu作为Linux发行版中的佼佼者，凭借其开源、稳定、易用的特性，成为了众多开发者部署Java应用的优选平台。Jar（JavaArchive）文件是一种归档文件格式，用于
zabbix监控jmx 寰宇001 监控/自动化工具
介绍背景：目前公司用的主要语言就是java，然后在运维过程中会遇到频繁的内存溢出的情况，之前使用过elk日志分析系统可以实时的判断出内存溢出的情况，但是无法查看内存的使用情况，只能通过dump文件查看内存溢出的时候dump下来的文件去分析。这样也无法准确的判断出问题。zabbix可以监控java，并且将内存的使用情况实时的展现出来，这是一个不错的选择。JMX的全称是JavaManagementEx
如何规范式编写yaml文件小小小糖果人 K8S kubernetes 云原生容器
1、Yaml语法1.1使用空白与缩进表示层次（有点类似Python），可以不使用花括号和方括号。1.2可以使用#书写注释，比起JSON是很大的改进。1.3对象（字典）的格式与JSON基本相同，但Key不需要使用双引号,使用{a,b,c}。1.4数组（列表）是使用-开头的清单形式，使用[a,b,c]。1.5表示对象的:和表示数组的-后面都必须要有空格。可以使用---在一个文件里分隔多个YAML对象。
Windows CMD命令分类大全数字隐士·赛博智者笔记
⚙️‌一、系统与磁盘管理‌‌系统信息‌systeminfo：查看详细硬件及系统配置（版本/内存/补丁）211winver：快速检查Windows版本11msinfo32：图形化系统信息面板811‌磁盘工具‌chkdsk/f：修复磁盘错误（需管理员权限）17cleanmgr：启动磁盘清理工具18dfrgui：优化驱动器（磁盘碎片整理）18formatX:：格式化指定驱动器（谨慎使用）11‌二、文件与
2025年6月个人工作生活总结李迟打工人的知识库生活
本文为2025年6月工作生活总结。研发编码某国产操作系统curl下载sftp服务器文件问题记录场景：某国产系统curl版本信息：#curl--versioncurl7.71.1(x86_64-koji-linux-gnu)libcurl/7.71.1OpenSSL/1.1.1f-fipszlib/1.2.11brotli/1.0.7libidn2/2.3.0libpsl/0.21.1(+libid
Mac10.7.5 XCode4.5.2 ios6编译VLC1.1.0 woohyuknrg iOS
参考了这篇博文：http://blog.csdn.net/madongchunqiu/article/details/7625083，根据后面的问答修改了一些脚本内容，以及编译时遇到的问题说明只针对真机编译，前几步跟上面博文一样：1.到http://www.videolan.org/vlc/download-ios.html下载3个压缩文件2.创建目录（比如/VLC)，并将3个源代码包解压在目录内
微信小程序实现下拉刷新首页数据、上拉加载下一页数据花铛微信小程序微信小程序
下拉刷新首页数据：使用页面的下拉，刷新首页数据：首先需要在页面对应的JSON文件中配置"enablePullDownRefresh":true。然后在页面对应的JS文件中使用微信小程序提供的onPullDownRefresh(){}监听用户下拉动作。//本质是获取首页的数据onPullDownRefresh(){this.setData({pageNum:1},this.getList)},get
解决Xcode16.0编译报错 Showing Recent Messages Command SwiftCompile failed with a nonzero exit code 程序员大龙虾移动端 ios xcode
修改下HandyJSON库的编译模式即可。详情请看图CompilationMode接着在Xcode顶部菜单栏中，选择Product>CleanBuildFolder（可以使用快捷键Shift+Command+K）清理项目的编译文件
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，

Spark HadoopRDD读取HDFS文件

前置条件

概述

HDFS数据文件

HDFS 数据文件图解

HDFS 数据文件图解(对比）

图一

图二

断点位置

HadoopRDD partition预划分方式(实际会有小的调整)

HadoopRDD partition划分原理

partition分不到数据(以下情况同时满足)

源码分析

你可能感兴趣的:(Spark HadoopRDD读取HDFS文件)