周润发的弟弟

【Spark系列3】RDD源码解析实战

本文主要讲

1、什么是RDD

2、RDD是如何从数据中构建

一、什么是RDD？

RDD：弹性分布式数据集，Resillient Distributed Dataset的缩写。

个人理解：RDD是一个容错的、并行的数据结构，可以让用户显式的将数据存储到磁盘和内存中，并能控制数据的分区。同时RDD还提供一组丰富的API来操作它。本质上，RDD是一个只读的分区集合，一个RDD可以包含多个分区，每个分区就是一个dataset片段。RDD可以互相依赖

二、RDD是如何从数据中构建

2.1、RDD源码

Internally, each RDD is characterized by five main properties

A list of pattitions

A function for computing each split

A list of dependencies on each RDDs

optionally， a partitioner for key-value RDDs（e.g. to say that RDD is hash-partitioned）

optionally, a list of preferred locations to compute each split on （e.g. block locations for an HDFS file）

RDD基本都有这5个特性：

1、每个RDD 都会有一个分片列表。就是可以被切分，和hadoop一样，能够被切分的数据才能并行计算

2、有一个函数计算每一个分片。这里是指下面会提到的compute函数

3、对其他RDD的依赖列表。依赖区分宽依赖和窄依赖

4、可选：key-value类型的RDD是根据hash来分区的，类似于mapreduce当中的partitioner接口，控制哪个key分到哪个reduce

5、可选：每一个分片的有效计算位置（preferred locations），比如HDFS的block的所在位置应该是优先计算的位置

2.2、宽窄依赖

如果一个RDD的每个分区最多只能被一个Child RDD的一个分区所使用，则称之为窄依赖（Narrow dependency），如果被多个Child RDD分区依赖，则称之为宽依赖（wide dependency）

例如 map、filter是窄依赖，而join、groupby是宽依赖

2.3、源码分析

RDD的5个特征会对应到源码中的 4个方法和一个属性

RDD.scala是一个总的抽象，不同的子类会对下面的方法进行定制化的实现。比如compute方法，不同子类在实现的时候是不同的。

// 该方法只会被调用一次。由子类实现，返回这个RDD下的所有Partition
protected def getPartitions: Array[Partition]

// 该方法只会被调用一次。计算该RDD和父RDD的关系
protected def getDenpendencies: Seq[Dependency[_]] = deps

//对分区进行计算，返回一个可遍历的结果
def compute(split: Partition, context: TaskContext): Iterator[T]

//可选的，指定优先位置，输入参数是split分片，输出结果是一组优先的节点位置
protected def getPreferredLocations(split: Partition): Seq(String)= Nil

// 可选的，分区的方法，针对第4点，控制分区的计算规则
@transient val partitioner: Option[Partitioner] = None

拿官网上的workcount举例：

val textFile = sc.textFile("文件目录/test.txt")
val counts = textFile.flatMap(line => line.split(" "))
                 .filter(_.length >= 2)
                 .map(word => (word, 1))
                 .reduceByKey(_ + _)
counts.saveAsTextFile("hdfs://...")

这里涉及到几个RDD的转换

1、textfile是一个hadoopRDD经过map转换后的MapPartitionsRDD，

2、经过flatMap后仍然是一个MapPartitionsRDD

3、经过filter方法之后生成了一个新的MapPartitionRDD

4、经过map函数之后，继续是一个MapPartitionsRDD

5、经过最后一个reduceByKey编程了ShuffleRDD

文件分为一个part1，part2，part3经过spark读取之后就变成了HadoopRDD，再按上面流程理解即可

2.3.1、代码分析：SparkContext 类

本次只看textfile方法，注释上说明

Read a text file from HDFS, a local file system (available on all nodes), or any Hadoop-supported file system URI, and return it as an RDD of Strings.

读取text文本从hdfs上、本地文件系统，或者hadoop支持的文件系统URI中， 返回一个String类型的RDD

看代码：

hadoopFile最后返回的是一个HadoopRDD对象，然后经过map变换后，转换成MapPartitionsRDD，鱿鱼HadoopRDD没有重写map函数，所以调用的是父类的RDD的map

def textFile(path: String,
      minPartitions: Int = defaultMinPartitions): RDD[String] = withScope {
    assertNotStopped() // 忽略不看
    
    hadoopFile(path, classOf[TextInputFormat], classOf[LongWritable], classOf[Text], minPartitions)
      .map(pair => pair._2.toString).setName(path)
  }

看下hadoopFile方法

1、广播hadoop的配置文件

2、设置文件的输入格式之类的，也决定的文件的读取方式

3、new HadoopRDD，并返回

def hadoopFile[K, V](path: String,
      inputFormatClass: Class[_ <: InputFormat[K, V]],
      keyClass: Class[K],
      valueClass: Class[V],
      minPartitions: Int = defaultMinPartitions): RDD[(K, V)] = withScope {
    assertNotStopped()

    // 做一些校验
    FileSystem.getLocal(hadoopConfiguration)

    // A Hadoop configuration can be about 10 KiB, which is pretty big, so broadcast it.
    val confBroadcast = broadcast(new SerializableConfiguration(hadoopConfiguration))
    val setInputPathsFunc = (jobConf: JobConf) => FileInputFormat.setInputPaths(jobConf, path)
    new HadoopRDD(
      this,
      confBroadcast,
      Some(setInputPathsFunc),
      inputFormatClass,
      keyClass,
      valueClass,
      minPartitions).setName(path)
  }

2.3.2、源码分析：HadoopRDD类

先看注释

An RDD that provides core functionality for reading data stored in Hadoop (e.g., files in HDFS, sources in HBase, or S3), using the older MapReduce API (org.apache.hadoop.mapred).

看注释可以知道，HadoopRDD是一个专为Hadoop（HDFS、Hbase、S3）设计的RDD。使用的是以前的MapReduce 的API来读取的。

HadoopRDD extends RDD[(K, V)] 重写了RDD中的三个方法

override def compute(theSplit: Partition, context: TaskContext): InterruptibleIterator[(K, V)] = {}

override def getPartitions: Array[Partition] = {}

override def getPreferredLocations(split: Partition): Seq[String] = {}

分别来看一下

HadoopRDD#getPartitions

1、读取配置文件

2、通过inputFormat自带的getSplits方法来计算分片，获取所有的Splits

3、创建HadoopPartition的List并返回

这里是不是可以理解，Hadoop中的一个分片，就对应到Spark中的一个Partition

override def getPartitions: Array[Partition] = {
  val jobConf = getJobConf()
    // add the credentials here as this can be called before SparkContext initialized
    SparkHadoopUtil.get.addCredentials(jobConf)
    try {
      // 通过配置的文件读取方式获取所有的Splits
      val allInputSplits = getInputFormat(jobConf).getSplits(jobConf, minPartitions)
      val inputSplits = if (ignoreEmptySplits) {
        allInputSplits.filter(_.getLength > 0)
      } else {
        allInputSplits
      }
      // 创建Partition的List
      val array = new Array[Partition](inputSplits.size)
      for (i <- 0 until inputSplits.size) {
        // 创建HadoopPartition
        array(i) = new HadoopPartition(id, i, inputSplits(i))
      }
      array
    } catch {
      异常处理
    }
}

HadoopRDD#compute

compute的作用主要是根据输入的partition信息生成一个InterruptibleIterator。

iter中的逻辑主要是

1、把Partition转成HadoopPartition，通过InputSplit创建一个RecordReader

2、重写Iterator的getNext方法，通过创建的reader调用next方法读取下一个值

compute方法通过Partition来获取Iterator接口，以遍历Partition的数据

override def compute(theSplit: Partition, context: TaskContext): InterruptibleIterator[(K, V)] = {
    val iter = new NextIterator[(K, V)] {...}
    new InterruptibleIterator[(K, V)](context, iter)
  }
 override def compute(theSplit: Partition, context: TaskContext): InterruptibleIterator[(K, V)] = {

 val iter = new NextIterator[(K, V)] {

      //将compute的输入theSplit，转换为HadoopPartition
      val split = theSplit.asInstanceOf[HadoopPartition]
      ......
      //c重写getNext方法
      override def getNext(): (K, V) = {
        try {
          finished = !reader.next(key, value)
        } catch {
          case _: EOFException if ignoreCorruptFiles => finished = true
        }
        if (!finished) {
          inputMetrics.incRecordsRead(1)
        }
        (key, value)
      }
     }
}

HadoopRDD#getPreferredLocations

getPreferredLocations方法比较简单，直接调用SplitInfoReflections下的inputSplitWithLocationInfo方法获得所在的位置。

override def getPreferredLocations(split: Partition): Seq[String] = {
  val hsplit = split.asInstanceOf[HadoopPartition].inputSplit.value
  val locs: Option[Seq[String]] = HadoopRDD.SPLIT_INFO_REFLECTIONS match {
    case Some(c) =>
      try {
        val lsplit = c.inputSplitWithLocationInfo.cast(hsplit)
        val infos = c.getLocationInfo.invoke(lsplit).asInstanceOf[Array[AnyRef]]
        Some(HadoopRDD.convertSplitLocationInfo(infos))
      } catch {
        case e: Exception =>
          logDebug("Failed to use InputSplitWithLocations.", e)
          None
      }
    case None => None
  }
  locs.getOrElse(hsplit.getLocations.filter(_ != "localhost"))
}

2.3.3、源码分析：MapHadoopRDD类

An RDD that applies the provided function to every partition of the parent RDD.

经过RDD提供的function处理后的父RDD 将会变成MapHadoopRDD

MapHadoopRDD重写了父类的partitioner、getPartitions和compute方法

private[spark] class MapPartitionsRDD[U: ClassTag, T: ClassTag](
    var prev: RDD[T],
    f: (TaskContext, Int, Iterator[T]) => Iterator[U],  // (TaskContext, partition index, iterator)
    preservesPartitioning: Boolean = false)
  extends RDD[U](prev) {
  override val partitioner = if (preservesPartitioning) firstParent[T].partitioner else None
  override def getPartitions: Array[Partition] = firstParent[T].partitions
  override def compute(split: Partition, context: TaskContext): Iterator[U] =
    f(context, split.index, firstParent[T].iterator(split, context))
  override def clearDependencies() {
    super.clearDependencies()
    prev = null
  }
}

在partitioner、getPartitions、compute中都用到了一个firstParent函数，可以看到，在MapPartition中并没有重写partitioner和getPartitions方法，只是从firstParent中取了出来

再看下firstParent是干什么的，其实就是取的父依赖

/** Returns the first parent RDD */
protected[spark] def firstParent[U: ClassTag]: RDD[U] = {
  dependencies.head.rdd.asInstanceOf[RDD[U]]
}

再看一下MapPartitionsRDD继承的RDD，它继承的是RDD[U] (prev)，这里的prev指的是我们的HadoopRDD，也就是说HadoopRDD变成了我们这个MapPartitionRDD的OneToOneDependency依赖，OneToOneDependency是窄依赖

def this(@transient oneParent: RDD[_]) =
    this(oneParent.context , List(new OneToOneDependency(oneParent)))

再来看map方法

/**
 * Return a new RDD by applying a function to all elements of this RDD.
 * 通过将函数应用于新RDD的所有元素，返回新的RDD。
 */
def map[U: ClassTag](f: T => U): RDD[U] = withScope {
  val cleanF = sc.clean(f)
  new MapPartitionsRDD[U, T](this, (context, pid, iter) => iter.map(cleanF))
}

flatMap方法

/**
 *  Return a new RDD by first applying a function to all elements of this
 *  RDD, and then flattening the results.
 */
def flatMap[U: ClassTag](f: T => TraversableOnce[U]): RDD[U] = withScope {
  val cleanF = sc.clean(f)
  new MapPartitionsRDD[U, T](this, (context, pid, iter) => iter.flatMap(cleanF))
}

filter方法

/**
  * Return a new RDD containing only the elements that satisfy a predicate.
  * 返回仅包含满足表达式 的元素的新RDD。
  */
 def filter(f: T => Boolean): RDD[T] = withScope {
   val cleanF = sc.clean(f)
   new MapPartitionsRDD[T, T](
     this,
     (context, pid, iter) => iter.filter(cleanF),
     preservesPartitioning = true)
 }

观察代码发现，他们返回的都是MapPartitionsRDD对象，不同的仅仅是传入的function不同而已，经过前面的分析，这些都是窄依赖

注意：这里我们可以明白了MapPartitionsRDD的compute方法的作用了：

1、在没有依赖的条件下，根据分片的信息生成遍历数据的iterable接口

2、在有前置依赖的条件下，在父RDD的iterable接口上给遍历每个元素的时候再套上一个方法

2.3.4、源码分析：PairRDDFunctions 类

接下来，该reduceByKey操作了。它在PairRDDFunctions里面

reduceByKey稍微复杂一点，因为这里有一个同相同key的内容聚合的一个过程，它调用的是combineByKey方法。

/**
   * Merge the values for each key using an associative reduce function. This will also perform
   * the merging locally on each mapper before sending results to a reducer, similarly to a
   * "combiner" in MapReduce.
   */
  def reduceByKey(partitioner: Partitioner, func: (V, V) => V): RDD[(K, V)] = self.withScope {
    combineByKeyWithClassTag[V]((v: V) => v, func, func, partitioner)
  }

    /**
   * Generic function to combine the elements for each key using a custom set of aggregation
   泛型函数，将每个key的元素 通过自定义的聚合 来组合到一起
   * functions. Turns an RDD[(K, V)] into a result of type RDD[(K, C)], for a "combined type" C
   *
   * Users provide three functions:
   *
   *  - `createCombiner`, which turns a V into a C (e.g., creates a one-element list)
   *  - `mergeValue`, to merge a V into a C (e.g., adds it to the end of a list)
   *  - `mergeCombiners`, to combine two C's into a single one.
   *
   * In addition, users can control the partitioning of the output RDD, and whether to perform
   * map-side aggregation (if a mapper can produce multiple items with the same key).
   *
   * @note V and C can be different -- for example, one might group an RDD of type
   * (Int, Int) into an RDD of type (Int, Seq[Int]).
   */
  def combineByKeyWithClassTag[C](
      createCombiner: V => C,
      mergeValue: (C, V) => C,
      mergeCombiners: (C, C) => C,
      partitioner: Partitioner,
      mapSideCombine: Boolean = true,
      serializer: Serializer = null)(implicit ct: ClassTag[C]): RDD[(K, C)] = self.withScope {
    require(mergeCombiners != null, "mergeCombiners must be defined") // required as of Spark 0.9.0
    // 判断keyclass是不是array类型，如果是array并且在两种情况下throw exception。
    if (keyClass.isArray) {
      if (mapSideCombine) {
        throw SparkCoreErrors.cannotUseMapSideCombiningWithArrayKeyError()
      }
      if (partitioner.isInstanceOf[HashPartitioner]) {
        throw SparkCoreErrors.hashPartitionerCannotPartitionArrayKeyError()
      }
    }
    val aggregator = new Aggregator[K, V, C](
      self.context.clean(createCombiner),
      self.context.clean(mergeValue),
      self.context.clean(mergeCombiners))
    //虽然不太明白，但是此处基本上一直是false，感兴趣的看后面的参考文章
    if (self.partitioner == Some(partitioner)) {
      self.mapPartitions(iter => {
        val context = TaskContext.get()
        new InterruptibleIterator(context, aggregator.combineValuesByKey(iter, context))
      }, preservesPartitioning = true)
    } else {
      // 默认走这个方法
      new ShuffledRDD[K, V, C](self, partitioner)
        .setSerializer(serializer)
        .setAggregator(aggregator)
        .setMapSideCombine(mapSideCombine)
    }
  }

2.3.5、源码分析：ShuffledRDD类

看上面代码最后传入了self和partitioner ，并set了三个值，shuffled过程暂时不做解析。这里看下ShuffledRDD的依赖关系（getDependencies方法），它是一个宽依赖

override def getDependencies: Seq[Dependency[_]] = {
    val serializer = userSpecifiedSerializer.getOrElse {
      val serializerManager = SparkEnv.get.serializerManager
      if (mapSideCombine) {
        serializerManager.getSerializer(implicitly[ClassTag[K]], implicitly[ClassTag[C]])
      } else {
        serializerManager.getSerializer(implicitly[ClassTag[K]], implicitly[ClassTag[V]])
      }
    }
    List(new ShuffleDependency(prev, part, serializer, keyOrdering, aggregator, mapSideCombine))
  }

总结：我们讲了RDD的基本组成结构，也通过一个wordcount程序举例来说明代码是如果运行的，希望大家可以从源码入手，学习spark，共勉！

Java架构师之路：微服务架构图解和详情技术人小冯分布式微服务微服务架构分布式架构 java
微服务框架搭建：总体规划框架名称当前技术选型方案微服务框架搭建开发框架单体服务SpringBoot分布式框架SpringCloud最新框架SpringCloudAlibaba服务配置中心+服务消息总线阿里巴巴Nacos、Config+Bus+RabbitMQ配合使用、携程apolo服务网关SpringCloud-Gateway服务降级限流阿里Sentienl、SpringCloud-Hystrix
强者联盟——Python语言结合Spark框架博文视点全栈工程师全栈全栈数据 Spark Python PySpark
引言：Spark由AMPLab实验室开发，其本质是基于内存的快速迭代框架，“迭代”是机器学习最大的特点，因此非常适合做机器学习。得益于在数据科学中强大的表现，Python语言的粉丝遍布天下，如今又遇上强大的分布式内存计算框架Spark，两个领域的强者走到一起，自然能碰出更加强大的火花（Spark可以翻译为火花），因此本文主要讲述了PySpark。本文选自《全栈数据之门》。全栈框架Spark由AMP
Spark技术系列（三）：Spark算子全解析——从基础使用到高阶优化数据大包哥 #Spark spark 大数据分布式
Spark技术系列（三）：Spark算子全解析——从基础使用到高阶优化1.算子核心概念与分类体系1.1算子本质解析延迟执行机制：转换算子构建DAG，行动算子触发Job执行任务并行度：由RDD分区数决定（可通过spark.default.parallelism全局配置）执行位置优化：基于数据本地性的任务调度策略1.2官方分类标准
分布式多卡训练(DDP)踩坑 m0_54804970 面试学习路线阿里巴巴分布式
多卡训练最近在跑yolov10版本的RT-DETR，用来进行目标检测。单卡训练语句（正常运行）：pythonmain.py多卡训练语句：需要通过torch.distributed.launch来启动，一般是单节点，其中CUDA_VISIBLE_DEVICES设置用的显卡编号，也可以不用，直接在main.py里面指定device也行，–nproc_pre_node每个节点的显卡数量。python-m
分布式监控Skywalking安装及使用教程（保姆级教程）(1) 2401_84181145 程序员分布式 skywalking
前言本文主要讲解分布式链路追踪监控系统Skywalking的安装及使用教程，从0到1，图文并茂的保姆级教程。SkyWalking是一款用于分布式系统跟踪和性能监控的开源工具。它可以帮助开发人员了解分布式系统中不同组件之间的调用关系和性能指标，从而进行故障排查和性能优化。它支持多种语言和框架，包括Java、.NET、Node.js等。它通过在应用程序中插入代理或使用特定的SDK来收集跟踪数据，并将这
2024年linux——环境基础开发工具使用_gcc test file(4)，2024年最新程序设计+Linux运维+Web+数据库+框架+分布式 2401_83740189 程序员运维 linux 前端
最全的Linux教程，Linux从入门到精通======================linux从入门到精通(第2版)Linux系统移植Linux驱动开发入门与实战LINUX系统移植第2版Linux开源网络全栈详解从DPDK到OpenFlow第一份《Linux从入门到精通》466页====================内容简介====本书是获得了很多读者好评的Linux经典畅销书**《Linu
大数据经典技术解析：Hadoop+Spark大数据分析原理与实践 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介大数据时代已经来临。随着互联网、移动互联网、物联网等新兴技术的出现，海量数据开始涌现。而在这些海量数据的基础上进行有效的处理，成为迫切需要解决的问题之一。ApacheHadoop和ApacheSpark是目前主流开源大数据框架。由于其易于部署、高容错性、并行计算能力强、适应数据量大、可编程、社区支持广泛等特点，大大提升了大数据应用的效率和效果。本文通过对Hado
tidb和mysql性能优化有哪些区别大0马浓 tidb mysql
TiDB和MySQL在性能优化上的区别主要体现在架构设计、扩展方式、优化手段和适用场景等方面。以下是主要区别的总结：1.架构设计差异MySQL：单机架构（或主从复制架构），存储和计算耦合。-依赖本地磁盘或集中式存储（如SAN/NAS）。-优化集中在单机资源（CPU、内存、磁盘I/O）的合理利用。TiDB：-分布式架构，存储（TiKV）、计算（TiDBServer）、调度（PD）分离。-数据自动分片
NLP自然语言处理：文本表示总结 - 上篇word embedding（基于降维、基于聚类、CBOW 、Skip-gram、 NNLM 、TF-ID、GloVe ）陈宸-研究僧 NLP自然语言处理
文本表示分类（基于表示方法）离散表示one-hot表示词袋模型与TF-ID分布式表示基于矩阵的表示方法降维的方法聚类的方法基于神经网络的表示方法NNLMCBOWSkip-gramGloVeELMoGPTBERT目录一、文本离散表示1.1文本离散表示：one-hot1.2文本离散表示：词袋模型与TF-IDF1.2.1词袋模型（bagofwords）1.2.2对词袋模型的改进：TF-IDF二、文本分布
全面指南：使用JMeter进行性能压测与性能优化（中间件压测、数据库压测、分布式集群压测、调优） m0_74822999 面试学习路线阿里巴巴 jmeter 性能优化中间件
目录一、性能测试的指标1、并发量2、响应时间3、错误率4、吞吐量5、资源使用率二、压测全流程三、其他注意点1、并发和吞吐量的关系2、并发和线程的关系四、调优及分布式集群压测（待仔细学习）1.线程数量超过单机承载能力时的解决方案2.如何搭建分布式集群3.实施集群压测及监控4.处理集群中单台施压机报错的情况5.长时间压测（10小时）的注意事项6.处理混合场景：用户思考时间及多个服务同时压测7.开发压测
python读取redis大数据_大数据系列——Redis学习笔记 weixin_39661345
1.Redis的简介Redis是一个开源(BSD许可)，内存存储的数据结构服务器,可用作数据库，高速缓存和消息队列代理它支持字符串、哈希表、列表、集合、有序集合，位图，hyperloglogs等数据类型内置复制、Lua脚本、LRU收回、事务以及不同级别磁盘持久化功能，同时通过RedisSentinel提供高可用，通过RedisCluster提供自动分区。简言之，Redis是一种面向“键/值”对数据
英伟达DeepStream学习笔记30——kafka和AMQP的区别翟羽嚄英伟达TX2 /Xavier /deepstream开发 kafka 学习 rabbitmq
作为消息队列来说，企业中选择mq的还是多数，因为像Rabbit，Rocket等mq中间件都属于很成熟的产品，性能一般但可靠性较强，而kafka原本设计的初衷是日志统计分析，现在基于大数据的背景下也可以做运营数据的分析统计，而redis的主要场景是内存数据库，作为消息队列来说可靠性太差，而且速度太依赖网络IO，在服务器本机上的速度较快，且容易出现数据堆积的问题，在比较轻量的场合下能够适用。Rabbi
Redis学习笔记之——学习计划 Jack_abu redis redis学习 redis学习计划
Redis——RemoteDictionaryServer，开源、基于内存、速度快、key-value...Redis做为一个高性能的键值存储系统，广泛应用于缓存、会话存储、分布式锁以及其他需要快速访问的数据场景中。熟悉掌握redis，似乎已成为广大码农们必备的一项技能。下面是我的一个redis的学习计划，开启我的redis学习之旅~一、基础数据类型深入学习Redis的五种基本数据类型：字符串（S
XLNet：超越BERT的新星 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
-XLNet：超越BERT的新星1.背景介绍1.1自然语言处理的重要性自然语言处理(NaturalLanguageProcessing,NLP)是人工智能领域的一个重要分支,旨在使计算机能够理解和生成人类语言。随着大数据时代的到来,海量的自然语言数据不断涌现,对NLP技术的需求与日俱增。NLP技术已广泛应用于机器翻译、智能问答、信息检索、情感分析等诸多领域,为人类生产和生活带来了巨大便利。1.2预
ES 的分布式架构原理能说一下么（ES 是如何实现分布式的啊）？小新杂谈社后端面试 elasticsearch 分布式架构搜索引擎
面试题ES的分布式架构原理能说一下么（ES是如何实现分布式的啊）？面试官心理分析在搜索这块，lucene是最流行的搜索库。几年前业内一般都问，你了解lucene吗？你知道倒排索引的原理吗？现在早已经out了，因为现在很多项目都是直接用基于lucene的分布式搜索引擎——ElasticSearch，简称为ES。而现在分布式搜索基本已经成为大部分互联网行业的Java系统的标配，其中尤为流行的就是ES，
Spark核心之06：知识点梳理小技工丨大数据技术学习 SparkSQL spark 大数据
spark知识点梳理spark_〇一1、spark是什么spark是针对于大规模数据处理的统一分析引擎，它是基于内存计算框架，计算速度非常之快，但是它仅仅只是涉及到计算，并没有涉及到数据的存储，后期需要使用spark对接外部的数据源，比如hdfs。2、spark四大特性1、速度快spark比mapreduce快的2个主要原因1、基于内存（1）mapreduce任务后期再计算的时候，每一个job的输
分布式系统debug日志链路日志-OnlineDebug 浮生若梦flw 日志 java MDC 分布式链路日志
MDC分布式日志调用日志系统-OnlineDebug1、背景在分布式系统中，在排查线上问题的时候我们希望可以通过请求的唯一ID（或者用户Id等），打印整个请求在多个系统中的全链路，帮助我们提升问题排查能力。下面事我梳理的几个需求点：1：可以通过动态配置userId，来全链路开启该userId的全链路日志。2：在多线程池执行任务下，切换线程，也可以打印debug日志。3：duboo调用其他服务，这个
【Elasticsearch】Elasticsearch集群在分布式环境下的管理屿小夏 Elasticsearch elasticsearch 分布式大数据
文章目录前言一、集群规划与设计1.1集群拓扑结构设计1.2节点角色分配1.3分片与副本配置二、集群管理与运维2.1集群监控2.2故障处理2.3性能优化三、扩展与升级3.1集群扩展3.2集群升级3.3灾备与容灾️总结前言Elasticsearch是一种高度可扩展的开源搜索引擎，可以在大规模分布式环境中处理和存储海量数据。随着数据量的增长，单节点的Elasticsearch难以满足业务需求，因而集群部
Hadoop基础知识及部署模式 2301_82242502 hadoop 大数据分布式
一、Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力，解决海量数据的存储及海量数据的分析计算问题。广义上的Hadoop是指Hadoop的整个技术生态圈；狭义上的Hadoop指的是其核心三大组件，包括HDFS、YARN及MapReduce.二、Hadoop的发展史Hadoop起源于Lucen
探讨Hadoop的基础架构及其核心特点 xx155802862xx hadoop 大数据分布式
Hadoop是一个开源软件框架，用于存储和处理大规模数据集。它是Apache软件基金会下的一个项目，灵感来源于Google的两篇论文：一篇关于Google文件系统（GFS），另一篇关于MapReduce。Hadoop设计用于从单台服务器扩展到数千台机器，每台机器提供局部计算和存储。而不仅仅是处理大数据，Hadoop的真正价值在于其对于数据的高容错性、可扩展性以及相对低成本的存储和处理能力。以下是探
分布式微服务系统架构第92集：智能健康监测设备Java开发方案掘金-我是哪吒分布式微服务 java 架构云原生
加群联系作者vx：xiaoda0423仓库地址：https://webvueblog.github.io/JavaPlusDoc/https://1024bat.cn嗯，用户需要为血压、血糖、尿酸和血酮测试仪编写产品描述，同时涉及Java开发。首先，我得确定他们的需求是什么。可能他们是在开发一个健康监测系统，需要将这些设备的数据整合到一个应用中。产品描述需要专业但易懂，适合医疗或消费者市场。Jav
Java应用实战：从入门到精通的全面指南听风吟丶 java 开发语言
引言Java，作为一门跨平台的高级编程语言，自1995年由SunMicrosystems推出以来，凭借其“一次编写，到处运行”的特性，迅速在全球范围内获得了广泛的认可和应用。无论是企业级应用、移动应用开发，还是大数据处理、云计算平台，Java都扮演着举足轻重的角色。本篇文章旨在为初学者提供一条清晰的学习路径，同时也为有一定基础的开发者提供进阶的指导，帮助大家从入门走向精通。一、Java基础篇：搭建
菜鸟Java基础教程 1.Java简介风之弋然编程语言学习笔记 java python 开发语言
Java简介Java简介Java分为三个体系：主要特性1.Java语言是简单的：2.Java语言是面向对象的：3.Java语言是分布式的：4.Java语言是健壮的：5.Java语言是安全的：6.Java语言是体系结构中立的：7.Java语言是可移植的：8.Java语言是解释型的：9.Java是高性能的：10.Java语言是多线程的：11.Java语言是动态的：Java简介Java是由SunMicr
RabbitMQ 高级配置与优化：从入门到精通 Echo_Wish 让你快速入坑运维运维探秘 rabbitmq 分布式
RabbitMQ高级配置与优化：从入门到精通引言在分布式架构中，消息队列（MQ）是必不可少的一环，而RabbitMQ作为业界广泛使用的消息中间件，凭借其高吞吐、可扩展、可靠性等特性备受青睐。然而，很多开发者和运维人员在使用RabbitMQ时，仅仅停留在"能用"的层面，而忽略了RabbitMQ的高级配置与优化技巧，导致消息积压、延迟过高，甚至是服务器崩溃等问题。本文将深入探讨RabbitMQ的高级配
Redis的主要数据类型及其应用场景阿湯哥架构
Redis是一种高性能的键值存储系统，支持多种数据类型，每种类型针对不同的应用场景设计。以下是Redis主要数据类型及其应用场景的详细说明：1.String（字符串）数据结构：二进制安全的字符串，可存储文本、整数、浮点数或序列化对象。常用命令：SETkeyvalue/GETkeyINCRkey（原子递增计数器）SETNXkeyvalue（分布式锁）SETEXkeysecondsvalue（带过期时
WatchDog 看门狗不要成为根号三 Redis java jvm redis 后端中间件
Watchdog机制（看门狗机制）是分布式系统或多进程/多线程应用中常见的一种防止服务或进程失效的机制。它的核心思想是：定期监控程序的健康状态，并在程序挂掉或死锁时进行自动恢复。在分布式系统中，watchdog常常与分布式锁、健康检查、超时机制等结合使用，来确保系统在异常情况下能够及时发现问题并进行自我修复。工作原理定时检查：watchdog通常是一个独立的进程或线程，负责定时监控某个资源、进程或
redis分布式锁redission生产实战 2024程序员学习 redis 分布式数据库
一、为什么要用分布式锁？为什么要用分布式锁，首先要搞懂为什么要用锁？程序中使用锁通常是为了实现并发控制和保证数据的一致性，在多线程环境中，多个线程同时访问和修改共享数据，如果没有加锁，可能会导致不正确的结果和数据竞争。在传统单体应用单机部署的情况下，可以使用Java并发处理相关的API(如ReentrantLcok或synchronized)进行互斥控制，但是随着业务的发展需要，原单机系统演化为分
如何让 Git 管理本地项目有诺千金 git git
如何让Git管理本地项目：详细步骤指南Git是最流行的分布式版本控制系统，能够高效管理项目的代码变更历史。以下是将本地项目交给Git管理的完整流程，适用于首次使用Git的开发者。一、前置条件安装Git二、初始化Git仓库进入项目根目录打开终端，使用cd命令切换到你的项目文件夹：cd/path/to/your/project初始化本地仓库执行以下命令，将当前目录变为Git管理的仓库：gitinit这
大数据技术学习框架（更新中......）小技工丨大数据技术学习大数据学习
Hadoop相关HDFS分布式文件系统MR(MapReduce)离线数据处理MR-图解YARN集群资源管理ZooKeeperZooKeeper分布式协调框架Hive相关Hive-01之数仓、架构、数据类型、DDL、内外部表Hive-02之分桶表、数据导入导出、静动态分区、查询、排序、hiveserver2Hive-03之传参、常用函数、explode、lateralview、行专列、列转行、UDF
【自学笔记】大数据基础知识点总览-持续更新 Long_poem 笔记大数据
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录大数据基础知识点总览1.大数据概述2.大数据处理技术3.数据仓库与数据挖掘4.大数据分析与可视化5.大数据平台与架构6.大数据安全与隐私总结大数据基础知识点总览1.大数据概述定义：大数据是指数据量巨大、类型多样、处理速度快的数据集合。特征：4V（Volume、Velocity、Variety、Veracity）描述了大数据的主
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs