zl202111

3.3 掌握RDD分区

一、RRD分区
（一）RDD分区概念
RDD是一个大的数据集合，该集合被划分成多个子集合分布到了不同的节点上，而每一个子集合就称为分区（Partition）。因此，也可以说，RDD是由若干个分区组成的。

（二）RDD分区作用
在分布式程序中，网络通信的开销是很大的，因此控制数据分布以获得最少的网络传输可以极大的提升程序的整体性能，Spark程序可以通过控制RDD分区方式来减少通信开销。Spark中所有的RDD都可以进行分区，系统会根据一个针对键的函数对元素进行分区。虽然Spark不能控制每个键具体划分到哪个节点上，但是可以确保相同的键出现在同一个分区上。
二、RDD分区数量
（一）RDD分区原则
RDD各个分区中的数据可以并行计算，因此分区的数量决定了并行计算的粒度。Spark会给每一个分区分配一个单独的Task任务对其进行计算，因此并行Task的数量是由分区的数量决定的。RDD分区的一个分区原则是使得分区的数量尽量等于集群中CPU核心数量。
（二）影响分区的因素
RDD的创建有两种方式：一种是使用parallelize()或makeRDD()方法从对象集合创建；另一种是使用textFile()方法从外部存储系统创建。RDD分区的数量与RDD的创建方式以及Spark集群的运行模式有关。
（三）使用parallelize()方法创建RDD时的分区数量
1、指定分区数量
使用parallelize()方法创建RDD时，可以传入第二个参数，指定分区数量。

注意：采用本地模式启动Spark Shell（在master节点上）

分区的数量应尽量等于集群中所有CPU的核心总数，以便可以最大程度发挥CPU的性能。

利用mapPartitionsWithIndex()函数实现带分区索引的映射

第1个分区完成了3个元素的映射，第2个分区完成了3个元素的映射，第3个分区完成了4个元素的映射
2、默认分区数量
若不指定分区数量，则默认分区数量为Spark配置文件spark-defaults.conf中的参数spark.default.parallelism的值。若没有配置该参数，则Spark会根据集群的运行模式自动确定分区数量。
如果是本地模式，默认分区数量就等于本机CPU核心总数，这样每个CPU核心处理一个分区的计算任务，可以最大程度发挥CPU的性能。
如果是Spark Standalone或Spark On YARN模式，默认分区数量就取集群中所有CPU的核心总数与2中的较大值，即最少分区数为2。

我们采用的是Standalone模式的Spark集群
先用spark-shell本地模式启动

由此可见，本地机器master的CPU核数为4。

以集群模式启动Spark Shell

注意：Spark集群是一个Master(master虚拟机)和两个Worker(slave1和slave2虚拟机)

默认分区数是8。为什么是8呢？集群两个工作节点（slave1和slave2）的CPU核数总和是4 + 4 = 8

3、分区源码分析
parallelize()方法是在SparkContext类定义的
numSlices参数为指定的分区数量，该参数有一个默认值defaultParallelism，是一个无参函数

上述代码中的taskScheduler的类型为特质TaskScheduler，通过调用该特质的defaultParallelism方法取得默认分区数量，而类TaskSchedulerImpl继承了特质TaskScheduler并实现了defaultParallelism方法。

上述代码中的backend的类型为特质SchedulerBackend，通过调用该特质的defaultParallelism()方法取得默认分区数量，特质SchedulerBackend主要用于申请资源和对Task任务的执行和管理；而类LocalSchedulerBackend和类CoarseGrainedSchedulerBackend则继承了特质SchedulerBackend并分别实现了其中的defaultParallelism()方法。

类LocalSchedulerBackend用于Spark的本地运行模式（Executor和Master等在同一个JVM中运行），其调用顺序在TaskSchedulerImpl类之后；类CoarseGrainedSchedulerBackend则用于Spark的集群运行模式。
类LocalSchedulerBackend中的defaultParallelism()方法

上述代码中的字符串spark.default.parallelism为Spark配置文件spark-defaults.conf中的参数spark.default.parallelism；totalCores为本机CPU核心总数。
类CoarseGrainedSchedulerBackend中的defaultParallelism()方法

上述代码中，math.max(totalCoreCount.get(), 2)表示取集群中所有CPU核心总数与2两者中的较大值。
（四）使用textFile()方法创建RDD时的分区数量
textFile()方法通常用于读取HDFS中的文本文件，使用该方法创建RDD时，Spark会对文件进行分片操作（类似于MapReduce的分片，实际上调用的是MapReduce的分片接口），分片操作完成后，每个分区将存储一个分片的数据，因此分区的数量等于分片的数量。

1、指定最小分区数量
使用textFile()方法创建RDD时可以传入第二个参数指定最小分区数量。最小分区数量只是期望的数量，Spark会根据实际文件大小、文件块（Block）大小等情况确定最终分区数量。

在HDFS中有一个文件/park/test.txt，读取该文件，并指定最小分区数量为5，但是实际分区数量是6。

针对/park/test.txt文件，实际分区数比指定分区数大1，但是换个文件，情况就未必如此。

2、默认最小分区数量
若不指定最小分区数量，则Spark将采用默认规则计算默认最小分区数量。

以集群启动Spark Shell，默认分区数是2

查看textFile()源码

上述代码中的minPartitions参数为期望的最小分区数量，该参数有一个默认值defaultMinPartitions，这是一个无参函数，我们来查看其源码。

从上述代码中可以看出，默认最小分区数取默认并行度与2中的较小值；而默认并行度则是parallelize()方法的默认分区数。

3、默认实际分区数量
最小分区数量确定后，Spark接下来将计算实际分区数量。查看textFile()方法的源码可知，textFile()方法最后调用了一个hadoopFile()方法，并对该方法的结果执行了map()算子。

查看hadoopFile()方法的源码
从上述代码可以看出，最终返回一个HadoopRDD对象。
查看HadoopRDD类的部分源码

HadoopRDD类中的getPartitions()方法的功能是获取实际分区数量。通过调用getInputFormat()方法得到InputFormat的实例，然后调用该实例的getSplits()方法获得输入数据的所有分片，getSplits()方法是决定最终分区数量的关键方法，该方法的第二个参数即为RDD的最小分区数量。
查看InputFormt接口getSplits()抽象方法

InputFormat有个实现类FileInputFormat，它实现了getSplits()方法

根据期望分片数量（numSplits，即最小分区数量）计算期望分片大小（goalSize）。计算实际分片大小（splitSize）。splitSize最终决定了分片的数量。
splitSize由3个因素决定：最小分片大小（minSize）、期望分片大小（goalSize）、分块大小（blockSize）。
public InputSplit[] getSplits(JobConf job, int numSplits)
throws IOException {
StopWatch sw = new StopWatch().start();
FileStatus[] files = listStatus(job);

// Save the number of input files for metrics/loadgen
job.setLong(NUM_INPUT_FILES, files.length);
long totalSize = 0;                           // compute total size
for (FileStatus file: files) {                // check we have valid files
  if (file.isDirectory()) {
    throw new IOException("Not a file: "+ file.getPath());
  }
  totalSize += file.getLen();
}

long goalSize = totalSize / (numSplits == 0 ? 1 : numSplits);
long minSize = Math.max(job.getLong(org.apache.hadoop.mapreduce.lib.input.
  FileInputFormat.SPLIT_MINSIZE, 1), minSplitSize);

// generate splits
ArrayList splits = new ArrayList(numSplits);
NetworkTopology clusterMap = new NetworkTopology();
for (FileStatus file: files) {
  Path path = file.getPath();
  long length = file.getLen();
  if (length != 0) {
    FileSystem fs = path.getFileSystem(job);
    BlockLocation[] blkLocations;
    if (file instanceof LocatedFileStatus) {
      blkLocations = ((LocatedFileStatus) file).getBlockLocations();
    } else {
      blkLocations = fs.getFileBlockLocations(file, 0, length);
    }
    if (isSplitable(fs, path)) {
      long blockSize = file.getBlockSize();
      long splitSize = computeSplitSize(goalSize, minSize, blockSize);

      long bytesRemaining = length;
      while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {
        String[][] splitHosts = getSplitHostsAndCachedHosts(blkLocations,
            length-bytesRemaining, splitSize, clusterMap);
        splits.add(makeSplit(path, length-bytesRemaining, splitSize,
            splitHosts[0], splitHosts[1]));
        bytesRemaining -= splitSize;
      }

      if (bytesRemaining != 0) {
        String[][] splitHosts = getSplitHostsAndCachedHosts(blkLocations, length
            - bytesRemaining, bytesRemaining, clusterMap);
        splits.add(makeSplit(path, length - bytesRemaining, bytesRemaining,
            splitHosts[0], splitHosts[1]));
      }
    } else {
      String[][] splitHosts = getSplitHostsAndCachedHosts(blkLocations,0,length,clusterMap);
      splits.add(makeSplit(path, 0, length, splitHosts[0], splitHosts[1]));
    }
  } else { 
    //Create empty hosts array for zero length files
    splits.add(makeSplit(path, 0, length, new String[0]));
  }
}
sw.stop();
if (LOG.isDebugEnabled()) {
  LOG.debug("Total # of splits generated by getSplits: " + splits.size()
      + ", TimeTaken: " + sw.now(TimeUnit.MILLISECONDS));
}
return splits.toArray(new FileSplit[splits.size()]);

}

结论：在MapReduce中，每个分片对应一个Map任务，多个Map任务以完全并行的方式处理；而在Spark中，每个分片对应一个分区，每个分区对应一个Task任务，多个Task任务以完全并行的方式处理。
（五）RDD分区方式
Spark框架为RDD提供了两种分区方式，分别是哈希分区器（HashPartitioner）和范围分区器（RangePartitioner）。其中，哈希分区是根据哈希值进行分区；范围分区是将一定范围的数据映射到一个分区中。这两种分区方式已经可以满足大多数应用场景的需求。与此同时，Spark也支持自定义分区方式，即通过一个自定义的Partitioner对象来控制RDD的分区，从而进一步减少通信开销。
三、Spark分区器
（一）分区器 - Partitioner抽象类
Spark RDD的Shuffle过程与MapReduce类似，涉及数据重组和重新分区，且要求RDD的元素必须是(key, value)形式的。分区规则是由分区器（Partitioner）控制的，Spark的主要分区器是HashPartitioner和RangePartitioner，都继承了Partitioner抽象类。

抽象类Partitioner中有两个方法，分别用于指定分区数量和设置分区规则

（二）哈希分区器 - HashPartitioner类
HashPartitioner是Spark使用的默认分区器，其分区规则为：取(key,value)对中key的hashCode值，然后除以分区数量后取余数。若余数小于0（一般余数都大于等于0），则用余数与分区数量的和作为分区ID，否则将余数作为分区ID。分区ID一致的(key,value)对则会被分配到同一个分区。因此，默认情况下，key值相同的(key,value)对一定属于同一个分区，但是同一个分区中可能有多个key值不同的(key,value)对。该分区器还支持key值为null的情况，当key值等于null时，将直接返回0作为分区ID。
HashPartitioner分区器中，对key取hashCode值实际上调用的是Java类Object中的hashCode()方法。由于Java数组的hashCode值基于的是数组标识，而不是数组内容，因此具有相同内容的数组的hashCode值不同。如果将数组作为RDD的key，就可能导致内容相同的key不能分配到同一个分区中。这个时候可以将数组转为集合，或者使用自定义分区器，根据数组内容进行分区。

四、自定义分区器
（一）提出问题
在有些情况下，使用Spark自带的分区器满足不了特定的需求。
例如，某学生有以下3科三个月的月考成绩数据。
科目成绩
chinese 98
math 88
english 96
chinese 89
math 96
english 67
chinese 88
math 78
english 89
现需要将每一科成绩单独分配到一个分区中，然后将3科成绩输出到HDFS的指定目录（每个分区对应一个结果文件），此时就需要对数据进行自定义分区。
（二）解决问题
1、准备数据文件
在master虚拟机的/home目录里创建marks.txt

将数据文件上传到HDFS指定目录

2、新建科目分区器
创建net.huawei.rdd.day04包，在包里创建SubjectPartitioner类

package net.huawei.rdd.day04

import org.apache.spark.Partitioner

/**

功能：科目分区器
作者：华卫
日期：2023年05月04日
/
class SubjectPartitioner(partitions: Int) extends Partitioner {
/*
- @return 分区数量
  */
  override def numPartitions: Int = partitions

/**

@param key（科目）
@return 分区索引
*/
override def getPartition(key: Any): Int = {
val partitionIndex = key.toString match {
case “chinese” => 0
case “math” => 1
case “english” => 2
}
partitionIndex
}
}

3、测试科目分区器
调用RDD的partitionBy()方法传入科目分区器类SubjectPartitioner的实例，可以对RDD按照自定义规则进行重新分区。
在net.huawei.rdd.day04包里创建TestSubjectPartitioner单例对象

package net.huawei.rdd.day04

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

/**

功能：测试科目分区器
作者：华卫
日期：2023年05月04日
/
object TestSubjectPartitioner {
def main(args: Array[String]): Unit = {
// 创建Spark配置对象
val conf = new SparkConf()
.setAppName(“TestSubjectPartitioner”) // 设置应用名称
.setMaster("local[]“) // 设置主节点位置（本地调试）
// 基于Spark配置对象创建Spark容器
val sc = new SparkContext(conf)
// 读取HDFS文件，生成RDD
val lines = sc.textFile(“hdfs://master:9000/partition/input/marks.txt”)
// 将每行数据映射成(科目,成绩)二元组
val data: RDD[(String, Int)] = lines.map(line => {
val fields = line.split(” ")
(fields(0), fields(1).toInt) // (科目,成绩)
})
// 将数据按科目分区器重新分区
val partitionData = data.partitionBy(new SubjectPartitioner(3))
// 在控制台输出分区数据
partitionData.collect.foreach(println)
// 保存分区数据到HDFS指定目录
partitionData.saveAsTextFile(“hdfs://master:9000/partition/output”)
}
}

运行程序，查看结果

查看HDFS的结果文件

如果传入的分区数不是3，会出现什么状况？
删除输出目录

运行程序，查看控制台输出结果

查看HDFS上的结果文件

删除输出目录，修改分区数为2，再运行程序，查看控制台结果

【原生JS教程】第3节：运算符与表达式全栈前端老曹原生JS教程与实战前端教程 javascript 开发语言 ecmascript 前端
第3课：运算符与表达式引言运算符是JavaScript中用于操作数据的基本工具，表达式则是由变量、常量、运算符等构成的可求值代码片段。掌握运算符的分类和使用方式，是编写逻辑判断、数据处理和复杂计算的基础。通过本节课的学习，你将掌握：JavaScript中常见的运算符类型（算术、比较、逻辑、三元等）运算符的优先级与结合性表达式的基本概念与使用场景常见运算符陷阱与最佳实践本节内容概要✅1.算术运算符（
高并发解决方案：SpringBoot+Redis分布式缓存实战 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人高并发解决方案：SpringBoot
SpringBoot缓存技术全解析：Redis+Caffeine二级缓存架构 fanxbl957 Web 缓存 spring boot redis
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot缓存技术全解析：
Java-数构链表 2301_81674311 java 链表开发语言
1.链表1.1链表的概念和结构链表是一种物理存储结构上非连续存储结构，数据元素的逻辑顺序是通过链表中引用链接次序实现的。这里大多讨论无头单向非循环链表。这种结构，结构简单，一般与其他数据结构结合，作为其他数据结构的子数据。1.2链表的实现publicclassMysingleList{staticclassListNode{publicintval;//节点的值域publicListNodenex
后端校招 | 高分简历 + 高频 C++ 面试题整理（附GitHub题库推荐）壹張先森 c++java 开发语言
一、为什么专门做一期C++面试题分享？我发现很多后端同学在面试准备时：Java岗位题资源非常多但C++后端面试内容分散、缺少整合所以我整理了GitHub上高频C++后端面试题+答案解析，今天精选5道送给你：二、精选高频C++面试题（附答题技巧）1.new和malloc的区别？特性newmalloc返回类型指定类型指针void*构造函数会调用构造函数不会调用释放方式deletefree重载支持支持重
前端学习路线推荐 oldfifteen
第一阶段：HTML+CSS:HTML进阶、CSS进阶、div+css布局、HTML+css整站开发、JavaScript基础：Js基础教程、js内置对象常用方法、常见DOM树操作大全、ECMAscript、DOM、BOM、定时器和焦点图。JS基本特效：常见特效、例如：tab、导航、整页滚动、轮播图、JS制作幻灯片、弹出层、手风琴菜单、瀑布流布局、滚动事件、滚差视图。JS高级特征：正则表达式、排序算
程序员的技术栈及学习路径 Honeysea_70 基础知识学习经验分享笔记
程序员的技术栈是非常多元的，通常涵盖了多个领域和技术。程序员的技术栈通常根据工作需求、项目类型以及个人兴趣的不同而有所不同，但通常会有一定的共性。下面是一个较为典型的程序员的技术栈，以及如何从入门到进阶地学习这些技术。1.编程语言掌握多种编程语言一个资深程序员通常会熟练掌握至少两到三种编程语言，每种语言的侧重点不同，适用于不同的开发场景。主流编程语言：JavaScript：前端开发的核心语言，Re
排序算法—交换排序（冒泡、快速）（动图演示）每天都要进步1 排序算法排序算法算法
目录十大排序算法分类编辑冒泡排序算法步骤：动图演示：性能分析：代码实现（Java）：快速排序（挖坑法）算法步骤：动图演示：性能分析：代码实现（Java）：十大排序算法分类本篇分享十大排序算法中的需要进行交换操作的冒泡排序与快速排序,其余算法也有介绍噢（努力赶进度中，后续会添加上）冒泡排序冒泡排序是一种非常直观的排序算法，遍历数组，每次比较两个元素，如果后者比前者小则交换位置，重复的进行直至没有再需
Filter快速入门 Java web 撰卢 java 前端 hive spring boot
文章目录Filter快速入门登录演示Filter快速入门定义Filter:定义一个类，是实现Filter接口，并重写所有方法配置Filter:Filter类上加上==@WebFilter==注解，配置拦截资源的路径。引导类加上==@ServletComponentScan==开启Servlet组件支持(也就是在springboot的启动类上面加上这个注释)相关代码importjavax.servl
养老院管理系统基于SpringBoot的养老院管理系统系统设计与实现（源码+论文+部署讲解等）
博主介绍：✌全网粉丝60W+,csdn特邀作者、Java领域优质创作者、csdn/掘金/哔哩哔哩/知乎/道客/小红书等平台优质作者，计算机毕设实战导师，目前专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌技术栈范围：SpringBoot、Vue、SSM、Jsp、HLMT、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习、单片机
java8的stream流常用用法sorted l1o3v1e4ding 后端开发热点代码 java 开发语言
java8的stream流常用用法持续更新~~，用法案例，项目开发中方便寻找一.排序stream().sorted()1.缺省排序字段：以类属性一升序排序2.带排序字段：以类属性一升序排序，推荐Comparator.reverseOrder()2.1.升序：不加参数即可2.2.降序：reversed()和Comparator.reverseOrder()，有区别：2.3.案例：注意两种写法3.多属
大数据处理技术：分布式文件系统HDFS 茜茜西西CeCe hdfs hadoop 大数据 HDFS-JAVA接口文件头歌 Java
目录1实验名称：2实验目的3实验内容4实验原理5实验过程或源代码5.1HDFS的基本操作5.2HDFS-JAVA接口之读取文件5.3HDFS-JAVA接口之上传文件5.4HDFS-JAVA接口之删除文件6实验结果6.1HDFS的基本操作6.2HDFS-JAVA接口之读取文件6.3HDFS-JAVA接口之上传文件6.4HDFS-JAVA接口之删除文件1实验名称：分布式文件系统HDFS2实验目的1.理
Spring04：Spring MVC dfraetaem Spring spring mvc java 后端
一、SpringMVC核心解析SpringMVC是基于Java实现MVC模型的轻量级Web框架，其核心优势在于简化Web开发、灵活性强和与Spring生态无缝集成。通过分层设计，它将应用分为：Controller层：处理请求和响应Service层：业务逻辑处理Dao层：数据持久化操作分层架构示例（SpringBoot+MyBatis）1.Dao层（数据访问层）//UserDao.java（接口）@
75、Java并发集合与GUI多线程编程详解 fire9 Java编程艺术：从入门到精通 Java 并发集合 GUI多线程编程
Java并发集合与GUI多线程编程详解1.并发集合概述在多线程编程中，对共享集合的操作需要特别处理，以避免数据不一致等问题。java.util.concurrent包中的并发集合就是为此而设计和优化的。1.1并发集合的优势与通过JavaCollectionsAPI获取的同步集合不同，java.util.concurrent包中的集合专门针对多线程共享集合的场景进行了优化，能更好地支持多线程环境下的
从 Spring Boot 2.x 到 Spring Boot 3.x：全面对比与快速上手指南超级小忍 SpringBoot spring boot 后端 java
一、前言SpringBoot自诞生以来，凭借其“约定优于配置”的理念、开箱即用的设计和强大的生态支持，迅速成为Java开发领域的主流框架。随着Java语言的持续演进和开发者需求的提升，SpringBoot也在不断升级。SpringBoot3.x是一次重大版本升级，不仅带来了对现代Java特性的全面支持，还对底层架构、依赖管理和性能进行了深度优化。本文将从以下几个方面，详细对比SpringBoot2
Java 中的函数式编程详解超级小忍 Java java python 开发语言
前言Java语言自从2014年发布的Java8版本引入了函数式编程（FunctionalProgramming）特性以来，其编程范式发生了深远的变革。函数式编程不仅带来了更简洁、更富有表达力的代码风格，也使得Java更加适合处理并发、流式数据处理等现代编程场景。本文将详细介绍Java中的函数式编程特性，包括Lambda表达式、函数式接口、方法引用、StreamAPI等核心概念，并通过示例展示其在实
Java 中 Consumer 与 Provider 的用法详解
前言在Java编程中，Consumer和Provider是两个非常重要的函数式接口，它们在函数式编程和依赖注入等场景中被广泛使用。本文将详细讲解这两个接口的定义、使用场景以及实际示例，帮助你更好地理解和应用它们。一、Consumer接口1.1Consumer接口的定义Consumer是Java8引入的一个函数式接口，位于java.util.function包中。它表示一个接受单个输入参数并且无返回
WEB：DOM （二）核心操作 —— 内容
文章目录一、innerHTML二、innerText与textContent2.1innerText2.2textContent2.3对比与选择三、表单元素的值操作获取和修改元素的内容是DOM操作中最常见的需求，JavaScript提供了多种方式来操作元素的内容。一、innerHTMLinnerHTML属性用于获取或设置元素的HTML内容，设置时会解析HTML标签。原始内容constcontent
Java高并发编程核心：并发集合与原子类详解 msbQQ java 开发语言后端并发编程
在当今高并发、高吞吐的分布式系统中，Java并发编程已成为开发者必备的核心能力。当线程如潮水般涌来，如何确保数据安全？如何避免死锁陷阱？如何实现无阻塞的高效运算？答案就隐藏在并发集合与原子类这两大基石之中。1.并发集合：线程安全的容器1.1ConcurrentHashMap我在最开始学习这个容器的时候当时会记住它的特点是：线程安全，允许多个线程进行读和写。null值和键：ConcurrentHas
Java 中的并发集合（Concurrent Collections）详解与使用指南超级小忍 Java java 开发语言
前言在多线程编程中，共享数据结构的线程安全是一个关键问题。传统的集合类（如HashMap、ArrayList）并不是线程安全的，如果在并发环境下直接使用，可能会导致数据不一致、死锁等问题。为了解决这个问题，Java提供了一套线程安全的并发集合类，它们都位于java.util.concurrent包中。本文将详细介绍Java中常见的并发集合类，包括它们的实现原理、使用场景以及性能对比，帮助你更好地选
（2）React的JSX语法 __method__
JSX−JSX是JavaScript语法的扩展。React开发不一定使用JSX，但我们建议使用它。要使用自定义的组件，要以大写字母开始自行编辑一个todolist页面首先在src下面创建src/TodoList.js，输入以下代码importReact,{Component}from"react";classTodoListextendsComponent{render(){return(todo
JavaScript语言基础全解析：语法、面向对象与异步编程白仑色前端系列 javascript udp 开发语言
引言：JavaScript的三大核心支柱JavaScript作为一门跨平台、多范式的编程语言，已从最初的网页脚本发展为全栈开发的基石。其语言基础可概括为三大核心：语法基础（变量、数据类型、控制流等）、面向对象与原型系统（独特的原型继承机制）、异步编程模型（处理非阻塞操作的核心方案）。掌握这三部分，不仅能写出规范的代码，更能深入理解JavaScript的设计哲学。本文将系统讲解这三大模块，每个知识点
【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 基于wordcloud库实现词云图
大家好，我是java1234_小锋老师，最近写了一套【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts)视频教程，持续更新中，计划月底更新完，感谢支持。今天讲解基于wordcloud库实现词云图视频在线地址：2026版【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts+爬虫)视频教程（火爆连载更新中..
能说说MyBatis的工作原理吗？ java1234_小锋 java java 开发语言
大家好，我是锋哥。今天分享关于【能说说MyBatis的工作原理吗？】面试题。希望对大家有帮助；能说说MyBatis的工作原理吗？超硬核AI学习资料，现在永久免费了！MyBatis是一个用于简化数据库操作的持久层框架，它通过SQL映射技术，将Java对象和数据库之间的关系映射起来。MyBatis的工作原理可以从以下几个方面来解析：1.配置文件的加载MyBatis通过加载配置文件来初始化框架。配置文件
Java网络编程基础（TCP/IP协议、Socket编程）扬子鳄008 Java 网络 java tcp/ip
Java网络编程是现代软件开发中的一个重要组成部分，尤其是在构建分布式系统和网络服务时。Java提供了丰富的网络编程API，使得开发者能够轻松地实现各种网络通信功能。本文将详细介绍Java网络编程的基础知识，包括TCP/IP协议和Socket编程的基本概念和实现方法。TCP/IP协议简介TCP/IP（传输控制协议/互联网协议）是一组用于网络通信的标准协议集。它由多个层次组成，每个层次负责不同的功能
Java基础语法四件套：变量、数据类型、运算符、流程控制（新手必看）杨凯凡 java 开发语言
前言刚学Java就被变量和if-else绕晕了？别急！这篇博客将用“说人话”+代码演示的方式，带你彻底搞懂：如何声明变量？inta=10;和finaldoublePI=3.14;有什么区别？为什么10/3结果是3而不是3.333？for和while循环到底用哪个？学完这篇，你写的代码将从HelloWorld升级为能算能判能循环的智能程序！文章摘要核心内容：✅变量与常量：声明、作用域、final关键
子图同构算法-VF2（java实现） xitianxiaofeixue java 数据结构
子图同构算法-VF2（java实现）最近在项目中用到了子图同构算法VF2，自己查找的时候发现csdn上没有太详细的博客，所以在这里记录一下。内容主要来自一篇论文（A(Sub)GraphIsomorphismAlgorithmforMatchingLargeGraphs）一、什么是VF2算法 VF2算法是一种子图同构算法，而子图同构我们可以这样定义：假设有两个图H=(VH,EH)H=(VH,EH
Java List 集合详解：从基础到实战，掌握 Java 列表操作全貌大葱白菜 java合集 java 开发语言后端学习个人开发
作为一名Java开发工程师，你一定在项目中频繁使用过List集合。它是Java集合框架中最常用、最灵活的数据结构之一。无论是从数据库查询出的数据，还是前端传递的参数列表，List都是处理这些数据的首选结构。本文将带你全面掌握：List接口的核心方法与特性常见实现类（如ArrayList、LinkedList、Vector、CopyOnWriteArrayList）List的遍历、增删改查、排序、线
Java File 类详解：从基础操作到实战应用，掌握文件与目录处理全貌
作为一名Java开发工程师，你一定在实际开发中遇到过需要操作文件或目录的场景，例如：读写配置文件、上传下载、日志处理、文件遍历、路径管理等。Java提供了java.io.File类来帮助开发者完成这些任务。本文将带你全面掌握：File类的核心方法与功能文件与目录的创建、删除、重命名、判断是否存在等操作文件属性获取（大小、修改时间、是否是目录/文件等）文件路径的处理（绝对路径、相对路径、父路径等）F
Java 递归方法详解：从基础语法到实战应用，彻底掌握递归编程思想大葱白菜 java合集 java 开发语言个人开发后端学习
作为一名Java开发工程师，你一定在开发中遇到过需要重复调用自身逻辑的问题，比如：树形结构处理、文件夹遍历、斐波那契数列、算法实现（如DFS、回溯、分治）等。这时候，递归方法（RecursiveMethod）就成为你不可或缺的工具。本文将带你全面掌握：什么是递归方法？递归的三要素（边界条件、递归公式、递归方向）递归与循环的对比常见递归问题与实现（阶乘、斐波那契、汉诺塔、树遍历等）递归在真实项目中的
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

3.3 掌握RDD分区

你可能感兴趣的:(大数据,spark,java)