想做CTO的任同学...

Spark——（RDD(弹性分布式数据集)，RDD的创建和操作，Transformation 算子）

文章目录

- RDD(弹性分布式数据集)
- RDD的创建和操作
- 常见的Transformation 算子

RDD(弹性分布式数据集)

RDD（Resilient Distributed Dataset）是 Spark 中的核心概念，它是一个容错、可以并行执行的分布式数据集。
RDD(弹性分布式数据集)是一个抽象类，它代表一个不可变、可分区、里面的元素可并行计算的集合。

RDD的特点

分区：RDD逻辑上是分区的，每个分区的数据是抽象存在的，计算的时候会通过一个compute 函数得到每个分区的数据。如果RDD是通过已有的文件系统构建，则
compute函数是读取指定文件系统中的数据，如果RDD是通过其他RDD转换而来，
则compute函数是执行转换逻辑将其他RDD的数据进行转换。
只读：RDD是只读的，要想改变RDD中的数据，只能在现有的RDD基础上创建新的RDD；一个RDD转换为另一个RDD，通过丰富的操作算子（map、filter、union、join、reduceByKey… …）实现，不再像MR那样只能写map和reduce了。

依赖：RDDs通过操作算子进行转换，转换得到的新RDD包含了从其他RDDs衍生所必需的信息，RDDs之间维护着这种血缘关系（lineage），也称之为依赖。依赖包括两种：
1. 窄依赖。RDDs之间分区是一一对应的（1:1 或 n:1）
2. 宽依赖。子RDD每个分区与父RDD的每个分区都有关，是多对多的关系（即n:m）。有shuffle发生

缓存： RDD可以控制存储级别（内存、磁盘等）来进行缓存。如果在应用程序中多次使用同一个RDD，可以将该RDD缓存起来，该RDD只有在第一次计算的时候会根据血缘关系得到分区的数据，在后续其他地方用到该RDD的时候，会直接从缓存处取而不用再根据血缘关系计算，这样就加速后期的重用
checkpoint：当RDD的某个分区数据失败或丢失，可以通过血缘关系重建，但对于长时间迭代型应用来说，随着迭代的进行，RDDs之间的血缘关系会越来越长，一旦在后续迭代过程中出错，则需要通过非常长的血缘关系去重建，势必影响性能。RDD支持 checkpoint 将数据保存到持久化的存储中，这样就可以切断之前的血缘关系，因为checkpoint后的RDD不需要知道它的父RDDs了，它可以从 checkpoint 处拿到数据。

RDD的创建和操作

SparkContext

SparkContext是Spark的对外接口，负责向调用者提供 Spark 的各种功能；
SparkContext用于连接Spark集群、创建RDD、累加器、广播变量；
在 spark-shell 中 SparkContext 已经创建好了，可直接使用；

创建RDD的两种方法

创建RDD-并行化集合：并行化驱动程序中的现有数据
创建RDD-外部数据集：引用外部存储系统中的数据集，例如：共享文件系统，HDFS，HBase或提供Hadoop InputFormat的数据源。

创建RDD-并行化集合：在驱动程序中的现有集合上调用SparkContext的parallelize方法。复制集合的每个元素以形成可以并行操作的分布式数据集。

scala> val info = sc.parallelize(Array(1,3,8,9))
info: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[14] at parallelize at <console>:24
scala> info.collect.foreach(println)
1
3
8
9

创建RDD-外部数据集：

在Spark中，可以从Hadoop支持的任何类型的存储源(如HDFS，Cassandra，HBase甚至本地文件系统)创建分布式数据集。Spark提供对文本文件，SequenceFiles和其他类型的Hadoop InputFormat的支持。
SparkContext的textFile方法可用于创建RDD的文本文件。此方法获取文件的URI(计算机上的本地路径或hdfs://)并读取文件的数据。
用 textFile() 方法来从文件系统中加载数据创建RDD。方法将文件的 URI 作为参数，这个URI可以是：
1. 本地文件系统：使用本地文件系统要注意：该文件是不是在所有的节点存在（在Standalone模式下）
2. 分布式文件系统HDFS的地址
```
// 从本地文件系统加载数据
val lines = sc.textFile("file:///root/data/wc.txt")
// 从分布式文件系统加载数据
val lines = sc.textFile("hdfs://linux121:9000/user/root/data/uaction.dat")
```

RDD提供两种类型的操作：Transformation 和 Action

在Spark中，Transformation 转换的作用是从现有数据集创建新数据集。转换是惰性的，因为它们仅在动作需要将结果返回到驱动程序时才计算。
在Spark中，Action操作用来触发RDD的计算；得到相关计算结果或者将结果保存的外部系统中；
Transformation：返回一个新的RDD，每一次 Transformation 操作都会产生新的RDD，供给下一个“转换”使用；
Action：返回结果int、double、集合（不会返回新的RDD）
Transformation转换得到的RDD是惰性求值的，整个转换过程只是记录了转换的轨迹，并不会发生真正的计算，只有遇到 Action 操作时，才会发生真正的计算，开始从血缘关系（lineage）源头开始，进行物理的转换操作；

常见的Transformation 算子

窄依赖

map(func)：对数据集中的每个元素都使用func，然后返回一个新的RDD

scala> val rdd1 = sc.parallelize(1 to 10).map(_*2).collect.foreach(println)
2
4
6
8
10
12
14
16
18
20
rdd1: Unit = ()

filter(func)：对数据集中的每个元素都使用func，然后返回一个包含使func为true的元素构成的RDD

// collect 是Action算子，触发Job的执行，将RDD的全部元素从 Executor搜集到 Driver 端。生产环境中禁用
scala> val rdd1 = sc.parallelize(1 to 10).map(_*2).filter(_>10).collect.foreach(println)
12
14
16
18
20
rdd1: Unit = ()

flatMap(func)：与 map 类似，每个输入元素被映射为0或多个输出元素

scala> val rdd4 = sc.textFile("data/wc.txt").flatMap(_.split("\\s+")).collect.foreach(println)
hadoop                                                                          
mapreduce
yarn
hdfs
hadoop
mapreduce
mapreduce
yarn
lagou
lagou
lagou
rdd4: Unit = ()

mapPartitions(func)：和map很像，但是map是将func作用在每个元素上，而mapPartitions是func作用在整个分区上。假设一个RDD有N个元素，M个分区（N>> M），那么map的函数将被调用N次，而mapPartitions中的函数仅被调用M次，一次处理一个分区中的所有元素

scala> val rdd4 = sc.textFile("data/wc.txt")
rdd4: org.apache.spark.rdd.RDD[String] = data/wc.txt MapPartitionsRDD[51] at textFile at <console>:24

scala> rdd4.getNumPartitions
res7: Int = 2
scala> rdd4.partitions.length
res8: Int = 2
scala> rdd4.mapPartitions{iter =>Iterator(s"${iter.toList}")}.collect
res9: Array[String] = Array(List(hadoop mapreduce yarn, hdfs hadoop mapreduce), List(mapreduce yarn lagou, lagou, lagou))
scala> rdd4.mapPartitions{iter =>Iterator(s"${iter.toArray.mkString("-")}")}.collect
res10: Array[String] = Array(hadoop mapreduce yarn-hdfs hadoop mapreduce, mapreduce yarn lagou-lagou-lagou)

mapPartitionsWithIndex(func)：与 mapPartitions 类似，多了分区索引值信息

scala> rdd4.mapPartitionsWithIndex{(idx,iter) =>Iterator(s"$idx:${iter.toArray.mkString("-")}")}.collect
res11: Array[String] = Array(0:hadoop mapreduce yarn-hdfs hadoop mapreduce, 1:mapreduce yarn lagou-lagou-lagou)
scala> rdd4.mapPartitions(iter=> iter.map(_*2)).collect
res12: Array[String] = Array(hadoop mapreduce yarnhadoop mapreduce yarn, hdfs hadoop mapreducehdfs hadoop mapreduce, mapreduce yarn lagoumapreduce yarn lagou, lagoulagou, lagoulagou)

map 与 mapPartitions 的区别
1. map：每次处理一条数据
2. mapPartitions：每次处理一个分区的数据，分区的数据处理完成后，数据才能释放，资源不足时容易导致OOM
3. 当内存资源充足时，建议使用mapPartitions，以提高处理效率

groupBy(func)：按照传入函数的返回值进行分组。将key相同的值放入一个迭代器

scala> val rdd = sc.parallelize(1 to 10).groupBy(_%3)
rdd: org.apache.spark.rdd.RDD[(Int, Iterable[Int])] = ShuffledRDD[61] at groupBy at <console>:24
scala> rdd.collect
res18: Array[(Int, Iterable[Int])] = Array((0,CompactBuffer(9, 6, 3)), (1,CompactBuffer(7, 4, 10, 1)), (2,CompactBuffer(5, 2, 8)))

glom()：将每一个分区形成一个数组，形成新的RDD类型 RDD[Array[T]]

// 将 RDD 中的元素每10个元素分组
scala> val rdd = sc.parallelize(1 to 102)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[5] at parallelize at <console>:24

scala> rdd.glom.map(_.sliding(10, 10).toArray).collect
res3: Array[Array[Array[Int]]] = Array(Array(Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10), Array(11, 12, 13, 14, 15, 16, 17)), Array(Array(18, 19, 20, 21, 22, 23, 24, 25, 26, 27), Array(28, 29, 30, 31, 32, 33, 34)), Array(Array(35, 36, 37, 38, 39, 40, 41, 42, 43, 44), Array(45, 46, 47, 48, 49, 50, 51)), Array(Array(52, 53, 54, 55, 56, 57, 58, 59, 60, 61), Array(62, 63, 64, 65, 66, 67, 68)), Array(Array(69, 70, 71, 72, 73, 74, 75, 76, 77, 78), Array(79, 80, 81, 82, 83, 84, 85)), Array(Array(86, 87, 88, 89, 90, 91, 92, 93, 94, 95), Array(96, 97, 98, 99, 100, 101, 102)))

sample(withReplacement, fraction, seed)：采样算子。以指定的随机种子(seed)随机抽样出数量为fraction的数据，withReplacement表示是抽出的数据是否放回，true为有放回的抽样，false为无放回的抽样

// 对数据采样。fraction采样的百分比，近似数
// 有放回的采样，使用固定的种子
scala> rdd.sample(true, 0.2, 2).collect
res4: Array[Int] = Array(2, 4, 5, 7, 9, 15, 34, 38, 38, 39, 40, 42, 45, 45, 52, 53, 58, 62, 70, 70, 71, 82, 87)
// 无放回的采样，使用固定的种子
scala> rdd.sample(false, 0.2, 2).collect
res5: Array[Int] = Array(1, 4, 11, 12, 15, 17, 32, 38, 42, 43, 45, 46, 51, 52, 57, 59, 60, 70, 71, 72, 75, 76, 79, 85, 87, 90, 93)
// 有放回的采样，不设置种子
scala> rdd.sample(false, 0.2).collect
res6: Array[Int] = Array(1, 18, 20, 23, 29, 30, 39, 42, 55, 76, 85, 86, 90, 94, 95)

distinct([numTasks]))：对RDD元素去重后，返回一个新的RDD。可传入 numTasks参数改变RDD分区数

scala> val random = scala.util.Random
random: util.Random.type = scala.util.Random$@4bdc0fb0

scala> val arr = (1 to 20).map(x => random.nextInt(10))
arr: scala.collection.immutable.IndexedSeq[Int] = Vector(0, 7, 7, 8, 8, 2, 8, 1, 3, 9, 1, 6, 8, 2, 9, 8, 9, 9, 4, 1)

scala> val rdd = sc.makeRDD(arr)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at makeRDD at <console>:26
scala> rdd.distinct.collect
res1: Array[Int] = Array(4, 0, 6, 8, 2, 1, 3, 7, 9)

coalesce(numPartitions)：缩减分区数，无shuffle

// RDD重分区
scala> val rdd1 = sc.range(1, 10000, numSlices=10)
rdd1: org.apache.spark.rdd.RDD[Long] = MapPartitionsRDD[8] at range at <console>:24

scala> val rdd2 = rdd1.filter(_%2==0)
rdd2: org.apache.spark.rdd.RDD[Long] = MapPartitionsRDD[9] at filter at <console>:25

scala> rdd2.getNumPartitions
res2: Int = 10
// 减少分区数；都生效了
scala> val rdd3 = rdd2.repartition(5)
rdd3: org.apache.spark.rdd.RDD[Long] = MapPartitionsRDD[13] at repartition at <console>:25

scala> rdd3.getNumPartitions
res3: Int = 5
scala> val rdd4 = rdd2.coalesce(5)
rdd4: org.apache.spark.rdd.RDD[Long] = CoalescedRDD[14] at coalesce at <console>:25

scala> rdd4.getNumPartitions
res4: Int = 5

repartition(numPartitions)：增加或减少分区数，有shuffle

// 增加分区数
scala> val rdd5 = rdd2.repartition(20)
rdd5: org.apache.spark.rdd.RDD[Long] = MapPartitionsRDD[18] at repartition at <console>:25

scala> rdd5.getNumPartitions
res5: Int = 20
// 增加分区数，这样使用没有效果
scala> val rdd6 = rdd2.coalesce(20)
rdd6: org.apache.spark.rdd.RDD[Long] = CoalescedRDD[19] at coalesce at <console>:25

scala> rdd6.getNumPartitions
res6: Int = 10
// 增加分区数的正确用法
val rdd6 = rdd2.coalesce(20, true)
scala> rdd6.getNumPartitions
res7: Int = 20

sortBy(func, [ascending], [numTasks])：使用 func 对数据进行处理，对处理后的结果进行排序

// RDD元素排序
scala> val random = scala.util.Random
random: util.Random.type = scala.util.Random$@4bdc0fb0

scala> val arr = (1 to 20).map(x => random.nextInt(10))
arr: scala.collection.immutable.IndexedSeq[Int] = Vector(7, 2, 3, 5, 6, 5, 0, 1, 2, 3, 4, 8, 5, 1, 6, 2, 3, 9, 4, 5)

scala> val rdd = sc.makeRDD(arr)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[20] at makeRDD at <console>:26

scala> rdd.collect
res7: Array[Int] = Array(7, 2, 3, 5, 6, 5, 0, 1, 2, 3, 4, 8, 5, 1, 6, 2, 3, 9, 4, 5)
// 数据全局有序，默认升序
scala> rdd.sortBy(x=>x).collect
res8: Array[Int] = Array(0, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 5, 5, 5, 5, 6, 6, 7, 8, 9)
// 降序
scala> rdd.sortBy(x=>x,false).collect
res9: Array[Int] = Array(9, 8, 7, 6, 6, 5, 5, 5, 5, 4, 4, 3, 3, 3, 2, 2, 2, 1, 1, 0)

coalesce 与 repartition 的区别：
1. repartition：增大或减少分区数；有shuffle
2. coalesce：一般用于减少分区数（此时无shuffle）
宽依赖的算子（shuffle）：groupBy、distinct、repartition、sortBy，intersection、subtract

RDD之间的交、并、差算子，分别为：intersection(otherRDD)，union(otherRDD)，subtract (otherRDD

scala> val rdd1 = sc.range(1, 21)
rdd1: org.apache.spark.rdd.RDD[Long] = MapPartitionsRDD[32] at range at <console>:24

scala> val rdd2 = sc.range(10, 31)
rdd2: org.apache.spark.rdd.RDD[Long] = MapPartitionsRDD[34] at range at <console>:24
// 交集
scala> rdd1.intersection(rdd2).sortBy(x=>x).collect
res10: Array[Long] = Array(10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20)
// 并集
scala> rdd1.union(rdd2).sortBy(x=>x).collect
res11: Array[Long] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 10, 11, 11, 12, 12, 13, 13, 14, 14, 15, 15, 16, 16, 17, 17, 18, 18, 19, 19, 20, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30)
// 差集
scala> rdd1.subtract(rdd2).sortBy(x=>x).collect
res12: Array[Long] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9)
// 检查分区数
scala> rdd1.intersection(rdd2).getNumPartitions
res13: Int = 6

scala> rdd1.union(rdd2).getNumPartitions
res14: Int = 12

scala> rdd1.subtract(rdd2).getNumPartitions
res15: Int = 6

cartesian(otherRDD)：笛卡尔积

// 笛卡尔积
scala> val rdd1 = sc.range(1, 5)
rdd1: org.apache.spark.rdd.RDD[Long] = MapPartitionsRDD[73] at range at <console>:24

scala> val rdd2 = sc.range(6, 10)
rdd2: org.apache.spark.rdd.RDD[Long] = MapPartitionsRDD[75] at range at <console>:24

scala> rdd1.cartesian(rdd2).collect
res16: Array[(Long, Long)] = Array((1,6), (1,7), (1,8), (1,9), (2,6), (2,7), (2,8), (2,9), (3,6), (3,7), (3,8), (3,9), (4,6), (4,7), (4,8), (4,9))
// 检查分区数
scala> rdd1.cartesian(rdd2).getNumPartitions
res17: Int = 36

zip(otherRDD)：将两个RDD组合成 key-value 形式的RDD，默认两个RDD的partition数量以及元素数量都相同，否则会抛出异常。

// 拉链操作
scala> rdd1.zip(rdd2).collect
res18: Array[(Long, Long)] = Array((1,6), (2,7), (3,8), (4,9))
scala> rdd1.zip(rdd2).getNumPartitions
res19: Int = 6
// zip操作要求：两个RDD的partition数量以及元素数量都相同，否则会抛出异常
scala> val rdd2 = sc.range(6, 20)
rdd2: org.apache.spark.rdd.RDD[Long] = MapPartitionsRDD[81] at range at <console>:24

scala> rdd1.zip(rdd2).collect
23/02/23 13:42:56 WARN scheduler.TaskSetManager: Lost task 4.0 in stage 30.0 (TID 192, 192.168.88.121, executor 1): org.apache.spark.SparkException: Can only zip RDDs with same number of elements in each partition

union是窄依赖。得到的RDD分区数为：两个RDD分区数之和
cartesian是窄依赖：
1. 得到RDD的元素个数为：两个RDD元素个数的乘积
2. 得到RDD的分区数为：两个RDD分区数的乘积
3. 使用该操作会导致数据膨

Node.js 后端开发：与前端的完美结合
Node.js后端开发：与前端的完美结合关键词：Node.js、后端开发、前后端分离、RESTfulAPI、Express、性能优化、全栈开发摘要：本文深入探讨Node.js在后端开发中的优势及其与前端的完美结合方式。我们将从Node.js的核心特性出发，分析其适合后端开发的原因，详细介绍如何构建高性能的RESTfulAPI服务，探讨前后端分离架构的最佳实践，并通过实际项目案例展示Node.js如
深入浅出Node.js后端开发 jghhh01 node.js
让我们来理解Node.js的核心——事件循环和异步编程模型。在Node.js中，所有的I/O操作都是非阻塞的，这意味着当一个请求开始等待I/O操作完成时（如读取文件或数据库操作），Node.js不会阻塞后续操作，而是继续执行其他任务。这种机制大大提高了应用的性能和吞吐量。constfs=require('fs');fs.readFile('file.txt','utf8',(err,data)=>
React用户交互事件
在React中处理用户交互事件（如点击、输入、提交等）的方式与原生JavaScript类似，但有一些语法差异和最佳实践。以下是常见交互事件的处理方法及代码示例：一、基本事件处理（点击、输入等）1.点击事件（onClick）importReact,{useState}from'react';constButtonExample=()=>{const[count,setCount]=useState(
Java：动态代理Proxy 十秒耿直拆包选手 Java Programming up java
动态代理在Java中有着广泛的应用，比如SpringAOP、Hibernate数据查询、测试框架的后端mock、RPC远程调用、Java注解对象获取、日志、用户鉴权、全局性异常处理、性能监控，甚至事务处理等。基本概念假设有一个表示接口的Class对象(有可能只包含一个接口)，它的确切类型在编译时无法知道。要想构造一个实现这些接口的类，就需要使用newInstance方法或反射找出这个类的构造器。但
centos 7+hadoop 2.7.3 mozhw c/c++linu/unix java
安装JDK版本:jdk-8u131-linux-x64.tar.gz需要先删除系统自带的openjdk先查找java再移除[hadoop@localhost~]$rpm-qa|grepjavajava-1.7.0-openjdk-1.7.0.111-2.6.7.8.el7.x86_64python-javapackages-3.4.1-11.el7.noarchtzdata-java-2016g-
【JS-6-ES6中的let和const】深入理解ES6中的let和const：块级作用域与变量声明的新范式 AllenBright #JS javascript es6 开发语言
在ES6(ECMAScript2015)之前，JavaScript中只有var一种变量声明方式，这导致了许多作用域相关的问题。ES6引入了let和const两种新的变量声明方式，彻底改变了JavaScript的作用域规则。本文将深入探讨let和const的特性、优势以及它们与var的区别。1.var的问题与ES6的解决方案1.1var的局限性在ES5及之前版本中，var声明存在几个主要问题：函数作
让你彻底了解 JavaScript 解构赋值前端贾公子前端基础 javascript 前端开发语言
JavaScript解构赋值详解1.解构赋值简介解构赋值（Destructuringassignment）是JavaScriptES6引入的一种语法特性，它使得我们可以从数组和对象中提取值，并以一种更便捷的方式赋值给变量。这种语法可以大大减少代码量，提高代码的可读性和维护性。1.1为什么使用解构赋值？代码更简洁，减少重复的赋值语句提高代码可读性，使变量的来源更清晰方便地处理嵌套数据结构在函数参数中
前端基础知识JavaScript系列 - 25（Javascript本地存储）前端小白从0开始前端 javascript 开发语言
一、方式javaScript本地缓存的方法我们主要讲述以下四种：cookiesessionStoragelocalStorageindexedDBcookieCookie，类型为「小型文本文件」，指某些网站为了辨别用户身份而储存在用户本地终端上的数据。是为了解决HTTP无状态导致的问题作为一段一般不超过4KB的小型文本数据，它由一个名称（Name）、一个值（Value）和其它几个用于控制cooki
.NET开发后端常用工具软件分享 DeFunction .net 后端
在.NET开发的后端领域，有许多工具软件可以帮助开发人员提高效率、简化开发流程并改善代码质量。本文将介绍一些常用的.NET后端开发工具，并提供相应的源代码示例。VisualStudioIDEVisualStudio是微软提供的集成开发环境（IDE），是.NET开发的首选工具。它提供了丰富的功能和工具，包括代码编辑器、调试器、自动完成、代码重构、版本控制等。以下是一个使用VisualStudio创建
2025.最新java高频面试题（八股文） Java进阶八股文 java 算法 jvm spring spring boot spring cloud
1.String的底层实现是怎样的？1.String类由final修饰，不可以被继承2.底层是由char数组实现的3.value用final修饰，不能修改value的引用地址（value不可变）4.private修饰和成员变量没有提供setter接口，保证了不可以通过外部接口来修改String的值5.在JDK9中，将底层的char[]数组改为了byte[]数组存储。原因：char类型是2字节的，使
后端开发工程师（.Net方向） Flora051 求职招聘
5年以上，23-30k职位描述：工作内容：1、负责相应产品模块的需求分析、框架设计和编码工作；2、分析项目需求，能给出良好的解决方案，并协助其他人员完成开发及调试工作；3、Codereview，编写单元测试，高质量完成功能；4、持续关注新的技术，选择适合的技术持续迭代改进产品。任职资格：1.计算机相关专业，必须本科及以上学历，5年以上.net研发经验(core3年以上)；2.有医疗健康开发经验者优
java nonematch_Java 使用anyMatch、allMatch与noneMatch方法 weixin_39680208 java nonematch
Java使用anyMatch、allMatch与noneMatch方法，用户希望确定流中是否有元素匹配Predicate，或全部元素匹配Predicate，或没有元素匹配Predicate。使用java.util.stream.Stream接口定义的anyMatch、allMatch与noneMatch方法，每种方法返回一个布尔值。Java使用anyMatch、allMatch与noneMatch
JavaScript性能优化代码示例突然暴富的我 || 比较富的我 javascript
JavaScript性能优化实战大纲性能优化的核心目标减少加载时间、提升渲染效率、降低内存占用、优化交互响应代码层面的优化实践避免全局变量污染，使用局部变量和模块化开发减少DOM操作频率，批量处理DOM更新使用事件委托替代大量事件监听器优化循环结构，减少不必要的计算使用WebWorkers处理密集型计算任务内存管理策略及时清除不再使用的对象引用避免内存泄漏，注意闭包使用场景使用弱引用（WeakMa
基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等) 阿勇学长大数据项目实战案例 Java精品毕业设计实例 Python数据可视化项目案例大数据 django spark 国漫推荐与可视化平台毕业设计 Java
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
领域驱动设计核心解析
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
Dubbo与Zookeeper核心解析 Java开发廖志伟 Java场景面试宝典 Dubbo Service Discovery Distributed Systems
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
【有源码】基于爬虫+python的美食数据分析与可视化flask热门美食推荐系统的设计与实现 Q2643365023 Python 大数据 python 爬虫计算机毕设选题毕业设计源码计算机毕设项目数据分析美食推荐系统
注意：该项目只展示部分功能，如需了解，文末咨询即可。本文目录1.开发环境2系统设计2.1设计背景2.2设计内容3系统展示3.1功能展示视频3.2系统页面4更多推荐5部分功能代码1.开发环境开发语言：Python采用技术：flask、爬虫数据库：MySQL开发环境：PyCharm2系统设计2.1设计背景在现代社会中，人们对美食的兴趣和需求日益增长。互联网和社交媒体的普及使得各种美食信息、评论和推荐变
小程序领域开发语言的基础教程小程序开发2020 小程序开发语言 ai
小程序领域开发语言的基础教程：从0到1轻松入门关键词：小程序开发、WXML、WXSS、JavaScript、双线程模型、生命周期、组件化摘要：本文是针对小程序开发语言的零基础入门指南，通过生活类比、代码示例和实战案例，详细讲解小程序核心开发语言（WXML/WXSS/JavaScript）的原理、协作方式及实际应用。无论你是前端新手还是想转行小程序开发的小白，都能通过本文掌握小程序开发的“三板斧”，
ShardingSphere 架构解析 Java开发廖志伟 Java场景面试宝典 ShardingSphere Distributed Database Database Middleware
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
Kotlin编译流程 xiangxiongfly915 Kotlin kotlin
文章目录Kotlin编译流程Kotlin编译流程使用AS工具Kotlin与Java代码对比printlnKotlin类型类型推导字符串模板when表达式类抽象类接口数据类不设置默认值全设置默认值总结@JvmOverloadsKotlin编译流程Kotlin编译流程Kotlin代码经过编译器边后，生成Java字节码，这种字节码是专门为JVM设计的，JVM拿到字节码后，会根据特定的语法解析其中的内容，
八股文——JAVA基础：字符串拼接用“+” 还是 StringBuilder? Hellyc 八股文自用 java 开发语言
java中仅有两个操作符的重载就是用于字符串的拼接操作的：+与+=操作符+底层使用的是StringBuilder来进行实现的，+用于拼接的缺陷在于使用StringBuilder，本身线程不安全，其次在循环中使用+来拼接，会导致重复创建StringBuilder对象，导致空间的浪费。而在循环中使用StringBuilder就不会出现这个问题。
java复习 06 im_AMBER java 开发语言学习
线程还没学会，然后查漏补缺。再学一下泛型，下一篇博客写。1线程控制方法名说明staticvoidsleep(longmillis)使当前正在执行的线程停留（暂停执行）指定的毫秒数voidjoin()等待这个线程死亡voidsetDaemon(booleanon)将此线程标记为守护线程，当运行的线程都是守护线程时，Java虚拟机将退出sleep方法的应用，这里用trycatch包围packagePT
完美解决SSL访问认证 sun.security.validator.ValidatorException: PKIX path building failed cqwuliu jAVA工具 TCP/IP ssl 网络协议网络
一、创建createIgnoreVerifySSL绕过SSL、TLS证书importjavax.net.ssl.SSLContext;importjavax.net.ssl.TrustManager;importjavax.net.ssl.X509TrustManager;importjava.io.IOException;importjava.security.KeyManagementExce
java 导出pdf去除边框_docx4j生成pdf时，如何指定pdf的页边框
生成pdf：publicStringsavePdf(WordprocessingMLPackagewordMLPackage,Mapdata)throwsException{StringpdfDir=getFilePath()+".pdf";Filefile=newFile(pdfDir);FileUtils.createDir(file);//使用默认的FOSettingssettings.se
java 签名 ecdsa_数字签名算法ECDSA 哈全文 java 签名 ecdsa
一介绍ECDSA：EllipticCurvDigstalSignatureAlgorithm椭圆曲线数字签名算法。速度快、强度高、签名短二参数说明三代码实现packagecom.imooc.security.ecdsa;importjava.security.KeyFactory;importjava.security.KeyPair;importjava.security.KeyPairGene
java 签名 ecdsa_Java数字签名——ECDSA算法随缘惜情 java 签名 ecdsa
ECDSA例如微软产品的序列号的验证算法。EllipticCurveDigitalSignatureAlgorithm，椭圆曲线数字签名算法。速度快，强度高，签名短——————————————————————————————————密钥长度112～571默认256——————————————————————————————————NONEwithECDSA签名长度：128实现方：JDK/BCRIP
documents4j 使用教程惠悦颖
documents4j使用教程documents4jdocuments4jisaJavalibraryforconvertingdocumentsintoanotherdocumentformat项目地址:https://gitcode.com/gh_mirrors/do/documents4j1.项目介绍documents4j是一个Java库，用于将文档转换为另一种文档格式。它通过委托给任何能够
深入理解JavaScript ES6 Promise基本使用和进阶讲解 ScottePerk 前端 javascript es6 前端
一项新技术的出现一定是为了解决某个痛点问题的。ES6的Promise就是为了解决ES5在处理异步任务时所存在的问题。Promise是一个异步处理框架。Promise前夕——ES5对于异步任务的处理我们先来看看ES5是怎么处理异步任务的。主要的手段就是通过回调函数。回调函数是JavaScript本身就支持的机制。可以通过回调函数实现类似下面这个的网络请求过程。虽然这个函数的实现看起来代码有点不好看，
Java使用documents4j将word和excel转pdf 药岩工作中的那些问题 java word excel
pom.xml添加documents4j依赖com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-transformer-msoffice-word1.0.3<dependency
trycatch捕获不到的错误前端javascript
在浏览器环境的JavaScript中，try...catch是处理运行时错误的常用机制，但并非所有错误都能被其捕获。以下是无法被try...catch捕获的几类错误及其原因与解决方案：⚠️1.语法错误（SyntaxErrors）原因：语法错误发生在代码解析阶段，此时代码尚未执行，try...catch无法捕获。示例：try{consta=;//缺少赋值表达式}catch(e){console.lo
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">

Spark——（RDD(弹性分布式数据集)，RDD的创建和操作，Transformation 算子）

文章目录

RDD(弹性分布式数据集)

RDD的创建和操作

常见的Transformation 算子

你可能感兴趣的:(Spark,spark,大数据,后端,开发语言,java)