村头陶员外

spark性能优化 -- > spark工作原理

博客内容将首发在微信公众号"跟我一起读论文啦啦"，上面会定期分享机器学习、深度学习、数据挖掘、自然语言处理等高质量论文，欢迎关注！

从本篇文章开始，将开启spark学习和总结之旅，专门针对如何提高spark性能进行总结，力图总结出一些干货。

无论你是从事算法工程师，还是数据分析又或是其他与数据相关工作，利用spark进行海量数据处理和建模都是非常重要和必须掌握的一门技术，我感觉编写spark代码是比较简单的，特别是利用Spark SQL下的DataFrame接口进行数据处理，只要有python基础都是非常容易入门的，但是在性能调优上，许多人都是一知半解，写的spark程序经常陷入OOM或卡死状态。这时深入了解spark原理就显得非常有必要了。

本系列总结主要针对Hadoop YARN模式。

RDD(Resilient Distributed Datasets)

RDD是spark中最基本的数据抽象，存储在exector或node中，它代表一个 “惰性，”“静态”，“不可变”，“分布式“的数据集合，RDD基本介绍在网上上太多了，这里就不做详细介绍了，主要讲下以下内容：

transform（转换）与action（执行）的区别

转换操作：返回的是一个新的RDD，常见的如：map、filter、flatMap、groupByKey等等
执行操作：返回的是一个结果，一个数值或者是写入操作等，如reduce、collect、count、first等等

惰性计算

spark中计算RDD是惰性的，也即RDD真正被计算（执行操作，例如写入存储操作、collect操作等）时，其转换操作才会真正被执行。

spark为什么采用惰性计算：
在MapReduce中，大量的开发人员浪费在最小化MapReduce通过次数上。通过将操作合并在一起来实现。在Spark中，我们不创建单个执行图，而是将许多简单的操作结合在一起。因此，它造成了Hadoop MapReduce与Apache Spark之间的差异。
惰性设计的好处：

① 提高可管理性
可以查看整个DAG（将对数据执行的所有转换的图形），并且可以使用该信息来优化计算。
② 降低时间复杂度和加快计算速度
只运算真正要计算的转换操作，并且可以根据DAG图，合并不需要与drive通信的操作（连续的依赖转换），例如在一个RDD上同时调用map和filter转换操作，spark可以将map和filter指令发送到每个executor上，spark程序在真正执行map和filter时，只需访问一次record，而不是发送两组指令并两次访问分区。理论上相对于非惰性，将时间复杂度降低了一半。

例如：

val list1 = list.map(i -> i * 3)  // Transformation1
val list2 = list1.map(i -> i + 3) // Transformation1
val list3 = list1.map(i -> i / 3) // Transformation1
list3.collect()               // ACTION

假设原始列表(list) 很大，其中包含数百万个元素。如果没有懒惰的评估，我们将完成三遍如此庞大的计算。如果我们假设一次这样的列表迭代需要10秒，那么整个评估就需要30秒。并且每个RDD都会缓存下来，浪费内存。
使用惰性评估，Spark可以将这三个转换像这样合并到一个转换中，如下：

val list3 = list.map(i -> i + 1)

它将只执行一次该操作。只需一次迭代即可完成，这意味着只需要10秒的时间。

试想下，如果采用的是非惰性的设计，那么无法在真正运行之前生成DAG图，那么就是“看一步代码，执行一步代码”，对于不需要与drive通信的转换操作，需要每步都要访问所有分区，十分耗时。那么如果采用了惰性设计，在运行之前会生成DAG图，可以合并不需要与drive通信的操作（连续的依赖转换），只需要访问所有分区一次即可。相当于站在全局的角度进行了优化。

容错性

RDD本身包含其复制所需的所有依赖信息，一旦该RDD中某个分区丢失了，该RDD有足够需要重新计算的信息，可以去并行的，很快的重新计算丢失的分区。

运行在内存

在spark application的生命周期中，RDD始终常驻内存（在所在的节点内存），这也是其比MapReduce更快的重要原因。

spark中提供了三种内存管理机制：
① in-memory as deserialized data
这种常驻内存方式速度快（因为去掉了序列化时间），但是内存利用效率低。
② in-memory as serialized data
该方法内存利用效率高，但是速度慢
③ 直接存在disk上
对于那些较大容量的RDD，没办法直接存在内存中，需要写入到DISK上。该方法仅适用于大容量RDD。

要持久化一个RDD，只要调用其cache()或者persist()方法即可。在该RDD第一次被计算出来时，就会直接缓存在每个节点中。而且Spark的持久化机制还是自动容错的，如果持久化的RDD的任何partition丢失了，那么Spark会自动通过其源RDD，使用transformation操作重新计算该partition。

cache()和persist()的区别在于，cache()是persist()的一种简化方式，cache()的底层就是调用的persist()的无参版本，同时就是调用persist(MEMORY_ONLY)，将数据持久化到内存中。如果需要从内存中清楚缓存，那么可以使用unpersist()方法。

我们来仔细分析下持久化和非持久化的区别：
非持久化：
持久化：

显然对于要复用多次的RDD，要将其进行持久化操作，此时Spark就会根据你的持久化策略，将RDD中的数据保存到内存或者磁盘中。以后每次对这个RDD进行算子操作时，都会直接从内存或磁盘中提取持久化的RDD数据，然后执行算子，而不会从源头处重新计算一遍这个RDD，再执行算子操作。 所以在写spark代码时：尽可能复用同一个RDD。

这里常有个误区：

val rdd1 = ... // 读取hdfs数据，加载成RDD
rdd1.cache  // 持久化操作

val rdd2 = rdd1.map(...)
val rdd3 = rdd1.filter(...)

rdd1.unpersist // 释放缓存

rdd2.take(10).foreach(println)
rdd3.take(10).foreach(println)

如果按上述代码进行持久化，则效果就如同没有持久化一样。原因就在于spark的lazy计算。

代码应该如下：

val rdd1 = ... // 读取hdfs数据，加载成RDD
rdd1.cache

val rdd2 = rdd1.map(...)
val rdd3 = rdd1.filter(...)

rdd2.take(10).foreach(println)
rdd3.take(10).foreach(println)

rdd1.unpersist

rdd2执行take时，会先缓存rdd1，接下来直接rdd3执行take时，直接利用缓存的rdd1，最后，释放掉rdd1。所以在何处释放RDD也是非常需要细心的。 请在action之后unpersisit！！！

Spark Job Scheduling

窄依赖与宽依赖

shuffle过程，简单来说，就是将分布在集群中多个节点上的同一个key，拉取到同一个节点上，进行聚合或join等操作。比如reduceByKey、join等算子，都会触发shuffle操作。shuffle操作需要将数据进行重新聚合和划分，然后分配到集群的各个节点上进行下一个stage操作，这里会涉及集群不同节点间的大量数据交换。由于不同节点间的数据通过网络进行传输时需要先将数据写入磁盘，因此集群中每个节点均有大量的文件读写操作，从而导致shuffle操作十分耗时（相对于map操作）。

窄依赖：父RDD 与子RDD的分区是一对一（map操作）或多对一（coalesce）的，不会有shuffle过程；并且子RDD的分区结果与其key和value值无关，每个分区与其他分区亦无关。

上面左图可对应map操作分区，右图对应coalesce操作。

宽依赖：父RDD与子RDD的分区是一对多的关系，并且是按一定方式进行重分区，会有shuffle过程产生，比较耗时，可能会引发spark性能问题。常见的宽依赖操作如：groupByKey、reduceByKey、sort、sortByKey等等。

注意：coalesce操作如果是将10个分区换成100个分区，由少分区转成大分区将会发生shuffle过程。coalesce操作场景主要是rdd经过多层过滤后的小文件合并。rdd的reparation方法与coalesce相反，主要是为了 处理数据倾斜，增加partiton的数量使得每个task处理的数据量减少，肯定会有shuffle过程产生（repartition其实调用的就是coalesce，只不过shuffle = true （coalesce中shuffle: Boolean = false））。

Spark Application

一个spark应用主要由一系列的spark Job组成，而这些spark Job由sparkContext定义而来。当SparkContent启动时，一个driver和一系列的executor会在集群的工作节点上启动。每个executor都有个JVM虚拟环境，一个executor不能跨越多个节点。

上图表示在一个分布式系统上启动一个spark application的物理硬件层面流程。

启动一个SparkContext
驱动程序（driver program）会定义一个集群管理（cluster manager）
cluster manager会在工作节点上启动一些executor，运行提交的代码（注意：一个节点node上会有多个executor，但是一个executor不能跨越多个node）

需要注意以下两点：

一个节点node上会有多个executor，但是一个executor不能跨越多个node
每个executor会有多个分区，但是一个分区不能跨越多个executor

DAG（Directed Acyclic Graph）详解

spark Application tree

简而言之：一个spark Application由多个Job组成，Job由提交代码中的Action操作定义，而一个Action操作由多个Stage组成，Stage的分割由宽依赖进行分割的，而每个Stage又由多个Task组成。一个Task对应一个分区，一个task会被分配到一个executor上执行。

每个Job都对应一个DAG图，每个DAG有一系列的Stage组成。

Job：每个Job对应一个Action操作，在spark execution Graph中，其边是基于代码中的transform操作的依赖关系定义的。
Stages：每个Action中可能包含一个或多个transform操作，其中宽依赖又将Job划分成多个Stage。因为Stages的边缘需要和driver进行通信，故通常一个Job里，必须顺序的执行Stages而非并行。并且会将多个窄依赖步骤合并成一个步骤，因为其中没有的转换操作没有shuffle过程，可以通过只访问一次数据，连续执行多个transform操作，这也是上面提到的惰性计算的优点。

def simpleSparkProgram(rdd : RDD[Double]): Long ={
  //stage1
  rdd.filter(_< 1000.0)
  .map(x => (x, x) )
  //stage2
  .groupByKey()
  .map{ case(value, groups) => (groups.sum, value)}
  //stage 3
  .sortByKey()
  .count()
}

其代码中对应的Stage如下：

Task：task是spark中最小最基本的执行单元，每个task代表一个局部的计算任务。在executor中可以有多个core，而每个core可以对应一个task，每个task针对一个分区。 每次针对不同的一块分区，执行相同的代码。

注意：

spark中同时并行的task数量不能超过所有executor core数量。 其中所有executor cores 数量= 每个executor中core数量 * executor数量。
task的并行化是有executor数量 × core数量决定的。task过多，并行化过小，就会浪费时间；反之就会浪费资源。所以设置参数是一个需要权衡的过程，原则就是在已有的资源情况下，充分利用内存和并行化。

总结

对于DAG的深刻理解非常重要，如果理解不深刻则可能定位问题的效率不高。比如常见的数据倾斜。当理解了这些，如果出现了数据倾斜，可以分析job，stage和task，找到部分task输入的严重不平衡，最终定位是数据问题或计算逻辑问题。

参考

High Performance Spark
https://www.quora.com/What-is-the-reason-behind-keeping-lazy-evaluation-in-Apache-Spark
https://data-flair.training/blogs/apache-spark-lazy-evaluation/
http://bourneli.github.io/scala/spark/2016/06/17/spark-unpersist-after-action.html

第二十五篇 SQL优化杀手锏：用分析函数让你的查询快如闪电随缘而动，随遇而安 SQL之道——从入门到精通数据库 sql
目录一、初识分析函数：外卖骑手的一天1.1真实工作场景二、分析函数三板斧（超直观对比表）三、手把手教学：5大核心函数详解️3.1排名三剑客（班级成绩单案例）3.1.1ROW_NUMBER()：唯一学号式排名3.1.2RANK()：运动会颁奖式排名3.1.3DENSE_RANK()：电梯楼层式排名3.2时间旅行函数（股票分析案例）3.3滑动窗口函数（疫情数据分析）四、性能优化三大绝招（让老板眼前一亮
如何进行OceanBase 运维工具的部署和表性能优化! oceanbase
随着OceanBase数据库应用的日益深入，数据量不断攀升，单个表中存储数百万乃至数千万条数据的情况变得愈发普遍。因此，部署专门的运维工具、实施针对性的表性能优化策略，以及加强指标监测工作，都变得更为重要。以下为基于我们的使用场景，所采取的一些部署和优化措施分享。一、OCP部署升级1．OCP升级（1）4.2.1BP1升级到4.2.2，本来以为毫无波澜但是下载完毕一键包并完成前期准备工作启动后发现无
Spark任务读取hive表数据导入es 小小小小小小小小小小码农 hive elasticsearch spark java
使用elasticsearch-hadoop将hive表数据导入es，超级简单1.引入pomorg.elasticsearchelasticsearch-hadoop9.0.0-SNAPSHOT2.创建sparkconf//spark参数设置SparkConfsparkConf=newSparkConf();//要写入的索引sparkConf.set("es.resource","");//es集
Spark sql 中row的用法闯闯桑 spark sql 大数据开发语言
在ApacheSpark中，Row是一个表示一行数据的类。它是SparkSQL中DataFrame或Dataset的基本数据单元。每一行数据都由一个Row对象表示，而Row对象中的每个字段对应数据的一个列。Row的用法Row对象通常用于以下场景：创建数据：当你手动创建数据时，可以使用Row对象来表示每一行数据。访问数据：当你从DataFrame或Dataset中提取数据时，每一行数据都是一个Row
Spark Sql 简单校验的实现小小小小小小小小小小码农 spark sql java
在网上参考了很多资料，都是要依赖Sparksession，这个需要spark环境，非常不友好，jdk版本也不好控制。不使用Sparksession获取上下文，利用spark和antlr的静态方法使用java实现简单的sparksql的语法以及内置函数的校验。1.spark版本3.2.0org.apache.sparkspark-sql_2.123.2.0org.antlrantlr4-runtim
2025前端面试题超全面解析（附答案与深度扩展）北辰alk 前端前端
文章目录一、HTML篇（扩展版）1.**HTML5语义化标签的实际应用场景**2.**WebComponents实战：如何封装一个自定义按钮组件？**3.**WebWorker的用途与限制**二、CSS篇（扩展版）1.**CSS盒模型详解：border-boxvscontent-box**2.**CSS动画性能优化技巧**3.**CSS预处理器（Sass/Less）核心功能对比**三、JavaSc
Vue-Echarts图表组件性能优化 mao1632471875 echarts vue.js 性能优化
页面在渲染的时候出现了卡顿的情况。页面上的秒数从1-2-3秒-直接从1变成了5核心原因js单线程原因每次1秒轮询请求接口拿到数据一直重新渲染页面负荷不起。解决方案。定位电视机性能，取消轮询-页面是可以流畅加载的。说明电视机性能还是可以的-只是因为数据实时变化导致的卡顿。优化的本质是什么-那就是分类-如果还有那就是加载优先级。位置固定右上角和各个图表位置固定减少重排弄两个变量一个flag一个coun
运维面试常问的100道题（大数据统计）無爲謂人工智能运维面试
一、基础知识类1、请解释什么是运维？运维是指对企业的IT系统进行运行维护，包括硬件设备、软件系统、网络等的监控、管理、优化和故障处理，以确保系统的稳定、高效运行，满足业务需求。2、简述运维的主要职责有哪些？服务器的安装、配置、维护和监控。网络设备的管理和维护。数据库的管理和维护。应用系统的部署、升级和维护。故障处理和应急响应。性能优化和容量规划。安全管理和漏洞修复。3、什么是服务器？有哪些类型？服
PySpark安装及WordCount实现（基于Ubuntu） uui1885478445 ubuntu linux 运维
在Ubuntu上安装PySpark并实现WordCount，需要以下步骤：安装PySpark：安装Java：PySpark需要Java运行环境。你可以使用以下命令安装OpenJDK：sudoaptupdatesudoaptinstalldefault-jredefault-jdk安装Scala：PySpark还需要Scala，可以使用以下命令安装：sudoaptinstallscala安装Pyth
数据库核心技术面试题深度剖析：主从同步、二级索引与Change Buffer 后端数据库mysql
在数据库相关岗位的面试中，主从同步、二级索引、ChangeBuffer是高频考察点。本文将从面试题角度拆解这三个技术点，覆盖底层原理、性能优化、设计思想，并结合实际场景与高频追问，助你构建系统性回答框架。一、主从同步：高可用架构的灵魂1.基础问题：主从同步的基本流程是什么？答：核心流程：主库将事务写入Binlog（二进制日志）从库的IO线程拉取Binlog到本地RelayLog从库的SQL线程重放
Vue 3 vs Vue 2：深入解析从性能优化到源码层面的进化银之夏雪 vue.js 性能优化前端
Vue.js是当今前端开发中最受欢迎的框架之一。随着Vue3的发布，它在性能优化、开发体验、响应式系统、构建工具和热更新等多个方面都带来了巨大提升。本文将深入剖析Vue3的进化，包括其源码实现方面的优化，如diff算法、静态标记、编译优化，以及Vue3在热更新、构建工具上的改进。1.性能提升：底层优化的革命1.1响应式系统的改进：从Object.defineProperty到ProxyVue2的响
Feign性能优化以及最佳实践南川北渔 SpringCloud 性能优化 okhttp
1.Feign性能优化Feign底层发起http请求，依赖于其它的框架。其底层客户端实现包括：•URLConnection：默认实现，不支持连接池•ApacheHttpClient：支持连接池•OKHttp：支持连接池优化1：因此提高Feign的性能主要手段就是使用**连接池**代替默认的URLConnection。优化2：日志的级别，根据项目测试，确定最大连接数和单个路径的最大连接数，日志尽量用
深度解析前端面试八股文：核心知识点与高效应对策略赵大仁前端面试职场和发展
深度解析前端面试八股文：核心知识点与高效应对策略1.引言前端面试是每位开发者迈向职业进阶的重要环节，涉及HTML、CSS、JavaScript、性能优化、浏览器原理、网络、安全、框架（Vue/React）等核心知识点。本文不仅会覆盖前端面试的高频八股文，还会结合生动的案例，让你在面试时能够脱离死记硬背，从理解中突破！2.HTML&CSS高频考点2.1HTML语义化问题：什么是HTML语义化？为什么
从0到1构建AI深度学习视频分析系统--基于YOLO 目标检测的动作序列检查系统：（2）消息队列与消息中间件 shiter 人工智能系统解决方案与技术架构人工智能深度学习音视频
文章大纲原始视频队列Python内存视频缓存优化方案（4GB以内）一、核心参数设计二、内存管理实现三、性能优化策略四、内存占用验证五、高级优化技巧六、部署建议检测结果队列YOLO检测结果队列技术方案一、技术选型矩阵二、核心实现代码三、性能优化策略四、可视化方案对比五、部署建议逻辑判定队列时间片图论时间序列大模型引入参考文献原始视频队列想要在单机内存中缓存1-5分钟的视频片段，python技术栈的话
82.HarmonyOS NEXT 性能优化指南：从理论到实践 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT性能优化指南：从理论到实践1.性能优化概述1.1性能指标指标类型关键指标目标值启动时间首屏渲染=[];privatepageSize:number=20;//2.使用虚拟列表build(){List(){LazyForEach(this
Flutter三棵树是什么，为什么这么设计 Ever69 Flutter《葵花宝典》flutter 三棵树
目录1.三棵树的定义与职责(1)Widget树(2)Element树(3)RenderObject树2.三棵树的协同工作流程3.为什么设计三棵树？(1)性能优化(2)逻辑解耦(3)灵活性4.三棵树的设计优势总结示例：动态列表更新常见面试追问Flutter的「三棵树」是其核心设计之一，用于高效管理UI的构建、更新和渲染。它们分别是Widget树、Element树和RenderObject树。这种分层
【商城实战(38)】Spring Boot：从本地事务到分布式事务，商城数据一致性的守护之旅奔跑吧邓邓子商城实战 spring boot 分布式本地事务分布式事务商城实战
【商城实战】专栏重磅来袭！这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建，运用uniapp、ElementPlus、SpringBoot搭建商城框架，到用户、商品、订单等核心模块开发，再到性能优化、安全加固、多端适配，乃至运营推广策略，102章内容层层递进。无论是想深入钻研技术细节，还是探寻商城运营之道，本专栏都能提供从0到1的系统讲解，助力你打造独具竞争力的电商平台，开启电商实战
【商城实战(37)】Spring Boot配置优化：解锁高效商城开发密码奔跑吧邓邓子商城实战 spring boot 后端 java 商城实战配置优化
【商城实战】专栏重磅来袭！这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建，运用uniapp、ElementPlus、SpringBoot搭建商城框架，到用户、商品、订单等核心模块开发，再到性能优化、安全加固、多端适配，乃至运营推广策略，102章内容层层递进。无论是想深入钻研技术细节，还是探寻商城运营之道，本专栏都能提供从0到1的系统讲解，助力你打造独具竞争力的电商平台，开启电商实战
【商城实战(36)】UniApp性能飞升秘籍：从渲染到编译的深度优化奔跑吧邓邓子商城实战 uni-app 商城实战性能优化
【商城实战】专栏重磅来袭！这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建，运用uniapp、ElementPlus、SpringBoot搭建商城框架，到用户、商品、订单等核心模块开发，再到性能优化、安全加固、多端适配，乃至运营推广策略，102章内容层层递进。无论是想深入钻研技术细节，还是探寻商城运营之道，本专栏都能提供从0到1的系统讲解，助力你打造独具竞争力的电商平台，开启电商实战
树莓派搭php,Raspberry Pi 树莓派搭LAMP服务器平平无奇的美女树莓派搭php
目录：为什么要用树莓派?DebianLinux安全性操作系统性能优化配置网络开启sshMakingtheserveravailableontheInternetDNS安装apache安全MySQL安装PHP配置完成本文将会介绍如何把树莓派配置为一台LAMP服务器.这和把XUbuntu配成LAMP服务器有些相似,但是针对树莓派有些需要特殊处理的地方.下面是LAMP服务器的最通用配置:Linux–操作
Godot引擎开发：UI和用户交互_用户界面性能优化 chenlz2007 游戏开发 godot ui 交互游戏引擎 microsoft 性能优化
用户界面性能优化在开发动作游戏时，用户界面（UI）的性能优化是至关重要的。一个流畅的UI不仅能够提升玩家的体验，还能确保游戏在不同设备上运行顺畅。本节将详细介绍如何在Godot引擎中优化UI性能，包括减少渲染负担、优化资源管理和提高响应速度等方面。1.减少渲染负担1.1使用精灵图（SpriteSheets）精灵图（SpriteSheets）是一种将多个小图合并成一张大图的技术，可以显著减少纹理切换
Godot引擎开发：UI和用户交互_UI性能优化 chenlz2007 游戏开发 godot ui 交互游戏引擎性能优化
UI性能优化在动作游戏中，UI（用户界面）的性能优化是至关重要的。一个响应迅速、流畅的UI可以显著提升玩家的游戏体验。本节将详细介绍如何在Godot引擎中优化UI性能，包括优化节点结构、减少绘制调用、使用缓存技术、以及优化动画和过渡效果等方法。优化节点结构减少节点数量在Godot引擎中，每个节点都有一定的开销。因此，减少节点的数量可以显著提高UI的性能。可以通过以下几种方法实现：合并节点：将多个相
如何进行OceanBase 运维工具的部署和表性能优化! oceanbase
随着OceanBase数据库应用的日益深入，数据量不断攀升，单个表中存储数百万乃至数千万条数据的情况变得愈发普遍。因此，部署专门的运维工具、实施针对性的表性能优化策略，以及加强指标监测工作，都变得更为重要。以下为基于我们的使用场景，所采取的一些部署和优化措施分享。一、OCP部署升级1．OCP升级（1）4.2.1BP1升级到4.2.2，本来以为毫无波澜但是下载完毕一键包并完成前期准备工作启动后发现无
Java性能优化：让你的程序飞起来！杨凯凡 Java高级 java
大家好！今天我们来聊聊Java的性能优化。无论是开发高并发的Web应用，还是处理海量数据，性能优化都是Java程序员必须掌握的技能。通过优化代码、调整JVM参数以及使用性能分析工具，我们可以显著提升程序的运行效率。准备好了吗？让我们开始吧！一、代码优化技巧：从细节提升性能代码优化是性能优化的基础。通过改进代码逻辑、减少资源消耗，我们可以显著提升程序的性能。1.减少对象创建频繁创建对象会增加垃圾回收
【商城实战(23)】筑牢安全防线，防范常见漏洞奔跑吧邓邓子商城实战安全商城实战 uniapp SpringBoot Element plus SQL注入 CSRF
【商城实战】专栏重磅来袭！这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建，运用uniapp、ElementPlus、SpringBoot搭建商城框架，到用户、商品、订单等核心模块开发，再到性能优化、安全加固、多端适配，乃至运营推广策略，102章内容层层递进。无论是想深入钻研技术细节，还是探寻商城运营之道，本专栏都能提供从0到1的系统讲解，助力你打造独具竞争力的电商平台，开启电商实战
Webpack 前端性能优化全攻略北辰alk 前端 vue 前端 webpack 性能优化
文章目录1.性能优化全景图1.1优化维度概览1.2优化效果指标2.构建速度优化2.1缓存策略2.2并行处理2.3减少构建范围3.输出质量优化3.1代码分割3.2TreeShaking3.3压缩优化4.运行时性能优化4.1懒加载4.2预加载4.3资源优化5.高级优化策略5.1持久化缓存5.2模块联邦5.3性能分析6.优化效果验证6.1构建速度分析6.2性能监控7.最佳实践总结7.1优化策略7.2持续
大数据手册(Spark)--Spark安装配置 WilenWu 数据分析(Data Analysis)大数据 spark 分布式
本文默认在zsh终端安装配置，若使用bash终端，环境变量的配置文件相应变化。若安装包下载缓慢，可复制链接到迅雷下载，亲测极速～准备工作Spark的安装过程较为简单，在已安装好Hadoop的前提下，经过简单配置即可使用。假设已经安装好了hadoop（伪分布式）和hive，环境变量如下JAVA_HOME=/usr/opt/jdkHADOOP_HOME=/usr/local/hadoopHIVE_HO
鸿蒙应用开发（HarmonyOS）自定义装饰器场景你我皆是牛马星人鸿蒙开发 OpenHarmony HarmonyOS harmonyos 华为鸿蒙 android ui 前端鸿蒙系统
鸿蒙NEXT开发实战往期必看文章：一分钟了解”纯血版！鸿蒙HarmonyOSNext应用开发！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）HarmonyOSNEXT应用开发案例实践总结合（持续更新......）HarmonyOSNEXT应用开发性能优化实践总结（持续更新......）介绍本示例介绍通过自定义装饰器在自定义组件中自动添加inspector(布局
Python 3.12 新特性解析及对开发效率的提升叶间清风1998 python 开发语言
目录一、性能优化（一）FasterCPython（二）新的内存管理机制二、新语法和语言特性（一）Self-typeannotations（二）PatternMatchingEnhancements三、标准库更新（一）NewModulesandFunctions（二）ImprovementstoExistingModulesPython作为一种广泛应用于数据科学、人工智能、Web开发等众多领域的编程
如何进行OceanBase 运维工具的部署和表性能优化呢? oceanbase
随着OceanBase数据库应用的日益深入，数据量不断攀升，单个表中存储数百万乃至数千万条数据的情况变得愈发普遍。因此，部署专门的运维工具、实施针对性的表性能优化策略，以及加强指标监测工作，都变得更为重要。以下为基于我们的使用场景，所采取的一些部署和优化措施分享。一、OCP部署升级1．OCP升级（1）4.2.1BP1升级到4.2.2，本来以为毫无波澜但是下载完毕一键包并完成前期准备工作启动后发现无
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu