大数据v

Spark入门必读：核心概念介绍及常用RDD操作

导读：Spark是由加州大学伯克利分校AMP实验室开源的分布式大规模数据处理通用引擎，具有高吞吐、低延时、通用易扩展、高容错等特点。Spark内部提供了丰富的开发库，集成了数据分析引擎Spark SQL、图计算框架GraphX、机器学习库MLlib、流计算引擎Spark Streaming。

Spark在函数式编程语言Scala中实现，提供了丰富的开发API，支持Scala、Java、Python、R等多种开发语言。同时，Spark提供了多种运行模式，既可以采用独立部署的方式运行，也可以依托Hadoop YARN、Apache Mesos等资源管理器调度任务运行。

目前，Spark已经在金融、交通、医疗、气象等多种领域中广泛使用。

作者：肖冠宇

如需转载请联系大数据（ID：hzdashuju）

01 Spark概述

1. 核心概念介绍

Spark架构示意图如图2-1所示，下面将分别介绍各核心组件。

Client：客户端进程，负责提交作业。
Driver：一个Spark作业有一个Spark Context，一个Spark Context对应一个Driver进程，作业的main函数运行在Driver中。Driver主要负责Spark作业的解析，以及通过DAGScheduler划分Stage，将Stage转化成TaskSet提交给TaskScheduler任务调度器，进而调度Task到Executor上执行。
Executor：负责执行Driver分发的Task任务。集群中一个节点可以启动多个Executor，每一个Executor可以执行多个Task任务。
Catche：Spark提供了对RDD不同级别的缓存策略，分别可以缓存到内存、磁盘、外部分布式内存存储系统Tachyon等。
Application：提交的一个作业就是一个Application，一个Application只有一个Spark Context。
Job：RDD执行一次Action操作就会生成一个Job。
Task：Spark运行的基本单位，负责处理RDD的计算逻辑。
Stage：DAGScheduler将Job划分为多个Stage，Stage的划分界限为Shuffle的产生，Shuffle标志着上一个Stage的结束和下一个Stage的开始。
TaskSet：划分的Stage会转换成一组相关联的任务集。
RDD（Resilient Distributed Dataset）：弹性分布式数据集，可以理解为一种只读的分布式多分区的数组，Spark计算操作都是基于RDD进行的，下面会有详细介绍。
DAG（Directed Acyclic Graph）：有向无环图。Spark实现了DAG的计算模型，DAG计算模型是指将一个计算任务按照计算规则分解为若干子任务，这些子任务之间根据逻辑关系构建成有向无环图。

▲图2-1 Spark架构示意图

2. RDD介绍

RDD从字面上理解有些困难，我们可以认为是一种分布式多分区只读的数组，Spark计算操作都是基于RDD进行的。

RDD具有几个特性：只读、多分区、分布式，可以将HDFS块文件转换成RDD，也可以由一个或多个RDD转换成新的RDD，失效自动重构。基于这些特性，RDD在分布式环境下能够被高效地并行处理。

（1）计算类型

在Spark中RDD提供Transformation和Action两种计算类型。Transformation操作非常丰富，采用延迟执行的方式，在逻辑上定义了RDD的依赖关系和计算逻辑，但并不会真正触发执行动作，只有等到Action操作才会触发真正执行操作。Action操作常用于最终结果的输出。

常用的Transformation操作及其描述：

map (func)：接收一个处理函数并行处理源RDD中的每个元素，返回与源RDD元素一一对应的新RDD
filter (func)：并行处理源RDD中的每个元素，接收一个处理函数，并根据定义的规则对RDD中的每个元素进行过滤处理，返回处理结果为true的元素重新组成新的RDD
flatMap (func)：flatMap是map和flatten的组合操作，与map函数相似，不过map函数返回的新RDD包含的元素可能是嵌套类型，flatMap接收一个处理嵌套会将嵌套类型的元素展开映射成多个元素组成新的RDD
mapPartitions (func)：与map函数应用于RDD中的每个元素不同，mapPartitions应用于RDD中的每个分区。mapPartitions函数接收的参数为func函数，func接收参数为每个分区的迭代器，返回值为每个分区元素处理之后组成的新的迭代器，func会作用于分区中的每一个元素。有一种典型的应用场景，比如待处理分区中的数据需要写入到数据库，如果使用map函数，每一个元素都会创建一个数据库连接对象，非常耗时并且容易引起问题发生，如果使用mapPartitions函数只会在分区中创建一个数据库连接对象，性能提高明显
mapPartitionsWithIndex(func)：作用与mapPartitions函数相同，只是接收的参数func函数需要传入两个参数，分区的索引作为第一个参数传入，按照分区的索引对分区中元素进行处理
union (otherDataset)：将两个RDD进行合并，返回结果为RDD中元素（不去重）
intersection (otherDataset)：对两个RDD进行取交集运算，返回结果为RDD无重复元素
distinct ([numTasks]))：对RDD中元素去重
groupByKey ([numTasks])：在KV类型的RDD中按Key分组，将相同Key的元素聚集到同一个分区内，此函数不能接收函数作为参数，只接收一个可选参数任务数，所以不能在RDD分区本地进行聚合计算，如需按Key对Value聚合计算，只能对groupByKey返回的新RDD继续使用其他函数运算
reduceByKey (func, [numTasks])：对KV类型的RDD按Key分组，接收两个参数，第一个参数为处理函数，第二个参数为可选参数设置reduce的任务数。reduceByKey函数能够在RDD分区本地提前进行聚合运算，这有效减少了shuffle过程传输的数据量。相对于groupByKey函数更简洁高效
aggregateByKey (zeroValue)(seqOp, combOp)：对KV类型的RDD按Key分组进行reduce计算，可接收三个参数，第一个参数是初始化值，第二个参数是分区内处理函数，第三个参数是分区间处理函数
sortByKey ([ascending], [numTasks])：对KV类型的RDD内部元素按照Key进行排序，排序过程会涉及Shuffle
join (otherDataset, [numTasks])：对KV类型的RDD进行关联，只能是两个RDD之间关联，超过两个RDD关联需要使用多次join函数，join函数只会关联出具有相同Key的元素，相当于SQL语句中的inner join
cogroup (otherDataset, [numTasks])：对KV类型的RDD进行关联，cogroup处理多个RDD关联比join更加优雅，它可以同时传入多个RDD作为参数进行关联，产生的新RDD中的元素不会出现笛卡尔积的情况，使用fullOuterJoin函数会产生笛卡尔积
coalesce (numPartitions)：对RDD重新分区，将RDD中的分区数减小到参数numPartitions个，不会产生shuffle。在较大的数据集中使用filer等过滤操作后可能会产生多个大小不等的中间结果数据文件，重新分区并减小分区可以提高作业的执行效率，是Spark中常用的一种优化手段
repartition (numPartitions)：对RDD重新分区，接收一个参数——numPartitions分区数，是coalesce函数设置shuffle为true的一种实现形式
repartitionAndSortWithinPartitions (partitioner)：接收一个分区对象（如Spark提供的分区类HashPartitioner）对RDD中元素重新分区并在分区内排序

常用的Action操作及其描述：

reduce(func)：处理RDD两两之间元素的聚集操作
collect()：返回RDD中所有数据元素
count()：返回RDD中元素个数
first()：返回RDD中的第一个元素
take(n)：返回RDD中的前n个元素
saveAsTextFile(path)：将RDD写入文本文件，保存至本地文件系统或者HDFS中
saveAsSequenceFile(path)：将KV类型的RDD写入SequenceFile文件，保存至本地文件系统或者HDFS中
countByKey()：返回KV类型的RDD每个Key包含的元素个数
foreach(func)：遍历RDD中所有元素，接收参数为func函数，常用操作是传入println函数打印所有元素

从HDFS文件生成Spark RDD，经过map、filter、join等多次Transformation操作，最终调用saveAsTextFile Action操作将结果集输出到HDFS，并以文件形式保存。RDD的流转过程如图2-2所示。

▲图2-2 RDD的流转过程示意图

（2）缓存

在Spark中RDD可以缓存到内存或者磁盘上，提供缓存的主要目的是减少同一数据集被多次使用的网络传输次数，提高Spark的计算性能。Spark提供对RDD的多种缓存级别，可以满足不同场景对RDD的使用需求。RDD的缓存具有容错性，如果有分区丢失，可以通过系统自动重新计算。

在代码中可以使用persist()方法或cache()方法缓存RDD。cache()方法默认将RDD缓存到内存中，cache()方法和persist()方法都可以用unpersist()方法来取消RDD缓存。示例如下：

val fileDataRdd = sc.textFile("hdfs://data/hadoop/test.text")
fileDataRdd.cache()        // 缓存RDD到内存

或者

fileDataRdd.persist(StorageLevel.MEMORY_ONLY)
fileDataRdd..unpersist()        // 取消缓存

Spark的所有缓存级别定义在org.apache.spark.storage.StorageLevel对象中，如下所示。

object storageLevel extends scala.AnyRef with scala.Serializable {
    val NONE : org.apache.spark.storage.StorageLevel
    val DISK_ONLY : org.apache.spark.storage.StorageLevel
    val DISK_ONLY_2 : org.apache.spark.storage.StorageLevel
    val MEMORY_ONLY : org.apache.spark.storage.StorageLevel
    val MEMORY_ONLY_2 : org.apache.spark.storage.StorageLevel
    val MEMORY_ONLY_SER : org.apache.spark.storage.StorageLevel
    val MEMORY_ONLY_SER_2 : org.apache.spark.storage.StorageLevel
    val MEMORY_AND_DISK : org.apache.spark.storage.StorageLevel
    val MEMORY_AND_DISK_2 : org.apache.spark.storage.StorageLevel
    val MEMORY_AND_DISK_SER : org.apache.spark.storage.StorageLevel
    val MEMORY_AND_DISK_SER_2 : org.apache.spark.storage.StorageLevel
    val OFF_HEAP : org.apache.spark.storage.StorageLevel

Spark各缓存级别及其描述：

MEMORY_ONLY：RDD仅缓存一份到内存，此为默认级别
MEMORY_ONLY_2：将RDD分别缓存在集群的两个节点上，RDD在集群内存中保存两份
MEMORY_ONLY_SER：将RDD以Java序列化对象的方式缓存到内存中，有效减少了RDD在内存中占用的空间，不过读取时会消耗更多的CPU资源
DISK_ONLY：RDD仅缓存一份到磁盘
MEMORY_AND_DISK：RDD仅缓存一份到内存，当内存中空间不足时会将部分RDD分区缓存到磁盘
MEMORY_AND_DISK_2：将RDD分别缓存在集群的两个节点上，当内存中空间不足时会将部分RDD分区缓存到磁盘，RDD在集群内存中保存两份
MEMORY_AND_DISK_SER：将RDD以Java序列化对象的方式缓存到内存中，当内存中空间不足时会将部分RDD分区缓存到磁盘，有效减少了RDD在内存中占用的空间，不过读取时会消耗更多的CPU资源
OFF_HEAP：将RDD以序列化的方式缓存到JVM之外的存储空间Tachyon中，与其他缓存模式相比，减少了JVM垃圾回收开销。Spark执行程序失败不会导致数据丢失，Spark与Tachyon已经能较好地兼容，使用起来方便稳定

（3）依赖关系

窄依赖（Narrow Dependency）：父RDD的分区只对应一个子RDD的分区，如图2-3所示，如果子RDD只有部分分区数据损坏或者丢失，只需要从对应的父RDD重新计算恢复。

▲图2-3 窄依赖示意图

宽依赖（Shuffle Dependency）：子RDD分区依赖父RDD的所有分区，如图2-4所示。如果子RDD部分分区甚至全部分区数据损坏或丢失，需要从所有父RDD重新计算，相对窄依赖而言付出的代价更高，所以应尽量避免宽依赖的使用。

▲图2-4 宽依赖示意图

Lineage：每个RDD都会记录自己依赖的父RDD信息，一旦出现数据损坏或者丢失将从父RDD迅速重新恢复。

3. 运行模式

Spark运行模式主要有以下几种：

Local模式：本地采用多线程的方式执行，主要用于开发测试。
On Yarn模式：Spark On Yarn有两种模式，分别为yarn-client和yarn-cluster模式。yarn-client模式中，Driver运行在客户端，其作业运行日志在客户端查看，适合返回小数据量结果集交互式场景使用。yarn-cluster模式中，Driver运行在集群中的某个节点，节点的选择由YARN调度，作业日志通过yarn管理名称查看：yarn logs -applicationId ，也可以在YARN的Web UI中查看，适合大数据量非交互式场景使用。

提交作业命令：

./bin/spark-submit --class package.MainClass \    # 作业执行主类，需要完成的包路径
    --master spark://host:port, mesos://host:port, yarn, or local\Maste
                      # 运行方式
    ---deploy-mode client,cluster\ # 部署模式，如果Master采用YARN模式则可以选择使用clent模式或者cluster模式，默认client模式
    --driver-memory 1g \          # Driver运行内存，默认1G
    ---driver-cores 1 \          # Driver分配的CPU核个数
    --executor-memory 4g \       # Executor内存大小
    --executor-cores 1 \           # Executor分配的CPU核个数
    ---num-executors \           # 作业执行需要启动的Executor数
    ---jars \               # 作业程序依赖的外部jar包，这些jar包会从本地上传到Driver然后分发到各Executor classpath中。
    lib/spark-examples*.jar \      # 作业执行JAR包
[other application arguments ]       # 程序运行需要传入的参数

作业在yarn-cluster模式下的执行过程如图2-5所示。

▲图2-5 作业在yarn-cluster模式下的执行过程

Client在任何一台能与Yarn通信的入口机向Yarn提交作业，提交的配置中可以设置申请的资源情况，如果没有配置则将采用默认配置。
ResourceManager接收到Client的作业请求后，首先检查程序启动的ApplicationMaster需要的资源情况，然后向资源调度器申请选取一个能够满足资源要求的NodeManager节点用于启动ApplicationMaster进程，ApplicationMaster启动成功之后立即在该节点启动Driver进程。
ApplicationMaster根据提交作业时设置的Executor相关配置参数或者默认配置参数与ResourceManager通信领取Executor资源信息，并与相关NodeManager通信启动Executor进程。
Executor启动成功之后与Driver通信领取Driver分发的任务。
Task执行，运行成功输出结果。

02 Shuffle详解

Shuffle最早出现于MapReduce框架中，负责连接Map阶段的输出与Reduce阶段的输入。Shuffle阶段涉及磁盘IO、网络传输、内存使用等多种资源的调用，所以Shuffle阶段的执行效率影响整个作业的执行效率，大部分优化也都是针对Shuffle阶段进行的。

Spark是实现了MapReduce原语的一种通用实时计算框架。Spark作业中Map阶段的Shuffle称为Shuffle Write，Reduce阶段的Shuffle称为Shuffle Read。

Shuffle Write阶段会将Map Task中间结果数据写入到本地磁盘，而在Shuffle Read阶段中，Reduce Task从Shuffle Write阶段拉取数据到内存中并行计算。Spark Shuffle阶段的划分方式如图2-6所示。

▲图2-6 Spark Shuffle阶段的划分方式

1. Shuffle Write实现方式

（1）基于Hash的实现（hash-based）

每个Map Task都会生成与Reduce Task数据相同的文件数，对Key取Hash值分别写入对应的文件中，如图2-7所示。

生成的文件数FileNum=MapTaskNum×ReduceTaskNum，如果Map Task和Reduce Task数都比较多就会生成大量的小文件，写文件过程中，每个文件都要占用一部分缓冲区，总占用缓冲区大小TotalBufferSize=CoreNum×ReduceTaskNum×FileBufferSize，大量的小文件就会占用更多的缓冲区，造成不必要的内存开销，同时，大量的随机写操作会大大降低磁盘IO的性能。

▲图2-7 基于Hash的实现方式

由于简单的基于Hash的实现方式扩展性较差，内存资源利用率低，过多的小文件在文件拉取过程中增加了磁盘IO和网络开销，所以需要对基于Hash的实现方式进行进一步优化，为此引入了Consolidate（合并）机制。

如图2-8所示，将同一个Core中执行的Task输出结果写入到相同的文件中，生成的文件数FileNum=CoreNum×ReduceTaskNum，这种优化方式减少了生成的文件数目，提高了磁盘IO的吞吐量，但是文件缓存占用的空间并没有减少，性能没有得到明显有效的提高。

▲图2-8 优化后的基于Hash的实现方式

设置方式：

代码中设置：conf.get("spark.shuffle.manager", "hash")
配置文件中设置：在conf/spark-default.conf配置文件中添加spark.shuffle.managerhash

基于Hash的实现方式的优缺点：

优点：实现简单，小数量级数据处理操作方便。
缺点：产生小文件过多，内存利用率低，大量的随机读写造成磁盘IO性能下降。

（2）基于Sort的实现方式（sort-based）

为了解决基于Hash的实现方式的诸多问题，Spark Shuffle引入了基于Sort的实现方式，如图2-9所示。该方式中每个Map Task任务生成两个文件，一个是数据文件，一个是索引文件，生成的文件数FileNum=MapTaskNum×2。

数据文件中的数据按照Key分区在不同分区之间排序，同一分区中的数据不排序，索引文件记录了文件中每个分区的偏移量和范围。当Reduce Task读取数据时，先读取索引文件找到对应的分区数据偏移量和范围，然后从数据文件读取指定的数据。

设置方式：

代码中设置：conf.get("spark.shuffle.manager", "sort")
配置文件中设置：在conf/spark-default.conf配置文件中添加spark.shuffle.manager sort

▲图2-9 基于Sort的实现方式

基于Sort的实现方式的优缺点：

优点：顺序读写能够大幅提高磁盘IO性能，不会产生过多小文件，降低文件缓存占用内存空间大小，提高内存使用率。
缺点：多了一次粗粒度的排序。

2. Shuffle Read实现方式

Shuffle Read阶段中Task通过直接读取本地Shuffle Write阶段产生的中间结果数据或者通过HTTP的方式从远程Shuffle Write阶段拉取中间结果数据进行处理。Shuffle Write阶段基于Hash和基于Sort两种实现方式产生的中间结果数据在Shuffle Read阶段采用同一种实现方式。

获取需要拉取的数据信息，根据数据本地性原则判断采用哪种级别的拉取方式。
判断是否需要在Map端聚合（reduceByKey会在Map端预聚合）。
Shuffle Read阶段Task拉取过来的数据如果涉及聚合或者排序，则会使用HashMap结构在内存中存储，如果拉取过来的数据集在HashMap中已经存在相同的键则将数据聚合在一起。此时涉及一个比较重要的参数——spark.shuffle.spill，决定在内存被写满后是否将数据以文件的形式写入到磁盘，默认值为true，如果设置为false，则有可能会发生OOM内存溢出的风险，建议开启。
排序聚合之后的数据以文件形式写入磁盘将产生大量的文件内数据有序的小文件，将这些小文件重新加载到内存中，随后采用归并排序的方式合并为一个大的数据文件。

关于作者：资深大数据研发工程师，有多年的大数据工作经验，对高性能分布式系统架构、大数据技术、数据分析等有深入的研究。

本文摘编自《企业大数据处理：Spark、Druid、Flume与Kafka应用实践》，经出版方授权发布。

你可能感兴趣的:(Spark入门必读：核心概念介绍及常用RDD操作)

Ubuntu 22.04.5 LTS 系统中配置仓库源 ChironW Linux运维 ubuntu linux 运维
在Ubuntu22.04.5LTS系统中配置仓库源，可以按照以下步骤进行操作：备份原有源列表打开终端，输入以下命令备份系统默认的源列表：sudocp/etc/apt/sources.list{,.bak}编辑源列表文件用文本编辑器打开sources.list文件，命令如下：sudovi/etc/apt/sources.list你可以注释掉原有的内容，然后添加以下国内常用的源，如阿里云源：debht
Ubuntu 22.04.5 LTS上部署Docker及相关优化 ChironW Linux运维 Docker ubuntu docker 容器
以下是在Ubuntu22.04.5LTS上部署Docker及相关优化的步骤：安装Docker更新系统：在安装Docker之前，先确保系统是最新的，执行以下命令：sudoaptupdatesudoaptupgrade-y安装依赖包：安装一些必要的依赖包，用于支持Docker的运行，命令如下：sudoaptinstall-yapt-transport-httpsca-certificatescurls
WIFI7新特性浅析及Linux内核对其的支持 winter91 Linux NetWork linux WIFI
WIFI7新特性浅析及Linux内核对其的支持|DD'NotesWIFI7新特性浅析及Linux内核对其的支持wifi7新特性Wi-Fi7（IEEE802.11be）作为下一代无线网络标准，在速度、延迟、容量和稳定性等方面实现了显著提升。以下是其核心新特性：1.更高带宽与速率320MHz信道带宽支持连续320MHz或非连续160+160MHz带宽（6GHz频段），相比WiFi6的160MHz实现速
“空中的士”上架淘宝工业品后,要登录交个朋友淘宝直播间? 氧惠爱高省
3月20日消息，交个朋友官微发文宣布，20日晚上七点，全球首个获得适航认证的“飞行的士”将亮相交个朋友淘宝直播间。据悉，这款无人驾驶载人航空器可搭载两人，长6.05米，宽5.73米，高1.93米，由16个螺旋桨组成，为全智能无人驾驶航空器，能够垂直起降，主要在低空空域飞行。通过【氧恵】APP，可以免费领取淘宝及各大电商隐藏优惠券及返利，还能分享赚钱，与朋友一起享受购物乐趣！【氧恵邀请码：00088
亲子日记 15 夢_2f7c
昨天刚下完雨，真是一场秋雨一场寒！今天早上送宝贝坐校车，一出门感觉好冷呀！感觉秋天还没来得及渡过，冬天的脚步已经扑面而来！真是有点不大适应！现在正是季节交替的时候，时而天气暖和得让人懒洋洋的，时而呼呼刮起了大风，真是让人应接不暇！这一冷一热都不知道该给宝贝怎么添加衣服啦！早晚都有点冷，中午还挺暖和！宝贝晚上放学回家！先让她背了几首我最近教她的新古诗！然后再抽查以前背熟的古诗！这样温故而知新，不容易
介绍几个时尚又百搭的韩国平价小众瑜伽服设计师品牌爱打呼噜的麻薯君
运动前得选一套舒适好看的瑜伽服做战衣！耳熟能详的大牌们…好是好，价格太贵了吧！别担心！看这里～麻薯君特地整理满满的干货给你们哟！1.xexymix关键词：小清新+时尚感+超强功能性适用年龄：20-30岁女性被代购到爆的瑜伽品牌，在经济状态极其不景气的去年居然在韩国首尔的弘大开起了线下店ShowRoom。品牌的用色和设计都特别符合年轻人的审美。关键是上身效果（美观度和舒适度）都堪称完美。价格方面也不
C++-linux 7.文件IO（二）文件描述符、阻塞与非阻塞 HHRL-yx C++-linux系统编程 linux c++服务器
文件IO进阶：文件描述符、阻塞与非阻塞在前文我们介绍了文件IO的核心系统调用，本章将深入探讨Linux文件IO的底层机制，包括文件描述符的本质、阻塞与非阻塞IO模型、文件偏移量控制（lseek）以及系统调用中的参数传递规则，帮助你构建更完整的系统编程知识体系。一、文件描述符：进程与文件的桥梁在Linux系统中，当我们打开或创建一个文件（或套接字）时，操作系统会提供一个文件描述符（FileDescr
高省官方邀请码是多少？(附靠谱的高省app邀请码及获取与填写方法)汇总桃朵十三
在数字经济的浪潮下，各类购物应用层出不穷，而高省APP以其独特的购物赚佣金模式，在众多应用中脱颖而出。为了更好地体验高省app，请填写高省邀请码【GQ6H92】。特别提醒，龙年最新高省邀请码【GQ6H92】是全网唯一且专属于技术指导老师的码。正确填写后，您将直接提升至2皇冠总裁等级，并获得价值百万的引流技术推广绝密大礼包。《桃朵导师GQ6H92》也在后台为您准备，欢迎加入高省官方群与更多用户交流。
如何使用Google AdSense实现H5小游戏变现（二） Louisa的工作日记
上一篇内容主要介绍了H5小游戏的市场情况洞察、GoogleAdSense介绍、收入核心指标，本篇文章将介绍如何改善展示次数、eCPM，以及如何使用GA来优化网站质量。01.如何改善展示次数1、网站DAU网站DAU和你的渠道息息相关，这里作为H5小游戏网站常常容易遇到的问题：服务器承载压力过大崩溃。需要时刻监控服务器情况，海外推荐使用亚马逊相关服务，国内服务提供商均存在不稳定情况。此外，必须支持ht
白水记忆（二十七）静静的凌河
图片发自App县委会议室里，县委书记和县长坐在中间，旁边是分管干部的副书记，组织部长等。这面，组织部领导坐在中间，屈副县长坐在左侧，右侧是一起来的工作人员。按照程序，组织部领导介绍下屈的情况，介绍完简历之后，就请他做表态发言。他的脸色有点红，有点激动，也挺紧张，手脚冰凉的。他张嘴说了起来，“尊敬的部领导，尊敬的县委王书记……”前面讲的挺好，背的很熟，背着背着，看会议室内两位领导正在低头说着什么，他
MySQL 索引详解：从原理到实战的全方位指南一切皆有迹可循 mysql mysql 数据库后端 java sql
前言索引是MySQL高性能查询的核心驱动力，合理设计索引能将查询性能提升几个数量级，而不当使用则可能导致严重的性能瓶颈。本文从索引的基础概念出发，深入解析数据结构、分类特性、设计原则及实战优化，帮助开发者掌握索引的核心原理与最佳实践。一、索引基础概念1.索引定义与本质索引是存储引擎用于快速查找数据的一种数据结构，本质是「数据项→数据地址」的映射表类比：相当于书籍的目录，通过目录（索引）快速定位章节
MySQL 锁详解：从原理到实战的并发控制指南一切皆有迹可循 mysql mysql 数据库后端 java sql
前言在高并发场景下，锁是MySQL保证数据一致性的核心机制。正确理解锁的类型、行为及适用场景，能有效避免数据竞争、死锁等问题，是构建可靠数据库应用的关键。本文从锁的分类、存储引擎差异到实战优化，结合代码示例，系统解析MySQL锁机制的核心原理与最佳实践。一、锁分类：按粒度与功能划分1.按锁粒度划分（1）全局锁（GlobalLock）作用范围：锁定整个数据库实例典型场景：全库逻辑备份（FLUSHTA
Firefox浏览器Flash及音乐播放插件使用指南酷毙的我啊
本文还有配套的精品资源，点击获取简介：随着Firefox逐步淘汰原生FlashPlayer支持，依赖于Flash的内容和某些网页音乐的播放需求催生了特定插件的开发。尽管HTML5已取代Flash成为网页多媒体的核心，教育和娱乐领域的某些旧内容仍然需要使用Flash。用户可以通过安装类似Ruffle这样的Flash模拟器来播放Flash内容，同时，专为Firefox设计的音乐插件如Enhancerf
信息学奥赛-一本通-第二部分基础算法 --＞第五章搜索与回溯算法攻城丶狮 C++比赛信息算法深度优先图论 c++青少年编程
1317：【例5.2】组合的输出【题目描述】排列与组合是常用的数学方法，其中组合就是从n个元素中抽出r个元素(不分顺序且r≤n)，我们可以简单地将n个元素理解为自然数1，2，…，n，从中任取r个数。现要求你用递归的方法输出所有组合。例如n＝5，r＝3，所有组合为：123124125134135145234235245345【题目分析】1.搜索函数参数:上一次搜索的数字i(i(n)>=i(n-1))
Python 数据分析与可视化：从基础到进阶的技术实现与优化策略女码农的重启 python 数据分析开发语言
数据分析与可视化是数据科学领域的核心技能，Python凭借其丰富的库生态和灵活的编程范式，成为该领域的首选工具。本文将系统讲解Python数据分析与可视化的技术栈实现，从基础操作到性能优化，结合实战场景提供可复用的解决方案。数据分析核心库技术解析Pandas数据处理引擎原理Pandas作为数据分析的基石，其核心优势在于基于NumPy的矢量运算和高效的内存管理。与Excel的单元格级操作不同，Pan
【第三十二天】STM32 平台全景解析与型号选择实战指南观熵每日一练：嵌入式 C++开发 365 天 stm32 嵌入式硬件单片机学习 C++
STM32平台全景解析与型号选择实战指南关键词：STM32、MCU选型、STM32F1、STM32G4、STM32H7、Flash/RAM、外设资源、封装选型、低功耗方案、嵌入式平台摘要：STM32系列是目前嵌入式开发中应用最广泛的ARMCortex-M微控制器平台之一，覆盖从入门级控制器到高性能边缘处理器的多种应用场景。本文从STM32的平台分类、架构演进、性能指标、外设组合、功耗管理等角度展开
Docker+Kubernetes落地指南：从单机到集群的平滑迁移 sg_knight docker docker kubernetes 容器 java spring cloud
一、为何必须升级到Kubernetes？1.1单机Docker的瓶颈单机环境痛点：├─资源利用率不均衡（CPU飙高vs内存闲置）├─服务扩容需手动操作├─零宕机更新难以实现└─网络配置复杂（跨主机通信困难）企业级需求：┌───────────┬───────────────┐|场景|Kubernetes方案||───────────|───────────────||滚动更新|Deployment
零基础英语学习之旅-语法篇（一）万能的小黑学长
入坑，从今天开始持续更新英语学习方法，剥丝抽茧，去除繁琐的语法概念，让大家，快速入门。花最少的时间，学最重要的东西。欢迎大家批评指正、多提意见。话不多说，直接进入正题。。。英语句子的基本五大结构主语：谓语动词之前的成分。Toseeistobelieve.Theflowersmellsgreat.谓语：谓语就是动词动词主要类型：1.实义动词2.系动词be动词等同于be动词3.助动词帮助动词实现时态和
2019.07.12 浅简的
姓名：蔡江燕公司：海南蔚蓝时代实业有限公司组别：365期谦虚3组学员【日精进打卡第468天】【知～学习】《六项精进》大纲0遍共1542遍《大学》0遍共1542遍《六项精进》通篇0遍共472遍《活法.壹》每天必读2页，今日未完成。《5分钟商学院》每天听书10分钟，未完成。【经典名句】路宽不如心宽，命好不如心好【行～实践】一、修身：（对自己个人）无二、齐家：（对家庭和家人）1、与家人聊天三、建功：（对
Python 字典(dict)和集合(set)新手指南
一、字典(dict)基础什么是字典？字典就像现实中的字典一样，通过"键(key)"快速查找对应的"值(value)"。#创建字典student_scores={"小明":90,"小红":85,"小刚":92}#查找成绩print(student_scores["小明"])#输出:90为什么字典查找快？字典使用哈希表实现，查找速度是O(1)级别，不会随着数据量增加而变慢。二、字典常用操作1.添加/修
日精进吾发叭门
亲爱的王总及何校，亲爱的家人们大家好!我是来自山峰教外教育的李永芳，今天是我第23天的日精进，给大家分享我今天的进步，我们互相勉励，携手前行。每天进步一点点，距离成功便不远。1、比学习：今天在排练快乐会议是，跟大学部的老师学到了很多WPS的一些软件功能，以及会议上的一些细节注意的方面。2、比改变：今天让我认识到了不一样的刘老师，相对于之前的严肃认真，今天的刘老师更加活泼可爱。3、比付出：今天老师们
脏读、不可重复读、幻读？一文扫盲数据库三大“读“问题
想象一下：你在银行查看账户余额时，数字在你眼前变来变去；或者明明没有记录的操作，却突然冒出新数据。这不是系统故障，而是数据库事务隔离的三大经典问题！今天我们就来揭开这些神秘现象的面纱。一、事务隔离的"三座大山"️在数据库世界中，多个事务同时操作数据时会产生三种典型问题：问题类型出现场景危害程度类比场景脏读读取未提交的数据⚠️⚠️⚠️高危看到别人未提交的草稿不可重复读同一事务内读取结果不一致⚠️⚠️
MySQL MVCC解密：多版本并发控制的魔法世界码农技术栈 MySQL mysql 数据库开发语言 java jvm 后端性能优化
当多个用户同时读写数据库时，MySQL如何避免数据混乱？本文将揭开MVCC的神秘面纱，带你探索这个让数据库高并发运行的魔法引擎！一、为什么需要MVCC？并发控制的困境想象图书馆借阅场景：传统方式：一本书只能一个人看（锁机制）MVCC方式：复印多份，每人看不同版本（多版本控制）传统锁机制的痛点：事务A读数据加锁事务B写数据等待锁释放长时间等待系统卡顿二、MVCC是什么？时间旅行的艺术MVCC核心概念
Agent架构解析及分布式Agent协作方案
来源：AI大模型应用实践AIAgent（智能体）系统发展迅猛，且关注点已经不再局限在Agent的规划推理等基本能力，智能体系统在扩展性、互操作、安全性等工程化方面的挑战也越来越引起重视，比如最近的MCP和A2A。上一篇我们介绍了A2A，今天接着再聊聊分布式Agent系统的话题。Agent模式架构解析Agent有效减少人类工作总量，人与AI协作才是最终形态。人类与AI交互可大致分为三种模式。Embe
写评论2元一条靠谱吗？(帮忙写评论赚钱是真的吗）趣闲赚手机做任务赚佣金
经常逛论坛的小伙伴,一定看到过这样的兼职工作讯息:“招聘兼职评论员”,不用任何技术含量,操作简单好上手,支付报酬。这类兼职看起来不像其他工作,真正完成了一样得花时间和金钱。但是这类兼职有些类似于招发帖员、外包、淘宝刷单兼职这种,真正积攒了一笔财富。趣闲赚上面的任务单价也就是几块钱到几十元一单，做的多挣的多。【趣闲赚】拿着手机做赏金任务，1元提现秒到账，在家躺着也赚钱！点击链接或者扫码下载：http
24.park和unpark方法卷土重来… java并发编程 java
1.park方法可以暂停线程，线程状态为wait。2.unpark方法可以恢复线程，线程状态为runnable。3.LockSupport的静态方法。4.park和unpark方法调用不分先后，unpark先调用，park后执行也可以恢复线程。publicclassParkDemo{publicstaticvoidmain(String[]args){Threadt1=newThread(()->
Redis 深度解析：从核心原理到生产实践 Pasregret 缓存 redis 数据库缓存
Redis深度解析：从核心原理到生产实践一、Redis核心定位与数据结构1.核心能力矩阵深度解析Redis作为高性能内存数据库，核心能力覆盖缓存、数据存储、消息中间件等场景，其设计哲学围绕速度优先、内存高效、功能丰富展开：内存存储特性纯内存操作：基于内存寻址的O(1)复杂度数据操作，单节点QPS可达10万+持久化方案：RDB（快照）与AOF（日志）双模式，支持数据持久化与故障恢复单线程模型：基于事
java多线程-锁的介绍
多线程中常用锁一、锁的概念二、锁的类型2.1互斥锁（也称排它锁）2.1.1Synchronized和Lock2.1.2ReentrantLock（可重入锁）2.1.3公平锁2.1.4非公平锁2.1.5中断锁2.2共享锁2.3读写锁三、悲观锁和乐观锁3.1悲观锁3.2乐观锁3.3CAS算法四、锁竞争一、锁的概念在多线程中，有乐观锁、悲观锁等很多锁的概念，在了解锁的概念之前我们需要先知道线程和进程以及
STM32 HAL库详解：跨系列兼容、CubeMX自动生成与回调机制全解析景彡先生 STM32 stm32 嵌入式硬件单片机
前言：为什么HAL库成为STM32开发的主流？如果你接触过STM32开发，一定听说过“库”的概念。早期开发者需要直接操作寄存器，一行行写配置代码（如RCC->CR|=RCC_CR_HSEON），不仅效率低，还容易出错。后来ST推出了标准外设库（SPL），封装了寄存器操作，但存在一个致命问题：不跨系列——STM32F1的代码无法直接在STM32F4上运行，换芯片意味着重写大量代码。2014年，ST推
vLLM快速入门：开启高效推理与部署之旅
在如今这个人工智能飞速发展的时代，语言模型的应用已经深入到我们生活的方方面面，从智能聊天机器人到文本生成工具，都离不开强大的语言模型技术支持。而vLLM作为一个专注于高效推理和部署的开源项目，正在为研究人员和开发人员提供一种全新的解决方案，让语言模型的使用变得更加便捷、高效。初识vLLM：背景与意义vLLM（VeryLargeLanguageModelInference）是一个专注于大型语言模型推
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &