njyuxinag

Spark常见问题处理

1.shuffle reduce端缓冲大小以避免OOM

map端的task是不断的输出数据的，数据量可能是很大的。但是，其实reduce端的task，并不是等到map端task将属于自己的那份数据全部写入磁盘文件之后，再去拉取的。map端写一点数据，reduce端task就会拉取一小部分数据，立即进行后面的聚合、算子函数的应用。每次reduece能够拉取多少数据，就由buffer来决定。因为拉取过来的数据，都是先放在buffer中的。然后才用后面的executor分配的堆内存占比（0.2），hashmap，去进行后续的聚合、函数的执行。

1.1.reduce端缓冲（buffer），可能会出什么问题？

可能是会出现，默认是48MB，也许大多数时候，reduce端task一边拉取一边计算，不一定一直都会拉满48M的数据。可能大多数时候，拉取个10M数据，就计算掉了。

大多数时候，也许不会出现什么问题。但是有的时候，map端的数据量特别大，然后写出的速度特别快。reduce端所有task，拉取的时候，全部达到自己的缓冲的最大极限值，缓冲，48M，全部填满。

这个时候，再加上你的reduce端执行的聚合函数的代码，可能会创建大量的对象。也许，一下子，内存就撑不住了，就会OOM。reduce端的内存中，就会发生内存溢出的问题。

1.2.问题，我们该怎么来解决呢？

这个时候，就应该减少reduce端task缓冲的大小。我宁愿多拉取几次，但是每次同时能够拉取到reduce端每个task的数量，比较少，就不容易发生OOM内存溢出的问题。（比如，可以调节成12M）

在实际生产环境中，我们都是碰到过这种问题的。这是典型的以性能换执行的原理。reduce端缓冲小了，不容易OOM了，但是，性能一定是有所下降的，你要拉取的次数就多了。就走更多的网络传输开销。

这种时候，只能采取牺牲性能的方式了，spark作业，首先，第一要义，就是一定要让它可以跑起来。分享一个经验，曾经写过一个特别复杂的spark作业，写完代码以后，半个月之内，就是跑不起来，里面各种各样的问题，需要进行troubleshooting。调节了十几个参数，其中就包括这个reduce端缓冲的大小。总算作业可以跑起来了。

spark.reducer.maxSizeInFlight，48 spark.reducer.maxSizeInFlight，24 减少reduce端task缓冲的大小。我宁愿多拉取几次

2.JVM GC导致的shuffle文件拉取失败

2.1.问题描述

有时会出现的一种情况，非常普遍，在spark的作业中；shuffle file not found。（spark作业中，非常非常常见的）而且，有的时候，它是偶尔才会出现的一种情况。有的时候，出现这种情况以后，会重新去提交stage、task。重新执行一遍，发现就好了。没有这种错误了。log怎么看？用client模式去提交你的spark作业。比如standalone client；yarn client。一提交作业，直接可以在本地看到刷刷刷更新的log。

比如，executor的JVM进程，可能内存不是很够用了。那么此时可能就会执行GC。minor GC or full GC。总之一旦发生了JVM之后，就会导致executor内，所有的工作线程全部停止，比如BlockManager，基于netty的网络通信。

下一个stage的executor，可能是还没有停止掉的，task想要去上一个stage的task所在的exeuctor，去拉取属于自己的数据，结果由于对方正在gc，就导致拉取了半天没有拉取到。就很可能会报出，shuffle file not found。但是，可能下一个stage又重新提交了stage或task以后，再执行就没有问题了，因为可能第二次就没有碰到JVM在gc了。

2.2. 问题修改

spark.shuffle.io.maxRetries 3

第一个参数，意思就是说，shuffle文件拉取的时候，如果没有拉取到（拉取失败），最多或重试几次（会重新拉取几次文件），默认是3次。

spark.shuffle.io.retryWait 5s

第二个参数，意思就是说，每一次重试拉取文件的时间间隔，默认是5s钟。

默认情况下，假如说第一个stage的executor正在进行漫长的full gc。第二个stage的executor尝试去拉取文件，结果没有拉取到，默认情况下，会反复重试拉取3次，每次间隔是五秒钟。最多只会等待3 * 5s = 15s。如果15s内，没有拉取到shuffle file。就会报出shuffle file not found。

针对这种情况，我们完全可以进行预备性的参数调节。增大上述两个参数的值，达到比较大的一个值，尽量保证第二个stage的task，一定能够拉取到上一个stage的输出文件。避免报shuffle file not found。然后可能会重新提交stage和task去执行。那样反而对性能也不好。

3.YARN队列资源不足导致的application直接失败

3.1.现象

如果说，你是基于yarn来提交spark。比如yarn-cluster或者yarn-client。你可以指定提交到某个hadoop队列上的。每个队列都是可以有自己的资源的。

假如我们的环境给spark用的yarn资源队列的情况：500G内存，200个cpu core。

比如说，某个spark application，在spark-submit里面你自己配了，executor，80个；每个executor，4G内存；每个executor，2个cpu core。你的spark作业每次运行，大概要消耗掉320G内存，以及160个cpu core。

乍看起来，咱们的队列资源，是足够的，500G内存，280个cpu core。

首先，第一点，你的spark作业实际运行起来以后，耗费掉的资源量，可能是比你在spark-submit里面配置的，以及你预期的，是要大一些的。400G内存，190个cpu core。

那么这个时候，的确，咱们的队列资源还是有一些剩余的。但是问题是，如果你同时又提交了一个spark作业上去，一模一样的。那就可能会出问题。

第二个spark作业，又要申请320G内存+160个cpu core。结果，发现队列资源不足。。。。

此时，可能会出现两种情况：（备注，具体出现哪种情况，跟你的YARN、Hadoop的版本，你们公司的一些运维参数，以及配置、硬件、资源肯能都有关系）

1、YARN，发现资源不足时，你的spark作业，并没有hang在那里，等待资源的分配，而是直接打印一行fail的log，直接就fail掉了。

2、YARN，发现资源不足，你的spark作业，就hang在那里。一直等待之前的spark作业执行完，等待有资源分配给自己来执行。

此时，可能会出现两种情况：（备注，具体出现哪种情况，跟你的YARN、Hadoop的版本，你们公司的一些运维参数，以及配置、硬件、资源肯能都有关系）

3.2.应对方案

1、在你的J2EE（我们这个项目里面，spark作业的运行，之前说过了，J2EE平台触发的，执行spark-submit脚本），限制，同时只能提交一个spark作业到yarn上去执行，确保一个spark作业的资源肯定是有的。

2、你应该采用一些简单的调度区分的方式，比如说，你有的spark作业可能是要长时间运行的，比如运行30分钟；有的spark作业，可能是短时间运行的，可能就运行2分钟。此时，都提交到一个队列上去，肯定不合适。很可能出现30分钟的作业卡住后面一大堆2分钟的作业。分队列，可以申请（跟你们的YARN、Hadoop运维的同学申请）。你自己给自己搞两个调度队列。每个队列的根据你要执行的作业的情况来设置。在你的J2EE程序里面，要判断，如果是长时间运行的作业，就干脆都提交到某一个固定的队列里面去把；如果是短时间运行的作业，就统一提交到另外一个队列里面去。这样，避免了长时间运行的作业，阻塞了短时间运行的作业。

3、你的队列里面，无论何时，只会有一个作业在里面运行。那么此时，就应该用我们之前讲过的性能调优的手段，去将每个队列能承载的最大的资源，分配给你的每一个spark作业，比如80个executor；6G的内存；3个cpu core。尽量让你的spark作业每一次运行，都达到最满的资源使用率，最快的速度，最好的性能；并行度，240个cpu core，720个task。

4、在J2EE中，通过线程池的方式（一个线程池对应一个资源队列），来实现上述我们说的方案。

4.解决各种序列化导致的报错

4.1.报错问题

用client模式去提交spark作业，观察本地打印出来的log。如果出现了类似于Serializable、Serialize等等字眼，报错的log，那么恭喜大家，就碰到了序列化问题导致的报错。

虽然是报错，但是序列化报错，应该是属于比较简单的了，很好处理。

序列化报错要注意的三个点：

1、你的算子函数里面，如果使用到了外部的自定义类型的变量，那么此时，就要求你的自定义类型，必须是可序列化的。

2、如果要将自定义的类型，作为RDD的元素类型，那么自定义的类型也必须是可以序列化的

3、不能在上述两种情况下，去使用一些第三方的，不支持序列化的类型

5.解决算子函数返回NULL导致的问题

大家可以看到，在有些算子函数里面，是需要我们有一个返回值的。但是，有时候，我们可能对某些值，就是不想有什么返回值。我们如果直接返回NULL的话，那么可以不幸的告诉大家，是不行的，会报错的。

Scala.Math(NULL)，异常

如果碰到你的确是对于某些值，不想要有返回值的话，有一个解决的办法：

1、在返回的时候，返回一些特殊的值，不要返回null，比如“-999”

2、在通过算子获取到了一个RDD之后，可以对这个RDD执行filter操作，进行数据过滤。filter内，可以对数据进行判定，如果是-999，那么就返回false，给过滤掉就可以了。

3、大家不要忘了，之前咱们讲过的那个算子调优里面的coalesce算子，在filter之后，可以使用coalesce算子压缩一下RDD的partition的数量，让各个partition的数据比较紧凑一些。也能提升一些性能。

6.解决yarn-client模式导致的网卡流量激增问题

6.1.yarn-client模式下，会产生什么样的问题呢？

由于咱们的driver是启动在本地机器的，而且driver是全权负责所有的任务的调度的，也就是说要跟yarn集群上运行的多个executor进行频繁的通信（中间有task的启动消息、task的执行统计消息、task的运行状态、shuffle的输出结果）。

咱们来想象一下。比如你的executor有100个，stage有10个，task有1000个。每个stage运行的时候，都有1000个task提交到executor上面去运行，平均每个executor有10个task。接下来问题来了，driver要频繁地跟executor上运行的1000个task进行通信。通信消息特别多，通信的频率特别高。运行完一个stage，接着运行下一个stage，又是频繁的通信。

在整个spark运行的生命周期内，都会频繁的去进行通信和调度。所有这一切通信和调度都是从你的本地机器上发出去的，和接收到的。这是最要人命的地方。你的本地机器，很可能在30分钟内（spark作业运行的周期内），进行频繁大量的网络通信。那么此时，你的本地机器的网络通信负载是非常非常高的。会导致你的本地机器的网卡流量会激增！！！

你的本地机器的网卡流量激增，当然不是一件好事了。因为在一些大的公司里面，对每台机器的使用情况，都是有监控的。不会允许单个机器出现耗费大量网络带宽等等这种资源的情况。运维人员。可能对公司的网络，或者其他（你的机器还是一台虚拟机），对其他机器，都会有负面和恶劣的影响。

6.2.解决方法

实际上解决的方法很简单，就是心里要清楚，yarn-client模式是什么情况下，可以使用的？yarn-client模式，通常咱们就只会使用在测试环境中，你写好了某个spark作业，打了一个jar包，在某台测试机器上，用yarn-client模式去提交一下。因为测试的行为是偶尔为之的，不会长时间连续提交大量的spark作业去测试。还有一点好处，yarn-client模式提交，可以在本地机器观察到详细全面的log。通过查看log，可以去解决线上报错的故障（troubleshooting）、对性能进行观察并进行性能调优。

实际上线了以后，在生产环境中，都得用yarn-cluster模式，去提交你的spark作业。

yarn-cluster模式，就跟你的本地机器引起的网卡流量激增的问题，就没有关系了。也就是说，就算有问题，也应该是yarn运维团队和基础运维团队之间的事情了。使用了yarn-cluster模式以后，就不是你的本地机器运行Driver，进行task调度了。是yarn集群中，某个节点会运行driver进程，负责task调度。

7.yarn-cluster模式的JVM内存溢出无法执行问题

yarn-client模式，driver运行在本地机器上的；yarn-cluster模式，driver是运行在yarn集群上某个nodemanager节点上面的。

yarn-client会导致本地机器负责spark作业的调度，所以网卡流量会激增；yarn-cluster模式就没有这个问题。

yarn-client的driver运行在本地，通常来说本地机器跟yarn集群都不会在一个机房的，所以说性能可能不是特别好；yarn-cluster模式下，driver是跟yarn集群运行在一个机房内，性能上来说，也会好一些。

7.1.碰到的yarn-cluster的问题：

有的时候，运行一些包含了spark sql的spark作业，可能会碰到yarn-client模式下，可以正常提交运行；yarn-cluster模式下，可能是无法提交运行的，会报出JVM的PermGen（永久代）的内存溢出，OOM。

yarn-client模式下，driver是运行在本地机器上的，spark使用的JVM的PermGen的配置，是本地的spark-class文件（spark客户端是默认有配置的），JVM的永久代的大小是128M，这个是没有问题的；但是呢，在yarn-cluster模式下，driver是运行在yarn集群的某个节点上的，使用的是没有经过配置的默认设置（PermGen永久代大小），82M。

spark-sql，它的内部是要进行很复杂的SQL的语义解析、语法树的转换等等，特别复杂，在这种复杂的情况下，如果说你的sql本身特别复杂的话，很可能会比较导致性能的消耗，内存的消耗。可能对PermGen永久代的占用会比较大。

所以，此时，如果对永久代的占用需求，超过了82M的话，但是呢又在128M以内；就会出现如上所述的问题，yarn-client模式下，默认是128M，这个还能运行；如果在yarn-cluster模式下，默认是82M，就有问题了。会报出PermGen Out of Memory error log。

7.2.解决方案

既然是JVM的PermGen永久代内存溢出，那么就是内存不够用。咱们呢，就给yarn-cluster模式下的，driver的PermGen多设置一些。

spark-submit脚本中，加入以下配置即可：

--conf spark.driver.extraJavaOptions="-XX:PermSize=128M -XX:MaxPermSize=256M"

这个就设置了driver永久代的大小，默认是128M，最大是256M。那么，这样的话，就可以基本保证你的spark作业不会出现上述的yarn-cluster模式导致的永久代内存溢出的问题。

7.3. spark sql，sql，要注意，一个问题

sql，有大量的or语句。比如where keywords='' or keywords='' or keywords=''

当达到or语句，有成百上千的时候，此时可能就会出现一个driver端的jvm stack overflow，JVM栈内存溢出的问题

JVM栈内存溢出，基本上就是由于调用的方法层级过多，因为产生了大量的，非常深的，超出了JVM栈深度限制的，递归。递归方法。我们的猜测，spark sql，有大量or语句的时候，spark sql内部源码中，在解析sql，比如转换成语法树，或者进行执行计划的生成的时候，对or的处理是递归。or特别多的话，就会发生大量的递归。

JVM Stack Memory Overflow，栈内存溢出。

这种时候，建议不要搞那么复杂的spark sql语句。采用替代方案：将一条sql语句，拆解成多条sql语句来执行。每条sql语句，就只有100个or子句以内；一条一条SQL语句来执行。根据生产环境经验的测试，一条sql语句，100个or子句以内，是还可以的。通常情况下，不会报那个栈内存溢出。

8.错误的持久化方式以及checkpoint的使用

8.1.错误的持久化使用方式：

如现在有一个usersRDD，想要对这个RDD做一个cache，希望能够在后面多次使用这个RDD的时候，不用反复重新计算RDD；可以直接使用通过各个节点上的executor的BlockManager管理的内存 / 磁盘上的数据，避免重新反复计算RDD。

usersRDD.cache() usersRDD.count() usersRDD.take()

上面这种方式，不要说会不会生效了，实际上是会报错的。会报什么错误呢？会报一大堆file not found的错误。

正确的持久化使用方式：

usersRDD

usersRDD = usersRDD.cache()

val cachedUsersRDD = usersRDD.cache()

之后再去使用usersRDD，或者cachedUsersRDD，就可以了。就不会报错了。所以说，这个是咱们的持久化的正确的使用方式。

8.2.持久化遇到的问题：

持久化，大多数时候，都是会正常工作的。但是就怕，有些时候，会出现意外。

比如说，缓存在内存中的数据，可能莫名其妙就丢失掉了。或者说，存储在磁盘文件中的数据，莫名其妙就没了，文件被误删了。

出现上述情况的时候，接下来，如果要对这个RDD执行某些操作，可能会发现RDD的某个partition找不到了。对消失的partition重新计算，计算完以后再缓存和使用。

有些时候，计算某个RDD，可能是极其耗时的。可能RDD之前有大量的父RDD。那么如果你要重新计算一个partition，可能要重新计算之前所有的父RDD对应的partition。这种情况下，就可以选择对这个RDD进行checkpoint，以防万一。进行checkpoint，就是说，会将RDD的数据，持久化一份到容错的文件系统上（比如hdfs）。在对这个RDD进行计算的时候，如果发现它的缓存数据不见了。优先就是先找一下有没有checkpoint数据（到hdfs上面去找）。如果有的话，就使用checkpoint数据了。不至于说是去重新计算。

checkpoint，其实就是可以作为是cache的一个备胎。如果cache失效了，checkpoint就可以上来使用了。checkpoint有利有弊，利在于，提高了spark作业的可靠性，一旦发生问题，还是很可靠的，不用重新计算大量的rdd；但是弊在于，进行checkpoint操作的时候，也就是将rdd数据写入hdfs中的时候，还是会消耗性能的。checkpoint，用性能换可靠性。

8.3.checkpoint原理：

1、在代码中，用SparkContext，设置一个checkpoint目录，可以是一个容错文件系统的目录，比如hdfs；

2、在代码中，对需要进行checkpoint的rdd，执行RDD.checkpoint()；

3、RDDCheckpointData（spark内部的API），接管你的RDD，会标记为marked for checkpoint，准备进行checkpoint

4、你的job运行完之后，会调用一个finalRDD.doCheckpoint()方法，会顺着rdd lineage，回溯扫描，发现有标记为待checkpoint的rdd，就会进行二次标记，inProgressCheckpoint，正在接受checkpoint操作

5、job执行完之后，就会启动一个内部的新job，去将标记为inProgressCheckpoint的rdd的数据，都写入hdfs文件中。（备注，如果rdd之前cache过，会直接从缓存中获取数据，写入hdfs中；如果没有cache过，那么就会重新计算一遍这个rdd，再checkpoint）

6、将checkpoint过的rdd之前的依赖rdd，改成一个CheckpointRDD*，强制改变你的rdd的lineage。后面如果rdd的cache数据获取失败，直接会通过它的上游CheckpointRDD，去容错的文件系统，比如hdfs中，获取checkpoint的数据。

Java 学习之BigInteger和BigDecimal 番薯大佬 java学习 java biginteger biginteger java bigdecimal bigdecimal
packagejavaObject;importjava.math.BigDecimal;importjava.math.BigInteger;importjava.math.RoundingMode;publicclassjavaMath{publicstaticvoidmain(String[]args){/**BigInteger用于表示任意大小的整数*把BigInteger转换成基本类型*
python基础变量之---字典暴龙胡乱写博客 python 开发语言人工智能
python基础变量之—字典文章目录python基础变量之---字典一、字典1.字典介绍2.字典创建3.字典操作4.元组常用API一、字典1.字典介绍字典是可变容器，可存储任意类型对象字典以键(key)-值(value)对的形式进行映射，键值对用冒号分割，对之间用逗号分割d={key1:value1,key2:value2,key3:value3}字典的数据是无序的字典的键只能用不可变类型，且不能
python笔记之常用命令总结 chenlang_lbs python 笔记
1、nautilus：打开当前工作目录2、wcfiles_names：查看文件的数量3、Pycharm的常用命令ctrl+r：查找命令4、sshnb@192.168.2.55：获得进入nb@电脑的权限5、复制很长的数据的技巧：在数据前面点击+shift+在数据后面点击+（ctrl+c），完成复制
数据结构完全指南：C语言实现与核心原理剖析南玖yy 数据结构 c语言开发语言
引言：程序设计的骨架艺术在计算机科学的殿堂中，数据结构犹如建筑设计的钢筋骨架，决定着程序的运行效率与资源消耗。本文将以C语言为载体，深入解析七大核心数据结构，通过原理剖析、代码实现和复杂度分析三重视角，带您构建完整的数据结构知识体系。第一章：线性结构的基石1.1数组：内存的连续之美//动态数组实现typedefstruct{int*data;size_tcapacity;size_tsize;}D
QML ＜画布元素＞之画布绘制 ly_zszcyx 学习 Qml Qt
绘制四个色块，使用鼠标选择颜色，按下鼠标，在画布上随意绘制绘制四个色块：当鼠标位置改变时，canvas的requestPaint函数用于请求重新绘制画布。函数不会立即触发重绘，而是向事件循环发送一个信号，表明画布需要更新。当事件进入下一次有机会处理时。它会调用onPaint回调函数来执行实际的绘图操作矩形框代码：importQtQuick2.15Item{id:rootpropertycolors
串口通信-STM32的USART串口通讯程序 love_yiyi_li stm32 单片机 arm
目录一、原理介绍1.串口协议2.常用协议标准1）RS-2322）RS-4853.RS232、485电平与TTL电平的区别1）RS232电平2）RS485电平3）TTL电平4)RS232、485电平与TTL电平的区别3.USB转串口1）基本原理2）芯片简介3）工作原理二、串口通信操作1.驱动下载2.程序编写1）源程序2）编译运行3）烧录结果三、总结一、原理介绍1.串口协议串口是显控设备与信号处理板之
微信小程序之创建底部菜单栏（新手学习）我的星系小程序创建底部tab菜单栏微信小程序
上一篇文章创建新项目后，点击进入项目，可以看到目录结构：pages:页面路径列表window：默认窗口表现tabBar：底部tab栏点击进入app.json,{ "pages":[ "pages/home/home", //新建的首页路径（放在首位的路径最先展示） "pages/index/index", //小程序自带路径->获取头像信息 "pages/log
RISC_V GPU skybox 系列 core 模块之VX_dispatch_unit.sv CDerL skybox skybox _core skybox core
VX_dispatch_unit.sv代码分析总结//Copyright©2019-2023////LicensedundertheApacheLicense,Version2.0(the"License");//youmaynotusethisfileexceptincompliancewiththeLicense.//YoumayobtainacopyoftheLicenseat//http:
通过 ElasticSearch的Python API和`curl` 命令获取Elasticsearch 所有索引名称 BigBookX elasticsearch jenkins 大数据
导言在大数据管理和实时搜索场景中，Elasticsearch是一款不可或缺的工具。无论是开发调试、数据维护，还是系统监控，快速列出所有索引名称都是一个高频需求。本文将手把手教你如何通过Python客户端连接Elasticsearch，并用两种方法获取索引列表，同时提供代码示例和实战技巧，助你高效掌控Elasticsearch的索引管理。一、为什么需要列出索引名称？在Elasticsearch中，索
Angular 踩坑之版本升级—— TS / Node版本 KenkoTech Angular Node angular.js javascript 前端
这个比较简单也比较坑，可能你只计划升级Node，但最后发现连Angular也要一起升，无形中工作量加大不少，Angular官方也没说对应的TS版本和Node版本。但是在compiler-cli里确实对这两个有要求。具体可以查询angular/package.jsonat8.0.0·angular/angular·GitHub为了方便我把最近的几个版本的依赖给大家列出来。angular14"type
一文看懂web组态 2501_90680076 物联网 web 数学建模前端后端
web可视化编辑器，又称WEB组态可视化软件，即用户可以在web页面编辑器上直接搭建出一个行业应用系统出来。web组态可视化编辑器能够运用在哪些场景中呢？web组态可视化编辑器为工程用户提供了二次开发的可能，不用编程、不用写代码，通过可视化界面即可生成web页面，开发出一个应用系统来，在电力、物联网、大数据平台有广泛的应用。一个好的应用系统，应该给用户提供业务自定义的工具。一个好的应用系统，应该采
测试之 Bug 篇ふり软件测试 bug 开发语言测试工具
1.软件测试的生命周期软件测试贯穿软件的于软件的整个生命周期，而软件的测试周期是指测试流程。各个阶段的内容：需求分析测试计划测试设计与开发测试执行测试评估上线运行维护用户角度：需求合理性技术角度：可行性及优化空间测试角度：业务逻辑错误检测制定开发/结束时间计划预估测试耗时1.参考需求/技术文档编写用例2.标注测试方法/工具/形式1.使用测试工具全面覆盖2.执行用例验证1.BUG遗留状态确认2.生成
RISC_V GPU skybox 系列 core 模块之VX_issue.sv CDerL skybox _core skybox issue skybox core
VX_issue_top.sv//Copyright©2019-2023////LicensedundertheApacheLicense,Version2.0(the"License");//youmaynotusethisfileexceptincompliancewiththeLicense.//YoumayobtainacopyoftheLicenseat//http://www.apac
DeepSeek对于普通打工人来说有什么帮助呢？人工智能
在当今快速变化的社会中，普通打工人面临着越来越多的挑战：职场竞争加剧、技能更新换代加快、工作与生活的平衡难以掌控等。在这样的背景下，如何提升自身竞争力、找到适合自己的职业发展路径，成为了每个打工人都需要思考的问题。而DeepSeek，作为一款基于人工智能和大数据分析的职业发展工具，正在为普通打工人提供全新的解决方案。本文将从多个角度探讨DeepSeek对于普通打工人的帮助，分析它如何通过职业规划、
网络安全之防御保护8 - 11 天笔记温柔小胖 web安全笔记网络
一、内容安全1、攻击可能只是一个点，防御需要全方面进行2、IAE引擎3、DFI和DPI技术---深度检测技术深度行为检测技术分为：深度包检测技术(DPI)、深度流检测技术(DFI)DPI---深度包检测技术---主要针对完整的数据包（数据包分片，分段需要重组），之后对数据包的内容进行识别。（应用层）深度包检测技术分类：1、基于“特征字”的检测技术2、基于应用网关的检测技术3、基于行为模式的检测技术
数据结构之队列，哈希表不知真不只数据结构散列表
一队列(先进先出)1.定义：从一端进行数据插入，另一端进行删除的线性存储结构队列类型常见操作-入队（Enqueue）：将新元素添加到队列的尾部。若队列有空间，新元素会成为队列的新尾部元素；若队列已满，可能会触发队列已满的处理机制。-出队（Dequeue）：从队列的头部移除元素。执行后，原队头元素被删除，原队头的下一个元素成为新队头。若队列为空，可能会触发队列空的处理机制。-获取队头元素（Front
ssl和tsl的区别及如何使用噔噔噔噔@ ssl 网络协议网络
SSL（SecureSocketsLayer）和TLS（TransportLayerSecurity）都是用于加密和保护网络通信安全的协议。TLS实际上是SSL的升级版本，更加安全和强大。下面是它们之间的主要区别以及如何使用它们：区别：SSL是最早用于加密网络通信的协议，随着安全漏洞的暴露，逐渐被TLS所取代。TLS提供了更强大的加密算法和更严格的安全性要求，相比SSL更安全可靠。SSL和TLS之
深入大数据世界：Kontext.TECH的Hadoop之旅钱桦实Emery
深入大数据世界：Kontext.TECH的Hadoop之旅winutils项目地址:https://gitcode.com/gh_mirrors/winut/winutils在大数据的浩瀚宇宙中，Hadoop作为一颗璀璨的星辰，一直扮演着至关重要的角色。对于渴望探索这一领域的开发者和学习者而言，Kontext.TECH提供了一扇独特而便捷的大门，让你的学习之旅更加顺畅。项目介绍Kontext.Ha
C++之创建线程 C嘎嘎嵌入式开发 C++c++开发语言
1.使用函数指针最简单的方式是使用一个普通的函数作为线程的入口点。#include#includevoidthreadFunction(){std::cout#includeintmain(){std::threadt([]{std::cout#includeclassMyClass{public:voidmemberFunction(){std::cout#includevoidthreadFu
python数据结构之线性表努力Study的小陈 python数据结构 python 数据结构
线性表线性表的基本概念线性表的两种存储结构顺序存储结构优缺点链式存储结构优缺点顺序表1.初始化顺序表2.按下标值查找元素3.修改下标值为index的位置的元素4.判断顺序表是否为空5.插入表头元素6.在顺序表中任意位置插入元素O(n)7.删除表尾元素8.删除任意位置的元素9.获取顺序表的长度10.遍历顺序表单链表1.节点定义代码2.初始化3.判断是否为空4.获取单链表长度5.头插入法6.在中间插入
连接未来，紧固无限——第十五届上海紧固件专业展（FES 2025）引领行业新潮流紧固视界人工智能大数据汽车硬件工程
在现代工业体系中，紧固件作为不可或缺的基础零部件，被形象地比喻为“工业之米”。它们广泛应用于汽车、铁路、轨道交通、风电、工程机械、机械装备、家具、建筑、电子电器、自动化、机器人、航空航天等领域，对各行业的稳定和发展起着关键作用。作为中国乃至亚洲最大的紧固件专业展览会，上海紧固件专业展（FastenerExpoShanghai,FES）已成为全球紧固件制造商、采购商及相关从业者交流与合作的重要平台。
Python中的简单爬虫 m0_74825614 面试学习路线阿里巴巴 python 爬虫信息可视化
文章目录一.基于FastAPI之Web站点开发1.基于FastAPI搭建Web服务器2.Web服务器和浏览器的通讯流程3.浏览器访问Web服务器的通讯流程4.加载图片资源代码二.基于Web请求的FastAPI通用配置1.目前Web服务器存在问题2.基于Web请求的FastAPI通用配置三.Python爬虫介绍1.什么是爬虫2.爬虫的基本步骤3.安装requests模块4.爬取照片①查看index.
K8S 持久化之静态PV (nfs) oToyix K8S Devops k8s 静态PV pvc pv
K8S持久化之静态PV（NFS）K8S部署见上篇：https://blog.csdn.net/oToyix/article/details/117963839一、概念PersistentvolumePersistentVolume（持久存储卷）简称PV，是一个K8S资源对象，所以我们可以单独创建一个PV。它不和Pod直接发生关系，而是通过PersistentVolumeClaim（PV索取），简称
智慧农业平台与 DeepSeek 大模型的深度融合 jingwang-cs 人工智能后端
在数字化浪潮席卷全球的今天，农业领域正迎来一场深刻的变革。智慧农业，作为农业现代化的重要发展方向，正借助人工智能、大数据等前沿技术，实现从传统到现代的跨越。本文将为您详细介绍智慧农业领域的新趋势，以及智慧农业平台如何携手DeepSeek大模型，赋能农业数字化转型，引领农业迈向新时代。智慧农业的新趋势：拥抱DeepSeek大模型智慧农业的发展离不开技术创新的推动。近期，DeepSeek大模型在农业领
Python基础之集合和变量类型（四） Hao想睡觉 python 开发语言
Python基础之集合和变量类型（四）文章目录Python基础之集合和变量类型（四）一、集合1.1创建集合1.2集合操作1.2.1添加数据1.2.2删除数据1.3常见API二、变量类型2.1可变与不可变2.1.1不可变类型2.1.2可变类型2.1.3二者区别2.2类型判断2.3类型转换一、集合1.1创建集合直接创建（集合中不能存在同样的数据）s=set()print(s)#set()s=set("
【脑洞小剧场】零帧起手创业小公司之 UI设计稿初稿 Foyo Designer 技术职场小剧产品经理改行学it 经验分享程序人生前端 ui
点击此处查看脑洞小剧场合集https://blog.csdn.net/foyodesigner/category_12896948.html阳光透过办公室的窗户，洒在吴艾（UI工程师）的桌上，映照出他那张略显疲惫但又充满期待的脸。今天，他终于完成了那份被无数次催促、无数次修改的UI设计稿初稿。他深吸一口气，像是要把这份成果深深烙印在心里，然后满怀信心地点开了与产品经理程立新和前端程序员段码的群聊窗
【脑洞小剧场】零帧起手创业小公司之第一次项目团建 Foyo Designer 技术职场小剧职场和发展程序人生创业创新远程工作跳槽改行学it
点击查看小剧场合集https://blog.csdn.net/foyodesigner/category_12896948.html阳光明媚的周末，本应是睡懒觉、打游戏或者追剧的好时光，但对于这家小公司的员工们来说，却迎来了他们成立以来的第一次团建活动。全栈工程师全搞一脸无奈地站在公司门口，看着手里的团建通知，心里嘀咕着：“团建？不会是又要加班吧？还说是去爬山，这是要累死我们吗？”场景一：全栈工程
LeetCode100之对称二叉树(101)--Java xiao--xin Leetcode java leetcode 算法二叉树
1.问题描述给你一个二叉树的根节点root，检查它是否轴对称。示例1输入：root=[1,2,2,3,4,4,3]输出：true示例2输入：root=[1,2,2,null,3,null,3]输出：false提示树中节点数目在范围[1,1000]内-100queue=newLinkedList<>();//若根节点不为空，将根节点存入队列if(root!=null){queue.offer(roo
mysql数据库alter语句_MySQL之alter语句用法总结许小晴 mysql数据库alter语句
1：删除列ALTERTABLE【表名字】DROP【列名称】2：增加列ALTERTABLE【表名字】ADD【列名称】INTNOTNULLCOMMENT'注释说明'3：修改列的类型信息ALTERTABLE【表名字】CHANGE【列名称】【新列名称(这里可以用和原来列同名即可)】BIGINTNOTNULLCOMMENT'注释说明'4：重命名列ALTERTABLE【表名字】CHANGE【列名称】【新列名称
EasyExcel 使用详解与示例 clownAdam Java easyExcel easyexcel java java操作EasyExcel
EasyExcel详解1.简介EasyExcel是阿里巴巴开源的一款基于Java的Excel操作工具，专注于高性能、低内存占用的Excel读写。相比ApachePOI，EasyExcel在处理大数据量时表现更优，尤其适合处理百万行级别的Excel文件。2.主要特性高性能：采用流式读写模型，内存占用低，适合大数据量处理。易用性：API设计简洁，支持链式调用。功能丰富：支持Excel的读写、样式设置、
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {

Spark常见问题处理

你可能感兴趣的:(大数据之spark)