冰火同学

Spark常见面试题目（1）

Spark有哪几种部署的方式，谈谈方式都有哪些特点

第一种是local本地部署,通常就是一台机器用于测试。
第二种是standalone部署模式，就是一个master节点，控制几个work节点，其实一台机器的standalone模式就是它自己即是master,又是work。
第三种是yarn模式，就是吧spark交给yarn进行资源调度管理。
第四种就是messon模式，这种在国内很少见到。

Spark主备切换机制了解么

如果是在 spark standalone集群模式下，也就是使用spark自带的集群管理模式，那么spark的master阶段管理worker的资源分配，为防止master主节点宕机导致，可以对master节点进行高可用设置。
也就是备份几个stand master节点。实现主要是通过zookeper的选择机制进行主节点的选取，其中另外一个比较关键的步骤就需要进行状态持久化，mater节点了持久化当前集群的元数据到zookeeper。
在master节点出现异常的情况下，zookeeper可以通过选取机制选取到新的主节点，然后主节点将从zookeepe获取到最新持久化的元数据；
如果是spark yarn模式的话，就按按yarn的高可用方式就可以了。

Spark任务使用什么提交

spark任务提交的方式有很多种：
1、使用spark_shell：日常做一些简单的测试，使用spark-shell命名就可以，然后通过scala语言进行查询处理

/home/hadoop/app/spark-2.2.0-bin-2.6.0-cdh5.7.0/bin/spark-shell \
> --master spark://192.168.2.111:7077 \
> --executor-memory 2G \
> --total-executor-cores 2
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
25/02/15 16:45:37 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
25/02/15 16:45:43 WARN ObjectStore: Failed to get database global_temp, returning NoSuchObjectException
Spark context Web UI available at http://192.168.2.111:4040
Spark context available as 'sc' (master = spark://192.168.2.111:7077, app id = app-20250215164538-0002).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.2.0
      /_/
         
Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_144)
Type in expressions to have them evaluated.
Type :help for more information.

scala> sc.textFile("hdfs://192.168.2.102:9000//user/spark/input/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).saveAsTextFile("hdfs://192.168.2.102:9000//user/spark/out")
                                                                                
scala> sc.textFile("hdfs://192.168.2.102:9000/user/spark/out/*").collect().foreach(println)
(orange,1)
(queen,1)
(rabbit,1)
(fish,1)
(dog,1)
(apple,1)
(pig,1)
(umbrella,1)
(snake,1)
(lion,1)
(juice,1)
(cat,1)
(tiger,1)
(banana,1)
(monkey,1)
(nose,1)
(kite,1)
(elephant,1)
(ice,1)
(goat,1)
(horse,1)

2、使用spark-commit的shell脚本提交任务：这种就是涉及到jar包，我们会开发好我们的逻辑并通过maven打包好java包，通过spark-commit命令提交saprk运行任务李并且在工作中我们需要通过xx-job或者Airfloe，Azkaban，等等的调度工具进行定时调度运行。

[root@hadoop000 spark-2.2.0-bin-2.6.0-cdh5.7.0]# /home/hadoop/app/spark-2.2.0-bin-2.6.0-cdh5.7.0/bin/spark-submit \
> --class org.apache.spark.examples.SparkPi \
> --master spark://192.168.2.111:7077 \
> --executor-memory 1G \
> --total-executor-cores 2 \
> /home/hadoop/app/spark-2.2.0-bin-2.6.0-cdh5.7.0/examples/jars/spark-examples_2.11-2.2.0.jar

提交任务都有哪些参数

第一个是需要运行的主函数class:这个就是jar包里面的主函数
第二个就是每个任务执行节点的内核，默认就是1，官方建议2-5个，我们公司设置的3个
第三个就是每个执行机器的设置内存，这个根据实际的任务进行灵活调整，我们公司但是是6G或者8G
另外两个就是driver的内核和内存

Spark架构都有哪些组件

Spark组件架构主要采用主从结构，分别是driver驱动器，Excutor执行器,和cluster Manager集群管理器这个三个架构组件
其中driver驱动器主要负责spark执行Excutor的任务分配。
Excutor执行器猪獒就是负责将被分配到的task任务进行处理
claster manager管理有多钟：
第一种的spark自带的的集群管理，叫做standalone。
第二种是spark on yarn，就是将任务字段给到apache yarn进行资源调度管理。
第三种是spark on meoss,meoss是一种类似于yarn的集群资源管理，在国外用的比较常见。

简述一下Spark钟standalone集群模式的提交流程

spark的standalone模集群模式是spark自带的一种集群模式，主要就是适用于进行测试环境的测试工作，以及一些数据小范围的测试使用，一般不用于生产环境。
standalone模式洪有 master,worker,driver,excutor,w无需依赖其它。
其中master指的就是主节点，管理对worker从节点资源的分配和管理，决定Driver和xcutor的运行位置
worker从节点主要是接受来自master主节点的指示启动Excutor
driver驱动器是负责管理任务的DAU，负责调度运行task任务，取决于standalone是那种模式，如果是clinet的就是，就是提交大客户端机器上，如果是standaone on clusetr，就是会运行在某个从节点上。
excutor执行器是负责执行task任务的。

上述讲的其实就是spark任务提交所涉及到的租金啊，那么具体的步骤就是
1、Spark-submit提交需要运行的任务，涉及大参数包括claster类，以及运行模型是master，以及执行的内存和core等；
2、master接受到任务后选择一个work启动driver驱动器没，如果选择的事cline客户端模式，俺就是master所在的客户端作为driver驱动器运行的起点；如果是cluetr模式，那么就是需要选择一个worker节点作为driver驱动器的运行接地那
3、启动driver，启动driver之后，对提交的任务内容进行解析，生成DAG和task任务。
5、Excuttor注册和进行任务计算，master根据解析的资源，选择worker节点进行分配执行器的分配。
6、最后任务分配完后，进行释放资源

描述一下Spark-on-yarn的一个任务执行过程

spark on yarn的模式其实就是把资源管理调度交给yarn，有yarn进行统一的资源分配管理
所以spark 欧尼yarn涉及到了yarn的sourceManager和appication master及诶点和nodemannage管理及诶点
所以相比较standalone模式，就是yarn替代了master进行资源管理的集中分配

所以Saprk on yarn的任务执行步骤:
1、第一步就是saprk=commit提交spark运行任务到yarn mannager。
2、source manager管理器进行资源解析后启动aplication master节点，并且启动driver驱动器进行DAG执行计划和task任务生成。
3、启动excutor执行器，需要yarn活制定nodemannagety节点，启动excutor.
4、nodemanager咋分配的容器中执行excutor，执行task任务
5、最终driver输出结果。

你觉得Spark-on-yarn的模式有什么优点

Spark-on-yarn是生产环境广泛采用的一种集群模式,有如下的有点
首先是可以进行动态机制，在任务运行过程中，如果有空闲的worker节点了，那么会利用起来。
其次是同一运维，yarn不经很支持spark，还支持haddop生态，还有flink等
资源隔离：saprk on yarn是基于容器，说明可以对单个执行任务进行cpu还涉及，不影响整体的集群计算
集群规模：yarn集群可以一直吃公司级别的大规模集群。

Spark的Shuffle过程

首先Spark的shuffle是Spark分布式集群计算的核心。
Spark的shuffle可以从shuffle的阶段划分，shuffle数据存储，shuffle的数据拉取三个方面进行讲解。

首先shuffle的阶段分为shuffle的shuffle write阶段和shuffle read阶段。shuffle write的触发条件就是上游的Stage任务shuffle Map Task完成计算后，会哪找下游Stage的分区规则重新分区，shuffle的操作逻辑就每个shuffl map task将数据按目标分区写入本地磁盘，生成shuffle 中间文件。
shuffle read的出发条件就是下游的result Stage任务运行Result task任务启动的时候，需要从上游节点拉取属于自己分区的数据，拉取数据后，shuffle read可能哪找操作的指令进行reduceByKey，或者sortByKey等操作。

然后shuflle的中间文件结果的存储是通过shuffle manager管理，默认使用SortshuffleManaer，存储方式就是每个shuffle Map Task会生存一个文件，包含所有分区的数据，然后附带一个记录文件各个分区的偏移量，然后我们默认使用的SortShuffleManager会自动的对文件额索引文件进行合并处理，减少文件数量，降低磁盘的IO压力，从而提高shuffle效率。

然后第三个就是数据的拉取阶段，是通过readSuffle从各个节点去拉群。首先Driver中的MapOutputTraver记录所有ShuffelMapTak的任务，下游Task想Tractorcah查询目标数据位置，然后进行拉群，拉去后就会进行数据处理，一般都是在内存当中进行处理，如果内存不足，就会溢写出到磁盘当中。

简述Spark的HashShuffle和SortShuffle两种类型的工作流程

首先是未优化过的 hashshuffle的流程：
在Map阶段会根据上游RDD的分区数生成M个task任务；
然后再reduce阶段会根据下游RDD所需的分区数据生成R个task任务
每个R任务会从M个task任务区获取各自分区的数据，最终声场的文件数就是,M 乘以 R
缺点就是会生成大量小文件，会对IO性能带来压力，以及文件管理节点带来严重压力。

因为大量爆发的小文件问题，所以已经弃用为优化的hashshuffle方式了；
因此对hashshuffle进行了文件合并的优化；
优化的点就是在于将同一个Excutor执行器的task任务产生的文件都共享同一个输出文件，
这样每个reduce task中就对应了一个输出文件的多个数据块，reduce task执行完后就合并文件了
这样优化之后，显著的减少了文件的数据，如果有执行器的数量乘以 reduce task的数量
但是对于大批量的数据计算，这样的优化还是不够。

因此现在Spark默认方式就是SortShuffle方式，能有效的减少小文件的数据量
在map task任务按照分区生成M个文件后，文件会被排序并进入内存缓存区，如果内存缓存不足就会溢出到磁盘当中
在reduce拉去数据之前，所有的数据都会合并成一个有序的数据文件，和一个对应分区的索引文件
在Reduce task阶段，按照索引去拉去对应数据
这样在shuffle阶段就只生成了M 乘以 2的文件数据量
缺点就是排序会需要一定的CPU开销

因此优化出来了一个ByPass 的 sortShuffle ,就是会通过参数设置设置一个文件的阈值，默认是200，

简述 Spark 的宽窄依赖，以及 Spark 如何划分stage，每个stage又根据什么决定 task 个数?

首先是Spark宽窄依赖的定义：
简单来理解的话，窄依赖就是父RDD的每个分区最多被一个子RDD所依赖，是一对一依赖，这种情况的操作例如union，flatMap这样的操作，不会产生shuffle。
宽依赖有别名叫做shuffle依赖，就是父RDD的每个分区会被多个子RDD所依赖，例如ReduceByKey，join这样的操作，会产生shuffle

所以划分Stage的边界就是宽依赖，而窄依赖会被流水线话的合并到同一个Stage中进行处理

在Stage中，决定Task数量有两方面的task数据：
一方面是shuffle中的shuffleMapStage的task数据会根据上游EDD的分区数进行划分，有多少个分区就有多少个Task数据。
另外的resultSta的task数据则会根据下游最终那个RDD的需要所分区数据进行分区，这里我们可以进行通过参数控制task的数据，那么就会有200个task任务数，默认是200个分区数据，可以根据实际情况进行优化调参数。

Spark的数据本地性是在哪个环节确定的，数据本地性有哪几种

首先是关于Sparks数据本地性是在任务调度将诶单的TaskScheduler确定的，巨日就是TaskSc会获取到分区的位置信息，进而确定每个task的最佳执行位置，会由有限将Task分邓培到数据所在节点，进而减少网络传输，如果首选的位置出现了故障或者繁忙，则会调整选择放宽本地性的要求。
那这里就涉及了数据本地性有哪几种，Task调度选择的有限是什么，首先选择缓存数据在同一个JVM进行的执行器，这种是默认的，如果不行，那几下里选择的就是在同一个物理节点上的执行器，然后再是选择在同一个几家上的不同及诶点，然后就收无位置偏好，然后就随意了。

Spark为什么要持久化，一般什么情况下进行persits操作

首先需要阐述的就是Spark为什么要持久，就是因为我们是基于内存去做计算的，如果计算任务比较长，有些计算结果我们就可以复用，来提高我们任务完成的效率。
需要持久化的场景，比如我们某部分计算数据会被多次使用，比武我们使用贷迭代算法。

Spark持久化中的persist() 或 cache()会有什么区别

其实cache（）是一种特殊的persist()持久化操作，cache()就是默认的pesist持久化侧，也就是仅在内存中作缓存，如果内存不读了，剩余的还是要从头再计算一次。但是persist还有其他几种模式，比如内存溢出了就持久化到磁盘当中去，比如就只选择持久化到磁盘，这些都可以自定义选择

如何理解 Spark 中的血统概念（RDD）

血统可以理解成是Spark分布式计算的基因，血统里面存储了计算的逻辑链，spark可以根据血统存储的计算逻辑链进行数据的重新计算恢复，从而能保证Saprk任务的容错机制。
血统其实在一些比较复杂冗长的计算任中，可能性能不佳，因为血统只是存储逻辑链，如果某个RDD计算节点宕机了，那就需要从头开始恢复数据。
因此针对血统还可以做chekpoint优化，设置坚持点并将检查点数据持久化到HDFS中，实现计算优化。

简述Spark中共享变量（广播变量和累加器）的基本原理，以及用途

广播变量，就是把变量广播到共享为止或者执行器的本地化存储起来，这样再分布式计算中可以减少大量的网络传输，在大数据场景下可以有效提高任务效率。
累加器的使用产假就是分布式聚合计算，能保证数据的容错性。

JVM调优实战 Day 14 ：大数据处理中的JVM调优在未来等你 JVM调优实战 JVM Java 性能优化调优虚拟机
【JVM调优实战Day14】大数据处理中的JVM调优文章标签jvm调优,大数据处理,Java性能优化,JVM参数配置,JVMGC调优,Java开发,大数据架构,Jvm实战文章简述在大数据处理场景中，Java应用通常面临内存占用高、GC频率频繁、堆内存不足等挑战。本文作为“JVM调优实战”系列的第14天，深入探讨了大数据处理中的JVM调优策略。文章从概念解析、技术原理、常见问题、诊断方法、调优策略到
鸿蒙开发必备技能：六种数据存储方式全解析+实战代码 harmonyos
摘要在当前多设备互联的时代，移动端应用不再局限于单一设备，而是需要在多个终端上保持状态一致、数据同步与持久管理。鸿蒙系统提供了多种数据存储机制，从轻量级状态存储到复杂的数据持久化方案，满足不同场景下的需求。本文将结合实战案例，深入讲解鸿蒙系统中的六大数据存储方式，并配有可运行的代码，帮助开发者快速掌握数据管理方法。引言随着鸿蒙系统的不断发展，越来越多的开发者开始构建面向多设备、多用户、多场景的智能
IT 行业深度洞察：从技术革命到产业重构的全景图谱 XQR.小白重构
摘要本文系统梳理IT行业的发展脉络，深入剖析云计算、人工智能、大数据、物联网等核心技术的演进逻辑与协同效应，揭示IT产业在数字化转型浪潮中的生态重构与价值创造。通过典型案例分析与数据支撑，探讨行业面临的技术挑战、伦理困境与全球化竞争格局，展望IT技术如何持续驱动社会变革与产业升级。全文结合2025年最新技术动态与市场趋势，为从业者、投资者与研究者提供兼具理论深度与实践指导的行业参考。目录摘要一、I
Spark从入门到熟悉（篇三）小新学习屋数据分析 spark 大数据分布式
本文介绍Spark的DataFrame、SparkSQL，并进行SparkSQL实战，加强对编程的理解，实现快速入手知识脉络包含如下7部分内容：RDD和DataFrame、SparkSQL的对比创建DataFrameDataFrame保存成文件DataFrame的API交互DataFrame的SQL交互SparkSQL实战参考资料RDD和DataFrame、SparkSQL的对比RDD对比Data
Swift面试题2025（附答案） Skinny Camel swift Swift面试题 iOS面试题 Xcode iOS开发
1、如下Swift的代码的输出结果是什么？请说明理由。vararr1=["1","2","3"]vararr2=arr1arr2.append("4")print(arr1)答：输出结果是：1,2,3此处考察的是Swift和OC中数组数据类型的区别（值类型与引用类型），因为在Swift中数组是值类型，所以当值类型赋值给变量时，它会创建一个新的数组赋值给arr2。2、如下Swift代码运行会不会报错
Swift - 基础面试题赑屃王者面试题 swift 面试
面试题目录一、类和结构体的区别是什么二、写时拷贝机制三、模式匹配四、协议五、泛型六、运算符、下标、字面量协议、尾随闭包七、Optional、变量常量、类型检查、扩展八、函数式编程九、响应式编程十、swift和OC的区别？一、类和结构体的区别是什么类是引用类型，结构体是值类型，拷贝赋值时，结构体是值拷贝，对象赋值时指针拷贝。结构体保存在栈区，类对象保存在堆区，类对象指针一般在栈区，指向堆区的对象。结
Python 爬虫实战：12306 订单记录爬取（登录态保持 + 订单数据可视化）西攻城狮北 python 爬虫信息可视化
引言在大数据驱动的今天，12306作为国内最重要的铁路出行平台，积累了海量的出行数据。对于广大用户而言，能够方便地查看和分析自己的出行订单记录，不仅有助于行程管理，还能为未来的出行规划提供有力参考。本文将详细讲解如何利用Python爬虫技术实现12306的模拟登录，爬取个人订单记录，并通过数据可视化技术直观展示出行情况。一、环境搭建与准备工作（一）Python环境配置确保本地已安装Python3.
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
[AI笔记]-Word2Vec面试考点 Micheal超 AI笔记人工智能笔记 word2vec
✅一、基础认知类什么是Word2Vec？它的基本思想是什么？关键词：将词语转换为向量表示；捕捉语义关系；基于上下文预测Word2Vec与One-hot编码的区别？关键词：维度灾难(维度过高，存储空间大)、高稀疏性、语义表达能力(没有距离概念，无法计算相似度)、内积关系Word2Vec的两种模型是什么？它们有何区别？答案：Word2Vec的重要假设：文本中离得越近的词语相似度越高。主要有：CBOW（
Redis 集群与分布式实现：从原理到实战一切皆有迹可循 redis redis 分布式数据库后端缓存
前言在大数据与高并发场景下，单节点Redis的容量与可用性已无法满足需求。Redis通过集群与分布式技术，实现了数据的分片存储与高可用部署，成为分布式系统的核心组件。本文将深入解析Redis集群的底层原理、架构模式与实战经验，结合代码示例与最佳实践，帮助开发者构建高性能、高可用的分布式缓存系统。一、集群基础架构与核心原理1.数据分片机制Redis集群采用哈希槽（HashSlot）实现数据分片，共有
GO泛型编程面试题及参考答案大模型大数据攻城狮 go golang go泛型 go语法 go面试 go面经 go编译器
目录什么是Go中的泛型？Go从哪个版本开始支持泛型？在Go中如何定义一个带类型参数的函数？如何为结构体添加类型参数？使用any关键字和自定义类型约束有什么区别？泛型中～T的语义及其实际应用是什么？如何在函数中使用多个类型参数？举例说明。Go泛型支持变长参数（variadic）吗？如何结合使用？什么是约束（constraint）？如何定义一个自定义约束？在泛型中如何使用接口类型作为约束？compar
I2C子系统面试指南：基础原理、经典问答与答题技巧全解析嵌入式Jerry Linux+内核面试职场和发展 linux 服务器运维单片机 java
I2C子系统面试指南：基础原理、经典问答与答题技巧全解析关于本篇博文，B站视屏讲解链接，点击进入深度学习一、引言：为什么要深入掌握I2C子系统？在嵌入式、驱动开发、BSP移植、甚至AIoT行业，I2C几乎是绕不开的“基础功”。不管你是应聘Linux驱动开发、嵌入式软件工程师、SoC底层支持，还是BSP/系统调试，I2C的核心架构和调试经验都是面试高频关注点。掌握I2C子系统，关键不止是能写驱动，更
鸿蒙（影音娱乐类）APP开发——在线短视频流畅切换 CTrup HarmonyOS 鸿蒙开发移动开发 harmonyos 娱乐音视频移动开发鸿蒙开发组件化 ArkUI
往期推文全新看点鸿蒙（HarmonyOS）北向开发知识点记录~鸿蒙（OpenHarmony）南向开发保姆级知识点汇总~鸿蒙应用开发与鸿蒙系统开发哪个更有前景？嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~对于大前端开发来说，转鸿蒙开发究竟是福还是祸？鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？记录一场鸿蒙开发岗位面试经历~持续更新中……简介为了帮助开发者解决在应用中在线短视频快速
大数据未来发展的趋势与挑战倒霉男孩大数据
随着信息技术的飞速发展，大数据已经成为推动社会进步和产业变革的重要力量。从商业决策到医疗健康，从智慧城市到人工智能，大数据技术的应用无处不在。未来，随着5G、物联网（IoT）、人工智能（AI）等技术的深度融合，大数据的发展将迎来更广阔的空间，同时也面临诸多挑战。本文将探讨大数据未来的发展趋势、应用前景以及可能面临的问题。一、大数据未来的发展趋势数据量持续爆发式增长随着5G网络的普及和物联网设备的广
从0到1构建智能招聘数据引擎：基于 Python 的 BOSS直聘信息采集实战与反爬破解指南程序员威哥 python 开发语言
前言在大数据浪潮席卷的时代，招聘平台蕴藏着海量的岗位信息，揭示着行业走向、人才趋势、薪资结构等核心价值。BOSS直聘作为国内极具代表性的直招平台，其数据对职业分析、市场监测甚至智能推荐系统的构建都有着重要意义。本文将手把手带你打造一个高质量、抗封锁的Python爬虫系统，精准采集BOSS直聘网的岗位数据，并全面解析其中涉及的反爬机制识别、加密参数处理、数据提取与存储等高级技巧，助你在Web数据采集
面试150 旋转图像 Alfred king 面试150题目面试 leetcode 数组
思路解包法。zip函数可以使矩阵转置,本题需要对矩阵先反转在转置。因此联想到zip是一种很简便的方法classSolution:defrotate(self,matrix:List[List[int]])->None:"""Donotreturnanything,modifymatrixin-placeinstead."""matrix[:]=zip(*matrix[::-1])
大数据量下高并发同步的解决方案大师兄啊 sql 大数据量下高并发同步的解决方案
大数据量下高并发同步的讲解（不看，保证你后悔）对于我们开发的网站，如果网站的访问量非常大的话，那么我们就需要考虑相关的并发访问问题了。而并发问题是绝大部分的程序员头疼的问题，但话又说回来了，既然逃避不掉，那我们就坦然面对吧~今天就让我们一起来研究一下常见的并发和同步吧。为了更好的理解并发和同步，我们需要先明白两个重要的概念:同步和异步1、同步和异步的区别和联系所谓同步，可以理解为在执行完一个函数或
高性能 List 转 Map 解决方案（10,000 元素）快乐肚皮 list 数据结构 java
文章目录前言一、问题背景：为什么List转Map如此重要？二、基础方法对比：StreamvsFor循环三、性能优化关键点四、面试回答技巧前言遇到一个有意思的面试题，如标题所说，当10,000条数据的List需要转Map，如何完成高性能的转换，本文将深入探讨这个问题。一、问题背景：为什么List转Map如此重要？在Java开发中，List转Map是最常见的集合操作之一：//常见场景ListuserL
Leetcode-423. Reconstruct Original Digits from English K_W 算法 java leetcode 算法
前言：为了后续的实习面试，开始疯狂刷题，非常欢迎志同道合的朋友一起交流。因为时间比较紧张，目前的规划是先过一遍，写出能想到的最优算法，第二遍再考虑最优或者较优的方法。如有错误欢迎指正。博主首发CSDN，mcf171专栏。博客链接：mcf171的博客——————————————————————————————Givenanon-emptystringcontaininganout-of-orderE
DolphinScheduler 6 个高频 SQL 操作技巧数据库
摘要：ApacheDolphinScheduler系列4-后台SQL经验分享关键词：大数据、数据质量、数据调度整体说明在调研了DolphinScheduler之后，在项目上实际使用了一段时间，有了一些后台SQL实际经验，分享如下。进入DolphinScheduler后台数据库，我这里使用的是MySQL数据库。以任务名称包含“ods_xf_act”的任务为例。一、修改任务组操作UPDATEt_ds_
测试面试必备：如何在 JMeter 中添加 Cookie 二进制11 #JMeter面试题面试软件测试自动化测试接口测试测试工具 JMeter
JMeter面试题-如何在JMeter中添加Cookie?Cookie在性能测试中的重要性Cookie是Web应用程序中用于维持会话状态的重要机制。在性能测试中，正确处理Cookie对于模拟真实用户行为至关重要。JMeter提供了多种方式来管理Cookie，确保测试脚本能够像真实浏览器一样工作。是否开始测试需要Cookie?添加Cookie管理器直接发送请求发送带Cookie的请求服务器响应结束J
【大模型面试必备】130道大模型问题深度解析，附详细答案，非常详细收藏这一篇就够了！大模型学习大模型架构数据库 langchain 人工智能面试
Attention1、讲讲对Attention的理解？Attention机制是一种在处理时序相关问题的时候常用的技术，*主要用于处理序列数据。*核心思想：在处理序列数据时，网络应该更关注输入中的重要部分，而忽略不重要的部分，它通过学习不同部分的权重，将输入的序列中的重要部分显式地加权，从而使得模型可以更好地关注与输出有关的信息。在序列建模任务中，比如机器翻译、文本摘要、语言理解等，输入序列的不同部
数据库设计体系化知识（后端+前端+AI+三高场景+大厂面试+简历包装） @一叶之秋 Java架构师学习路线数据库前端人工智能 java
数据库设计体系化知识（AI融合版：后端+前端+AI+三高场景+大厂面试+简历包装）一、数据库设计基础：范式理论+AI辅助建模1.核心知识（AI赋能表结构设计）（1）三大范式+AI校验规则落地：用AI代码生成工具（如Copilot）自动校验表结构是否符合范式。→示例：输入“设计学生-班级表”，AI生成符合3NF的表结构，并标注冗余字段风险。后端协同：Java后端通过SchemaValidator工具
缓存设计体系化知识（结合大厂面试+实战案例+简历包装） @一叶之秋 Java架构师学习路线缓存面试 spring 简历包装实战案例缓存设计体系化
缓存设计体系化知识（结合大厂面试+实战案例+简历包装）一、缓存基础设计：键、值、更新策略1.核心知识（1）缓存键设计原则：分层命名（业务:模块:ID）、唯一、可读、避免过长（≤1024字节）案例：电商商品缓存键product:{id}:detail（分层清晰，支持按商品ID快速查询）进阶：动态键（如user:{id}:orders:{date}支持时间范围查询）（2）缓存值设计序列化：优先选Pro
DevOps 完整资料与面试突击图谱 @一叶之秋 Java架构师学习路线 devops 面试运维
DevOps完整资料与面试突击图谱一、DevOps核心概念1.DevOps的目标与价值DevOps是开发（Development）与运维（Operations）之间的协作方法，旨在通过持续的集成与部署（CI/CD）来提高软件开发和运维的效率。目标：提高软件交付速度：通过自动化构建、测试、部署。提升系统稳定性：通过持续监控、日志追踪、自动化回滚等保障系统高可用。增强团队协作：开发、运维、测试、运维团
前端面试题整理-场景设计题 C_greenbird 前端学习前端 javascript css
1.如何使用css画一个三角形借助border实现，在width和height都为0时，设置border，便会呈现三角形。想要哪个方向的三角形，设置其他三边为透明即可。同时，可以通过调整不同边的宽度，来调整三角形的高度和宽度。三角符号/*记忆口诀：盒子宽高均为零，三面边框皆透明。*/div:after{position:absolute;width:0;height:0;content:"";bo
微信小程序｜流浪动物救助小程序的设计与实现 qq_469603589 微信小程序小程序微信小程序
作者主页：编程指南针作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、腾讯课堂常驻讲师主要内容：Java项目、Python项目、前端项目、人工智能与大数据、简历模板、学习资料、面试题库、技术互助收藏点赞不迷路关注作者有好处文末获取源码项目编号：L-BS-XZBS-30一，环境介绍语言环境：Java:jdk1
Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
基于uniapp微信小程+SpringBoot+Vue的流浪动物救助领养系统设计和实现(源码+论文+部署讲解等)
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
面试题防抖和节流摆烂波比 javascript 前端面试
防抖和节流前言防抖手写防抖节流手写节流防抖和节流的区别前言防抖和节流是一个常问的面试题我也不指名道姓了，不同于某些jsonp防抖和节流在实际开发者对性能的优化和对用户体验的升级都有作用所以我们很有必要掌握话不多说开始正文防抖函数防抖，就是指触发事件后，函数在n秒后只能执行一次，如果在n秒内又触发了事件，则会重新计算函数的执行时间。简单的说就是一段时间只执行一次这样就能够保证用户在频繁触发某些事件的
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的