AI科技大本营

如何应对大数据分析工程师面试Spark考察，看这一篇就够了

作者丨斌迪、HappyMint

来源丨大数据与人工智能（ID:ai-big-data）

【导读】本篇文章为大家带来spark面试指南，文内会有两种题型，问答题和代码题，题目大部分来自于网络上，有小部分是来自于工作中的总结，每个题目会给出一个参考答案。

为什么考察Spark？

Spark作为大数据组件中的执行引擎，具备以下优势特性。

高效性。内存计算下，Spark 比 MapReduce 快100倍。Spark使用最先进的DAG调度程序、查询优化程序和物理执行引擎，实现批量和流式数据的高性能。
易用性。Spark支持Java、Python和Scala的API，还支持超过80种高级算法，使用户可以快速构建多样的应用。
通用性。Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）。这些不同类型的处理都可以在同一个应用中无缝使用。这对于企业应用来说，就可使用一个平台来进行不同的工程实现，减少了人力开发和平台部署成本。
兼容性。Spark能够跟很多开源工程兼容使用。如Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，并且Spark可以读取多种数据源，如HDFS、HBase、MySQL等。对于任何一家已经部署好Hadoop基础集群的企业来说，在不需要进行任何数据迁移和处理的情况下，就可以快速使用上Spark强大的数据处理和计算能力。

可以说Spark几乎是企业搭建大数据平台必备组件，作为数据分析工程师在工作中执行程序、调试程序、查询数据都会和Spark打交道，所以对Spark知识的考察也就顺理成章了。

怎么去准备Spark的面试？对于概念类的知识点可以在面试前突击一下，阅读类似本文的面试指南，对于代码类的或者涉及项目类的考题更多的是需要平时工作和学习的积累，多写一些代码并加上自己的思考。

精选考题

基本概念

1、Spark支持的编程语言有哪几种?

Spark 同时支持Scala、Python、Java 、R四种应用程序API编程接口和编程方式，考虑到大数据处理的特性，一般会优先使用Scala进行编程。

2、Spark有什么特点，处理大数据有什么优势?

Spark为我们提供了一个全面、统一的框架，能够适用于各种各样原先需要多种不同的分布式平台的场景，包括批处理、迭代算法、交互式查询和流处理。
Spark相比于MapReduce的运行速度提升几十到几百倍。
Spark提供了丰富的开箱即用算子工具，让开发者可以快速的用Java、Scala或Python编写程序。它本身自带了一个超过80个的高阶操作符集合。

3、Spark中Worker的主要工作是什么?

主要功能：管理当前节点内存和CPU的使用状况，接收master分配过来的资源指令，通过ExecutorRunner启动程序分配任务，worker就类似于包工头，管理分配新进程，做计算的服务，相当于process服务。

需要注意的是：

1）worker不会汇报当前信息给master，worker心跳给master只有workid，它不会发送资源信息给mater。

2）worker不会运行代码，具体运行的是Executor，worker可以运行具体appliaction写的业务逻辑代码，操作代码的节点，它不会运行程序的代码的。

4、Spark Driver的功能是什么?

答：1）一个Spark作业运行时包括一个Driver进程，也是作业的主进程，具有main函数，并且持有SparkContext的实例，是程序的人口点；2）功能：负责向集群申请资源，向master注册信息，负责作业的调度，负责作业的解析，生成Stage并调度Task到Executor上。包括DAGScheduler，TaskScheduler。

5、Spark是如何容错的？

一般来说，分布式数据集的容错性有两种方式：数据检查点和记录数据的更新。

面向大规模数据分析，数据检查点操作成本非常高，需要通过数据中心的网络连接在机器之间复制庞大的数据集，而网络带宽往往比内存带宽低得多，同时还需要消耗很多其它的存储资源。因此，Spark选择记录更新的方式。可是，假设更新粒度太细太多，那么记录更新成本也不低。故RDD仅仅支持粗粒度转换，即仅仅记录单个块上运行的单个操作，然后将创建RDD的一系列变换序列（每一个RDD都包括了他是怎样由其它RDD变换过来的以及怎样重建某一块数据的信息。因此RDD的容错机制又称“血统(Lineage)”容错）记录下来，以便恢复丢失的分区。

Lineage本质上非常相似于数据库中的重做日志（Redo Log），只是这个重做日志粒度非常大，是对全局数据做相同的重做进而恢复数据。

6、说说SparkContext和SparkSession有什么区别和联系?

SparkContext是使用Spark功能的入口点。SparkSession是Spark2.x后引入的概念。在2.x之前，对于不同的功能，需要使用不同的Context，比如

创建和操作RDD时，使用SparkContext
使用Streaming时，使用StreamingContext
使用SQL时，使用SQLContext
使用Hive时，使用HiveContext

在2.x中，为了统一上述的Context，引入SparkSession，实质上是SQLContext、HiveContext、SparkContext的组合。

7、hadoop和spark的都是并行计算，那么他们有什么相同和区别？（优势在哪里，只写区别）

两者都是用mr模型来进行并行计算，但机制不同。hadoop的一个作业称为job，job里面分为map task和reduce task，每个task都是在自己的进程中运行的，当task结束时，进程也会结束。
Spark用户提交的任务称为application，一个application中存在多个job，每触发一次action操作就会产生一个job。这些job可以并行或串行执行，每个job中有多个stage，stage是shuffle过程中DAGSchaduler通过RDD之间的依赖关系划分job而来的，每个stage里面有多个task，组成taskset，由TaskSchaduler分发到各个executor中执行，executor的生命周期是和application一样的，即使没有job运行也是存在的，所以task可以快速启动读取内存中的数据并进行计算；
hadoop的job只有map和reduce操作，表达能力比较欠缺而且在mr过程中会重复的读写hdfs，造成大量的io操作，多个job需要自己管理关系；而spark则提供了丰富的算子，可以实现常用的各种数据处理操作。
spark的迭代计算都是在内存中进行的，API中提供了大量的RDD操作如join，groupby等，而且通过DAG图可以实现良好的容错。

8、Spark有哪些组件，每个组件有什么功能？对应到什么场景？

1）Spark core：是其它组件的基础，spark的内核，主要包含：有向循环图、RDD、Lingage、Cache、broadcast等，并封装了底层通讯框架，是Spark的基础。

2）SparkStreaming：是一个对实时数据流进行高通量、容错处理的流式处理系统，可以对多种数据源（如Kafka、Flume、Twitter、Zero和TCP 套接字）进行类似Map、Reduce和Join等复杂操作，将流式计算分解成一系列短小的批处理作业。

3）Spark sql：Shark是SparkSQL的前身，Spark SQL的一个重要特点是其能够统一处理关系表和RDD，使得开发人员可以轻松地使用SQL命令进行外部查询，同时进行更复杂的数据分析。

4）SparkR：是一个R语言包，它提供了轻量级的方式使得可以在R语言中使用Apache Spark。在Spark 1.4中，SparkR实现了分布式的dataframe，支持类似查询、过滤以及聚合的操作，但是这个可以操作大规模的数据集。

5）MLBase是Spark生态圈的一部分专注于机器学习，让机器学习的门槛更低，让一些可能并不了解机器学习的用户也能方便地使用MLbase。MLBase分为四部分：MLlib、MLI、ML Optimizer和MLRuntime。

6）GraphX用于图和图并行计算。

9、Spark有几种部署模式，每种模式特点?

local(本地模式)：常用于本地开发测试，本地还分为local单线程和local-cluster多线程；

standalone(集群模式)：典型的Master/Slave模式，Spark支持ZooKeeper来实现Master HA；

on yarn(集群模式)：运行在 yarn 资源管理器框架之上，由 yarn 负责资源管理，Spark 负责任务调度和计算；

on mesos(集群模式)：运行在 mesos 资源管理器框架之上，由 mesos 负责资源管理，Spark 负责任务调度和计算；

on cloud(集群模式)：比如 AWS 的 EC2，使用这个模式能很方便的访问 Amazon的 S3，Spark 支持多种分布式存储系统：HDFS 和 S3等。

10、spark有哪些存储级别？

1）MEMORY_ONLY：数据保存在内存中，如果内存不够，数据可能就不会持久化；

2）MEMORY_AND_DISK：数据优先保存在内存中，如果内存不够则会存到磁盘中；

3）MEMORY_ONLY_SER：和MEMORY_ONLY类似，区别是会将RDD中的数据进行序列化，这种方式更加节省内存；

4）MEMORY_AND_DISK_SER：和MEMORY_AND_DISK类似，区别是会将RDD中的数据进行序列化，这种方式更加节省内存；

5）DISK_ONLY：将数据全部写入磁盘文件中；

6）MEMORY_ONLY_2, MEMORY_AND_DISK_2, 等等：这种有后缀_2的，代表的是将每个持久化的数据，都复制一份副本，并将副本保存到其他节点上。这种基于副本的持久化机制主要用于进行容错。

11、RDD的优势是什么？

1）高效容错机制

RDD没有checkpoint的开销，想还原一个RDD只需要根据血缘关系就可以，而且基本不涉及分区的重计算，除非分区的数据丢失了，重算过程在不同节点并行进行，不需要将整个系统回滚。

2）数据本地性

任务能够根据数据本地性(data locality)被分配，意思是优先将任务分配到数据存储的节点，从而提高性能。

3）优雅降级 (degrade gracefully)

读取数据最快的方式当然是从内存中读取，但是当内存不足的时候，RDD会将大分区溢出存储到磁盘，也能继续提供并行计算的能力。

12、DataFrame的特性？

1）大数据量级：支持从KB到PB级的数据量

2）多种数据源：支持多种数据格式和多种存储系统

3）代码优化：通过Catalyst优化器进行先进的优化生成代码

4）通用性：通过Spark无缝集成主流大数据工具与基础设施

5）多种开发语言：API支持Python、Java、Scala和R语言。

13、RDD中关于转换(transformation)与动作(action)的区别？

transformation操作会产生新的RDD，而action不会，但是它会触发运算，将RDD上某项操作的结果返回给程序。无论发生多少次transformation操作都不会触发运算，只有action操作才会触发运算。

14、RDD中有几种依赖？有什么作用？

有窄依赖（narrowdependencies）和宽依赖（widedependencies）两种。窄依赖是指父RDD的每个分区都只被子RDD的一个分区所使用。相应的，那么宽依赖就是指父RDD的分区被多个子RDD的分区所依赖。例如，map就是一种窄依赖，而join则会导致宽依赖，主要是看有没有shuffle操作。

宽窄依赖的作用是用来划分stage。

15、rdd有几种操作类型？

1）transformation，rdd由一种转为另一种rdd；

2）action，触发具体的作业，对RDD最后取结果的一种操作

另外特殊的cache、persist，对性能效率和容错方面的支持。

16、cache和persist的区别？

它们都是用来进行缓存的。

1）cache是特定的persist，rdd中cache的缓存级别是MEMORY_ONLY，cache调用了persist；

3）persist可以设置不同的缓存级别。

ataSet？以及他们之间的区别

17、什么是RDD？什么是DataFrame？什么是DataSet？以及他们之间的区别？

RDD全称Resilient Distributed Dataset，弹性分布式数据集，它是记录的只读分区集合，是Spark的基本数据结构，见名释义：

弹性，表现在两个方面，一是当计算过程中内存不足时可刷写到磁盘等外存上，可与外存做灵活的数据交换；二是RDD使用了一种“血统”的容错机制，在结构更新和丢失后可随时根据血统进行数据模型的重建；

分布式，可分布在多台机器上进行并行计算；

数据集，一组只读的、可分区的分布式数据集合，集合内包含了多个分区，分区依照特定规则将具有相同属性的数据记录放在一起，每个分区相当于一个数据集片段。

理解了RDD，DataFrame理解起来就比较容易了，DataFrame的思想来源于Python的pandas库，RDD是一个数据集，DataFrame在RDD的基础上加了Schema（描述数据的信息，可以认为是元数据，DataFrame曾经就有个名字叫SchemaRDD）。

DataSet是DataFrame API的扩展。相较于RDD来说，DataSet提供了强类型支持，区别也是给RDD的每行数据加了类型约束。

共同点

RDD、DataFrame、DataSet全都是Spark平台下的分布式弹性数据集，为处理超大型数据提供便利。
三者都有惰性机制，在进行创建、转换等阶段，如map、filter等方法时，不会立即执行，只有在遇到Action如count、collect等时，才会真正开始运算。
三者都会根据Spark的内存情况自动缓存运算，这样即使数据量很大，也不用担心会内存溢出。
三者有许多共同的函数，如filter、map等。

不同点

RDD不支持Sparksql操作，DataFrame与DataSet均支持Sparksql，比如select，groupby之类，还能注册临时表/视图，实现与sql语句的无缝操作。
DataSet和DataFrame拥有完全相同的成员函数，区别在于每一行的数据类型和字段类型是否明确。DataFrame也可以叫DataSet[Row]，每一行的类型为Row，而DataSet每一行的数据类型是确定的。DataFrame只知道字段，但无法确定字段的具体类型，所以在执行这些操作的时候是没办法在编译的时候检查类型是否匹配的，比如你可以对一个String进行减法操作，在执行的时候才会报错，而DataSet不仅仅知道字段，还知道字段类型，所以有更严格的错误检查。
相比于RDD，DataFrame与DataSet支持一些特别方便的保存方式，比如保存成csv，且可以带上表头，这样每一列的字段名一目了然。

18、什么是广播变量？

广播变量允许开发人员在每个节点缓存只读的变量，而不是在任务之间传递这些变量。实际工作中，当我们需要在分布式计算里面分发大对象，例如：字典，集合，黑白名单等，这个都会由Driver端进行分发，一般来讲，如果这个变量不是广播变量，那么每个task就会分发一份，这在task数目十分多的情况下Driver的带宽会成为系统的瓶颈，而且会大量消耗task服务器上的内存资源，如果将这个变量声明为广播变量，那么只是每个Executor拥有一份，这个Executor启动的task会共享这个变量，从而节省了通信的成本和内存资源。

使用广播变量的注意事项：

广播变量只能在Driver端定义，不能在Executor端定义。
在Driver端可以修改广播变量的值，在Executor端无法修改广播变量的值。
不能将一个RDD使用广播变量广播出去，因为RDD是不存储数据的。可以将RDD在Driver端collect为一个集合再广播出去。
被广播的对象必须实现序列化。

19、什么是累加器？

在数据分析工作中，我们经常会有这样的需求，如异常监控，调试，记录符合某特性的数据的数目，这种需求都需要用到计数器，如果一个变量不被声明为一个累加器，那么它将在被改变时不会在Driver端进行全局汇总，即在分布式运行时每个task运行的只是原始变量的一个副本，并不能改变原始变量的值，但是当这个变量被声明为累加器后，该变量就会有分布式累加的功能。

我们可以通过分别调用SparkContext.longAccumulator()或SparkContext.doubleAccumulator() 累积Long或Double类型的值来创建数字累加器。然后，可以使用add方法对累加器进行增加。驱动程序可以使用其value方法读取累加器的值。

使用累加器的注意事项：

累加器在Driver端定义赋初始值，且只能在Driver端读取最后的值，在Excutor端更新。
在Driver端获取累计器值的时候需要一个Action操作来触发，才能拿到值。
累计器只能执行add操作。

20、rdd的弹性表现在哪几点？

自动进行内存和磁盘切换；
基于lineage的高效容错；
task如果失败会执行特定次数的重试，而且只计算失败的分片；
具备checkpoint（每次对RDD操作都会产生新的RDD，如果链条比较长，计算比较笨重，就把数据放在硬盘中）和persist （内存或磁盘中对数据进行复用）(检查点、持久化)特性；
数据调度弹性；
数据分片的高度弹性repartition。

基本操作

21、如何创建一个RDD？DataFrame？DataSet？

1）创建RDD

第一种在集合创建RDD，RDD的数据源是程序中的集合，通过parallelize或者makeRDD将集合转化为 RDD。

val num = Array(1,2,3,4,5)	
val rdd = sc.parallelize(num)	
//或者	
val rdd = sc.makeRDD(num)

第二种使用本地文件、HDFS创建RDD，RDD的数据源是本地文件系统或HDFS的数据，使用 textFile 方法创建RDD。

val rdd = sc.textFile("hdfs://hans/data_warehouse/test/data")

2）创建DataFrame

DataFrame可以通过已存在的RDD进行转换生成或者直接读取结构化的文件（如json）生成DataFrame。

val df = spark.read.json("/data/tmp/SparkSQL/people.json")

3）创建DataSet

可以使用case class创建DataSet，也可以将DataFrame转换成DataSet。

case class Person(name: String, age: Long)

// 通过case class创建DataSet


	
val caseClassDS = Seq(Person("Andy", 32)).toDS()	
// 将DataFrame转换成DataSet	
val path = "examples/src/main/resources/people.json"	
val peopleDS = spark.read.json(path).as[Person]

22、如何获取RDD?RDD的创建有哪些方式？

1).使用程序中的集合创建rdd；

2).使用本地文件系统创建rdd；

3).使用hdfs创建rdd；

4).基于数据库db创建rdd；

5).基于Nosql创建rdd，如hbase；

6).基于s3创建rdd；

7).基于数据流，如socket创建rdd；

23、map与flatMap的区别

map操作会对RDD中每条记录做处理，返回的是处理后的记录，记录数不变，而flatMap操作在map的基础上，将处理后的集合进行平展，并且会抛弃null值。

24、哪些代码在driver上执行，哪些代码在executor上执行?

概括来说，driver执行的就是main方法中除了RDD算子中的代码块以外的所有代码块，并且只执行一次。Spark的每个batch在执行的时候先执行driver中的代码，然后遇到action操作再去划分DAG图，将具体执行算子分发到各个executor上执行。

25、Spark配置的优先级？

通过SparkConf 对象配置的属性优先级最高；其次是提交作业时传入的命令行参数配置；最后是spark-defaults.conf文件中的默认配置。

26、哪些算子会产生shuffle。

去重：distinct

聚合：reduceByKey、groupBy、groupByKey、aggregateByKey、combineByKey

排序：sortByKey、sortBy

重分区：repartition、coalesce（增大分区数时）

集合或者表操作：intersection、subtract、subtractByKey、join、leftOuterJoin

27、Spark streaming 读取kafka数据的两种方式?

1.基于Receiver方式

需要使用单独的Receiver线程来异步获取Kafka数据。Spark Streaming启动时，会在Executor中同时启动Receiver异步线程用于从Kafka持续获取数据，获取的数据先存储在Receiver中(存储方式由StorageLevel决定)，后续，当Batch Job触发后，这些数据会被转移到剩下的Executor中被处理。处理完毕后，Receiver会自动更新Zookeeper中的Offset。

2.基于Direct(No Receiver)方式

不需要使用单独的Receiver线程从Kafka获取数据。Spark Streaming Batch Job触发时，Driver端确定要读取的Topic-Partition的OffsetRange，然后由Executor并行从Kafka各Partition读取数据并计算。

执行过程

28、为什么要进行序列化？

序列化可以对数据进行压缩减少数据的存储空间和传输速度，但是数据在使用时需要进行反序列化，比较消耗CPU资源。

29、Spark如何提交程序执行？有哪些提交方式？

提交一个Spark任务使用spark-submit，加上相关的参数和主jar包进行提交。常用的参数如下：

master：指定Spark的master的IP和端口；

deploy-mode：Driver 程序运行的地方，client 或者 cluster,默认是client；

class：主类的路径；

jars：Driver 和 executor 依赖的第三方jar包，多个jar包使用逗号分隔；

spark-submit  --master spark://node001:7077,node002:7077 --deploy-mode cluster --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.3.1.jar  10000

30、Spark在提交程序的时候如何引入外部jar包？

有两种方法可以引入：

1）spark-submit --jars

在提交任务的时候指定--jars，用逗号分开。缺点是每次都要指定jar包，如果jar包少的话可以这么做，但是如果多的话会很麻烦。

命令：spark-submit --master yarn-client --jars xxx.jar,yyy.jar

2）extraClassPath

在spark-default中设定参数，将所有需要的jar包拷贝到一个文件夹里，然后在参数中指定该目录就可以了。

//参数

spark.executor.extraClassPath=/home/hadoop/work/lib/*	
spark.driver.extraClassPath=/home/hadoop/work/lib/*

31、RDD中reduceBykey与groupByKey哪个性能好，为什么？

reduceByKey会在结果发送至reducer之前对每个mapper在本地进行merge，有点类似于在MapReduce中的combiner。这样做的好处在于，在map端进行一次reduce之后，数据量会大幅度减小，从而减小传输，保证reduce端能够更快的进行结果计算。

groupByKey会对每一个RDD中的value值进行聚合形成一个序列(Iterator)，此操作发生在reduce端，所以势必会将所有的数据通过网络进行传输，造成不必要的浪费。

所以相比之下reduceBykey的性能更好。

32、Spark为什么要持久化，一般什么场景下要进行persist操作？

持久化的目的是为了避免重算和提高效率。rdd出错后可以根据血统信息进行还原，如果没有对父rdd进行持久化操作就需要从源头重新计算；还有一种场景是某个rdd被重复使用，而这个rdd的生成的代价也不小，为了提高计算效率可以将这个rdd进行持久化操作，这样提高后续的计算效率。以下场景需要进行persist操作：

1）计算链条很长，一旦失败重新恢复代价太大；

2）计算复杂耗时长，避免重新计算；

3）checkpoint所在的rdd要进行persist；

4）比较大的shuffle之后最好做persist避免再次shuffle；

33、join操作如何优化？

1）对于大小表join的时候，使用map-side join替换join；

2）在join之前对表进行筛选，减少join的数据量

3）避免出现笛卡尔积，关联字段最好不要有重复的值，可以在join之前做去重处理。

4）某些场景下可以把join后聚合，优化为聚合后再join，减少join数据量

34、Spark性能优化主要有哪些手段？

1. 开发调优

- 避免创建重复的RDD

- 尽可能复用同一个RDD

- 对多次使用的RDD进行持久化

- 尽量避免使用shuffle类算子

- 使用map-side预聚合的shuffle操作

- 使用高性能的算子

- 广播大变量

- 使用Kryo优化序列化性能

- 优化数据结构

2. 资源参数调优

- executor内存和数量配置

- driver内存配置

- 并行度配置

- 数据本地化

- JVM/gc配置

35、Spark如何防止内存溢出?

1.driver端的内存溢出

可以增大driver的内存参数：spark.driver.memory (default 1g)；

2.map过程产生大量对象导致内存溢出

这种溢出的原因是在单个map中产生了大量的对象导致的，针对这种问题，在不增加内存的情况下，可以通过减少每个Task的大小，以便达到每个Task即使产生大量的对象Executor的内存也能够装得下。具体做法可以在会产生大量对象的map操作之前调用repartition方法，分区成更小的块传入map。

3.数据不平衡导致内存溢出

数据不平衡除了有可能导致内存溢出外，也有可能导致性能的问题，解决方法和上面说的类似，就是调用repartition重新分区。

4.shuffle后内存溢出

shuffle内存溢出的情况基本可以说都是shuffle后，单个文件过大导致的。在Spark中，join，reduceByKey这一类的过程，都会有shuffle的过程，在shuffle的使用，需要传入一个partitioner，大部分Spark中的shuffle操作，默认的partitioner都是HashPatitioner，默认值是父RDD中最大的分区数,这个参数通过spark.default.parallelism控制(在spark-sql中用spark.sql.shuffle.partitions) ，如果是别的partitioner导致的shuffle内存溢出，就需要从partitioner的代码增加partitions的数量。

5.standalone模式下资源分配不均匀导致内存溢出

在standalone的模式下如果配置了--total-executor-cores 和 --executor-memory 这两个参数，但是没有配置--executor-cores这个参数的话，就有可能导致，每个Executor的memory是一样的，但是cores的数量不同，那么在cores数量多的Executor中，由于能够同时执行多个Task，就容易导致内存溢出的情况。这种情况的解决方法就是同时配置--executor-cores或者spark.executor.cores参数，确保Executor资源分配均匀。

6.使用rdd.persist(StorageLevel.MEMORY_AND_DISK_SER)代替rdd.cache()

rdd.cache()和rdd.persist(Storage.MEMORY_ONLY)是等价的，在内存不足的时候rdd.cache()的数据会丢失，再次使用的时候会重算，而rdd.persist(StorageLevel.MEMORY_AND_DISK_SER)在内存不足的时候会存储在磁盘，避免重算，只是消耗点IO时间。

36、对于Spark中的数据倾斜问题你有什么好的方案？

通过WebUI或者具体执行机器的日志进行问题定位，是OOM还是执行缓慢。

可以从以下几个方面优化数据倾斜问题：

1）避免不必要的shuffle，如使用广播小表的方式，将reduce-side-join提升为map-side-join

2）处理异常值，如null值和空字符串

3）提高shuffle并行度，可能并行度太少了，导致个别task数据压力大

4）分阶段聚合，先局部聚合，再全局聚合

5）自定义paritioner，分散key的分布，使其更加均匀

程序题

37、如何使用Spark解决TopN问题？

假设这样的场景，我们有一张10个产品线URL的访问记录表，有两个字段：product、url，请模拟1000条数据然后统计各个产品线下访问次数前3的URL。

import org.apache.spark.SparkConf	
import org.apache.spark.sql.SparkSession	
import scala.util.Random	
//初始化环境	
val config = new SparkConf()	
config.setMaster("local[2]")	
va spark = SparkSession.builder().config(config).getOrCreate()	
//模拟数据	
var data: List[String] = Nil	
for (i <- 1 to 1000)	
data = data ::: "procuct" + Random.nextInt(10).toString + " url" + Random.nextInt(100).toString :: Nil	
import spark.implicits._	
val rdd = spark.sparkContext.parallelize(data)	
val df = rdd.map(_.split(" "))//按照空格进行分割	
.map(row =>((row(0),row(1)),1))	
.reduceByKey(_+_)//将相同产品线和url聚合后求出访问次数	
.map(row => (row._1._1,(row._1._2,row._2)))//将产品线作为key	
.groupByKey()	
.map(row => {	
val result =	
row._2.toList.sortBy(-_._2)//按照访问次数进行倒序排序	
.map(_._1).take(3)//取出前三个url	
(row._1,result)//返回结果	
})	
df.foreach(println)	
//执行结果	
(procuct5,List(url55, url85, url74))	
(procuct8,List(url80, url91, url95))	
(procuct6,List(url96, url25, url7))	
(procuct2,List(url67, url36, url35))	
(procuct7,List(url80, url93, url94))	
(procuct4,List(url99, url57, url98))	
(procuct1,List(url81, url68, url37))	
(procuct0,List(url14, url64, url86))	
(procuct3,List(url80, url28, url15))	
(procuct9,List(url44, url65, url34))

小结

本篇Spark面试指南，结合网络上的经典考题和工作中总结改编的题目一共37道，基本涉及了数据分析工作中常用的知识点，有概念类的也有操作类的，希望读者可以查漏补缺，完善Spark面试知识点。

参考文献

[1] 总结 | 最全的Spark基础知识解答，作者：aaronhoho - https://www.jianshu.com/p/03a0e267c24b

[2] Spark知识点总结，作者：身为风帆，要顺其自然 - https://blog.csdn.net/qq_33247435/article/details/83653584

[3] spark相关的面试题跟答案，作者：wangxiaojian - http://www.aboutyun.com/?mod=viewthread&action=printable&tid=24246

[4] Spark Worker内部工作原理，作者：张章章Sam https://blog.csdn.net/qq_16103331/article/details/53421002

[5] spark 如何防止内存溢出，作者：老子天下最美Samhttps://blog.csdn.net/Sunshine_2211468152/article/details/83050337

[6] Spark学习—— (4+) SparkSparkContext与SparkSession，作者：zhierzyc https://blog.csdn.net/qq_36153312/article/details/98963236

[7] Spark Streaming读取Kafka数据的两种方式，作者：wangpei1949 https://blog.csdn.net/wangpei1949/article/details/89419691

[8] RDD有哪几种创建方式，作者：weixin_33834075 https://blog.csdn.net/weixin_33834075/article/details/91731892

[9] 宽依赖与窄依赖，作者：05rjyzl11 https://www.iteye.com/blog/yangzhonglei-2433091

(*本文为 AI科技大本营转载文章，转载请联系作者)

◆

福利时刻

◆

入群参与每周抽奖~

扫码添加小助手，回复：大会，加入福利群，参与抽奖送礼！

距离大会参与通道关闭还有 3 天，扫描下方二维码或点击阅读原文，马上参与！（学生票特享 598 元，团购票每人立减优惠，倒计时 3 天！）

推荐阅读

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够
AI换脸软件ZAO刷屏，可我却不敢用了
只给测试集不给训练集，要怎么做自己的物体检测器？
还在抱怨pandas运行速度慢？这几个方法会颠覆你的看法
没有光芯片，何谈 5G 与 AI ！
30 岁的程序员，我没有活成理想的模样，失败吗？
看懂“大数据”，这一篇就够了！
别让分析公司卖了你：一文读懂比特币的私密性及隐私保护

你点的每个“在看”，我都认真当成了喜欢

你可能感兴趣的:(如何应对大数据分析工程师面试Spark考察，看这一篇就够了)

如何验证新产品概念的PMF（产品市场匹配度）产品管理系统
想要验证新产品概念的PMF，需要关注目标用户精准定位、核心价值主张、市场反馈速度、迭代验证机制。其中，核心价值主张尤其关键，因为它决定了用户是否真正愿意为产品埋单。只有当产品能切实帮助用户解决痛点或实现价值提升时，后续的推广、运营才有扎实的基础和持续的动力，否则再多的营销投入也只能昙花一现，难以形成稳定且可扩展的市场认同。一、PMF的本质与重要性PMF（Product-MarketFit）指的是产
使用MarkdownHeaderTextSplitter拆分Markdown文档 scaFHIO python 前端开发语言
在AI驱动的应用中，如聊天机器人或问答系统，处理大型文档时，通过分片技术将文档拆分为更小的单元是必要的步骤。尤其是对于Markdown格式的文件，它们通常由各种层级的标题结构化组织。通过按标题拆分，有利于保留文档的上下文语义一致性。本篇文章将讲解如何使用MarkdownHeaderTextSplitter来实现这一目标。技术背景介绍在将完整的段落或文档进行嵌入时，嵌入过程会考虑文本的整体上下文以及
参加AIGC四级考试的，建议先看下我的备考经验 Tester_孙大壮 AI培训师 AIGC
写在前面这是我2024年末看到AI快速发展，自己也想入局AI而准备的一个考试，但是真正考试下来发现这个考试真的特别简单，除了政府补贴，其他可能对自己没有任何的用处，我觉得这个在面试的时候也很难成为一个加分项，但是备考过程中可能会对一些AI的知识有框架式的了解，以下是我的备考经验，希望对你有帮助。我参加的是广州本地宝推荐的人社部AIGC考试。整体而言，考试难度不算特别大。以我的工作年限，符合报考四级
数据中台（二）数据中台相关技术栈 Yuan_CSDF #数据中台
1.平台搭建1.1.Amabari+HDP1.2.CM+CDH2.相关的技术栈数据存储：HDFS，HBase，Kudu等数据计算：MapReduce,Spark,Flink交互式查询：Impala,Presto在线实时分析：ClickHouse，Kylin，Doris，Druid，Kudu等资源调度：YARN，Mesos，Kubernetes任务调度：Oozie，Azakaban，AirFlow，
DeepSeek的实际应用场景：AI技术如何赋能多领域创新 2501_91189350 人工智能
DeepSeek作为新一代智能技术平台，凭借其强大的算法能力和灵活的部署方式，正在多个行业掀起效率革命。本文将从真实案例出发，解析DeepSeek在不同场景中的落地应用。‌场景一：金融风控建模‌在信贷风险评估领域，传统模型存在数据维度单一、更新滞后等问题。某银行引入DeepSeek的‌动态特征工程模块‌，通过实时整合用户行为数据、社交网络信息等100+维度特征，成功将坏账识别准确率提升至98.5%
docker-compose install nginx(解决fastgpt跨区域) CIAS deepseek docker deepseek fastgpt
CORS前言CORS（Cross-OriginResourceSharing，跨源资源共享）是一种安全措施，它允许或拒绝来自不同源（协议、域名、端口任一不同即为不同源）的网页访问另一源中的资源。它的主要作用如下：同源策略限制：Web浏览器的同源策略限制了从一个源加载的文档或脚本如何与另一个源的资源进行交互。这意味着默认情况下，浏览器会阻止一个源（例如，http://example.com）的网页向
Python之pip的安装和使用详细教程叫我技术帝 Python python
我们都知道python有海量的第三方库或者说模块，这些库针对不同的应用，发挥不同的作用。我们在实际的项目中，或多或少的都要使用到第三方库，那么如何将他人的库加入到自己的项目中内呢？打个电话？大哥你好，想用下你那个库，麻烦给邮箱发个源码呗！显然这是个笑话。Python官方的PyPi仓库为我们提供了一个统一的代码托管仓库，所有的第三方库，甚至你自己写的开源模块，都可以发布到这里，让全世界的人分享下载。
理解并使用基于n-gram重叠的示例选择器 shuoac easyui 前端 javascript python
在AI及自然语言处理任务中，选择与输入最相似的示例可以显著提升生成的质量和上下文相关性。本文将介绍如何使用NGramOverlapExampleSelector工具，通过n-gram重叠来筛选和排序示例，从而帮助实现这一目标。技术背景介绍n-gram重叠技术通过比较输入文本与示例文本在字符或词组上的相似度，计算一个介于0到1之间的分数来表示相似度。这个分数越高，表示文本间的重叠越大。NGramOv
MySQL5.6主从复制最佳实践 weixin_34252090 数据库操作系统 python
2019独角兽企业重金招聘Python工程师标准>>>MySQL5.6主从复制最佳实践MySQL5.6主从复制的配置环境操作系统：CentOS-6.6-x86_64MySQL版本：mysql-5.6.26.tar.gz主节点IP：192.168.31.57主机名：edu-mysql-01从节点IP：192.168.31.59主机名：edu-mysql-02MySQL主从复制官方文档http://d
在WINDOWS中如何运行VBS脚本，多种运行方式涛涛讲AI AI编程开发语言 ecmascript VBA
今天有个哥们问我如何运行VBS脚本，我整理了如下内容。欢迎来到涛涛聊AI，要运行VBS（VisualBasicScript）脚本，你可以按照以下步骤操作：编写VBS脚本：打开一个文本编辑器（如记事本）。输入VBScript代码。例如，以下代码会弹出一个消息框：MsgBox"Hello,World!"将文件保存为以.vbs为扩展名的文件，例如hello.vbs。运行VBS脚本：双击运行：找到你保存的
使用LangSmith Chat Datasets微调模型 scaFHIO python 人工智能机器学习
在这篇文章中，我们将探讨如何通过LangSmithChatDatasets轻松微调模型。这一过程分为三个简单的步骤：创建聊天数据集。使用LangSmithDatasetChatLoader加载示例。微调你的模型。微调后，您可以在LangChain应用中使用微调过的模型。在深入探讨之前，我们需要安装一些前置条件。前置条件确保您已经安装了langchain>=0.0.311并准备好LangSmithA
一文搞懂大数据神器Spark，真的太牛了！ qq_23519469 大数据 spark 分布式
Spark是什么在如今这个大数据时代，数据量呈爆炸式增长，传统的数据处理方式已经难以满足需求。就拿电商平台来说，每天产生的交易数据、用户浏览数据、评论数据等，数量巨大且种类繁多。假如要对这些数据进行分析，比如分析用户的购买行为，找出最受欢迎的商品，预测未来的销售趋势等，用普通的单机处理方式，可能需要花费很长时间，甚至根本无法完成。这时，Spark就应运而生了。Spark是一个开源的、基于内存计算的
深入理解 Java 反射与 PropertyDescriptor 的应用 HoroMin web基础 easybbs项目疑难记录 java 开发语言反射
在Java编程中，反射是一项强大的功能，它允许我们在运行时动态地访问和操作类的信息，包括字段、方法和构造函数等。在处理JavaBean时，反射的灵活性尤为重要。而PropertyDescriptor类正是用于简化JavaBean属性的动态访问和操作。本文将探讨反射的基本概念，并通过具体示例展现如何使用PropertyDescriptor。什么是反射？反射是Java的一个特性，允许程序在运行时检查类
基于Docker 搭建Redis三主三从分布式集群 DBA学习之路 docker redis 容器
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、分布式系统规划二、准备配置文件1.创建redis集群目录三、启动Redis容器四、创建分布式系统1.创建集群2.查看节点信息总结前言提示：这里可以添加本文要记录的大概内容：本次搭建的为”三主三从“的分布式系统，分布式系统中节点存放的数据可以是不同的。当有数据写入请求到达分布式系统后，系统会采用虚拟槽分区算法将数据写入相
Docker入门篇:安装与加速 slamml Docker docker 容器运维
今天接着上一篇文章来写，本来计划以paopaorobot/dvo为例带入docker的基本操作，然后中间插播一下docker的安装和加速，但是发现写的有点罗嗦，刚写完安装与加速就挺大篇幅了，所以决定将docker基本操作放到下一篇介绍，对不住～对不住～。docker安装在这里，针对Windows、Ubuntu平台介绍docker的安装。Windows平台（本机win7）前提要求机器是64bit的，
vs code配置python_如何在vscode里的python配置好matplotlib？,vscode配置python环境教程 weixin_39564151 vs code配置python
如何在vscode里的python配置好matplotlib？,vscode配置python环境教程vscode配置python环境教程2020-09-2015:14:33人已围观VScode配置Python环境“配置任务运行程序”遇到问题我建议尝试再把bug写出来，不能因为不一样就不继续首先需要VScodePython插件。打开Python任意脚可以直接拖入。点击左下角的扩展按钮，在弹出界面选择
如何缓存聊天模型响应以提高效率 scaFHIO 缓存 java oracle python
技术背景介绍在开发基于大型语言模型（LLM）的应用程序时，API调用的成本和响应速度是需要考虑的两个重要因素。尤其是在开发过程中，重复请求相同的文本生成可能会增加额外的成本和延迟。为了应对这一挑战，LangChain提供了一种可选的缓存机制，可以有效地减少API调用次数，从而节省费用并加速应用程序响应。核心原理解析缓存机制的基本原理是在第一次请求时，将响应存储在缓存中。如果以后再次请求相同的输入，
如何在一行代码中初始化各种AI模型 qahaj 人工智能 python 深度学习
技术背景介绍在开发大语言模型(LLM)应用时，用户有时需要选择不同的模型提供商和具体模型。这通常需要一定的逻辑来根据用户配置初始化不同的聊天模型。为了简化这一过程，init_chat_model()方法被引入，让开发者能够轻松地初始化多种模型集成，而无需担心导入路径和类名。核心原理解析init_chat_model()方法通过传入模型名称及其提供商，自动推断并实例化对应的聊天模型。该功能在lang
Angular 18：从模块化到独立组件的转变 t0_54coder 编程问题解决手册 angular.js 前端 javascript 个人开发
随着Angular17的发布，Angular18继续推动开发者走向更简化的架构模式——独立组件（StandaloneComponents）。在这篇博客中，我们将探讨如何将一个使用模块化（NgModule）的Angular应用转变为使用独立组件的架构，并以一个具体的案例来说明这个过程。为什么选择独立组件？Angular18鼓励使用独立组件，主要有以下几个原因：减少冗余代码：不再需要为每个组件创建独立
基于开源项目二次开发建议方案易迟开源软件个人开发
背景介绍一般情况下我们不需要进行开源项目的二次开发，因为开源项目往往会提供良好的封装，可以通过依赖包或API服务的形式引入项目中。如果开源项目存在一些问题，我们往往可以通过给开源项目提供PR来解决，这样就可以尽可能减少二次开发开源项目的问题。但是某些情况下可能会需要基于开源项目开发自己的服务，需要一个相对长周期二次开发。而且因为定位不同，代码很难直接合并至开源项目，这种情况下就存在两种情况：不需要
使用Tiktoken进行文本分割：优化大语言模型的输入 bhawfgrcbtwny 语言模型 python 人工智能
引言在处理大语言模型时，因其对输入的token数量有限制，文本分割成为一个至关重要的任务。为了确保生成的文本块不会超过模型的token限制，我们需要使用与模型相同的tokenizer来计数和分割文本。在本文中，我们将探讨如何使用Tiktoken和其他工具来实现有效的文本分割。主要内容1.Tiktoken介绍Tiktoken是由OpenAI创建的一个快速BPE（BytePairEncoding）to
机器视觉工程师必须知道读码器如何选型视觉人机器视觉杂说数码相机 3d 人工智能 c#
一、明确核心需求应用场景工业场景（产线、仓储）：需高防护等级（IP65+）、抗震动/冲击、宽温工作（-20℃~50℃）。商业场景（零售、物流）：注重扫描速度、多码兼容性（一维/二维码混合）。移动场景（手持设备、AGV）：选择无线连接（蓝牙/Wi-Fi）、轻便设计。特殊环境（高粉尘、强光）：需配备强光源补偿、高帧率图像传感器。码的类型一维码：传统激光扫描器（成本低）或线性图像式扫描器（破损码容错）。
vue3 element plus 双击文字复制文字并提示复制文字成功 weixin_42220130 Element plus vue 复制复制 element plus vue3 拷贝文字
vue3elementplus双击文字复制文字并提示复制文字成功步骤分析具体实现代码解释运行项目下面将详细介绍如何在Vue3结合ElementPlus实现双击文字复制文字并提示复制成功的功能。步骤分析创建Vue3项目：使用Vite或VueCLI创建一个新的Vue3项目。安装ElementPlus：在项目中安装ElementPlus组件库。实现双击复制功能：在组件中监听文字的双击事件，当双击时将文字
使用Deepseek书写一篇综述论文，如何提示？学术乙方小知识经验分享
使用DeepSeek撰写综述论文时，可以通过以下提示和步骤来高效完成任务：明确研究主题与范围在开始撰写之前，首先需要明确研究主题、文献综述的时间跨度、地理范畴和文献类型。这有助于聚焦研究方向，避免偏离主题。制定详细的提示词提示词的设计是高效利用DeepSeek的关键。可以参考以下模板：研究背景与现状：请帮我梳理XXX领域的研究背景与现状，包括国内外的主要研究成果和研究热点。文献筛选与阅读：请帮我筛
Telegram bot教程：通过BotFather设置Telegram bot的命令菜单鲲志说 Web3相关业界资讯 telegram bot 经验分享笔记 twitter Telegram Bot
最近在研究Telegrambot嘛，总有些小细节可以记录了，今天就记录一个通过BotFather设置Telegrambot的命令菜单功能➡️【好看的灵魂千篇一律，有趣的鲲志一百六七！】-欢迎认识我～～作者：鲲志说（公众号、B站同名，视频号：鲲志说996）科技博主：极星会星辉大使后端研发：java、go、python、TS，前电商、现web3主理人：COC杭州开发者社区主理人、周周黑客松杭州主理人、
SQL优化之MySQL执行计划（Explain）及索引失效详解一未道 #性能优化大数据 sql mysql 数据库
1、执行计划基础1.1、执行计划（Explain）定义在MySQL中可以通过explain关键字模拟优化器执行SQL语句，从而解析MySQL是如何处理SQL语句的。1.2、MySQL查询过程客户端向MySQL服务器发送一条查询请求服务器首先检查查询缓存，如果命中缓存，则立刻返回存储在缓存中的结果。否则进入下一阶段服务器进行SQL解析、预处理、之后由优化器生成对应的执行计划MySQL根据执行计划，调
Mysql相关知识：存储引擎、sql执行流程、索引失效 Cachel wood sql语言 sql server +mysql mysql sql android ab测试算法人工智能前端框架
文章目录MySQL存储引擎一、MySQL存储引擎概述二、常见存储引擎对比三、核心引擎详解1.InnoDB2.MyISAM四、如何选择存储引擎？五、引擎操作命令1.查看表的存储引擎2.修改表的存储引擎3.引擎与性能优化六、示例对比场景：频繁更新的订单表vs只读的产品分类表七、总结索引失效1.索引列使用函数或表达式2.隐式类型转换3.范围查询右侧的索引列失效4.模糊查询以通配符开头5.OR条件导致索引
初识金融行业 Alessio Micheli 金融职场和发展
金融行业确实是一个竞争激烈、压力巨大的领域，尤其是对于从业人员来说，考核压力、业绩目标、职场竞争等问题常常让人感到疲惫和焦虑。以下是一些建议，帮助你在这样的环境中更好地应对挑战：1.调整心态，接受现实金融行业的竞争是常态，业绩波动也是不可避免的。接受这一点，可以减少不必要的心理负担。设定合理的目标，不要过于苛求自己，避免陷入“完美主义”的陷阱。2.提升核心竞争力不断学习和提升专业技能，保持对市场的
JavaScript基础-事件基础難釋懷 javascript 开发语言
在现代Web开发中，交互性是网站用户体验的重要组成部分。通过使用JavaScript，我们可以捕获用户的操作并作出响应，实现动态网页效果。这一切都离不开事件（Events）的概念。本文将介绍JavaScript中事件的基础知识，包括事件类型、如何绑定事件处理器以及一些常见的实践技巧。一、什么是事件？在浏览器环境中，事件是由浏览器生成的通知，表明某种情况已经发生。这些情况可能是用户交互（如点击按钮）
使用CharacterTextSplitter实现文本按字符拆分 bavDHAUO python
在文本处理任务中，按字符进行拆分是一种简单且有效的方法。本篇文章将介绍如何使用CharacterTextSplitter类对文本进行按字符拆分，并生成适用于下游任务的LangChainDocument对象。技术背景介绍文本拆分是自然语言处理（NLP）中的一个基础步骤，尤其在大文本分块处理、文本摘要等任务中。CharacterTextSplitter是langchain-text-splitters
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地

如何应对大数据分析工程师面试Spark考察，看这一篇就够了

AI换脸软件ZAO刷屏，可我却不敢用了

只给测试集不给训练集，要怎么做自己的物体检测器？

还在抱怨pandas运行速度慢？这几个方法会颠覆你的看法

没有光芯片，何谈 5G 与 AI ！

30 岁的程序员，我没有活成理想的模样，失败吗？

看懂“大数据”，这一篇就够了！

别让分析公司卖了你：一文读懂比特币的私密性及隐私保护

你可能感兴趣的:(如何应对大数据分析工程师面试Spark考察，看这一篇就够了)