alicelmx

【算法工程师】spark面试问题总结

spark中的RDD是什么，有哪些特性？

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是spark中最基本的数据抽象，它代表一个不可变，可分区，里面的元素可以并行计算的集合。

RDD中的数据可以存储在内存或者磁盘中；
RDD中的分区是可以改变的；

【五大特性】

A list of partitions：一个分区列表，RDD中的数据都存储在一个分区列表中
A function for computing each split：作用在每一个分区中的函数=
A list of dependencies on other RDDs：一个RDD依赖于其他多个RDD，这个点很重要，RDD的容错机制就是依据这个特性而来的
Optionally,a Partitioner for key-value RDDs(eg:to say that the RDD is hash-partitioned)：可选的，针对于kv类型的RDD才有这个特性，作用是决定了数据的来源以及数据处理后的去向
可选项，数据本地性，数据位置最优

概述一下spark中的常用算子区别（map,mapPartitions，foreach，foreachPatition）

map：用于遍历RDD，将函数应用于每一个元素，返回新的RDD（transformation算子）
foreach：用于遍历RDD，将函数应用于每一个元素，无返回值（action算子）
mapPatitions：用于遍历操作RDD中的每一个分区，返回生成一个新的RDD（transformation算子）
foreachPatition：用于遍历操作RDD中的每一个分区，无返回值（action算子）
总结：一般使用mapPatitions和foreachPatition算子比map和foreach更加高效，推荐使用

谈谈spark中的宽窄依赖

RDD和它的父RDD的关系有两种类型：窄依赖和宽依赖

宽依赖：指的是多个子RDD的Partition会依赖同一个父RDD的Partition，关系是一对多，父RDD的一个分区的数据去到子RDD的不同分区里面，会有shuffle的产生
窄依赖：指的是每一个父RDD的Partition最多被子RDD的一个partition使用，是一对一的，也就是父RDD的一个分区去到了子RDD的一个分区中，这个过程没有shuffle产生
区分的标准就是看父RDD的一个分区的数据的流向，要是流向一个partition的话就是窄依赖，否则就是宽依赖。

spark中如何划分stage

Spark任务会根据RDD之间的依赖关系，形成一个DAG有向无环图，DAG会提交给DAGScheduler，DAGScheduler会把DAG划分相互依赖的多个stage，划分依据就是宽窄依赖，遇到宽依赖就划分stage，每个stage包含一个或多个task，然后将这些task以taskSet的形式提交给TaskScheduler运行，stage是由一组并行的task组成

spark程序中可以因为不同的action触发众多的job，一个程序中可以有很多的job，每一个job是由一个或者多个stage构成的，后面的stage依赖于前面的stage，也就是说只有前面依赖的stage计算完毕后，后面的stage才会运行；
stage 的划分标准就是宽依赖：何时产生宽依赖就会产生一个新的stage，例如reduceByKey,groupByKey，join的算子，会导致宽依赖的产生；
切割规则：从后往前，遇到宽依赖就切割stage；
计算格式：pipeline管道计算模式，piepeline只是一种计算思想，一种模式
spark的pipeline管道计算模式相当于执行了一个高阶函数，也就是说来一条数据然后计算一条数据，会把所有的逻辑走完，然后落地，而MapReduce是1+1=2，2+1=3这样的计算模式，也就是计算完落地，然后再计算，然后再落地到磁盘或者内存，最后数据是落在计算节点上，按reduce的hash分区落地。管道计算模式完全基于内存计算，所以比MapReduce快的原因。
管道中的RDD何时落地：shuffle write的时候，对RDD进行持久化的时候。
stage的task的并行度是由stage的最后一个RDD的分区数来决定的，一般来说，一个partition对应一个task，但最后reduce的时候可以手动改变reduce的个数，也就是改变最后一个RDD的分区数，也就改变了并行度。例如：reduceByKey(+,3)
优化：提高stage的并行度：reduceByKey(+,patition的个数) ，join(+,patition的个数)

DAGScheduler分析

是一个面向stage 的调度器；
主要功能：

接受用户提交的job；
将job根据类型划分为不同的stage，记录那些RDD，stage被物化，并在每一个stage内产生一系列的task，并封装成taskset；
决定每个task的最佳位置，任务在数据所在节点上运行，并结合当前的缓存情况，将taskSet提交给TaskScheduler；
重新提交shuffle输出丢失的stage给taskScheduler；
注：一个stage内部的错误不是由shuffle输出丢失造成的，DAGScheduler是不管的，由TaskScheduler负责尝试重新提交task执行。
Job的生成：
一旦driver程序中出现action，就会生成一个job，比如count等，向DAGScheduler提交job，如果driver程序后面还有action，那么其他action也会对应生成相应的job，所以，driver端有多少action就会提交多少job，这可能就是为什么spark将driver程序称为application而不是job 的原因。每一个job可能会包含一个或者多个stage，最后一个stage生成result，在提交job 的过程中，DAGScheduler会首先从后往前划分stage，划分的标准就是宽依赖，一旦遇到宽依赖就划分，然后先提交没有父阶段的stage们，并在提交过程中，计算该stage的task数目以及类型，并提交具体的task，在这些无父阶段的stage提交完之后，依赖该stage 的stage才会提交。
有向无环图：
DAG，有向无环图，简单的来说，就是一个由顶点和有方向性的边构成的图中，从任意一个顶点出发，没有任意一条路径会将其带回到出发点的顶点位置，为每个spark job计算具有依赖关系的多个stage任务阶段，通常根据shuffle来划分stage，如reduceByKey,groupByKey等涉及到shuffle的transformation就会产生新的stage ，然后将每个stage划分为具体的一组任务，以TaskSets的形式提交给底层的任务调度模块来执行，其中不同stage之前的RDD为宽依赖关系，TaskScheduler任务调度模块负责具体启动任务，监控和汇报任务运行情况。

RDD缓存

Spark可以使用 persist 和 cache 方法将任意 RDD 缓存到内存、磁盘文件系统中。缓存是容错的，如果一个 RDD 分片丢失，可以通过构建它的 transformation自动重构。被缓存的 RDD 被使用的时，存取速度会被大大加速。一般的executor内存60%做 cache，剩下的40%做task。
Spark中，RDD类可以使用cache() 和 persist() 方法来缓存。cache()是persist()的特例，将该RDD缓存到内存中。而persist可以指定一个StorageLevel。StorageLevel的列表可以在StorageLevel 伴生单例对象中找到。
在不会使用cached RDD的时候，及时使用unpersist方法来释放它。

RDD共享变量：

在应用开发中，一个函数被传递给Spark操作（例如map和reduce），在一个远程集群上运行，它实际上操作的是这个函数用到的所有变量的独立拷贝。这些变量会被拷贝到每一台机器。通常看来，在任务之间中，读写共享变量显然不够高效。然而，Spark还是为两种常见的使用模式，提供了两种有限的共享变量：广播变量和累加器。

广播变量（Broadcast Variables）
1. 广播变量缓存到各个节点的内存中，而不是每个 Task
2. 广播变量被创建后，能在集群中运行的任何函数调用
3. 广播变量是只读的，不能在被广播后修改
4. 对于大数据集的广播， Spark 尝试使用高效的广播算法来降低通信成本
累加器
累加器只支持加法操作，可以高效地并行，用于实现计数器和变量求和。Spark 原生支持数值类型和标准可变集合的计数器，但用户可以添加新的类型。只有驱动程序才能获取累加器的值

spark如何防止内存溢出：

driver端的内存溢出
可以增大driver的内存参数：spark.driver.memory (default 1g)
这个参数用来设置Driver的内存。在Spark程序中，SparkContext，DAGScheduler都是运行在Driver端的。对应rdd的Stage切分也是在Driver端运行，如果用户自己写的程序有过多的步骤，切分出过多的Stage，这部分信息消耗的是Driver的内存，这个时候就需要调大Driver的内存。
map过程产生大量对象导致内存溢出
这种溢出的原因是在单个map中产生了大量的对象导致的，例如：rdd.map(x=>for(i <- 1 to 10000) yield i.toString)，这个操作在rdd中，每个对象都产生了10000个对象，这肯定很容易产生内存溢出的问题。针对这种问题，在不增加内存的情况下，可以通过减少每个Task的大小，以便达到每个Task即使产生大量的对象Executor的内存也能够装得下。具体做法可以在会产生大量对象的map操作之前调用repartition方法，分区成更小的块传入map。例如：rdd.repartition(10000).map(x=>for(i <- 1 to 10000) yield i.toString)。
面对这种问题注意，不能使用rdd.coalesce方法，这个方法只能减少分区，不能增加分区，不会有shuffle的过程。
数据不平衡导致内存溢出
数据不平衡除了有可能导致内存溢出外，也有可能导致性能的问题，解决方法和上面说的类似，就是调用repartition重新分区。这里就不再累赘了。
shuffle后内存溢出
shuffle内存溢出的情况可以说都是shuffle后，单个文件过大导致的。在Spark中，join，reduceByKey这一类型的过程，都会有shuffle的过程，在shuffle的使用，需要传入一个partitioner，大部分Spark中的shuffle操作，默认的partitioner都是HashPatitioner，默认值是父RDD中最大的分区数,这个参数通过spark.default.parallelism控制(在spark-sql中用spark.sql.shuffle.partitions) ， spark.default.parallelism参数只对HashPartitioner有效，所以如果是别的Partitioner或者自己实现的Partitioner就不能使用spark.default.parallelism这个参数来控制shuffle的并发量了。如果是别的partitioner导致的shuffle内存溢出，就需要从partitioner的代码增加partitions的数量。
standalone模式下资源分配不均匀导致内存溢出
在standalone的模式下如果配置了–total-executor-cores 和 –executor-memory 这两个参数，但是没有配置–executor-cores这个参数的话，就有可能导致，每个Executor的memory是一样的，但是cores的数量不同，那么在cores数量多的Executor中，由于能够同时执行多个Task，就容易导致内存溢出的情况。这种情况的解决方法就是同时配置–executor-cores或者spark.executor.cores参数，确保Executor资源分配均匀。
使用rdd.persist(StorageLevel.MEMORY_AND_DISK_SER)代替rdd.cache()
rdd.cache()和rdd.persist(Storage.MEMORY_ONLY)是等价的，在内存不足的时候rdd.cache()的数据会丢失，再次使用的时候会重算，而rdd.persist(StorageLevel.MEMORY_AND_DISK_SER)在内存不足的时候会存储在磁盘，避免重算，只是消耗点IO时间。

spark中cache和persist的区别

cache：缓存数据，默认是缓存在内存中，其本质还是调用persist
persist:缓存数据，有丰富的数据缓存策略。数据可以保存在内存也可以保存在磁盘中，使用的时候指定对应的缓存级别就可以了。

spark中的数据倾斜的现象，原因，后果，措施

数据倾斜的现象
多数task执行速度较快,少数task执行时间非常长，或者等待很长时间后提示你内存不足，执行失败。
数据倾斜的原因
1. 数据问题
  1. key本身分布不均衡（包括大量的key为空）
  2. key的设置不合理
2. spark使用问题
  1. shuffle时的并发度不够
  2. 计算方式有误
数据倾斜的后果
spark中的stage的执行时间受限于最后那个执行完成的task,因此运行缓慢的任务会拖垮整个程序的运行速度（分布式程序运行的速度是由最慢的那个task决定的）。
过多的数据在同一个task中运行，将会把executor撑爆。
spark数据倾斜的处理：
发现数据倾斜的时候，不要急于提高executor的资源，修改参数或是修改程序，首先要检查数据本身，是否存在异常数据。
1. 数据问题造成的数据倾斜
  找出异常的key
  如果任务长时间卡在最后最后1个(几个)任务，首先要对key进行抽样分析，判断是哪些key造成的。选取key，对数据进行抽样，统计出现的次数，根据出现次数大小排序取出前几个。
  比如: df.select(“key”).sample(false,0.1).(k=>(k,1)).reduceBykey(+).map(k=>(k._2,k._1)).sortByKey(false).take(10)
  如果发现多数数据分布都较为平均，而个别数据比其他数据大上若干个数量级，则说明发生了数据倾斜。

经过分析，倾斜的数据主要有以下三种情况:
1、null（空值）或是一些无意义的信息()之类的,大多是这个原因引起。
2、无效数据，大量重复的测试数据或是对结果影响不大的有效数据。
3、有效数据，业务导致的正常数据分布。
解决办法
第1，2种情况，直接对数据进行过滤即可（因为该数据对当前业务不会产生影响）。
第3种情况则需要进行一些特殊操作，常见的有以下几种做法
(1) 隔离执行，将异常的key过滤出来单独处理，最后与正常数据的处理结果进行union操作。
(2) 对key先添加随机值，进行操作后，去掉随机值，再进行一次操作。
(3) 使用reduceByKey 代替 groupByKey(reduceByKey用于对每个key对应的多个value进行merge操作，最重要的是它能够在本地先进行merge操作，并且merge操作可以通过函数自定义.)
(4) 使用map join。
注意1: 如果此时依旧存在问题，建议筛选出倾斜的数据单独处理。最后将这份数据与正常的数据进行union即可。
注意2: 单独处理异常数据时，可以配合使用Map Join解决。
2. spark使用不当造成的数据倾斜
提高shuffle并行度
dataFrame和sparkSql可以设置spark.sql.shuffle.partitions参数控制shuffle的并发度，默认为200。
rdd操作可以设置spark.default.parallelism控制并发度，默认参数由不同的Cluster Manager控制。
局限性: 只是让每个task执行更少的不同的key。无法解决个别key特别大的情况造成的倾斜，如果某些key的大小非常大，即使一个task单独执行它，也会受到数据倾斜的困扰。
使用map join 代替reduce join
在小表不是特别大(取决于你的executor大小)的情况下使用，可以使程序避免shuffle的过程，自然也就没有数据倾斜的困扰了.（详细见http://blog.csdn.net/lsshlsw/article/details/50834858、http://blog.csdn.net/lsshlsw/article/details/48694893）
局限性: 因为是先将小数据发送到每个executor上，所以数据量不能太大。

spark中map-side-join关联优化

将多份数据进行关联是数据处理过程中非常普遍的用法，不过在分布式计算系统中，这个问题往往会变的非常麻烦，因为框架提供的 join 操作一般会将所有数据根据 key 发送到所有的 reduce 分区中去，也就是 shuffle 的过程。造成大量的网络以及磁盘IO消耗，运行效率极其低下，这个过程一般被称为 reduce-side-join。

如果其中有张表较小的话，我们则可以自己实现在 map 端实现数据关联，跳过大量数据进行 shuffle 的过程，运行时间得到大量缩短，根据不同数据可能会有几倍到数十倍的性能提升。

何时使用：在海量数据中匹配少量特定数据

原理：reduce-side-join 的缺陷在于会将key相同的数据发送到同一个partition中进行运算，大数据集的传输需要长时间的IO，同时任务并发度收到限制，还可能造成数据倾斜。

将少量的数据转化为Map进行广播，广播会将此 Map 发送到每个节点中，如果不进行广播，每个task执行时都会去获取该Map数据，造成了性能浪费。对大数据进行遍历，使用mapPartition而不是map，因为mapPartition是在每个partition中进行操作，因此可以减少遍历时新建broadCastMap.value对象的空间消耗，同时匹配不到的数据也不会返回。

什么是粗粒度，什么是细粒度，各自的优缺点是什么？

1.粗粒度：启动时就分配好资源，程序启动，后续具体使用就使用分配好的资源，不需要再分配资源。
好处：作业特别多时，资源复用率较高，使用粗粒度。
缺点：容易资源浪费，如果一个job有1000个task，完成了999个，还有一个没完成，那么使用粗粒度。如果有999个资源闲置在那里，会造成资源大量浪费。
2. 细粒度：用资源的时候分配，用完了就立即回收资源，启动会麻烦一点，启动一次分配一次，会比较麻烦。

driver的功能是什么

一个spark作业运行时包括一个driver进程，也就是作业的主进程，具有main函数，并且有sparkContext的实例，是程序的入口；
功能：负责向集群申请资源，向master注册信息，负责了作业的调度，负责了作业的解析，生成stage并调度task到executor上，包括DAGScheduler，TaskScheduler。

spark的有几种部署模式，每种模式特点？

本地模式

Spark不一定非要跑在hadoop集群，可以在本地，起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地，一般都是为了方便调试，本地模式分三类
2. standalone模式
分布式部署集群，自带完整的服务，资源管理和任务监控是Spark自己监控，这个模式也是其他模式的基础，
3. Spark on yarn模式
分布式部署集群，资源和任务监控交给yarn管理，但是目前仅支持粗粒度资源分配方式，包含cluster和client运行模式，cluster适合生产，driver运行在集群子节点，具有容错功能，client适合调试，dirver运行在客户端

Spark On Mesos模式。官方推荐这种模式（当然，原因之一是血缘关系）。正是由于Spark开发之初就考虑到支持Mesos，因此，目前而言，Spark运行在Mesos上会比运行在YARN上更加灵活，更加自然。用户可选择两种调度模式之一运行自己的应用程序：

粗粒度模式（Coarse-grained Mode）：每个应用程序的运行环境由一个Dirver和若干个Executor组成，其中，每个Executor占用若干资源，内部可运行多个Task（对应多少个“slot”）。应用程序的各个任务正式运行之前，需要将运行环境中的资源全部申请好，且运行过程中要一直占用这些资源，即使不用，最后程序运行结束后，回收这些资源。
细粒度模式（Fine-grained Mode）：鉴于粗粒度模式会造成大量资源浪费，Spark On Mesos还提供了另外一种调度模式：细粒度模式，这种模式类似于现在的云计算，思想是按需分配。

Spark技术栈有哪些组件，每个组件都有什么功能，适合什么应用场景？

1）Spark core：是其它组件的基础，spark的内核，主要包含：有向循环图、RDD、Lingage、Cache、broadcast等，并封装了底层通讯框架，是Spark的基础。
2）SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统，可以对多种数据源（如Kdfka、Flume、Twitter、Zero和TCP 套接字）进行类似Map、Reduce和Join等复杂操作，将流式计算分解成一系列短小的批处理作业。
3）Spark sql：Shark是SparkSQL的前身，Spark SQL的一个重要特点是其能够统一处理关系表和RDD，使得开发人员可以轻松地使用SQL命令进行外部查询，同时进行更复杂的数据分析
4）BlinkDB ：是一个用于在海量数据上运行交互式 SQL 查询的大规模并行查询引擎，它允许用户通过权衡数据精度来提升查询响应时间，其数据的精度被控制在允许的误差范围内。
5）MLBase是Spark生态圈的一部分专注于机器学习，让机器学习的门槛更低，让一些可能并不了解机器学习的用户也能方便地使用MLbase。MLBase分为四部分：MLlib，MLI、ML Optimizer和MLRuntime。
6）GraphX是Spark中用于图和图并行计算

spark中worker 的主要工作是什么？

主要功能：管理当前节点内存，CPU的使用情况，接受master发送过来的资源指令，通过executorRunner启动程序分配任务，worker就类似于包工头，管理分配新进程，做计算的服务，相当于process服务，需要注意的是：
1.worker会不会汇报当前信息给master？worker心跳给master主要只有workid，不会以心跳的方式发送资源信息给master，这样master就知道worker是否存活，只有故障的时候才会发送资源信息；
2.worker不会运行代码，具体运行的是executor，可以运行具体application斜的业务逻辑代码，操作代码的节点，不会去运行代码。

Mapreduce和Spark的都是并行计算，那么他们有什么相同和区别

两者都是用mr模型来进行并行计算。
hadoop的一个作业称为job，job里面分为map task和reduce task，每个task都是在自己的进程中运行的，当task结束时，进程也会结束。
spark用户提交的任务成为application，一个application对应一个sparkcontext，app中存在多个job，每触发一次action操作就会产生一个job。这些job可以并行或串行执行，每个job中有多个stage，stage是shuffle过程中DAGSchaduler通过RDD之间的依赖关系划分job而来的，每个stage里面有多个task，组成taskset有TaskSchaduler分发到各个executor中执行，executor的生命周期是和app一样的，即使没有job运行也是存在的，所以task可以快速启动读取内存进行计算。
hadoop的job只有map和reduce操作，表达能力比较欠缺而且在mr过程中会重复的读写hdfs，造成大量的io操作，多个job需要自己管理关系。
spark的迭代计算都是在内存中进行的，API中提供了大量的RDD操作如join，groupby等，而且通过DAG图可以实现良好的容错。

RDD机制？

rdd分布式弹性数据集，简单的理解成一种数据结构，是spark框架上的通用货币。所有算子都是基于rdd来执行的，不同的场景会有不同的rdd实现类，但是都可以进行互相转换。 rdd执行过程中会形成dag图，然后形成lineage保证容错性等。从物理的角度来看rdd存储的是block和node之间的映射。

spark有哪些组件？

master：管理集群和节点，不参与计算。
worker：计算节点，进程本身不参与计算，和master汇报。
Driver：运行程序的main方法，创建spark context对象。
spark context：控制整个application的生命周期，包括dagsheduler和task scheduler等组件。
client：用户提交程序的入口。

spark工作机制

用户在client端提交作业后，会由Driver运行main方法并创建spark context上下文。执行add算子，形成dag图输入dagscheduler，按照add之间的依赖关系划分stage输入task scheduler。 task scheduler会将stage划分为task set分发到各个节点的executor中执行。

cache后面能不能接其他算子,它是不是action操作？

cache可以接其他算子，但是接了算子之后，起不到缓存应有的效果，因为会重新触发cache。
cache不是action操作

reduceByKey是不是action？

不是，很多人都会以为是action，reduce rdd是action

数据本地性是在哪个环节确定的？

具体的task运行在那他机器上，dag划分stage的时候确定的。

RDD的弹性表现在哪几点？

自动的进行内存和磁盘的存储切换；
基于Lingage的高效容错；
task如果失败会自动进行特定次数的重试；
stage如果失败会自动进行特定次数的重试，而且只会计算失败的分片；
checkpoint和persist，数据计算之后持久化缓存；
数据调度弹性，DAG TASK调度和资源无关；
数据分片的高度弹性。

常规的容错方式有哪几种类型？

数据检查点,会发生拷贝，浪费资源；
记录数据的更新，每次更新都会记录下来，比较复杂且比较消耗性能。

RDD通过Linage（记录数据更新）的方式为何很高效？

lazy记录了数据的来源，RDD是不可变的，且是lazy级别的，且rDD之间构成了链条，lazy是弹性的基石。由于RDD不可变，所以每次操作就产生新的rdd，不存在全局修改的问题，控制难度下降，所有有计算链条将复杂计算链条存储下来，计算的时候从后往前回溯900步是上一个stage的结束，要么就checkpoint；
记录原数据，是每次修改都记录，代价很大，如果修改一个集合，代价就很小，官方说rdd是粗粒度的操作，是为了效率，为了简化，每次都是操作数据集合，写或者修改操作，都是基于集合的rdd的写操作是粗粒度的，rdd的读操作既可以是粗粒度的也可以是细粒度，读可以读其中的一条条的记录；
简化复杂度，是高效率的一方面，写的粗粒度限制了使用场景如网络爬虫，现实世界中，大多数写是粗粒度的场景。

RDD有哪些缺陷？

不支持细粒度的写和更新操作（如网络爬虫），spark写数据是粗粒度的（所谓粗粒度，就是批量写入数据，为了提高效率。但是读数据是细粒度的也就是说可以一条条的读）；
不支持增量迭代计算，Flink支持

说一说Spark程序编写的一般步骤？

初始化，资源，数据源，并行化，rdd转化，action算子打印输出结果或者也可以存至相应的数据存储介质。

Spark有哪些聚合类的算子，我们应该尽量避免什么类型的算子？

在我们的开发过程中，能避免则尽可能避免使用reduceByKey、join、distinct、repartition等会进行shuffle的算子，尽量使用map类的非shuffle算子。这样的话，没有shuffle操作或者仅有较少shuffle操作的Spark作业，可以大大减少性能开销。

对于Spark中的数据倾斜问题你有什么好的方案？

前提是定位数据倾斜，是OOM了，还是任务执行缓慢，看日志，看WebUI

避免不必要的shuffle，如使用广播小表的方式，将reduce-side-join提升为map-side-join；
分拆发生数据倾斜的记录，分成几个部分进行，然后合并join后的结果；
改变并行度，可能并行度太少了，导致个别task数据压力大；
两阶段聚合，先局部聚合，再全局聚合；
自定义paritioner，分散key的分布，使其更加均匀。

RDD创建有哪几种方式？

使用程序中的集合创建rdd；
使用本地文件系统创建rdd；
使用hdfs创建rdd；
基于数据库db创建rdd；
基于Nosql创建rdd，如hbase；
基于s3创建rdd；
基于数据流，如socket创建rdd

Spark并行度怎么设置比较合适

答：spark并行度，每个core承载2 ~ 4个partition,如，32个core，那么64 ~ 128之间的并行度，也就是设置64 ~ 128个partion，并行读和数据规模无关，只和内存使用量和cpu使用时间有关。

Spark中数据的位置是被谁管理的？

每个数据分片都对应具体物理位置，数据的位置是被blockManager，无论数据是在磁盘，内存还是tacyan，都是由blockManager管理。

Spark的数据本地性有哪几种？

PROCESS_LOCAL是指读取缓存在本地节点的数据
NODE_LOCAL是指读取本地节点硬盘数据
ANY是指读取非本地节点数据

通常读取数据PROCESS_LOCAL>NODE_LOCAL>ANY，尽量使数据以PROCESS_LOCAL或NODE_LOCAL方式读取。其中PROCESS_LOCAL还和cache有关，如果RDD经常用的话将该RDD cache到内存中，注意，由于cache是lazy的，所以必须通过一个action的触发，才能真正的将该RDD cache到内存中。

rdd有几种操作类型？

transformation，rdd由一种转为另一种rdd
action
cronroller，crontroller是控制算子,cache,persist，对性能和效率的有很好的支持

Spark如何处理不能被序列化的对象？

将不能序列化的内容封装成object

collect功能是什么，其底层是怎么实现的？

driver通过collect把集群中各个节点的内容收集过来汇总成结果，collect返回结果是Array类型的，collect把各个节点上的数据抓过来，抓过来数据是Array型，collect对Array抓过来的结果进行合并，合并后Array中只有一个元素，是tuple类型（KV类型的）的。

为什么Spark Application在没有获得足够的资源，job就开始执行了，可能会导致什么什么问题发生?

会导致执行该job时候集群资源不足，导致执行job结束也没有分配足够的资源，分配了部分Executor，该job就开始执行task，应该是task的调度线程和Executor资源申请是异步的；如果想等待申请完所有的资源再执行job的：需要将spark.scheduler.maxRegisteredResourcesWaitingTime设置的很大；spark.scheduler.minRegisteredResourcesRatio 设置为1，但是应该结合实际考虑否则很容易出现长时间分配不到资源，job一直不能运行的情况。

map与flatMap的区别

map：对RDD每个元素转换，文件中的每一行数据返回一个数组对象
flatMap：对RDD每个元素转换，然后再扁平化将所有的对象合并为一个对象，文件中的所有行数据仅返回一个数组对象，会抛弃值为null的值。

列举你常用的action

collect，reduce，take，count，saveAsTextFile等。

Spark为什么要持久化，一般什么场景下要进行persist操作？

spark所有复杂一点的算法都会有persist身影，spark默认数据放在内存，非常适合高速迭代，1000个步骤中只有第一个输入数据，中间不产生临时数据，但分布式系统风险很高，所以容易出错，就要容错，rdd出错或者分片可以根据血统算出来，如果没有对父rdd进行persist 或者cache的化，就需要重头做。
以下场景需要进行persist操作：
1. 某个步骤计算非常耗时，需要进行persist持久化；
2. 计算链条非常长，重新恢复要算很多步骤；
3. checkpoint所在的rdd要持久化。persist是lazy级别，框架发现有checnkpoint，checkpoint时单独触发一个job，需要重算一遍，checkpoint前要持久化，写个rdd.cache或者rdd.persist，将结果保存起来，再写checkpoint操作，这样执行起来会非常快，不需要重新计算rdd链条了。checkpoint之前一定会进行persist。
4. shuffle之后为什么要persist，shuffle要进性网络传输，风险很大，数据丢失重来，恢复代价很大；
5. shuffle之前进行persist，框架默认将数据持久化到磁盘，这个是框架自动做的。

为什么要进行序列化

优点：序列化可以减少数据的体积，减少存储空间，高效存储和传输数据；
缺点：不好的是使用的时候要反序列化，非常消耗CPU。

介绍一下join操作优化经验

join其实常见的就分为两类：map-side join 和 reduce-side join。
当大表和小表join时，用map-side join能显著提高效率。将多份数据进行关联是数据处理过程中非常普遍的用法，不过在分布式计算系统中，这个问题往往会变的非常麻烦，因为框架提供的 join 操作一般会将所有数据根据 key 发送到所有的 reduce 分区中去，也就是 shuffle 的过程。造成大量的网络以及磁盘IO消耗，运行效率极其低下，这个过程一般被称为 reduce-side-join。如果其中有张表较小的话，我们则可以自己实现在 map 端实现数据关联，跳过大量数据进行 shuffle 的过程，运行时间得到大量缩短，根据不同数据可能会有几倍到数十倍的性能提升。

介绍一下cogroup rdd实现原理，你在什么场景下用过这个rdd？

这个实现根据两个要进行合并的两个RDD操作，生成一个CoGroupedRDD的实例，这个RDD的返回结果是把相同的key中两个RDD分别进行合并操作，最后返回的RDD的value是一个Pair的实例，这个实例包含两个Iterable的值，第一个值表示的是RDD1中相同KEY的值，第二个值表示的是RDD2中相同key的值。由于做cogroup的操作,需要通过partitioner进行重新分区的操作，因此,执行这个流程时,需要执行一次shuffle的操作(如果要进行合并的两个RDD的都已经是shuffle后的rdd,同时他们对应的partitioner相同时,就不需要执行shuffle）。

你可能感兴趣的:(求职)

享受职业带给你的快乐人工智能
人生发展阶段人生大阶段都充满了幻灭感：头20年，看山是山，看水是水。牙牙学语开始，父母给无微不至照顾，解决生活难题，认为他们无所不能。长大后，才发现父母也只是普通人，之前错觉是因没看到，他们转过身去品尝生活苦涩的样子第二个20年，看山非山，看水非水。阶段开头，学业有成，迫不及待冲入职场欲大干一番。但很多人在第一次求职就早于滑铁卢，发现和梦中情司之间隔着一座大山。也许你更幸运些，获得了一个还算不错的
想转行到人工智能领域，我该学什么，怎么学？张登杰踩人工智能 python
转行到人工智能（AI）领域需要系统的学习和实践，以下是详细的路径建议，涵盖基础知识、技能学习、项目实践和求职准备：一、明确目标和领域方向人工智能领域广泛，建议先了解细分方向（如机器学习、深度学习、计算机视觉、自然语言处理、强化学习等），结合兴趣和职业规划选择切入点。二、构建基础知识1.数学基础线性代数：矩阵运算、特征值、向量空间。微积分：导数、梯度、优化理论。概率与统计：贝叶斯定理、分布、假设检验
国内优秀的FPGA设计公司主要分布在哪些城市？博览鸿蒙 FPGA fpga开发
近年来，国内FPGA行业发展迅速，随着5G通信、人工智能、大数据等新兴技术的崛起，FPGA设计企业的需求也迎来了爆发式增长。很多技术人才在求职时都会考虑城市的行业分布和发展潜力。因此，国内优秀的FPGA设计公司主要分布在哪些城市？以下将对国内FPGA企业集中的城市进行梳理。北京北京在我国FPGA产业发展中有着重要地位，尤其在设计和应用领域有较大优势，形成了完整的研发和产业生态。目前，北京主要的产业
我在华为做Android外包的真实经历！附小技巧 m0_56259669 程序员 android 移动开发面试
前言不论是校招还是社招都避免不了各种面试、笔试，如何去准备这些东西就显得格外重要。不论是笔试还是面试都是有章可循的，我这个“有章可循”说的意思只是说应对技术面试是可以提前准备，所谓不打无准备的仗就是这个道理，以下为大家，描述了从面试准备到最后的拿到offer提供了非常详细的目录，建议可以从头看是看几遍，如果基础不错的话也可以挑自己需要的章节查看。应届坎坷求职路一个广州非985/211普通本科生，计
android数据存储实验报告，2024年来看看Android的发展 2401_84408418 程序员 android
应届坎坷求职路一个广州非985/211普通本科生，计算机科学与技术专业。以前老是梦想能考一个厉害一点的学府，学习物理专业（因为初中和高中对物理比较有兴趣），无奈高考考得不尽人意。来到了计算机专业，才知道有C语言这玩意。2013年大一，专业C语言成绩太差，被分配到B班学习。临近学校工作室（有真实项目锻炼）招新，那时候基础太差，又不愿意做一个loser。正巧同乡会有一位学长进了该工作室，我向他了解了该
2024Web前端人事面试题总结精选_前端面试项目相关提问 2401_86638424 面试职场和发展
api然后我们前端直接调用，当然如果后台还没写好就先自己造假数据来完成。平常都是用webpack来构建项目等等。2、你觉得你个性上最大的优点是什么？回答提示：沉着冷静、条理清楚、立场坚定、顽强向上、乐于助人和关心他人、适应能力和幽默感、乐观和友爱。3、说你最大的缺点？回答提示：这个问题企业问的概率很大，通常不希望听到直接回答的缺点是什么等，如果求职者说自己小心眼、爱忌妒人、非常懒、脾气大、工作效率
程序员如何培养技术领导力？借雨醉东风管理及面试心得职场和发展
关注我，持续分享逻辑思维&管理思维&面试题；可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导；推荐专栏《10天学会使用asp.net编程AI大模型》，目前已完成所有内容。一顿烧烤不到的费用，让人能紧跟时代的浪潮。从普通网站，到公众号、小程序，再到AI大模型网站。干货满满。学成后可接项目赚外快，绝对划算。不仅学会如何编程，还将学会如何将AI技术应用到实际问题中，为您的职业生涯增添一笔宝贵的财富
基于 WEB 开发的在线求职招聘系统设计与实现赵谨言论文经验分享毕业设计
标题:基于WEB开发的在线求职招聘系统设计与实现内容:1.摘要本文介绍了基于WEB开发的在线求职招聘系统的设计与实现。详细阐述了系统的背景、目的、方法、结果、结论和核心主题。通过对现有求职招聘系统的分析，结合用户需求，提出了系统的设计方案。采用了先进的WEB技术，实现了系统的各项功能。经过测试，系统性能稳定，用户体验良好。该系统为求职者和招聘者提供了一个便捷、高效的交流平台，具有重要的应用价值。关
GPU介绍之GPU监控中，如何确定GPU忙碌程度借雨醉东风热点追踪人工智能大数据
关注我，持续分享逻辑思维&管理思维&面试题；可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导；推荐专栏《10天学会使用asp.net编程AI大模型》，目前已完成所有内容。一顿烧烤不到的费用，让人能紧跟时代的浪潮。从普通网站，到公众号、小程序，再到AI大模型网站。干货满满。学成后可接项目赚外快，绝对划算。不仅学会如何编程，还将学会如何将AI技术应用到实际问题中，为您的职业生涯增添一笔宝贵的财富
家政招聘管理系统的设计与实现詹姆斯爱研究Java spring spring boot
摘要随着互联网技术的发展，搭建一个满足每个家庭对家政服务需求的人性化管理系统，不仅能为客户提供更广的查询求职者信息的服务，也为求职者提供了方便、快捷的应聘途径。求职者和招聘者可以在网上进行交流，招聘者和求职者也可以在系统中上传自己的要求和优势，不受时间可空间的局限。网上招聘与传统招聘相比范围更广，资源更丰富，可挑选机会多等优点。我的系统主要用Java编程语言和Oracle数据库作为基础开发的平台，
面试前您该做的事情测试者家园面试工作任务测试产品招聘
选自本人作品：《软件性能测试与LR实战》无论您是刚刚毕业的大学生朋友，还是已经有工作经验的同行，大家都不可避免的面临一个问题就是找工作或者换工作的问题。在整个应聘过程中，面试无疑是最具有决定性意义的重要环节，关系到您是否能够成功的找到合适的雇主，关系到您以后个人发展的前途等。面试也是求职者全面展示自身素质、能力、品质的最好时机，面试发挥出色，可以弥补先前笔试或是其他条件如学历、专业上的一些不足。在
什么是FPGA开发？博览鸿蒙 FPGA fpga开发
FPGA（Field-ProgrammableGateArray），即现场可编程门阵列，是一种通过编程方式实现特定功能的集成电路。与传统的ASIC（专用集成电路）相比，FPGA具有灵活性高、开发周期短、成本相对较低等优势，因此在通信、数据中心、汽车、工业控制等领域得到广泛应用。如果按照应用场景给FPGA应用分类，可以分为高速接口、数据处理、逻辑控制等，在实际工作中也可以根据这些方向进行求职。虽然不
java软件工程师简历极客11 面试与求职 java 开发语言
java软件工程师简历一姓名：陶**性别：男电话：136-3231****学历：本科邮箱：[email protected]地址：广州市天河区求职意向java软件工程师掌握技能1.熟练CoreJava编程，有编写注释的习惯;2.能熟练的整合Spring+Struts+Hibernate(SSH)三大开源框架;3.能熟练的应用各种常见的设计模式：工厂模式、单例模式、缺省适配器模式、不变模式、装饰模式、
我的秋招总结今天不coding 秋招秋招总结大厂秋招建议秋招准备
我的秋招总结个人背景双非本，985硕，科班准备情况以求职为目的学习Java的时间大概一年。八股，一开始主要是看B站黑马的八股文课程，背JavaGuide和小林coding还有面试鸭。算法，250+，刷了3遍左右项目，API开放平台+OJ在线判题系统+实习项目（检索+大模型）实习，华为线上算法实习4个月，小厂Java实习5个月，滴滴后端实习9个月offer京东零售-供应链sp美团到家-履约sp快手-
如何设计一款分布式数据库借雨醉东风热点追踪分布式
关注我，持续分享逻辑思维&管理思维&面试题；可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导；推荐专栏《10天学会使用asp.net编程AI大模型》，目前已完成所有内容。一顿烧烤不到的费用，让人能紧跟时代的浪潮。从普通网站，到公众号、小程序，再到AI大模型网站。干货满满。学成后可接项目赚外快，绝对划算。不仅学会如何编程，还将学会如何将AI技术应用到实际问题中，为您的职业生涯增添一笔宝贵的财富
其实数据分析，只是在筛选没有准备的人，写给正在求职的你们。。。莫叫石榴姐收获不止一点信息可视化求职招聘大数据数据分析
目录1求职者的窘境激烈的竞争环境高门槛的技能要求缺乏实践经验行业知识的欠缺2初学者如何建立自己的学习计划第一阶段：奠定理论基础（1-2个月）第二阶段：工具技能学习（2-3个月）第三阶段：实践项目参与（3-6个月）第四阶段：行业知识学习（持续进行）第五阶段：持续学习与提升（长期）3数据分析师如何提升自己的SQL技能深入学习SQL基础语法参与实际项目实践学习SQL优化技巧拓展SQL应用场景4破局数据分
Q1营收稳健增长，云从科技如何在“百模大战”的险中求稳？ huaxinjiayou java
找实习伙伴有没有51后入职或者已经在职的在北京字节实习的牛友啊，找个搭子[牛泪][牛泪]神仙外企英伟达值得一试优点是提供了丰厚的薪资待遇和福利保障，月薪20k-70k，而且员工可以享受到补充商业保险、年度体检、题解|#自动售卖机#`timescale1ns/1nsmodulesale(input题解|#进制转换##includeusingnamespacestd;i求职经历分享本人双非本，24届，
使用ChatGPT打造完美简历与面试技巧：一周内应聘到理想工作的实战指南 chatgpt面试求职
前言在当今竞争激烈的就业市场中，如何在短时间内脱颖而出，成功应聘到理想的工作岗位？本文将结合ChatGPT中文版这一强大的AI工具，为您提供一套完整的求职攻略，帮助您在一周之内显著提升求职成功率。第一天：求职准备与定位职业规划与目标设定首先使用免费ChatGPT中文版进行职业倾向分析：个人技能评估职业发展路径规划目标企业筛选实例分析：小王是一名有3年经验的产品经理，希望转向互联网大厂。通过Chat
2022-06-22 文菲斯特
疫情下企业招聘难，HR如何应对2020年，突如其来的疫情打乱了人们所有的节奏，由于疫情的反复，影响了几乎所有企业的运营，甚至打乱了招聘用工的节奏。过去经济形势好的时候人才供大于求，作为企业方有足够的挑选余地，然而在疫情之下，人才市场悄然发生了一变化。因为疫情对应聘人员的影响往往是多维度的，最明显的就是流动意愿性降低，潜在候选人的求职意愿明显受疫情影响而下降，候选人求职时对企业性质更为关注（如国企）
如何找到可靠的兼职正规网站(找到兼职正规网站的技巧) 幸运副业
如何找到可靠的兼职正规网站(找到兼职正规网站的技巧)在繁忙的生活中，很多人寻找兼职工作来增加收入或拓宽职业经验。然而，市场上的兼职网站繁多，如何找到可靠的兼职正规网站成为了许多求职者的头等问题。本文将为您提供一些实用的技巧，帮助您准确找到合适的兼职机会，避免踏入不靠谱的陷阱。推荐一篇找兼职必看的免费教程：《手机兼职，300-500/天，一单一结，大量要人》在这里可以找到各种文本配音兼职，小说抄写兼
就业形势严峻，找不到合适的工作，换个思路让你豁然开朗声优配音圈
大家暂时先别出来找工作了。2024年，真的是失业集中爆发的一年。兼职副业推荐公众号，配音新手圈，声优配音圈，新配音兼职圈，配音就业圈，鼎音副业，有声新手圈，每天更新各种远程工作与在线兼职，职位包括：写手、程序开发、剪辑、设计、翻译、配音、无门槛、插画、翻译、等等。。。每日更新兼职。今年出来求职的朋友，应该已经发现了，当前就业形势确实不容乐观。好一点的工作一放出来，立马会有几百个人蜂拥而上。一个招聘
为什么新媒体公司招人这么难？公子义
又是一年春来到，为什么新媒体招一个人那么难？到底难在哪里？作为企业这是非常关心的话题，到底是什么原因呢？新媒体运营公子义2013年开始研究新媒体，从公众号，微博，到公众号、今日头条、百家号、大鱼号，4年下来面试过不下七八十人，但是真的招聘这么难吗？事实上真的招人难和用人难吗？结合4年你新媒体运营和面试求职者说一点自己的想法！一、招聘平台宣传造势，以招人难吸引求职者。现在是移动互联网时代，求职者找工
[C高手编程] 自增自减/三目运算符/运算符优先级/强制类型转换：表达式与操作全面解析极客代码 c语言开发语言自增三目运算符强制类型转换自减
⚡️⚡️专栏：C高手编程-面试宝典/技术手册/高手进阶⚡️⚡️「C高手编程」专栏融合了作者十多年的C语言开发经验，汇集了从基础到进阶的关键知识点，是不可多得的知识宝典。如果你是即将毕业的学生，面临C语言的求职面试，本专栏将帮助你扎实地掌握核心概念，轻松应对笔试与面试；如果你已有两三年的工作经验，专栏中的内容将补充你在实践中可能忽略的新技术和技巧；而对于资深的C语言程序员，这里也将是一本实用的技术备
4.4教学勇气《伟大事物的魅力》 N3049解革
《伟大事物的魅力》1.伟大事物是求职者永远聚集其周围的主体，伟大事物和我们的关系把我们召集在一起，伟大事物的呼唤我们去认知，去教学，去学习，伟大事物是教育共同体重要聚焦点。2.我们只有先认识自我和完整，才能理解任何伟大事物的内在生命，所有伟大事物都有内在生命与我们自己内在生命的对话，就像我们要需要一件有两个口袋的外套，一个口袋装泥土，一个口袋罩黄金，这样的外套时刻在提醒我们:我们是谁？在伟大事物凝
招聘管理系统的毕业设计资料 V_renxb001
基于JavaEE的招聘管理系统毕业设计有程序，毕业论文，数据库文档招聘管理系统中：登录模块：输入正确的用户名，密码即可进入招聘管理系统用户管理模块：包含了求职者管理，企业管理。求职者管理模块：成功登录招聘管理系统之后，点击用户管理求职者管理，显示了用户名称，密码，真实姓名，性别，电话，简历名称，国籍，qq，邮箱，生日，详情等信息。企业管理模块：成功登录招聘管理系统之后，点击用户管理_企业管理，显示
找工作岗位附近招工信息，手机招聘求职，报名了解！幸运副业
导语：在现代社会，手机招聘求职已成为人们寻找工作机会的重要途径。通过手机应用和网站，我们可以方便地获取附近的招工信息，并进行报名和了解。在本文中，我们将探讨如何利用手机招聘求职，找到附近的工作机会，并提供一些建议，以确保您在求职过程中取得成功。在这里向大家推荐一个靠谱的兼职宝藏地，这里有打字录入，文本配音，线上画画等靠谱一单一结副业，如果你也想加入，推荐你看看往期的文章：《手机兼职，300-500
简历投出去后一直未收到回复的原因与解决方案久职大学生成长社
投递简历没有回复的主要原因分析如下：1、企业会在一些公共的招聘网站和平台发布招聘信息，但是有的时候，企业本身并没有这个职位，只不过想充分的利用这个资源，在招聘某一个职位的时候附加的写了很多其他的职位，结果让求职者空欢喜一场；2、企业方为了扩大自己的知名度，把招聘的平台当成了一个广告平台，这样的话，通过大规模的招聘来宣传自己，如果看到有的企业用网络招聘平台一个版面或者多半个版面来发布信息，多半有这样
为什么有人失业找不到工作，而有企业却招不到人呢？5个原因找出真相！可馨职隅
下午跟某主流招聘平台的负责人沟通，他说目前销售岗位在其平台共有9万多个职位需求，而销售求职者只有7万多人，整体供不应求。而前几天还听到一些企业老板说现在失业的人很多，可以用最低的成本找到优质的人才。一边是招聘平台的“人才紧缺论”，另一边是企业经营者的“失业大潮论”，到底现在人才市场的真实情况是什么？其实两方的看法都有道理，造成这种反差的原因有5个：1，求职者与招聘单位对于岗位价值的认同和期待不一。
Whisper 模型在实时语音转录中有哪些具体的应用场景？借雨醉东风热点追踪 whisper 人工智能
关注我，持续分享逻辑思维&管理思维&面试题；可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导；推荐专栏《10天学会使用asp.net编程AI大模型》，目前已完成所有内容。一顿烧烤不到的费用，让人能紧跟时代的浪潮。从普通网站，到公众号、小程序，再到AI大模型网站。干货满满。学成后可接项目赚外快，绝对划算。不仅学会如何编程，还将学会如何将AI技术应用到实际问题中，为您的职业生涯增添一笔宝贵的财富
大模型算法岗，面试百问百答，7天3个offer拿到手！爱喝白开水a 算法面试职场和发展 ai大模型大语言模型 LLM 大模型面试
导读大模型时代很多企业都在开发自己的大模型，这直接刺激了大模型岗位的需求。本文为大家整理了大模型面试相关的知识点，希望对大家面试求职有所帮助。今天分享大模型面试相关知识点，持续更新。1.RAG技术体系的总体思路数据预处理->分块（这一步骤很关键，有时候也决定了模型的效果）->文本向量化->query向量化->向量检索->重排->query+检索内容输入LLM->输出2.使用外挂知识库主要为了解决什
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring