星之擎

spark 与 hadoop的hdfs的连接（亲测有效）

出处：：http://blog.csdn.net/oopsoom/article/details/24257981，

目前Spark的Run on的Hadoop版本大多是hadoop2以上，但是实际上各个公司的生产环境不尽相同，用到2.0以上的公司还是少数。

大多数公司还是停留在1代hadoop上，所以我就拿spark0.91 + hadoop0.20.2-cdh3u5来部署一个小集群，以供测试学习使用。

一、环境概况

Spark集群3台：

web01: slave

web02: master

db01: slave

Hadoop集群：

hadoop 0.20.2-cdh3u5 3台

2、编译Spark

编译spark我在这里就不赘述了，已经有好几篇编译的文章了

第一步、设置Spark要work with的Hadoop的版本号，可以在spark官网查找。

第二部、sbt/sbt assembly 编译发布spark核心包。

还是推荐大家用sbt编译，遇到问题可以看我的 spark编译sbt依赖问题。

3、配置

如果编译基本都ok了的话，会在/home/hadoop/shengli/spark/assembly/target/scala-2.10下生成spark和hadoop匹配的发布包。

[java]  view plain 
       copy 
      
 总计 92896  
 drwxr-xr-x 3 root root     4096 04-21 14:00 cache  
 drwxrwxr-x 6 root root     4096 04-21 14:00 ..  
 -rw-r--r-- 1 root root 95011766 04-21 14:16 spark-assembly-0.9.1-hadoop0.20.2-cdh3u5.jar  
 drwxrwxr-x 3 root root     4096 04-21 14:20 .  

而且在路径/home/hadoop/shengli/spark/lib_managed/jars下，你会找到hadoop-core-0.20.2-cdh3u5.jar这个文件。

4.spark配置

spark官网上提供了好多几种启动集群的方式，我比较推荐的是用官方的shell脚本。sbin/start-all.sh，简单快捷，如果需要定制的启动Master和Slave，就需要用到sbin/start-master.sh sbin/start-slave.sh了。

4.1 修改spark的spark环境

如果用到这种启动方式，首先要修改配置文件。

[java]  view plain 
       copy 
      
 cp spark-env.sh.template spark-env.sh  

设置一下Master的IP和端口：（其它的配置以后再配了）

[java]  view plain 
       copy 
      
 #!/usr/bin/env bash  
   
 # This file contains environment variables required to run Spark. Copy it as  
 # spark-env.sh and edit that to configure Spark for your site.  
 #  
 # The following variables can be set in this file:  
 # - SPARK_LOCAL_IP, to set the IP address Spark binds to on this node  
 # - MESOS_NATIVE_LIBRARY, to point to your libmesos.so if you use Mesos  
 # - SPARK_JAVA_OPTS, to set node-specific JVM options for Spark. Note that  
 #   we recommend setting app-wide options in the application's driver program.  
 #     Examples of node-specific options : -Dspark.local.dir, GC options  
 #     Examples of app-wide options : -Dspark.serializer  
 #  
 # If using the standalone deploy mode, you can also set variables for it here:  
 # - SPARK_MASTER_IP, to bind the master to a different IP address or hostname  
 # - SPARK_MASTER_PORT / SPARK_MASTER_WEBUI_PORT, to use non-default ports  
 # - SPARK_WORKER_CORES, to set the number of cores to use on this machine  
 # - SPARK_WORKER_MEMORY, to set how much memory to use (e.g. 1000m, 2g)  
 # - SPARK_WORKER_PORT / SPARK_WORKER_WEBUI_PORT  
 # - SPARK_WORKER_INSTANCES, to set the number of worker processes per node  
 # - SPARK_WORKER_DIR, to set the working directory of worker processes  
   
 export SPARK_MASTER_IP=web02.dw  
 export SPARK_MASTER_PORT=7077  
 export SPARK_WORKER_CORES=4  
 export SPARK_WORKER_MEMORY=2g  
 export SPARK_WORKER_INSTANCES=2  
   
 #control executor mem  
 export SPARK_EXECUTOR_MEMORY=1g  
 export SPARK_JAVA_OPTS=-Dspark.executor.memory=1g  

4.2 将hadoop配置文件加入classpath

将hadoop配置文件core-site.xml和hdfs-site.xml拷贝到spark/conf下。

4.3 设置slaves

[java]  view plain 
       copy 
      
 vim slaves  
 # A Spark Worker will be started on each of the machines listed below.  
 web01.dw  
 db01.dw  

4.4分发spark

最基本的默认配置以及配置好了，下面开始分发spark到各个slave节点，注意要先打包后分发，然后到各个节点去解压，不要直接scp。

5. 启动spark

5.1启动spark：

[java]  view plain 
      copy 
     
 [root@web02 spark]# sbin/start-all.sh   
 starting org.apache.spark.deploy.master.Master, logging to /app/home/hadoop/shengli/spark/sbin/../logs/spark-root-org.apache.spark.deploy.master.Master-1-web02.dw.out  
 web01.dw: starting org.apache.spark.deploy.worker.Worker, logging to /app/home/hadoop/shengli/spark/sbin/../logs/spark-root-org.apache.spark.deploy.worker.Worker-1-web01.dw.out  
 db01.dw: starting org.apache.spark.deploy.worker.Worker, logging to /app/hadoop/shengli/spark/sbin/../logs/spark-root-org.apache.spark.deploy.worker.Worker-1-db01.dw.out  

如上述配置一致：

web02是Master，web01和db01是Worker.

[java]  view plain 
      copy 
     
 [root@web02 spark]# jps  
 25293 SecondaryNameNode  
 25390 JobTracker  
 18783 Jps  
 25118 NameNode  
 18677 Master  

[java]  view plain 
      copy 
     
 [root@web01 conf]# jps  
 22733 DataNode  
 5697 Jps  
 22878 TaskTracker  
 5625 Worker  
 4839 jar  

[java]  view plain 
      copy 
     
 [root@db01 assembly]# jps  
 16242 DataNode  
 16345 TaskTracker  
 30603 Worker  
 30697 Jps  

5.2 web监控

可以清晰的看到：

默认情况下Master的端口为7077，当然我们可以根据配置文件更改，这里暂不做更改。

2个worker，以及每个worker和集群的配置。

Master：

Slaves：

6. spark连接hdfs

6.1启动一个Application

首先我们要先启动一个Application，这个Application就是我们的spark-shell。

[java]  view plain 
       copy 
      
 SPARK_MASTER=spark://web02.dw:7077  bin/spark-shell  

这里我为了看到DEBUG，修改了conf下的log4j的消息等级为DEBUG。

[java]  view plain 
       copy 
      
 [root@web02 spark]# SPARK_MASTER=spark://web02.dw:7077  bin/spark-shell  
 14/05/14 17:16:02 INFO HttpServer: Starting HTTP Server  
 Welcome to  
       ____              __  
      / __/__  ___ _____/ /__  
     _\ \/ _ \/ _ `/ __/  '_/  
    /___/ .__/\_,_/_/ /_/\_\   version 0.9.1  
       /_/  
   
   
 Using Scala version 2.10.3 (Java HotSpot(TM) 64-Bit Server VM, Java 1.6.0_20)  
 Type in expressions to have them evaluated.  
 Type :help for more information.  
 14/05/14 17:16:06 INFO Slf4jLogger: Slf4jLogger started  
 14/05/14 17:16:06 INFO Remoting: Starting remoting  
 14/05/14 17:16:06 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://[email protected]:16231]  
 14/05/14 17:16:06 INFO Remoting: Remoting now listens on addresses: [akka.tcp://[email protected]:16231]  
 14/05/14 17:16:06 INFO SparkEnv: Registering BlockManagerMaster  
 14/05/14 17:16:06 INFO DiskBlockManager: Created local directory at /tmp/spark-local-20140514171606-60f2  
 14/05/14 17:16:06 INFO MemoryStore: MemoryStore started with capacity 294.4 MB.  
 14/05/14 17:16:06 INFO ConnectionManager: Bound socket to port 60841 with id = ConnectionManagerId(web02.dw,60841)  
 14/05/14 17:16:06 INFO BlockManagerMaster: Trying to register BlockManager  
 14/05/14 17:16:06 INFO BlockManagerMasterActor$BlockManagerInfo: Registering block manager web02.dw:60841 with 294.4 MB RAM  
 14/05/14 17:16:06 INFO BlockManagerMaster: Registered BlockManager  
 14/05/14 17:16:06 INFO HttpServer: Starting HTTP Server  
 14/05/14 17:16:06 INFO HttpBroadcast: Broadcast server started at http://10.1.8.207:37532  
 14/05/14 17:16:06 INFO SparkEnv: Registering MapOutputTracker  
 14/05/14 17:16:06 INFO HttpFileServer: HTTP File server directory is /tmp/spark-f2865aa6-9bda-4980-a7ff-838f9ae87a18  
 14/05/14 17:16:06 INFO HttpServer: Starting HTTP Server  
 14/05/14 17:16:07 INFO SparkUI: Started Spark Web UI at http://web02.dw:4040  
 14/05/14 17:16:07 INFO AppClient$ClientActor: Connecting to master spark://web02.dw:7077...  
 14/05/14 17:16:07 INFO SparkDeploySchedulerBackend: Connected to Spark cluster with app ID app-20140514171607-0005  
 14/05/14 17:16:07 INFO AppClient$ClientActor: Executor added: app-20140514171607-0005/0 on worker-20140514155706-web01.dw-49813 (web01.dw:49813) with 4 cores  
 14/05/14 17:16:07 INFO SparkDeploySchedulerBackend: Granted executor ID app-20140514171607-0005/0 on hostPort web01.dw:49813 with 4 cores, 1024.0 MB RAM  
 14/05/14 17:16:07 INFO AppClient$ClientActor: Executor added: app-20140514171607-0005/1 on worker-20140514155704-db01.dw-30929 (db01.dw:30929) with 4 cores  
 14/05/14 17:16:07 INFO SparkDeploySchedulerBackend: Granted executor ID app-20140514171607-0005/1 on hostPort db01.dw:30929 with 4 cores, 1024.0 MB RAM  
 14/05/14 17:16:07 INFO AppClient$ClientActor: Executor added: app-20140514171607-0005/2 on worker-20140514155706-db01.dw-60995 (db01.dw:60995) with 4 cores  
 14/05/14 17:16:07 INFO SparkDeploySchedulerBackend: Granted executor ID app-20140514171607-0005/2 on hostPort db01.dw:60995 with 4 cores, 1024.0 MB RAM  
 14/05/14 17:16:07 INFO AppClient$ClientActor: Executor added: app-20140514171607-0005/3 on worker-20140514155704-web01.dw-50163 (web01.dw:50163) with 4 cores  
 14/05/14 17:16:07 INFO SparkDeploySchedulerBackend: Granted executor ID app-20140514171607-0005/3 on hostPort web01.dw:50163 with 4 cores, 1024.0 MB RAM  
 14/05/14 17:16:07 INFO AppClient$ClientActor: Executor updated: app-20140514171607-0005/0 is now RUNNING  
 14/05/14 17:16:07 INFO AppClient$ClientActor: Executor updated: app-20140514171607-0005/1 is now RUNNING  
 14/05/14 17:16:07 INFO AppClient$ClientActor: Executor updated: app-20140514171607-0005/3 is now RUNNING  
 14/05/14 17:16:07 INFO AppClient$ClientActor: Executor updated: app-20140514171607-0005/2 is now RUNNING  
 Created spark context..  
 Spark context available as sc.  
   
   
 scala> 14/05/14 17:16:08 INFO SparkDeploySchedulerBackend: Registered executor: Actor[akka.tcp://[email protected]:60575/user/Executor#800679015] with ID 0  
 14/05/14 17:16:08 INFO SparkDeploySchedulerBackend: Registered executor: Actor[akka.tcp://[email protected]:3379/user/Executor#1116201144] with ID 3  
 14/05/14 17:16:08 INFO SparkDeploySchedulerBackend: Registered executor: Actor[akka.tcp://[email protected]:14501/user/Executor#-1849151050] with ID 1  
 14/05/14 17:16:08 INFO SparkDeploySchedulerBackend: Registered executor: Actor[akka.tcp://[email protected]:63875/user/Executor#-1596518942] with ID 2  
 14/05/14 17:16:09 INFO BlockManagerMasterActor$BlockManagerInfo: Registering block manager web01.dw:15040 with 588.8 MB RAM  
 14/05/14 17:16:09 INFO BlockManagerMasterActor$BlockManagerInfo: Registering block manager web01.dw:16038 with 588.8 MB RAM  
 14/05/14 17:16:09 INFO BlockManagerMasterActor$BlockManagerInfo: Registering block manager db01.dw:60398 with 588.8 MB RAM  
 14/05/14 17:16:09 INFO BlockManagerMasterActor$BlockManagerInfo: Registering block manager db01.dw:60074 with 588.8 MB RAM  

这里可以看到其实创建一个Application就要初始化一个SparkContext。

大致流程是：

1. Master启动，启动一个监听端口注册BlockManager。

2. Master注册自己，并创建一个HTTP Server 广播给slaves

3. 注册MapOutputTracker，启动HTTP File Server

4.启动Spark WebUI

5.Client Actor连接上spark://web02.dw:7077

6.每个节点都启动了一个Executor等待执行任务。（有SparkDeploySchedulerBackend完成）

7.创建SparkContext

8.注册slave到BlockManger，主要以内存为单位。

6.2 读取hdfs文件

为了读取hdfs文件，首先要导入hadoop input format，和Writable类包。

然后spark context 的hadoopFile 方法需要指定格式。见API：

[java]  view plain 
       copy 
      
 def  
 hadoopFile[K, V, F <: InputFormat[K, V]](path: String)(implicit km: ClassTag[K], vm: ClassTag[V], fm: ClassTag[F]): RDD[(K, V)]  
 Smarter version of hadoopFile() that uses class tags to figure out the classes of keys, values and the InputFormat so that users don't need to pass them directly. Instead, callers can just write, for example,  
   
 val file = sparkContext.hadoopFile[LongWritable, Text, TextInputFormat](path)  
 Note: Because Hadoop's RecordReader class re-uses the same Writable object for each record, directly caching the returned RDD will create many references to the same object. If you plan to directly cache Hadoop writable objects, you should first copy them using a map function.  

接下来执行一下：

指定这个文件的格式是k,v格式即PairedRDD，key是longwritable,value是Text，指定读取格式为TextInputFormat，同时也支持sequencefile.

[java]  view plain 
       copy 
      
 scala> import org.apache.hadoop.mapred._  
 import org.apache.hadoop.mapred._  
   
 scala> import org.apache.hadoop.io._  
 import org.apache.hadoop.io._  
   
 scala> val f = sc.hadoopFile[LongWritable, Text, TextInputFormat]("/dw/jyzj_market_trade.txt")  
 14/04/21 17:28:20 INFO MemoryStore: ensureFreeSpace(73490) called with curMem=0, maxMem=308713881  
 14/04/21 17:28:20 INFO MemoryStore: Block broadcast_0 stored as values to memory (estimated size 71.8 KB, free 294.3 MB)  
 14/04/21 17:28:20 DEBUG BlockManager: Put block broadcast_0 locally took  64 ms  
 14/04/21 17:28:20 DEBUG BlockManager: Put for block broadcast_0 without replication took  65 ms  
 f: org.apache.spark.rdd.RDD[(org.apache.hadoop.io.LongWritable, org.apache.hadoop.io.Text)] = HadoopRDD[0] at hadoopFile at :18  

执行流程(回头要详细研究一下):

1. MemoryStore首先要确保内存空余空间是否满足

2. Block广播存储在内存中

3. BlockManger将块放入内存了，因为这个文件实在太小了。

4. 没有指定备份

5. 最后f是一个HadoopRDD

接下来看下监控页面已经监控到了程序的运行：

点击appid可以看到执行该app的监控：

这里的确是启动了2个Executor。

点击worker查看worker的运行状态：

看到wb01的Job详情，如果想看到输出，就点击logs下面的stdout。

因为transformation是lazy的，所以要等到计算完action的时候，我们才能看到stdout。

下面我们做什么示范好呢？wordcount吗？怎么每次想到的都是这个，没创意=。=

好吧，要注意我们这个RDD是K,V的。

[java]  view plain 
       copy 
      
 f.flatMap(_._2.toString().split("\t")).map(word=>(word,1)).reduceByKey(_+_) foreach println  

开了DEBUG模式，谅解- -！

介绍一下流程：

1. 因为访问的是hdfs，要用hadoop用户登录才有权限。

2. Client来连接hdfs，使用ClientProtocol，调用IPC

3. 获取协议Version。

4. 连接到datanode，获取文件的split，这里只有2个。

5.FileInputFormat读取文件。

6.SparkContext开始提交job

7.DAGScheduler开始优化解析执行Stage计划。

8.DaGScheduler对应每个Stage，提交不同的Task任务给Executor执行（执行优先考虑数据本地化）

9.TaskSetManger对Task进行管理序列化task与反序列化Task。有一个Pool来管理taskset。

10.MapOutputTrackerMasterActor被要求发送map output的地址到works的shuffler上。(此步骤在reduce Stage会触发)

11.ShuffleMapTask进行洗牌，因为有reduce的action.计算wordcount

12.最后合并结果输出。

[java]  view plain 
       copy 
      
 14/04/21 17:46:26 DEBUG UserGroupInformation: hadoop login  
 14/04/21 17:46:26 DEBUG UserGroupInformation: hadoop login commit  
 14/04/21 17:46:26 DEBUG UserGroupInformation: using local user:UnixPrincipal: root  
 14/04/21 17:46:26 DEBUG UserGroupInformation: UGI loginUser:root (auth:SIMPLE)  
 14/04/21 17:46:26 DEBUG FileSystem: Creating filesystem for hdfs://web02.dw:9000  
 14/04/21 17:46:26 DEBUG Client: The ping interval is60000ms.  
 14/04/21 17:46:26 DEBUG Client: Use SIMPLE authentication for protocol ClientProtocol  
 14/04/21 17:46:26 DEBUG Client: Connecting to web02.dw/10.1.8.207:9000  
 14/04/21 17:46:26 DEBUG Client: IPC Client (47) connection to web02.dw/10.1.8.207:9000 from root: starting, having connections 1  
 14/04/21 17:46:26 DEBUG Client: IPC Client (47) connection to web02.dw/10.1.8.207:9000 from root sending #0  
 14/04/21 17:46:26 DEBUG Client: IPC Client (47) connection to web02.dw/10.1.8.207:9000 from root got value #0  
 14/04/21 17:46:26 DEBUG RPC: Call: getProtocolVersion 55  
 14/04/21 17:46:26 DEBUG DFSClient: Short circuit read is false  
 14/04/21 17:46:26 DEBUG DFSClient: Connect to datanode via hostname is false  
 14/04/21 17:46:26 DEBUG NativeCodeLoader: Trying to load the custom-built native-hadoop library...  
 14/04/21 17:46:26 DEBUG NativeCodeLoader: Failed to load native-hadoop with error: java.lang.UnsatisfiedLinkError: no hadoop in java.library.path  
 14/04/21 17:46:26 DEBUG NativeCodeLoader: java.library.path=  
 14/04/21 17:46:26 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable  
 14/04/21 17:46:26 WARN LoadSnappy: Snappy native library not loaded  
 14/04/21 17:46:26 DEBUG Client: IPC Client (47) connection to web02.dw/10.1.8.207:9000 from root sending #1  
 14/04/21 17:46:26 DEBUG Client: IPC Client (47) connection to web02.dw/10.1.8.207:9000 from root got value #1  
 14/04/21 17:46:26 DEBUG RPC: Call: getFileInfo 72  
 14/04/21 17:46:26 INFO FileInputFormat: Total input paths to process : 1  
 14/04/21 17:46:26 DEBUG Client: IPC Client (47) connection to web02.dw/10.1.8.207:9000 from root sending #2  
 14/04/21 17:46:26 DEBUG Client: IPC Client (47) connection to web02.dw/10.1.8.207:9000 from root got value #2  
 14/04/21 17:46:26 DEBUG RPC: Call: getBlockLocations 4  
 14/04/21 17:46:26 DEBUG FileInputFormat: Total # of splits: 2  
 14/04/21 17:46:26 INFO SparkContext: Starting job: foreach at :21  
 14/04/21 17:46:26 INFO DAGScheduler: Registering RDD 3 (reduceByKey at :21)  
 14/04/21 17:46:26 INFO DAGScheduler: Got job 0 (foreach at :21) with 2 output partitions (allowLocal=false)  
 14/04/21 17:46:26 INFO DAGScheduler: Final stage: Stage 0 (foreach at :21)  
 14/04/21 17:46:26 INFO DAGScheduler: Parents of final stage: List(Stage 1)  
 14/04/21 17:46:26 INFO DAGScheduler: Missing parents: List(Stage 1)  
 14/04/21 17:46:26 DEBUG DAGScheduler: submitStage(Stage 0)  
 14/04/21 17:46:26 DEBUG DAGScheduler: missing: List(Stage 1)  
 14/04/21 17:46:26 DEBUG DAGScheduler: submitStage(Stage 1)  
 14/04/21 17:46:26 DEBUG DAGScheduler: missing: List()  
 14/04/21 17:46:26 INFO DAGScheduler: Submitting Stage 1 (MapPartitionsRDD[3] at reduceByKey at :21), which has no missing parents  
 14/04/21 17:46:26 DEBUG DAGScheduler: submitMissingTasks(Stage 1)  
 14/04/21 17:46:26 INFO DAGScheduler: Submitting 2 missing tasks from Stage 1 (MapPartitionsRDD[3] at reduceByKey at :21)  
 14/04/21 17:46:26 DEBUG DAGScheduler: New pending tasks: Set(ShuffleMapTask(1, 0), ShuffleMapTask(1, 1))  
 14/04/21 17:46:26 INFO TaskSchedulerImpl: Adding task set 1.0 with 2 tasks  
 14/04/21 17:46:26 DEBUG TaskSetManager: Epoch for TaskSet 1.0: 0  
 14/04/21 17:46:26 DEBUG TaskSetManager: Valid locality levels for TaskSet 1.0: NODE_LOCAL, ANY  
 14/04/21 17:46:26 DEBUG DAGScheduler: submitStage(Stage 0)  
 14/04/21 17:46:26 DEBUG DAGScheduler: missing: List(Stage 1)  
 14/04/21 17:46:26 DEBUG DAGScheduler: submitStage(Stage 1)  
 14/04/21 17:46:26 DEBUG TaskSchedulerImpl: parentName: , name: TaskSet_1, runningTasks: 0  
 14/04/21 17:46:26 INFO TaskSetManager: Starting task 1.0:0 as TID 0 on executor 0: db01.dw (NODE_LOCAL)  
 14/04/21 17:46:26 INFO TaskSetManager: Serialized task 1.0:0 as 1896 bytes in 10 ms  
 14/04/21 17:46:26 INFO TaskSetManager: Starting task 1.0:1 as TID 1 on executor 0: db01.dw (NODE_LOCAL)  
 14/04/21 17:46:26 INFO TaskSetManager: Serialized task 1.0:1 as 1896 bytes in 1 ms  
 14/04/21 17:46:26 DEBUG DAGScheduler: submitStage(Stage 0)  
 14/04/21 17:46:26 DEBUG DAGScheduler: missing: List(Stage 1)  
 14/04/21 17:46:26 DEBUG DAGScheduler: submitStage(Stage 1)  
 14/04/21 17:46:26 DEBUG DAGScheduler: submitStage(Stage 0)  
 14/04/21 17:46:26 DEBUG DAGScheduler: missing: List(Stage 1)  
 14/04/21 17:46:26 DEBUG DAGScheduler: submitStage(Stage 1)  
 14/04/21 17:46:27 DEBUG TaskSchedulerImpl: parentName: , name: TaskSet_1, runningTasks: 2  
 14/04/21 17:46:27 DEBUG TaskSchedulerImpl: parentName: , name: TaskSet_1, runningTasks: 1  
 14/04/21 17:46:27 DEBUG TaskSchedulerImpl: parentName: , name: TaskSet_1, runningTasks: 0  
 14/04/21 17:46:28 INFO DAGScheduler: Completed ShuffleMapTask(1, 1)  
 14/04/21 17:46:28 INFO TaskSetManager: Finished TID 1 in 1345 ms on db01.dw (progress: 1/2)  
 14/04/21 17:46:28 INFO TaskSetManager: Finished TID 0 in 1371 ms on db01.dw (progress: 2/2)  
 14/04/21 17:46:28 INFO TaskSchedulerImpl: Removed TaskSet 1.0, whose tasks have all completed, from pool   
 14/04/21 17:46:28 DEBUG DAGScheduler: ShuffleMapTask finished on 0  
 14/04/21 17:46:28 DEBUG DAGScheduler: submitStage(Stage 0)  
 14/04/21 17:46:28 DEBUG DAGScheduler: missing: List(Stage 1)  
 14/04/21 17:46:28 DEBUG DAGScheduler: submitStage(Stage 1)  
 14/04/21 17:46:28 INFO DAGScheduler: Completed ShuffleMapTask(1, 0)  
 14/04/21 17:46:28 DEBUG DAGScheduler: ShuffleMapTask finished on 0  
 14/04/21 17:46:28 INFO DAGScheduler: Stage 1 (reduceByKey at :21) finished in 1.385 s  
 14/04/21 17:46:28 INFO DAGScheduler: looking for newly runnable stages  
 14/04/21 17:46:28 INFO DAGScheduler: running: Set()  
 14/04/21 17:46:28 INFO DAGScheduler: waiting: Set(Stage 0)  
 14/04/21 17:46:28 INFO DAGScheduler: failed: Set()  
 14/04/21 17:46:28 DEBUG MapOutputTrackerMaster: Increasing epoch to 1  
 14/04/21 17:46:28 INFO DAGScheduler: Missing parents for Stage 0: List()  
 14/04/21 17:46:28 INFO DAGScheduler: Submitting Stage 0 (MapPartitionsRDD[5] at reduceByKey at :21), which is now runnable  
 14/04/21 17:46:28 DEBUG DAGScheduler: submitMissingTasks(Stage 0)  
 14/04/21 17:46:28 INFO DAGScheduler: Submitting 2 missing tasks from Stage 0 (MapPartitionsRDD[5] at reduceByKey at :21)  
 14/04/21 17:46:28 DEBUG DAGScheduler: New pending tasks: Set(ResultTask(0, 1), ResultTask(0, 0))  
 14/04/21 17:46:28 INFO TaskSchedulerImpl: Adding task set 0.0 with 2 tasks  
 14/04/21 17:46:28 DEBUG TaskSetManager: Epoch for TaskSet 0.0: 1  
 14/04/21 17:46:28 DEBUG TaskSetManager: Valid locality levels for TaskSet 0.0: ANY  
 14/04/21 17:46:28 DEBUG TaskSchedulerImpl: parentName: , name: TaskSet_0, runningTasks: 0  
 14/04/21 17:46:28 INFO TaskSetManager: Starting task 0.0:0 as TID 2 on executor 1: web01.dw (PROCESS_LOCAL)  
 14/04/21 17:46:28 INFO TaskSetManager: Serialized task 0.0:0 as 1765 bytes in 0 ms  
 14/04/21 17:46:28 INFO TaskSetManager: Starting task 0.0:1 as TID 3 on executor 0: db01.dw (PROCESS_LOCAL)  
 14/04/21 17:46:28 INFO TaskSetManager: Serialized task 0.0:1 as 1765 bytes in 0 ms  
 14/04/21 17:46:28 INFO MapOutputTrackerMasterActor: Asked to send map output locations for shuffle 0 to spark@db01.dw:36699  
 14/04/21 17:46:28 INFO MapOutputTrackerMaster: Size of output statuses for shuffle 0 is 134 bytes  
 14/04/21 17:46:28 DEBUG TaskSchedulerImpl: parentName: , name: TaskSet_0, runningTasks: 2  
 14/04/21 17:46:28 DEBUG TaskSchedulerImpl: parentName: , name: TaskSet_0, runningTasks: 1  
 14/04/21 17:46:28 INFO DAGScheduler: Completed ResultTask(0, 1)  
 14/04/21 17:46:28 INFO TaskSetManager: Finished TID 3 in 286 ms on db01.dw (progress: 1/2)  
 14/04/21 17:46:28 INFO MapOutputTrackerMasterActor: Asked to send map output locations for shuffle 0 to spark@web01.dw:45200  
 14/04/21 17:46:29 DEBUG TaskSchedulerImpl: parentName: , name: TaskSet_0, runningTasks: 0  
 14/04/21 17:46:29 INFO DAGScheduler: Completed ResultTask(0, 0)  
 14/04/21 17:46:29 INFO TaskSetManager: Finished TID 2 in 1019 ms on web01.dw (progress: 2/2)  
 14/04/21 17:46:29 INFO DAGScheduler: Stage 0 (foreach at :21) finished in 1.020 s  
 14/04/21 17:46:29 INFO TaskSchedulerImpl: Removed TaskSet 0.0, whose tasks have all completed, from pool   
 14/04/21 17:46:29 DEBUG DAGScheduler: After removal of stage 0, remaining stages = 1  
 14/04/21 17:46:29 DEBUG DAGScheduler: After removal of stage 1, remaining stages = 0  
 14/04/21 17:46:29 INFO SparkContext: Job finished: foreach at :21, took 2.547314739 s  
   
 scala> 14/04/21 17:46:36 DEBUG Client: IPC Client (47) connection to web02.dw/10.1.8.207:9000 from root: closed  
 14/04/21 17:46:36 DEBUG Client: IPC Client (47) connection to web02.dw/10.1.8.207:9000 from root: stopped, remaining connections 0  

结果如图：

第一个slave：

第二个slave：

注意一下，这里执行用了2.5s

如果我把 f 缓存到集群里：

[java]  view plain 
       copy 
      
 scala> f.cache  
 res1: org.apache.spark.rdd.RDD[(org.apache.hadoop.io.LongWritable, org.apache.hadoop.io.Text)] = HadoopRDD[0] at hadoopFile at :18  

再次执行，只用了0.14秒：

[java]  view plain 
       copy 
      
 14/04/21 18:14:10 INFO SparkContext: Job finished: foreach at :21, took 0.144185907 s  

这就是Spark的过人之处，暂时写到这里，以后还会继续深入研究spark。

【目录】PMP项目管理—基础认知篇—十五至尊图洛北辰南 PMP PMP 项目管理目录
笔者已经3A通过PMP考试，近期抽空会把上网课记录的笔记腾到博客中，以此文为目录链接全部内容，欢迎订阅关注。已整理完成基础认知篇、整合管理篇。持续更新中…知识领域启动过程组规划过程组执行过程组监控过程组收尾过程组项目整合管理4.1制定项目章程4.2制定项目管理计划4.3指导和管理项目工作4.4管理项目知识4.5监控项目工作4.6实施整体变更控制4.7结束项目或阶段项目范围管理5.1规划范围管理5.
坚持学习100天：MFC多线程开发 smile- sunshine 编程语言 C++笔记 mfc 学习 c++
前言Hello,我是修齊。学习C++的第一百零二十六天,5.18的今天，520快到了，要去花店买两朵玫瑰，用心学习。在这里记录一些学习的东西和学习的心情,内容主要是一些自己学习整理的小笔记。一、类CWinThread1.MFC，用类CWinThread的对象来表示一个线程，每个MFC程序的主线程都有一个继承自CWinApp的应用程序类，而CWinApp继承自CWinThread。2.类CWinTh
利用 AI 高效生成思维导图的简单实用方法 love530love 人工智能信息可视化
#工作记录适用于不支持直接生成思维导图的AI工具；适用于AI生成后不能再次编辑的思维导图。在日常的学习、工作以及知识整理过程中，思维导图是一种非常实用的工具，能够帮助我们清晰地梳理思路、归纳要点。而借助AI的强大能力，我们可以更加便捷地生成思维导图，下面就为大家详细介绍具体的操作方法。一、根据不同情况利用AI生成思维导图内容（一）给出主题让AI生成内容当我们有了一个想要梳理的主题，比如“Pytho
二叉树相关问题及两链表相交问题（B站左神视频五整理） Dabaozao 链表 c++算法数据结构
二叉树二叉树的前中后序遍历：*******1***2*****34****56****7经过1,2,4,4,4,2,5,5,5,2,1,3,6,6,6,3,7,7,7,3,1，递归序每个数都会调用三次先序遍历：头、左、右1,2,4,5,3,6,7由递归序转化而来，第一次到就打印，2、3次的不打印中序遍历：左、头、右4,2,5,1,6,3,7由递归序转化而来，第二次到就打印，1、3次的不打印后序遍历
DeepSeek超强搭档！这8款免费神器让你的效率翻倍 a小胡哦 Deepseek vscode github
作为AI领域的效率神器，DeepSeek凭借其强大的智能问答、文件解读和代码生成能力，已成为学习办公的必备工具。但如何让它发挥「1+1>2」的效果？我整理了8款免费软件，搭配DeepSeek让你的效率原地起飞！建议收藏⭐一、办公效率组合拳：告别加班，秒变职场达人WPSOffice推荐理由：免费+全功能办公套件，搭配DeepSeek的文档解析功能，可快速提取合同/报告重点，自动生成摘要。神级用法：用
Windows系统如何mount盘符到目录 winkel_wang 笔记
申明:内容取自网上，书籍，自己整理。在Windows上如何将一个文件系统分区挂载到一个目录，这其实是一个硬需求！是的，非常硬的需求。因为我们总是面临C盘，D盘满了却无法动态扩容问题。所以，在有一天我因为路上堵车撸了一个Linux上的最小的tinyfs之后，就想到顺便解决一下Windows的mount问题，并且发现了方法，就记录了下来。我以前确实不知道Windows系统也能mount文件系统分区到目
**模式的好处（设计模式）花王江不语设计模式设计模式开发语言
what’sup!?这样整理下发现更容易理解设计模式了学习嘛，就是拿着rua横着rua竖着rua前面rua后面rua【’_’】目录简单工厂模式工厂模式抽象工厂模式单例模式建造者模式原型模式代理模式适配器模式桥梁模式装饰模式门面模式（也叫外观模式）组合模式享元模式策略模式观察者模式责任链模式模板方法模式状态模式命令模式中介者模式结语简单工厂模式的好处简单工厂模式（SimpleFactoryPatte
华为codecraft算法大赛---寻路我曾经被山河大海跨过数据结构与算法数据结构 DFS codecraft 算法
华为codecraft算法大赛—寻路前言最近实验室的师兄师姐们在热火朝天的笔试(都说难难难)，我也要了些题来感受了一下，已然被虐的体无完肤。选择题考的内容涉及范围广，算法编程题对于没有刷题经验的我来说就更是难上加难了。看来有必要在学习工作之余学习学习算法以及计算机基础知识了。翻了上半年参加华为codecraft算法大赛的代码，趁周末整理一下当时的思路以及回顾一下数据结构与算法。比赛前中期还保持不错
【版本控制安全简报】Perforce Helix Core安全更新：漏洞修复与国内用户支持版本控制gitsvn
本文内容来源perforce.com，由Perforce中国授权合作伙伴-龙智编辑整理。Perforce致力于为其产品和客户维持最高标准的安全性。近期，得益于一位独立安全研究人员的宝贵意见，Perforce进一步增强了HelixCore的安全性。此次发现进一步巩固了Perforce安全协议，并提供了用于改进测试和发布实践的见解。潜在影响一位独立安全研究人员发现了可能导致版本控制系统无法操作，直到管
[python脚本]论文1.（一）CPU/内存数据分析和分组 weixin_45396500 python 数据分析开发语言
CPU收集到的CPU数据，格式如下：由于这里6个数据为一组来收集latency的数据以及各个分位值的数据，而本质上每一行都是一次完整的测试，因此这里将这个csv文件分为两个文件，第一个是和latency相关的，将6条数据融合为一条，而剩下的数据比如eps等，单独整理为一个文件。这里分为两步，第一步单独处理每个实例收集到的数据，第二步是汇总所有实例数据。对于50个实例收到的数据，先通过将6条合并为一
企业级Java开发整理的常用注解汇总小鱼ccd java 开发语言
一、SpringBoot核心注解1.启动与配置注解说明示例代码@SpringBootApplication主启动类注解（组合注解）@SpringBootApplicationpublicclassApp{...}@Configuration声明配置类@ConfigurationpublicclassAppConfig{...}@Bean将方法返回对象注入容器@BeanpublicDataSourc
GitHub开源数字人项目汇总（2025版） xinxiyinhe 人工智能虚拟数字人开源 github
大家好，今日分享以下是的"GitHub开源数字人项目"，涵盖图像生成、语音驱动、直播带货及实时对话等核心功能，按技术方向分类整理的关键信息：一、图像与动态生成类OneShotOneTalk功能：单张图像生成全身动态数字人，支持3D高斯点云与SMPL-X模型结合，实现高精度表情与姿势动画。适用场景：虚拟主持、AI客服。GitHub地址：https://xiangjun-xj.github.io/On
ms-swift 3.x和2.x中参数不一致的暗坑 Jumbo星 swift 开发语言 ios
虽然ms-swift3.x发布也有一段时间官方文档也对使用上参数的变动做了一些说明ReleaseNote3.0—swift3.2.0.dev0文档但是这个说明基本上都是说某些参数的命名发生了变化对于一些参数命名没变但默认值/使用方式的变化暂时还没给出说明/统计文档我这边基于工作中遇到的一些坑，整理了部分，希望大家在使用的时候留意。注意，在这个文档里官方已给出的参数差异我在这不做赘述分析，只展示我个
用PyTorch玩转数据：从整理到“看图说话开心快乐幸福一家人 pytorch 人工智能 python
最近在实验室鼓捣深度学习项目，发现PyTorch的数据处理流程简直像搭乐高——每个模块都精准卡位。今天就把这套"厨房级"工具链拆解给大家看看，连我这种手残党都能轻松上手。01数据收纳术：你的专属AI管家想象你有一堆杂乱照片需要整理。PyTorch的Dataset类就像智能相册，只要定义好__getitem__（怎么找照片）和__len__（总共有多少张），它就能瞬间把你的数据码得整整齐齐。而Dat
11个案例讲透 Python 函数参数！洪峰科技大数据
大家好，我是洪峰今天给大家分享一下明哥整理的一篇Python参数的内容，内容非常的干，全文通过案例的形式来理解知识点，自认为比网上80%的文章讲的都要明白，如果你是入门不久的python新手，相信本篇文章应该对你会有不小的帮助。接下来是正文。1.参数分类函数，在定义的时候，可以有参数的，也可以没有参数。从函数定义的角度来看，参数可以分为两种：必选参数：调用函数时必须要指定的参数，在定义时没有等号可
Docker、docker-compose常用命令珍朱(珠)奶茶 docker docker 容器运维
最近很慌的一件事是要在客户的服务器上使用docker容器来部署项目，当时接到这个任务时一脸懵逼，我是谁我在哪；对于还不会docker容器技术的我确实很懵逼，啥也不会；所以最终的结果就是一边学一边部署，从不会到会，到最终上线完成，心情就像是过山车一样，遇到各种问题。好了，废话不多说直接上，这里整理了我在部署时遇到的一些问题，以及在实际部署常用的命令。docker卸载旧版本yumremovedocke
2025年公务员考试粉笔行测5000题！最新版！ weixin_45838322 职场和发展
温馨提示：资料仅供学习交流使用，请勿用于商业用途。资料整理不易，请大家珍惜，认真备考。祝愿各位未来的局长们都能顺利上岸，早日实现自己的梦想！部分资料截图：链接：https://pan.quark.cn/s/d30dbfe077fb
html5代码大全文库,HTML5标签大全(最终整理版) cx不二 html5代码大全文库
HTML5标签大全(最终整理版)一、文字备忘之标签HTML5中新增的标签定义文章定义页面内容旁边的内容定义声音内容定义图形定义一个控制按钮指树或表格状数据格式中的动态数据定义一个下拉列表定义一个元素的细节定义会话或人的交谈定义额外的交互内容或插件定义指定元素的标题定义一组媒体内容，以及他们的标题为章节或页面定义一个底部为章节或页面定义一个头部定义文档中某段落的信息定义表单生成的关键定义被标记的文本
JVM 高级面试题及答案整理，最新面试题扫地僧009 互联网大厂面试题 jvm java 面试
JVM中的垃圾收集器有哪些，它们的工作原理是什么？JVM中的垃圾收集器主要包括以下几种：1、Serial收集器：它是一个单线程收集器，工作时会暂停所有其他工作线程（"Stop-The-World"），它的优点是简单高效（与其他收集器的单线程比），适用于单核处理器的环境。2、ParNew收集器：可以看作是Serial收集器的多线程版本，主要用于新生代的垃圾收集，适合多核处理器环境。3、Paralle
Spring Boot 面试题及答案整理，最新面试题扫地僧009 互联网大厂面试题 spring boot 后端 java 面试
SpringBoot中的自动配置是如何工作的？SpringBoot的自动配置是其核心特性之一，它通过以下方式工作：1、@EnableAutoConfiguration注解：这个注解告诉SpringBoot开始查找添加了@Configuration注解的类，并自动配置它们。当应用启动时，SpringBoot会扫描项目依赖中的jar包，寻找包含spring.factories文件的项目。2、条件注解：
Spring Cloud 面试题及答案整理，最新面试题扫地僧009 互联网大厂面试题 spring cloud spring 后端面试
SpringCloud中断路器的原理及其作用是什么？SpringCloud断路器的原理和作用基于以下几个关键点：1、故障隔离机制：在微服务架构中，断路器作为一种故障隔离机制，当某个服务实例出现问题时，断路器会“断开”这个实例，防止故障蔓延到其他服务。2、快速失败机制：当断路器打开时，对该服务的调用将会快速失败而不是等待，从而避免资源浪费和延迟。3、服务降级：在断路器打开时，可以为用户提供备选的响应
Spring MVC 面试题及答案整理，最新面试题扫地僧009 互联网大厂面试题 spring mvc java 面试
SpringMVC中的DispatcherServlet是什么，它如何工作？DispatcherServlet是SpringMVC中的核心组件，负责协调不同的请求处理器。它的工作流程包括：1、请求接收：接收HTTP请求，并将其转发到相应的处理器。2、处理器映射：根据请求查找合适的Controller。3、调用适当的处理器：执行处理器逻辑并返回ModelAndView对象。4、视图渲染：将Model
【uni-app笔记整理八】图片的上传小异常 uni-app uni-app vue javascript js 图片
版权声明：本文为小异常原创文章，非商用自由转载-保持署名-注明出处，谢谢！本文网址：https://sunkuan.blog.csdn.net/article/details/111678247图片上传在移动端也是很常见的一项功能，它可以从本地相册中或者使用相机进行拍照上传图片，uni-app提供了以下两个方法：uni.chooseImage(object)：从本地相册选择图片或使用相机拍照。co
详细的Wireshark插件开发实用技巧分享日记成书反正看不懂系列 wireshark 测试工具网络
以下是Wireshark插件开发的实用技巧，结合网络资源和实践经验整理而成：一、开发环境搭建与工具选择环境配置Windows开发：需安装Cygwin或MSYS2模拟Linux环境，并下载Wireshark源码进行编译。建议使用Wireshark官方文档推荐的编译工具链（如CMake和MinGW）。Linux开发：直接通过包管理器安装Wireshark开发依赖库（如libwireshark-dev）
【NLP算法面经】腾讯、头条算法岗详细面经（★附面题整理★）青松ᵃⁱ NLP 百面百过自然语言处理算法人工智能
【NLP算法面经】腾讯、头条算法岗详细面经（★附面题整理★）嗨，你好，我是青松！自小刺头深草里，而今渐觉出蓬蒿。NLPGithub项目推荐：【AI藏经阁】：https://gitee.com/fasterai/ai-e-book介绍：该仓库主要分享了数百本AI领域电子书【AI算法面经】：fasterai/nlp-interview-handbook#面经介绍：该仓库一网打尽互联网大厂NLP算法面经
腾讯面试：大厂必问消息队列场景面试题消息队列腾讯面试问题
今天，我将那些大厂必问的消息队列的场景问题为大家整理出来,本文将跟大家一起来探讨如何回答这些问题。为什么要使用消息队列？保证消息有序，一个topic只能有一个partition吗？(消息顺序)业务突然增长，导致消息消费不过来怎么办？(消息积压)生产者收到写入成功响应后消息一定不会丢失吗？(消息丢失)高并发场景下怎么保证消息不会重复消费？(重复消费)如何保证消息的可靠性？各大消息队列中间件对比及使用
MongoDB 面试题及答案整理，最新面试题孙恒阳 mongodb 数据库
MongoDB中索引的工作原理及其类型MongoDB中索引的工作原理类似于传统数据库，用于加速查询操作。索引存储着文档的一个小部分字段，并按照这些字段的排序顺序进行组织。常见的索引类型包括：1、单字段索引：最基本的索引类型，只对文档中的一个字段进行索引。2、复合索引：对文档中的多个字段进行组合索引，可以支持对这些字段的查询操作。3、多键索引：用于数组字段，为数组中的每个元素创建索引项。4、全文索引
Python 开发必知的 30 款工具真智AI windows python AI编程
全面解析开发者在Python开发各个阶段可使用的核心工具热门开源工具Python开发涉及多个阶段，因此需要多种工具来管理：依赖管理：pip、Conda和Poetry是常见的选择。性能分析：psutil和Scalene备受欢迎，而新推出的Perforator提供了更可靠的生产级持续性能分析工具，可收集CPU配置文件而不影响性能。我们整理了一些热门工具，并制作了以下可视化概览：开源Python开发工具
Java 算法和数据结构答案整理，最新面试题扫地僧009 互联网大厂面试题 java 算法数据结构
Java中如何使用动态规划求解背包问题？1、定义子问题：首先确定动态规划状态，通常以物品数量和背包容量为变量定义子问题，例如dp[i][j]表示前i件物品放入容量为j的背包所能获得的最大价值。2、确定状态转移方程：基于是否选择当前物品，将问题分为两个子问题，即dp[i][j]=max(dp[i-1][j],dp[i-1][j-weight[i]]+value[i])，表示选择当前物品和不选择当前物
复试英文准备方法小王Jacky 计算机英语英语计算机英语
为了高效准备计算机领域的英文文献翻译面试，可以按照以下步骤进行系统训练，重点提升专业术语积累、文献结构理解和即时翻译能力：一、核心能力针对性训练专业术语速记建立术语库：-每天整理《算法导论》《人工智能：现代方法》等经典教材目录中的核心术语（如：Backpropagation-反向传播、HashCollision--用Excel或Anki卡片记录英文术语+中文释义+例句（例："Thetimecomp
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持