Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势

摘要

本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案，包括避免数据源倾斜，调整并行度，使用自定义Partitioner，使用Map侧Join代替Reduce侧Join，给倾斜Key加上随机前缀等。

为何要处理数据倾斜（Data Skew）

什么是数据倾斜

对Spark/Hadoop这样的大数据系统来讲，数据量大并不可怕，可怕的是数据倾斜。

何谓数据倾斜？数据倾斜指的是，并行处理的数据集中，某一部分（如Spark或Kafka的一个Partition）的数据显著多于其它部分，从而使得该部分的处理速度成为整个数据集处理的瓶颈。

数据倾斜是如何造成的

在Spark中，同一个Stage的不同Partition可以并行处理，而具有依赖关系的不同Stage之间是串行处理的。假设某个Spark Job分为Stage 0和Stage 1两个Stage，且Stage 1依赖于Stage 0，那Stage 0完全处理结束之前不会处理Stage 1。而Stage 0可能包含N个Task，这N个Task可以并行进行。如果其中N-1个Task都在10秒内完成，而另外一个Task却耗时1分钟，那该Stage的总时间至少为1分钟。换句话说，一个Stage所耗费的时间，主要由最慢的那个Task决定。

由于同一个Stage内的所有Task执行相同的计算，在排除不同计算节点计算能力差异的前提下，不同Task之间耗时的差异主要由该Task所处理的数据量决定。

Stage的数据来源主要分为如下两类

从数据源直接读取。如读取HDFS，Kafka
读取上一个Stage的Shuffle数据

如何缓解/消除数据倾斜

尽量避免数据源的数据倾斜

以Spark Stream通过DirectStream方式读取Kafka数据为例。由于Kafka的每一个Partition对应Spark的一个Task（Partition），所以Kafka内相关Topic的各Partition之间数据是否平衡，直接决定Spark处理该数据时是否会产生数据倾斜。

如《 Kafka设计解析（一）- Kafka背景及架构介绍》一文所述，Kafka某一Topic内消息在不同Partition之间的分布，主要由Producer端所使用的Partition实现类决定。如果使用随机Partitioner，则每条消息会随机发送到一个Partition中，从而从概率上来讲，各Partition间的数据会达到平衡。此时源Stage（直接读取Kafka数据的Stage）不会产生数据倾斜。

但很多时候，业务场景可能会要求将具备同一特征的数据顺序消费，此时就需要将具有相同特征的数据放于同一个Partition中。一个典型的场景是，需要将同一个用户相关的PV信息置于同一个Partition中。此时，如果产生了数据倾斜，则需要通过其它方式处理。

调整并行度分散同一个Task的不同Key

原理

Spark在做Shuffle时，默认使用HashPartitioner（非Hash Shuffle）对数据进行分区。如果并行度设置的不合适，可能造成大量不相同的Key对应的数据被分配到了同一个Task上，造成该Task所处理的数据远大于其它Task，从而造成数据倾斜。

如果调整Shuffle时的并行度，使得原本被分配到同一Task的不同Key发配到不同Task上处理，则可降低原Task所需处理的数据量，从而缓解数据倾斜问题造成的短板效应。

案例

现有一张测试表，名为student_external，内有10.5亿条数据，每条数据有一个唯一的id值。现从中取出id取值为9亿到10.5亿的共1.5条数据，并通过一些处理，使得id为9亿到9.4亿间的所有数据对12取模后余数为8（即在Shuffle并行度为12时该数据集全部被HashPartition分配到第8个Task），其它数据集对其id除以100取整，从而使得id大于9.4亿的数据在Shuffle时可被均匀分配到所有Task中，而id小于9.4亿的数据全部分配到同一个Task中。处理过程如下

   INSERTOVERWRITETABLEtestSELECTCASEWHENid<940000000THEN(9500000+ (CAST(RAND() *8ASINTEGER)) *12)ELSECAST(id/100ASINTEGER)END,nameFROMstudent_externalWHEREidBETWEEN900000000AND1050000000;

通过上述处理，一份可能造成后续数据倾斜的测试数据即以准备好。接下来，使用Spark读取该测试数据，并通过 groupByKey(12)对id分组处理，且Shuffle并行度为12。代码如下

   publicclassSparkDataSkew{publicstaticvoidmain(String[] args){
    SparkSession sparkSession = SparkSession.builder()
      .appName("SparkDataSkewTunning")
      .config("hive.metastore.uris","thrift://hadoop1:9083")
      .enableHiveSupport()
      .getOrCreate();

    Dataset dataframe = sparkSession.sql("select * from test");
    dataframe.toJavaRDD()
      .mapToPair((Row row) ->newTuple2(row.getInt(0),row.getString(1)))
      .groupByKey(12)
      .mapToPair((Tuple2> tuple) -> {intid = tuple._1();
        AtomicInteger atomicInteger =newAtomicInteger(0);
        tuple._2().forEach((String name) -> atomicInteger.incrementAndGet());returnnewTuple2(id, atomicInteger.get());
      }).count();

      sparkSession.stop();
      sparkSession.close();
  }
  
}

本次实验所使用集群节点数为4，每个节点可被Yarn使用的CPU核数为16，内存为16GB。使用如下方式提交上述应用，将启动4个Executor，每个Executor可使用核数为12（该配置并非生产环境下的最优配置，仅用于本文实验），可用内存为12GB。

   spark-submit--queue ambari --num-executors 4 --executor-cores 12 --executor-memory 12g --class com.jasongj.spark.driver.SparkDataSkew --master yarn --deploy-mode client SparkExample-with-dependencies-1.0.jar

GroupBy Stage的Task状态如下图所示，Task 8处理的记录数为4500万，远大于（9倍于）其它11个Task处理的500万记录。而Task 8所耗费的时间为38秒，远高于其它11个Task的平均时间（16秒）。整个Stage的时间也为38秒，该时间主要由最慢的Task 8决定。

在这种情况下，可以通过调整Shuffle并行度，使得原来被分配到同一个Task（即该例中的Task 8）的不同Key分配到不同Task，从而降低Task 8所需处理的数据量，缓解数据倾斜。

通过 groupByKey(48)将Shuffle并行度调整为48，重新提交到Spark。新的Job的GroupBy Stage所有Task状态如下图所示。

从上图可知，记录数最多的Task 20处理的记录数约为1125万，相比于并行度为12时Task 8的4500万，降低了75%左右，而其耗时从原来Task 8的38秒降到了24秒。

在这种场景下，调整并行度，并不意味着一定要增加并行度，也可能是减小并行度。如果通过 groupByKey(11)将Shuffle并行度调整为11，重新提交到Spark。新Job的GroupBy Stage的所有Task状态如下图所示。

从上图可见，处理记录数最多的Task 6所处理的记录数约为1045万，耗时为23秒。处理记录数最少的Task 1处理的记录数约为545万，耗时12秒。

总结

适用场景
大量不同的Key被分配到了相同的Task造成该Task数据量过大。

解决方案
调整并行度。一般是增大并行度，但有时如本例减小并行度也可达到效果。

优势
实现简单，可在需要Shuffle的操作算子上直接设置并行度或者使用 spark.default.parallelism设置。如果是Spark SQL，还可通过 SET spark.sql.shuffle.partitions=[num_tasks]设置并行度。可用最小的代价解决问题。一般如果出现数据倾斜，都可以通过这种方法先试验几次，如果问题未解决，再尝试其它方法。

劣势
适用场景少，只能将分配到同一Task的不同Key分散开，但对于同一Key倾斜严重的情况该方法并不适用。并且该方法一般只能缓解数据倾斜，没有彻底消除问题。从实践经验来看，其效果一般。

自定义Partitioner

原理

使用自定义的Partitioner（默认为HashPartitioner），将原本被分配到同一个Task的不同Key分配到不同Task。

案例

以上述数据集为例，继续将并发度设置为12，但是在 groupByKey算子上，使用自定义的 Partitioner（实现如下）

   .groupByKey(newPartitioner() {@OverridepublicintnumPartitions(){return12;
  }@OverridepublicintgetPartition(Object key){intid = Integer.parseInt(key.toString());if(id >=9500000&& id <=9500084&& ((id -9500000) %12) ==0) {return(id -9500000) /12;
    }else{returnid %12;
    }
  }
})

由下图可见，使用自定义Partition后，耗时最长的Task 6处理约1000万条数据，用时15秒。并且各Task所处理的数据集大小相当。

总结

适用场景
大量不同的Key被分配到了相同的Task造成该Task数据量过大。

解决方案
使用自定义的Partitioner实现类代替默认的HashPartitioner，尽量将所有不同的Key均匀分配到不同的Task中。

优势
不影响原有的并行度设计。如果改变并行度，后续Stage的并行度也会默认改变，可能会影响后续Stage。

劣势
适用场景有限，只能将不同Key分散开，对于同一Key对应数据集非常大的场景不适用。效果与调整并行度类似，只能缓解数据倾斜而不能完全消除数据倾斜。而且需要根据数据特点自定义专用的Partitioner，不够灵活。

将Reduce side Join转变为Map side Join

原理

通过Spark的Broadcast机制，将Reduce侧Join转化为Map侧Join，避免Shuffle从而完全消除Shuffle带来的数据倾斜。

案例

通过如下SQL创建一张具有倾斜Key且总记录数为1.5亿的大表test。

   INSERTOVERWRITETABLEtestSELECTCAST(CASEWHENid<980000000THEN(95000000+ (CAST(RAND() *4ASINT) +1) *48)ELSECAST(id/10ASINT)ENDASSTRING),nameFROMstudent_externalWHEREidBETWEEN900000000AND1050000000;

使用如下SQL创建一张数据分布均匀且总记录数为50万的小表test_new。

   INSERTOVERWRITETABLEtest_newSELECTCAST(CAST(id/10ASINT)ASSTRING),nameFROMstudent_delta_externalWHEREidBETWEEN950000000AND950500000;

直接通过Spark Thrift Server提交如下SQL将表test与表test_new进行Join并将Join结果存于表test_join中。

   INSERTOVERWRITETABLEtest_joinSELECTtest_new.id, test_new.nameFROMtestJOINtest_newONtest.id= test_new.id;

该SQL对应的DAG如下图所示。从该图可见，该执行过程总共分为三个Stage，前两个用于从Hive中读取数据，同时二者进行Shuffle，通过最后一个Stage进行Join并将结果写入表test_join中。

从下图可见，最近Join Stage各Task处理的数据倾斜严重，处理数据量最大的Task耗时7.1分钟，远高于其它无数据倾斜的Task约2s秒的耗时。

接下来，尝试通过Broadcast实现Map侧Join。实现Map侧Join的方法，并非直接通过 CACHE TABLE test_new将小表test_new进行cache。现通过如下SQL进行Join。

   CACHETABLEtest_new;INSERTOVERWRITETABLEtest_joinSELECTtest_new.id, test_new.nameFROMtestJOINtest_newONtest.id= test_new.id;

通过如下DAG图可见，该操作仍分为三个Stage，且仍然有Shuffle存在，唯一不同的是，小表的读取不再直接扫描Hive表，而是扫描内存中缓存的表。

并且数据倾斜仍然存在。如下图所示，最慢的Task耗时为7.1分钟，远高于其它Task的约2秒。

正确的使用Broadcast实现Map侧Join的方式是，通过 SET spark.sql.autoBroadcastJoinThreshold=104857600;将Broadcast的阈值设置得足够大。

再次通过如下SQL进行Join。

   SETspark.sql.autoBroadcastJoinThreshold=104857600;INSERTOVERWRITETABLEtest_joinSELECTtest_new.id, test_new.nameFROMtestJOINtest_newONtest.id= test_new.id;

通过如下DAG图可见，该方案只包含一个Stage。

并且从下图可见，各Task耗时相当，无明显数据倾斜现象。并且总耗时为1.5分钟，远低于Reduce侧Join的7.3分钟。

总结

适用场景
参与Join的一边数据集足够小，可被加载进Driver并通过Broadcast方法广播到各个Executor中。

解决方案
在Java/Scala代码中将小数据集数据拉取到Driver，然后通过broadcast方案将小数据集的数据广播到各Executor。或者在使用SQL前，将broadcast的阈值调整得足够多，从而使用broadcast生效。进而将Reduce侧Join替换为Map侧Join。

优势
避免了Shuffle，彻底消除了数据倾斜产生的条件，可极大提升性能。

劣势
要求参与Join的一侧数据集足够小，并且主要适用于Join的场景，不适合聚合的场景，适用条件有限。

为skew的key增加随机前/后缀

原理

为数据量特别大的Key增加随机前/后缀，使得原来Key相同的数据变为Key不相同的数据，从而使倾斜的数据集分散到不同的Task中，彻底解决数据倾斜问题。Join另一则的数据中，与倾斜Key对应的部分数据，与随机前缀集作笛卡尔乘积，从而保证无论数据倾斜侧倾斜Key如何加前缀，都能与之正常Join。

案例

通过如下SQL，将id为9亿到9.08亿共800万条数据的id转为9500048或者9500096，其它数据的id除以100取整。从而该数据集中，id为9500048和9500096的数据各400万，其它id对应的数据记录数均为100条。这些数据存于名为test的表中。

对于另外一张小表test_new，取出50万条数据，并将id（递增且唯一）除以100取整，使得所有id都对应100条数据。

   INSERT OVERWRITE TABLE test
SELECTCAST(CASE WHEN id <908000000THEN(9500000+ (CAST(RAND()*2AS INT) +1) *48)
  ELSECAST(id/100AS INT)END AS STRING),
  name
FROM student_external
WHERE id BETWEEN900000000AND1050000000;INSERT OVERWRITE TABLE test_new
SELECTCAST(CAST(id/100AS INT)AS STRING),
  name
FROM student_delta_external
WHERE id BETWEEN950000000AND950500000;

通过如下代码，读取test表对应的文件夹内的数据并转换为JavaPairRDD存于leftRDD中，同样读取test表对应的数据存于rightRDD中。通过RDD的join算子对leftRDD与rightRDD进行Join，并指定并行度为48。

   publicclassSparkDataSkew{publicstaticvoidmain(String[] args){
    SparkConf sparkConf =newSparkConf();
    sparkConf.setAppName("DemoSparkDataFrameWithSkewedBigTableDirect");
    sparkConf.set("spark.default.parallelism", parallelism +"");
    JavaSparkContext javaSparkContext =newJavaSparkContext(sparkConf);

    JavaPairRDD leftRDD = javaSparkContext.textFile("hdfs://hadoop1:8020/apps/hive/warehouse/default/test/")
      .mapToPair((String row) -> {
        String[] str = row.split(",");returnnewTuple2(str[0], str[1]);
      });

    JavaPairRDD rightRDD = javaSparkContext.textFile("hdfs://hadoop1:8020/apps/hive/warehouse/default/test_new/")
      .mapToPair((String row) -> {
        String[] str = row.split(",");returnnewTuple2(str[0], str[1]);
      });

    leftRDD.join(rightRDD, parallelism)
      .mapToPair((Tuple2> tuple) ->newTuple2(tuple._1(), tuple._2()._2()))
      .foreachPartition((Iterator> iterator) -> {
        AtomicInteger atomicInteger =newAtomicInteger();
          iterator.forEachRemaining((Tuple2 tuple) -> atomicInteger.incrementAndGet());
      });

    javaSparkContext.stop();
    javaSparkContext.close();
  }
}

从下图可看出，整个Join耗时1分54秒，其中Join Stage耗时1.7分钟。

通过分析Join Stage的所有Task可知，在其它Task所处理记录数为192.71万的同时Task 32的处理的记录数为992.72万，故它耗时为1.7分钟，远高于其它Task的约10秒。这与上文准备数据集时，将id为9500048为9500096对应的数据量设置非常大，其它id对应的数据集非常均匀相符合。

现通过如下操作，实现倾斜Key的分散处理

将leftRDD中倾斜的key（即9500048与9500096）对应的数据单独过滤出来，且加上1到24的随机前缀，并将前缀与原数据用逗号分隔（以方便之后去掉前缀）形成单独的leftSkewRDD
将rightRDD中倾斜key对应的数据抽取出来，并通过flatMap操作将该数据集中每条数据均转换为24条数据（每条分别加上1到24的随机前缀），形成单独的rightSkewRDD
将leftSkewRDD与rightSkewRDD进行Join，并将并行度设置为48，且在Join过程中将随机前缀去掉，得到倾斜数据集的Join结果skewedJoinRDD
将leftRDD中不包含倾斜Key的数据抽取出来作为单独的leftUnSkewRDD
对leftUnSkewRDD与原始的rightRDD进行Join，并行度也设置为48，得到Join结果unskewedJoinRDD
通过union算子将skewedJoinRDD与unskewedJoinRDD进行合并，从而得到完整的Join结果集

具体实现代码如下

   publicclassSparkDataSkew{publicstaticvoidmain(String[] args){intparallelism =48;
      SparkConf sparkConf =newSparkConf();
      sparkConf.setAppName("SolveDataSkewWithRandomPrefix");
      sparkConf.set("spark.default.parallelism", parallelism +"");
      JavaSparkContext javaSparkContext =newJavaSparkContext(sparkConf);

      JavaPairRDD leftRDD = javaSparkContext.textFile("hdfs://hadoop1:8020/apps/hive/warehouse/default/test/")
        .mapToPair((String row) -> {
          String[] str = row.split(",");returnnewTuple2(str[0], str[1]);
        });

        JavaPairRDD rightRDD = javaSparkContext.textFile("hdfs://hadoop1:8020/apps/hive/warehouse/default/test_new/")
          .mapToPair((String row) -> {
            String[] str = row.split(",");returnnewTuple2(str[0], str[1]);
          });

        String[] skewedKeyArray =newString[]{"9500048","9500096"};
        Set skewedKeySet =newHashSet();
        List addList =newArrayList();for(inti =1; i <=24; i++) {
            addList.add(i +"");
        }for(String key : skewedKeyArray) {
            skewedKeySet.add(key);
        }

        Broadcast> skewedKeys = javaSparkContext.broadcast(skewedKeySet);
        Broadcast> addListKeys = javaSparkContext.broadcast(addList);

        JavaPairRDD leftSkewRDD = leftRDD
          .filter((Tuple2 tuple) -> skewedKeys.value().contains(tuple._1()))
          .mapToPair((Tuple2 tuple) ->newTuple2((newRandom().nextInt(24) +1) +","+ tuple._1(), tuple._2()));

        JavaPairRDD rightSkewRDD = rightRDD.filter((Tuple2 tuple) -> skewedKeys.value().contains(tuple._1()))
          .flatMapToPair((Tuple2 tuple) -> addListKeys.value().stream()
          .map((String i) ->newTuple2( i +","+ tuple._1(), tuple._2()))
          .collect(Collectors.toList())
          .iterator()
        );

        JavaPairRDD skewedJoinRDD = leftSkewRDD
          .join(rightSkewRDD, parallelism)
          .mapToPair((Tuple2> tuple) ->newTuple2(tuple._1().split(",")[1], tuple._2()._2()));

        JavaPairRDD leftUnSkewRDD = leftRDD.filter((Tuple2 tuple) -> !skewedKeys.value().contains(tuple._1()));
        JavaPairRDD unskewedJoinRDD = leftUnSkewRDD.join(rightRDD, parallelism).mapToPair((Tuple2> tuple) ->newTuple2(tuple._1(), tuple._2()._2()));

        skewedJoinRDD.union(unskewedJoinRDD).foreachPartition((Iterator> iterator) -> {
          AtomicInteger atomicInteger =newAtomicInteger();
          iterator.forEachRemaining((Tuple2 tuple) -> atomicInteger.incrementAndGet());
        });

        javaSparkContext.stop();
        javaSparkContext.close();
    }
}

从下图可看出，整个Join耗时58秒，其中Join Stage耗时33秒。

通过分析Join Stage的所有Task可知

由于Join分倾斜数据集Join和非倾斜数据集Join，而各Join的并行度均为48，故总的并行度为96
由于提交任务时，设置的Executor个数为4，每个Executor的core数为12，故可用Core数为48，所以前48个Task同时启动（其Launch时间相同），后48个Task的启动时间各不相同（等待前面的Task结束才开始）
由于倾斜Key被加上随机前缀，原本相同的Key变为不同的Key，被分散到不同的Task处理，故在所有Task中，未发现所处理数据集明显高于其它Task的情况

实际上，由于倾斜Key与非倾斜Key的操作完全独立，可并行进行。而本实验受限于可用总核数为48，可同时运行的总Task数为48，故而该方案只是将总耗时减少一半（效率提升一倍）。如果资源充足，可并发执行Task数增多，该方案的优势将更为明显。在实际项目中，该方案往往可提升数倍至10倍的效率。

总结

适用场景
两张表都比较大，无法使用Map则Join。其中一个RDD有少数几个Key的数据量过大，另外一个RDD的Key分布较为均匀。

解决方案
将有数据倾斜的RDD中倾斜Key对应的数据集单独抽取出来加上随机前缀，另外一个RDD每条数据分别与随机前缀结合形成新的RDD（相当于将其数据增到到原来的N倍，N即为随机前缀的总个数），然后将二者Join并去掉前缀。然后将不包含倾斜Key的剩余数据进行Join。最后将两次Join的结果集通过union合并，即可得到全部Join结果。

优势
相对于Map则Join，更能适应大数据集的Join。如果资源充足，倾斜部分数据集与非倾斜部分数据集可并行进行，效率提升明显。且只针对倾斜部分的数据做数据扩展，增加的资源消耗有限。

劣势
如果倾斜Key非常多，则另一侧数据膨胀非常大，此方案不适用。而且此时对倾斜Key与非倾斜Key分开处理，需要扫描数据集两遍，增加了开销。

大表随机添加N种随机前缀，小表扩大N倍

原理

如果出现数据倾斜的Key比较多，上一种方法将这些大量的倾斜Key分拆出来，意义不大。此时更适合直接对存在数据倾斜的数据集全部加上随机前缀，然后对另外一个不存在严重数据倾斜的数据集整体与随机前缀集作笛卡尔乘积（即将数据量扩大N倍）。

案例

这里给出示例代码，读者可参考上文中分拆出少数倾斜Key添加随机前缀的方法，自行测试。

    publicclassSparkDataSkew{publicstaticvoidmain(String[] args){
    SparkConf sparkConf =newSparkConf();
    sparkConf.setAppName("ResolveDataSkewWithNAndRandom");
    sparkConf.set("spark.default.parallelism", parallelism +"");
    JavaSparkContext javaSparkContext =newJavaSparkContext(sparkConf);

    JavaPairRDD leftRDD = javaSparkContext.textFile("hdfs://hadoop1:8020/apps/hive/warehouse/default/test/")
      .mapToPair((String row) -> {
        String[] str = row.split(",");returnnewTuple2(str[0], str[1]);
      });

    JavaPairRDD rightRDD = javaSparkContext.textFile("hdfs://hadoop1:8020/apps/hive/warehouse/default/test_new/")
      .mapToPair((String row) -> {
        String[] str = row.split(",");returnnewTuple2(str[0], str[1]);
    });

    List addList =newArrayList();for(inti =1; i <=48; i++) {
      addList.add(i +"");
    }

    Broadcast> addListKeys = javaSparkContext.broadcast(addList);

    JavaPairRDD leftRandomRDD = leftRDD.mapToPair((Tuple2 tuple) ->newTuple2(newRandom().nextInt(48) +","+ tuple._1(), tuple._2()));

    JavaPairRDD rightNewRDD = rightRDD
      .flatMapToPair((Tuple2 tuple) -> addListKeys.value().stream()
      .map((String i) ->newTuple2( i +","+ tuple._1(), tuple._2()))
      .collect(Collectors.toList())
      .iterator()
    );

    JavaPairRDD joinRDD = leftRandomRDD
      .join(rightNewRDD, parallelism)
      .mapToPair((Tuple2> tuple) ->newTuple2(tuple._1().split(",")[1], tuple._2()._2()));

    joinRDD.foreachPartition((Iterator> iterator) -> {
      AtomicInteger atomicInteger =newAtomicInteger();
      iterator.forEachRemaining((Tuple2 tuple) -> atomicInteger.incrementAndGet());
    });

    javaSparkContext.stop();
    javaSparkContext.close();
  }
}

总结

适用场景
一个数据集存在的倾斜Key比较多，另外一个数据集数据分布比较均匀。

优势
对大部分场景都适用，效果不错。

劣势
需要将一个数据集整体扩大N倍，会增加资源消耗。

总结

对于数据倾斜，并无一个统一的一劳永逸的方法。更多的时候，是结合数据特点（数据集大小，倾斜Key的多少等）综合使用上文所述的多种方法。

作者：郭俊 Jason。来源Jason’s Blog,分享交流大数据领域技术，包括但不限于Storm、Spark、Hadoop等流行分布式计算系统，Kafka、MetaQ等分布式消息系统，MongoDB、Cassandra等NoSQL，PostgreSQL、MySQL等RDBMS及其它前沿技术。

End.

转载请注明来自36大数据（36dsj.com)： 36大数据» Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势

你可能感兴趣的:(bigdata)

Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
echarts象形渐变柱状图星星跌入梦境* echarts angular.js 前端
一、效果图如下：二、代码如下（1）父组件importitemfrom'../bigdata/components/item.vue'exportdefault{components:{item}}.page-con{width:100%;height:100%;.main-con{width:35%;height:33%;}}（2）子组件importechartsfrom"echarts";exp
大数据（Big Data）：探索信息时代的海量数据世界 hong161688 大数据
大数据（BigData）：探索信息时代的海量数据世界一、大数据的定义与特点大数据（BigData），或称巨量资料，是指那些在传统数据处理应用软件无法有效捕捉、管理和处理的数据集合。这些数据集通常具有海量、高增长率和多样化的特点，需要新的处理模式才能赋予其更强的决策力、洞察发现力和流程优化能力。大数据的“大”不仅体现在数据量的规模上，更在于其处理难度和复杂性，以及对信息提取和价值挖掘的需求。大数据的
Ingest Pipeline & Painless Script 折纸虚桐 ES学习笔记 elasticsearch
DELETEtech_blogs#Blog数据，包含3个字段，tags用逗号间隔PUTtech_blogs/_doc/1{"title":"Introducingbigdata......","tags":"hadoop,elasticsearch,spark","content":"Youknow,forbigdata"}#测试splittagsPOST_ingest/pipeline/_sim
HIVE 数据模型 HFDYCYY 大数据
体系结构：元数据/HQL的执行安装：嵌入/远程/本地管理：CLI/web界面/远程服务数据类型：基本/复杂/时间数据模型：数据存储/内部表/分区表/外部表/桶表/视图WEB管理工具：http://tdxy-bigdata-04:8889/notebook/editor?type=hive集群状态管理：http://tdxy-bigdata-03:7180/cmf/home基于HDFS没有专门的数据
山东大学大数据管理与分析知识点总结 weixin_51565263 云计算大数据 mapreduce 数据仓库
大数据概述大数据(bigdata)，或称巨量资料，指的是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产大数据指不用随机分析法（抽样调查）这样的捷径，而采用所有数据进行分析处理大数据四个本质特征大量化（volume），快速化（velocity），多样化（variety），价值化（value）；四个VVolume—数量大：数据每两年就增长一倍（大数据摩尔
大数据-Big Data Dingdangr big data
大数据（BigData）是指规模庞大、多样化、高速度的数据集合。与传统数据相比，大数据具有一些显著的特点，并广泛应用于各个领域。以下是对大数据的详细解释：一、大数据的定义大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。二、大数据的主要特点数据量巨大（Volume）：大数据最
BigData学习日记 wsuan
做一个简单的开篇说明从今天开始，每天定时更新当天所学知识，进行知识总结的同时进行一下日子的计算，也算为自己加油。
pyflink1.18.0 报错 TypeError: cannot pickle ‘_thread.lock‘ object Thomas2143 总结 pyflink
完整报错Traceback(mostrecentcalllast):File"/Users//1.py",line851,inds1=my_datastream.key_by(lambdax:x[0]).process(MyProcessFunction())#返回元组即:f0f1f2三列File"/Users/thomas990p/bigdataSoft/minicondaarm/minicon
扩展学习|大数据，新的认识论和范式转变封印师请假去地球钓鱼计算机辅助信息分析主题扩展阅读大数据科研范式转变
文献来源：[1]KitchinR.BigData,NewEpistemologiesandParadigmShift[J].BigData&Society,2014,1(1):1-12.DOI:10.1177/2053951714528481.下载链接：https://pan.baidu.com/s/1RdnIo5VeL-CERk2sxyILiQ提取码：0ih2一、科学研究的范式转变正如库恩(19
阿里云计算平台大数据基础工程技术团队直聘！！！大数据
大数据基础工程技术团队，隶属于阿里云智能集团计算平台事业部，是一支负责阿里集团、公共云和混合云场景计算平台大数据&AI产品的稳定性建设、架构&成本优化、运维产品ABM（ApsaraBigdataManager）研发和售后技术专家支持的团队。通过软件工程，数据智能化的方法论，围绕数据系统化建设运维智能工具链，打造飞天大数据&AI运维管控平台ABM，解决超大规模分布式集群运维管理问题，提升产品的稳定性
单细胞注释刘综一
单细胞-注释-2022-01-17多个样本单细胞分析流程-(jianshu.com)一、人工注释人工注释需要借助文献检索marker或者结合常用的注释数据库，例如两个常用的数据库：CellMarker（http://bio-bigdata.hrbmu.edu.cn/CellMarker/）；panglaoDB（ASingleCellSequencingResourceForGeneExpressi
[bigdata-050] 规则引擎和专家系统pyke+pyclipse+drools 未济2019
反欺诈最有效的方式，是搜索所有的欺诈事件，然后将欺诈行为和防范措施进行规则化，表达成产生式规则，再由规则引擎驱动进行反欺诈业务实战。产生式规则，就是AI领域早期的专家系统。规则引擎如下：1.clipsehttp://clipsrules.sourceforge.net/http://clipsrules.sourceforge.net/FAQ.html这个是nasa在1985年开发的，ansic，
【Fellow 云集 | 经管主题/EI会议 | 快见刊】第三届大数据、区块链与经济管理国际学术会议 (ICBBEM 2024)，早投稿、早送审、早录用！艾思科蓝 AiScholar 学术会议大数据区块链信任链人工智能软件工程线性回归算法
第三届大数据、区块链与经济管理国际学术会议(ICBBEM2024)The3rdInternationalConferenceonBigdataBlockchainandEconomyManagement大会网站：https://ais.cn/u/YFbQru（更多会议详情）大会时间：2024年3月29-31号大会地点：中国-武汉截稿时间：以官网信息为准提交检索：EICompendex，Scopus
python+大数据学习打卡day1 岁月不静好456 big data 学习
【大数据从0-1打卡-day1】1、简单了解一些关于大数据的概念数据：数据就是对客观事件进行记录并可以鉴别的符号。他不仅仅是指数字，还可以是有一定意义的字母、文字、符号、语音、文字、图画、视频或者这些元素的结合等。企业数据分析方向：现状分析：离线分析原因分析：实时分析预测分析：机器学习数据分析基本流程：采集、处理、分析、应用大数据：大数据(bigdata)，指的是所涉及的资料量规模巨大到无法透过主
因果推断推荐系统工具箱 - CFF（二） processor4d
文章名称【CIKM-2021】【BeijingKeyLaboratoryofBigDataManagementandAnalysisMethods-AntGroup】CounterfactualReview-basedRecommendation核心要点文章旨在解决现有基于评论的推荐系统中存在的评论稀疏和不平衡的问题，提出在feature-aware的推荐场景下，利用反事实样本提升模型性能。作者通
requests实验临风. 爬虫爬虫网络爬虫 python
文章目录实验目的：实验内容：1.使用百度搜索引擎查询给定的一个关键词（例如：bigdata），将搜索得到的网页存储起来。2.给定使用baidu搜索引擎的关键词列表，将搜索得到的网页分别存储起来。2.1代码展示2.2效果展示2.3注意事项3.在人邮教育官网上搜索“爬虫”的图书信息，结果保存起来。3.1代码展示3.2效果展示4.给定关键词列表（例如：【大数据、java、python】），在人邮教育官网
python数据可视化库_python和r中用于数据可视化的前9个库 weixin_26738983 可视化 python 数据可视化数据分析人工智能
python数据可视化库Intherapidlygrowingworldoftoday,whentechnologyisexpandingataratelikeneverbefore,bigdataisswiftlywalkingintopeople’slives.Thoughpeoplemayhavewaystoobtaindata,whenitcomestodrawinginsightsorc
spark好的文章链接 Trank-Lw spark 大数据分布式
https://blog.51cto.com/u_16099325/6763760`javaspark官方文档sparkjavaapi手册http://www.17bigdata.com/book/spark/BianChengZhiNan/SPARKGongXiangBianLiang.htmlJavaSparkML实现的文本分类https://blog.csdn.net/coderma/art
使用Python和OpenCV检测图像中的物体并将物体裁剪下来要去坐飞船图像处理
转载哦~https://blog.csdn.net/binbigdata/article/details/80029681介绍硕士阶段的毕设是关于昆虫图像分类的，代码写到一半，上周五导师又给我新的昆虫图片数据集了，新图片中很多图片很大，但是图片中的昆虫却很小，所以我就想着先处理一下图片，把图片中的昆虫裁剪下来，这样除去大部分无关背景，应该可以提高识别率。原图片举例（将红色矩形框部分裁剪出来））：s
Hadoop2.7配置不会吐丝的蜘蛛侠。 Hadoop hadoop 大数据 hdfs
core-site.xmlfs.defaultFShdfs://bigdata/ha.zookeeper.quorum192.168.56.70:2181,192.168.56.71:2181,192.168.56.72:2181-->hadoop.tmp.dir/export/data/hadoop/tmpfs.trash.interval1440io.file.buffer.size13107
Hadoop搭建（完全分布式）莫噶搭建分布式 hadoop 大数据
节点分布：bigdata-masterbigdata-slave1bigdata-salve2NameNodeNodeManagerNodeManagerSecondaryNameNodeDataNodeDataNodeResourceManagerNodeManagerDataNode目录一、jdk安装：二、hadoop安装一、jdk安装：jdk-8u212链接：https://pan.baid
因果推断推荐系统工具箱 - CFF（一） processor4d
文章名称【CIKM-2021】【BeijingKeyLaboratoryofBigDataManagementandAnalysisMethods-AntGroup】CounterfactualReview-basedRecommendation核心要点文章旨在解决现有基于评论的推荐系统中存在的评论稀疏和不平衡的问题，提出在feature-aware的推荐场景下，利用反事实样本提升模型性能。作者通
RDD 依赖关系 zmx_messi 大数据 spark
RDD血缘关系RDD不会保存数据的，RDD为了提供容错性，需要将RDD间的关系保存下来，一旦出现错误，可以根据血缘关采将数据源重新读取进行计算。packagecom.atguigu.bigdata.spark.core.rdd.depimportorg.apache.spark.{SparkConf,SparkContext}objectSpark01_RDD_Dep{defmain(args:A
转换算子小案例 zmx_messi spark 大数据
1)数据准备agent.log：时间戳，省份，城市，用户，广告，中间字段使用空格分隔。2)需求描述统计出每一个省份每个广告被点击数量排行的Top33)需求分析4)功能实现整体思路代码实现packagecom.atguigu.bigdata.spark.core.rdd.operator.transformimportorg.apache.spark.{SparkConf,SparkContext}
【征稿已开启】第五大数据、人工智能与软件工程国际研讨会（ICBASE 2024）艾思科蓝-何老师【H8053】大数据人工智能软件工程
第五大数据、人工智能与软件工程国际研讨会（ICBASE2024）20245thInternationalConferenceonBigData&ArtificialIntelligence&SoftwareEngineering2024年09月20-22日|中国温州第五届大数据、人工智能与软件工程国际研讨会（ICBASE2024）将于2024年09月20-22日在中国温州隆重举行。会议主要围绕大数
2024初始Spring（并使用idea创建springweb项目）菜鸟小木 spring java 后端
前言spring呢，以前一直是简单的了解，并没有利用空闲时间去进行对应的深入的学习，今天呢原本是打算好好学的，然后后来呢感觉还是太早了接触，打算把前面知识在过一编之后再开始Spring介绍Spring|Home大家想要访问的话，可以去官网下面具体查看对应的文档Fromconfigurationtosecurity,webappstobigdata—whatevertheinfrastructure
spark学习4：spark安装 hzp666 spark spark 大数据
1.下载spark安装包2.配置环境1.cd/bigdata/spark-3.0.1-bin-hadoop3.2/conf/2.4.添加动态库在hadoop-3.2.2/bin目录下添加hadoop.dll和winutils.exe文件，可以从https://github.com/cdarlint/winutils和https://github.com/steveloughran/winutils
商业智能（BI）数据分析、挖掘概念 kalvin_y_liu 数据科学数据分析数据挖掘
商业智能（BI）数据分析挖掘概念一、商业智能（BI）数据分析挖掘概念数据挖掘目前在各类企业和机构中蓬勃发展。因此我们制作了一份此领域常见术语总结。1.分析型客户关系管理（AnalyticalCRM/aCRM用于支持决策，改善公司跟顾客的互动或提高互动的价值。针对有关顾客的知识，和如何与顾客有效接触的知识，进行收集、分析、应用。2.大数据（BigData）大数据既是一个被滥用的流行语，也是一个当今社
Fink CDC数据同步（二）MySQL数据同步苡~ mysql 数据库 flink
1开启binlog日志2数据准备usebigdata;droptableifexistsuser;CREATETABLE`user`(`id`INTEGERNOTNULLAUTO_INCREMENT,`name`VARCHAR(20)NOTNULLDEFAULT'',`birth`VARCHAR(20)NOTNULLDEFAULT'',`gender`VARCHAR(10)NOTNULLDEFAU
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟