繁城落叶

Spark 算子Java操作示例。

Spark中有许许多多的算子来支持各种操作，但其中主要分为两种；一种就是Transformations算子，一种是Action算子。官方文档中已经指出了常用的算子。好记性不如烂笔头，在这里记录一下各个算子的作用以及使用方法。

Transformations算子：顾名思义，这种算子的作用就是将一个RDD转换成另一种RDD，有的算子转换过程中还会涉及到parition的变化和Shuffle操作，这里只介绍算子的使用方法，其中的parition和shuffle的具体变换可能不会提到。

Action算子：该算子会触发一个runJob操作，也就是只有使用了Action算子才会将程序提交到集群进行计算，最后会得到一个结果。

SparkConf和JavaSparkContext的初始化。

SparkConf conf = new SparkConf().setMaster("local").setAppName("TransformationsOperator");
JavaSparkContext sc = new JavaSparkContext(conf);

1 . map(func)。

官方介绍：

Return a new distributed dataset formed by passing each element of the source through a function func.

通过函数将RDD中的每个元素进行转换形成一个新的RDD。

操作示例：

    // map，一次只处理一个parition中的一条数据。
    private static void MapOperator(JavaSparkContext sc) {
        List numbers = Arrays.asList(1, 2, 3, 4, 5);

        JavaRDD numberRDD = sc.parallelize(numbers);// 得到一个RDD

        JavaRDD results = numberRDD.map(new Function() {//使用map操作将Integer类型转换成String

            private static final long serialVersionUID = 1L;

            @Override
            public String call(Integer number) throws Exception {

                return "number:" + number;
            }

        });

        results.foreach(new VoidFunction() {

            private static final long serialVersionUID = 1L;

            @Override
            public void call(String arg0) throws Exception {
                System.out.println(arg0);
            }
        });
    }

2.mapPartitions(func)。

官方介绍：

Similar to map, but runs separately on each partition (block) of the RDD, so func must be of type Iterator => Iterator when running on an RDD of type T.

作用于map一致，不过是以每个parition作为一个操作单位的，所以返回类型是一个Iterator。

操作示例：

// mapPartitions，这个是针对Partition的操作，一次会处理一个partition的所有数据
    private static void MapPartitionsOperator(JavaSparkContext sc) {

        List names = Arrays.asList("zhangsan", "lisi", "wangwu");

        JavaRDD nameRDD = sc.parallelize(names,2);

        final Map scoreMap = new HashMap<>();
        scoreMap.put("zhangsan", 100);
        scoreMap.put("lisi", 99);
        scoreMap.put("wangwu", 98);

        //这里会使用FlatMapFunction将Iterator中的数据自动压缩成Integer数据。
        JavaRDD scoreRDD = nameRDD.mapPartitions(new FlatMapFunction, Integer>() {

            private static final long serialVersionUID = 1L;

            @Override
            public Iterator call(Iterator iterator) throws Exception {
                List scores = new ArrayList<>();
                while (iterator.hasNext()) {
                    String name = iterator.next();
                    int score = scoreMap.get(name);
                    scores.add(score);
                }
                return scores.iterator();
            }
        });

        scoreRDD.foreach(new VoidFunction() {

            private static final long serialVersionUID = 1L;

            @Override
            public void call(Integer score) throws Exception {
                System.out.println(score);
            }
        });

    }

可以通过FlatMapFunction的参数看到，第一个是Iterator< String>的，也就是输入的数据是一个Iterator，输出的是Integer，这个输入的 Iterator就是将一个partition中的所有数据传入进来，经过操作后变成一个Iterator< Integer>的，然后在自动压缩成Integer。

3 . mapPartitionsWithIndex(func)。

官方介绍：

Similar to mapPartitions, but also provides func with an integer value representing the index of the partition, so func must be of type (Int, Iterator) => Iterator when running on an RDD of type T.

与上述的mapParitions神似，不过每次调用call函数的时候会传入一个当前parition的下标进来。

操作示例：

// 可以看到使用了哪一个parition,采用分区的话:parallelize优先级最高，其次conf.set,最后时local[];
    private static void MapPartitionsWithIndexOperator(JavaSparkContext sc) {
        List names = Arrays.asList("zhangsan", "lisi", "wangwu");

        JavaRDD nameRDD = sc.parallelize(names, 2);//这里加载的数据设置成2个partition。

        JavaRDD results = nameRDD
                .mapPartitionsWithIndex(new Function2, Iterator>() {

                    private static final long serialVersionUID = 1L;
                    //这里会有一个Integer的index，可以通过这个来查看当前操作属于哪一个parition。
                    @Override
                    public Iterator call(Integer index, Iterator names) throws Exception {
                        List nameList = new ArrayList<>();

                        while (names.hasNext()) {
                            String name = names.next();
                            name = index + ":" + name;
                            nameList.add(name);
                        }

                        return nameList.iterator();
                    }
                }, true);

        results.foreach(new VoidFunction() {

            private static final long serialVersionUID = 1L;

            @Override
            public void call(String name) throws Exception {
                System.out.println(name);
            }
        });

    }

4.filter(func)。

官方介绍：

Return a new dataset formed by selecting those elements of the source on which func returns true.

也就是通过函数筛选出所需要的数据元素，返回true也代表保留，false代表抛弃。

操作示例：

// 过滤出一部分数据
    private static void FilterOperator(JavaSparkContext sc) {
        List scores = Arrays.asList(43, 60, 59, 70, 81);
        JavaRDD scoresRDD = sc.parallelize(scores);

        //筛选出分数小于60的。
        JavaRDD results = scoresRDD.filter(new Function() {

            private static final long serialVersionUID = 1L;

            @Override
            public Boolean call(Integer score) throws Exception {

                return score < 60;
            }
        });

        results.foreach(new VoidFunction() {

            private static final long serialVersionUID = 1L;

            @Override
            public void call(Integer score) throws Exception {
                System.out.println(score);
            }
        });

    }

5.coalesce(numPartitions)。

官方介绍：

Decrease the number of partitions in the RDD to numPartitions. Useful for running operations more efficiently after filtering down a large dataset.

将RDD中的partition进行减少，尤其是在上述的filter之后使用效果更好，因为filter会可能会过滤掉大量的数据从而导致一个partition中的数据量很少，这时候使用coalesce算子可以尽量的合并partition，一定程度少减少数据倾斜的问题。

操作示例：

// 将partition的数量减少
    private static void CoalesceOperator(JavaSparkContext sc) {
        List<String> students = Arrays.asList("stu1", "stu2", "stu3", "stu4", "stu5", "stu6");
        JavaRDD<String> cls = sc.parallelize(students, 4);// 设置为四个partition

        JavaRDD<String> temp = cls.mapPartitionsWithIndex(new Function2<Integer, Iterator<String>, Iterator<String>>() {

            private static final long serialVersionUID = 1L;

            @Override
            public Iterator<String> call(Integer index, Iterator<String> cls) throws Exception {
                List<String> list = new ArrayList<>();

                while (cls.hasNext()) {
                    String stu = cls.next();
                    stu = "1[" + index + "]" + stu;
                    list.add(stu);
                }

                return list.iterator();
            }
        }, true);

        JavaRDD<String> temp2 = temp.coalesce(2);//将四个partition减少到两个

        JavaRDD<String> result = temp2
                .mapPartitionsWithIndex(new Function2<Integer, Iterator<String>, Iterator<String>>() {

                    private static final long serialVersionUID = 1L;

                    @Override
                    public Iterator<String> call(Integer index, Iterator<String> cls) throws Exception {
                        List<String> list = new ArrayList<>();
                        while (cls.hasNext()) {
                            String stu = cls.next();
                            stu = "2[" + index + "]," + stu;
                            list.add(stu);
                        }
                        return list.iterator();
                    }
                }, true);

        result.foreach(new VoidFunction<String>() {

            private static final long serialVersionUID = 1L;

            @Override
            public void call(String stu) throws Exception {
                System.out.println(stu);
            }
        });
    }

上述的代码会将第一次运行时数据所在的partition的下标进行保存，然后将parition减少，再次运行将第二次的partition下标进行保存，方便对比查看。

6.repartition(numPartitions)。

官方介绍：

Reshuffle the data in the RDD randomly to create either more or fewer partitions and balance it across them. This always shuffles all data over the network.

用来增加parition，并且会将其中的数据进行平衡操作，使用shuffle操作。

操作示例：

// 增加Partition，使用shuffle操作
    private static void RepartitionOperator(JavaSparkContext sc) {
        List<String> students = Arrays.asList("stu1", "stu2", "stu3", "stu4", "stu5", "stu6");
        JavaRDD<String> cls = sc.parallelize(students, 2);// 设置为两个partition

        JavaRDD<String> temp = cls.mapPartitionsWithIndex(new Function2<Integer, Iterator<String>, Iterator<String>>() {

            private static final long serialVersionUID = 1L;

            @Override
            public Iterator<String> call(Integer index, Iterator<String> cls) throws Exception {
                List<String> list = new ArrayList<>();

                while (cls.hasNext()) {
                    String stu = cls.next();
                    stu = "1[" + index + "]" + stu;
                    list.add(stu);
                }

                return list.iterator();
            }
        }, true);

        JavaRDD<String> temp2 = temp.repartition(3);//增加到三个

        JavaRDD<String> result = temp2
                .mapPartitionsWithIndex(new Function2<Integer, Iterator<String>, Iterator<String>>() {

                    private static final long serialVersionUID = 1L;

                    @Override
                    public Iterator<String> call(Integer index, Iterator<String> cls) throws Exception {
                        List<String> list = new ArrayList<>();
                        while (cls.hasNext()) {
                            String stu = cls.next();
                            stu = "2[" + index + "]," + stu;
                            list.add(stu);
                        }
                        return list.iterator();
                    }
                }, true);

        result.foreach(new VoidFunction<String>() {

            private static final long serialVersionUID = 1L;

            @Override
            public void call(String stu) throws Exception {
                System.out.println(stu);
            }
        });

    }

与上述的一样，将两次运行的partition的下标进行保存，方便对比。

7 . flatMap(func)。

官方介绍：

Similar to map, but each input item can be mapped to 0 or more output items (so func should return a Seq rather than a single item).

与最开始介绍的map类似，不过map每次操作一个数据并且返回一个数据，但时flatMap可能会返回多个数据。

操作示例：

// 每次對傳進來的一行數據進行單詞的切割
    private static void FlatMapOperator(JavaSparkContext sc) {
        List words = Arrays.asList("hello ha","nihao haha","hello hao");
        JavaRDD wordRDD = sc.parallelize(words);

        JavaRDD result = wordRDD.flatMap(new FlatMapFunction() {

            @Override
            public Iterator call(String line) throws Exception {

                //按照空格将每次传进来的数据进行分割并返回。     
                return Arrays.asList(line.split(" ")).iterator();
            }
        });

        result.foreach(new VoidFunction() {

            @Override
            public void call(String word) throws Exception {
                System.out.println(word);
            }
        });

    }

8 . collect()。

官方介绍：

Return all the elements of the dataset as an array at the driver program. This is usually useful after a filter or other operation that returns a sufficiently small subset of the data.

将集群中的其他节点（如果有的话）的数据pull到driver所在的机器上，如果数据量过大的话可能会造成内存溢出的现象，所以官方的建议就是返回的数据量小的话会很有用。

操作示例：

//foreach在从节点进行的遍历，collect会从集群中把数据pull到driver所在的机器上
    private static void CollectOperator(JavaSparkContext sc) {
        List<Integer> numberList = Arrays.asList(1,2,3,4,5);
        JavaRDD<Integer> numberRDD = sc.parallelize(numberList);

        JavaRDD<Integer> temp = numberRDD.map(new Function<Integer, Integer>() {

            @Override
            public Integer call(Integer arg0) throws Exception {

                return arg0 * 2;
            }
        });

        List<Integer> result = temp.collect();

        for (Integer num : result) {
            System.out.println(num);
        }


    }

9 . count()。

官方介绍：

Return the number of elements in the dataset.

比较简单了，就是统计一下RDD中存在多少数据量。

操作示例：

    // 统计一下RDD里面有多少数据
    private static void CountOperator(JavaSparkContext sc) {
        List stu = Arrays.asList("stu1","stu2","stu3","stu4","stu5");
        JavaRDD stuRDD = sc.parallelize(stu);

        long count = stuRDD.count();

        System.out.println(count);

    }

10 . groupByKey([numTasks])。

官方介绍：

When called on a dataset of (K, V) pairs, returns a dataset of (K, Iterable) pairs.
Note: If you are grouping in order to perform an aggregation (such as a sum or average) over each key, using reduceByKey or aggregateByKey will yield much better performance.
Note: By default, the level of parallelism in the output depends on the number of partitions of the parent RDD. You can pass an optional numTasks argument to set a different number of tasks.

作用就是将RDD中根据Key进行分组操作，所有Key对应的是一个Iterable。第一个Note介绍的就是说reduceByKey或者aggregateByKey的性能要比这个groupByKey 的性能好：

如果能用reduceByKey，那就用reduceByKey，因为它会在map端，先进行本地combine，可以大大减少要传输到reduce端的数据量，减小网络传输的开销。只有在reduceByKey处理不了时，才用groupByKey().map()来替代。因为reduceBykey聚合后传输的数据量就变少了,而groupBykey没聚合会传递到taskResult上面数据量比较大。

更好的解释可以看一下这个博客：http://blog.csdn.net/zongzhiyuan/article/details/49965021

第二个Note说的是并行度的问题（通俗的就是task），注意到groupByKey可以跟着一个参数，这个参数可以决定下面的操作时候的并行度，如果没有设置的话，就默认为父RDD的并行度，如果设置了话就按照参数的来进行分配，并且下面的task也会变成该参数对应的并行度。

操作示例：

// 按照key进行分组
    private static void GroupByKeyOperator(JavaSparkContext sc) {
        List<Tuple2<String, Integer>> scoreList = Arrays.asList(
                new Tuple2<String, Integer>("zhangsan", 100),
                new Tuple2<String,Integer>("zhangsan", 50),
                new Tuple2<String,Integer>("lisi", 99),
                new Tuple2<String,Integer>("wangwu", 120),
                new Tuple2<String,Integer>("wangwu", 30));

        JavaPairRDD<String, Integer> scoreRDD = sc.parallelizePairs(scoreList,2);//设置为两个partition

        JavaPairRDD<String, Iterable<Integer>> result = scoreRDD.groupByKey(3);

        //此时的并行度依然为3，如果不传入参数的话就使用的是父RDD也就是scoreRDD的并行度，也就是2
        result.foreach(new VoidFunction<Tuple2<String,Iterable<Integer>>>() {

            private static final long serialVersionUID = 1L;

            @Override
            public void call(Tuple2<String, Iterable<Integer>> score) throws Exception {
                System.out.println(score._1 + " " + score._2);
            }
        });

    }

11 . reduce(func)。

官方介绍

Aggregate the elements of the dataset using a function func (which takes two arguments and returns one). The function should be commutative and associative so that it can be computed correctly in parallel.

每次传入两个参数通过函数func得到一个返回值，然后使用该值继续与后面的数进行调用func，直到所有的数据计算完成，最后返回一个计算结果。

操作示例：

    // 传入两个个参数并返回一个结果
    private static void ReduceOperator(JavaSparkContext sc) {
        List numbers = Arrays.asList(1,2,3,4,5,6);

        JavaRDD numberRDD = sc.parallelize(numbers);

        int sum = numberRDD.reduce(new Function2() {

            private static final long serialVersionUID = 1L;

            @Override
            public Integer call(Integer num1, Integer num2) throws Exception {

                return num1 + num2;
            }
        });

        System.out.println(sum);

    }

12 . reduceByKey(func, [numTasks])。

官方介绍：

When called on a dataset of (K, V) pairs, returns a dataset of (K, V) pairs where the values for each key are aggregated using the given reduce function func, which must be of type (V,V) => V. Like in groupByKey, the number of reduce tasks is configurable through an optional second argument.

简单的说就是groupByKey + reduce。先按照Key进行分组，然后将每组的Key进行reduce操作，得到一个Key对应一个Value的RDD。第二个参数就是指定使用多少task来执行reduce操作。

操作示例：

//reduceByKey = groupByKey + reduce 
    private static void ReduceByKeyOperator(JavaSparkContext sc) {
        List<Tuple2<String, Integer>> scoreList = Arrays.asList(
                new Tuple2<String, Integer>("zhangsan", 100),
                new Tuple2<String,Integer>("zhangsan", 50),
                new Tuple2<String,Integer>("lisi", 99),
                new Tuple2<String,Integer>("wangwu", 120),
                new Tuple2<String,Integer>("wangwu", 30));

        JavaPairRDD<String, Integer> scoreRDD = sc.parallelizePairs(scoreList);

        scoreRDD.reduceByKey(new Function2<Integer, Integer, Integer>() {

            private static final long serialVersionUID = 1L;

            @Override
            public Integer call(Integer score1, Integer score2) throws Exception {
                return score1 + score2;
            }
        },2).foreach(new VoidFunction<Tuple2<String,Integer>>() {


            private static final long serialVersionUID = 1L;

            @Override
            public void call(Tuple2<String, Integer> score) throws Exception {
                System.out.println("name:" + score._1 + " score:" + score._2);
            }
        });

    }

13 . sample(withReplacement, fraction, seed)。

官方介绍：

Sample a fraction fraction of the data, with or without replacement, using a given random number generator seed.

对RDD中的数据进行随机取样操作，sample第一个参数代表产生的样本数据是否可以重复，第二个参数代表取样的比例，第三个数值代表一个随机数种子，如果传入一个常数，那么每次取样结果会一样。

操作示例：

// 随机从RDD中取样
    private static void SampleOperator(JavaSparkContext sc) {
        List stu = Arrays.asList("stu1","stu2","stu3","stu4","stu5","stu6");
        JavaRDD stuRDD = sc.parallelize(stu);

        // 第一个参数决定取样结果是否可重复,第二个参数决定取多少比例的数据,第三个是自定义的随机数种子，如果传入一个常数则每次产生的值一样
        stuRDD.sample(false, 0.5).foreach(new VoidFunction() {


            private static final long serialVersionUID = 1L;

            @Override
            public void call(String arg0) throws Exception {
                System.out.println(arg0);
            }
        });

    }

14 . take(n)。

官方介绍：

Return an array with the first n elements of the dataset.

这个比较简单，就是将RDD中的前多少数据返回过来，返回结果为数组形式。

操作示例：

    // 取出RDD中的前多少数据
    private static void TakeOperator(JavaSparkContext sc) {
        List<Integer> numbers = Arrays.asList(1,2,3,4,5);

        JavaRDD<Integer> numberRDD = sc.parallelize(numbers);

        List<Integer> nums = numberRDD.take(3);

        for (Integer num : nums) {
            System.out.println(num);
        }

    }

15 . takeSample(withReplacement, num, [seed])。

官方介绍：

Return an array with a random sample of num elements of the dataset, with or without replacement, optionally pre-specifying a random number generator seed.

相当于是先进行sample然后进行take操作。

操作示例：

    //先 sample，再take
    private static void TakeSampleOperator(JavaSparkContext sc) {
        List<Integer> numbers = Arrays.asList(1,2,3,4,5);

        JavaRDD<Integer> numberRDD = sc.parallelize(numbers);

        List<Integer> nums = numberRDD.takeSample(false, 2);

        for (Integer num : nums) {
            System.out.println(num);
        }

    }

16 . union(otherDataset)。

官方介绍：

Return a new dataset that contains the union of the elements in the source dataset and the argument.

返回两个RDD中的并集（但并不会去重），并且parition也会合并，也就是并行度会发生改变。

操作示例：

    // Union，将两个RDD组合起来返回一个新的RDD,partition也合并
    private static void UnionOperator(JavaSparkContext sc) {
        List names1 = Arrays.asList("stu1","stu2","stu3");
        List names2 = Arrays.asList("stu1","stu5","stu6");

        JavaRDD nameRDD1 = sc.parallelize(names1,2);//两个parition
        JavaRDD nameRDD2 = sc.parallelize(names2);//一个partition

        nameRDD1.union(nameRDD2).foreach(new VoidFunction() {//此时由三个parition，也就有三个task

            private static final long serialVersionUID = 1L;

            @Override
            public void call(String name) throws Exception {
                System.out.println(name);
            }
        });

    }

17 . distinct([numTasks]))。

官方介绍：

Return a new dataset that contains the distinct elements of the source dataset.

简单的去重操作。

操作示例：

    // 去重
    private static void DistinctOperator(JavaSparkContext sc) {
        List stu = Arrays.asList("wangwu","lisi","zhaoliu","lisi");

        JavaRDD stuRDD = sc.parallelize(stu);

        stuRDD.distinct().foreach(new VoidFunction() {


            private static final long serialVersionUID = 1L;

            @Override
            public void call(String stu) throws Exception {
                System.out.println(stu);
            }
        });

    }

18 . sortByKey([ascending], [numTasks])。

官方介绍：

When called on a dataset of (K, V) pairs where K implements Ordered, returns a dataset of (K, V) pairs sorted by keys in ascending or descending order, as specified in the boolean ascending argument.

根据Key进行排序操作，如果第一个参数为true，则结果为升序，反之为降序。第二个参数就是决定执行的task数目。

操作示例：

//根据key排序
    private static void SortByKeyOperator(JavaSparkContext sc) {
        List<Tuple2<Integer, String>> stus = Arrays.asList(
                new Tuple2<Integer, String>(10, "lisi"),
                new Tuple2<Integer, String>(20, "wangwu"),
                new Tuple2<Integer, String>(10, "zhaoliu"),
                new Tuple2<Integer, String>(30, "zhangsan"));

        JavaPairRDD<Integer, String> stusRDD = sc.parallelizePairs(stus);

        stusRDD.sortByKey(true,2).foreach(new VoidFunction<Tuple2<Integer,String>>() {


            private static final long serialVersionUID = 1L;

            @Override
            public void call(Tuple2<Integer, String> stu) throws Exception {
                System.out.println("name:" + stu._2 + ",score:" + stu._1);
            }
        });

    }

19 . saveAsTextFile(path)。

官方介绍：

Write the elements of the dataset as a text file (or set of text files) in a given directory in the local filesystem, HDFS or any other Hadoop-supported file system. Spark will call toString on each element to convert it to a line of text in the file.

将RDD保存在文件系统上，Spark会调用元素的toString方法作为一行数据。

操作示例：

    //将RDD中的数据进行保存
    private static void SaveAsTextFileOperator(JavaSparkContext sc) {
        List numbers = Arrays.asList(1,2,3,4,5);

        JavaRDD numberRDD = sc.parallelize(numbers);

        JavaRDD result = numberRDD.map(new Function() {


            private static final long serialVersionUID = 1L;

            @Override
            public Integer call(Integer number) throws Exception {

                return number * 2;
            }
        });

        //result.saveAsTextFile("./SaveAsTextFileOperator");//保存在当前目录下
        result.saveAsTextFile("hdfs://xxx.xx.xx.xx:xxxx/testSaveAsTextFile");//保存在HDFS上

    }

会生成一个testSaveAsTextFile文件夹，如果文件夹存在则抛出异常。

20 . intersection(otherDataset)。

官方介绍：

Return a new RDD that contains the intersection of elements in the source dataset and the argument.

作用就是将两个RDD求交集，当然也进行了去重操作。

操作示例：

// 求交集并去重
    private static void IntersectionOperator(JavaSparkContext sc) {
        List<String> stus1 = Arrays.asList("stu1","stu2","stu2");
        List<String> stus2 = Arrays.asList("stu2","stu3","stu3");

        JavaRDD<String> stuRDD1 = sc.parallelize(stus1);
        JavaRDD<String> stuRDD2 = sc.parallelize(stus2);

        stuRDD1.intersection(stuRDD2).foreach(new VoidFunction<String>() {

            @Override
            public void call(String stu) throws Exception {
                System.out.println(stu);
            }
        });

    }

21 . cartesian(otherDataset)。

官方介绍：

When called on datasets of types T and U, returns a dataset of (T, U) pairs (all pairs of elements).

相当于进行了一次笛卡尔积的计算，将两个RDD中的数据一一对应起来。

操作示例：

    // 笛卡尔积
    private static void CartesianOperator(JavaSparkContext sc) {
        List<String> hero = Arrays.asList("张飞","貂蝉","吕布");
        List<String> skill = Arrays.asList("闪现","斩杀","眩晕");

        JavaRDD<String> heroRDD = sc.parallelize(hero);
        JavaRDD<String> skillRDD = sc.parallelize(skill);

        heroRDD.cartesian(skillRDD).foreach(new VoidFunction<Tuple2<String,String>>() {

            @Override
            public void call(Tuple2<String, String> arg0) throws Exception {
                System.out.println(arg0);
            }
        });

    }

22 . countByKey()。

官方介绍：

Only available on RDDs of type (K, V). Returns a hashmap of (K, Int) pairs with the count of each key.

只能用在(K,V)类型，用来统计每个key的数据有多少个，返回一个(K,Int)。

操作示例：

// 根据Key进行统计
    private static void CountByKeyOperator(JavaSparkContext sc) {
        List<Tuple2<String, String>> stus = Arrays.asList(
                new Tuple2<String, String>("class1", "stu1"),
                new Tuple2<String, String>("class1", "stu2"),
                new Tuple2<String, String>("class2", "stu3"),
                new Tuple2<String, String>("class1", "stu4"));

        JavaPairRDD<String, String> stuRDD = sc.parallelizePairs(stus);

        Map<String, Long> result = stuRDD.countByKey();

        for (Map.Entry<String, Long> map : result.entrySet()) {
            System.out.println(map.getKey() + " " +  map.getValue());
        }

    }

23 . first()。

官方介绍：

Return the first element of the dataset (similar to take(1)).

取出第一个，跟take(1)相似。

操作示例：

    // 取出第一个元素
    private static void FirstOperator(JavaSparkContext sc) {
        List stus = Arrays.asList("stu1","stu2","stu3");

        JavaRDD stuRDD = sc.parallelize(stus);

        String firstStu = stuRDD.first();

        System.out.println(firstStu);

    }

24 . cogroup(otherDataset, [numTasks])。

官方介绍：

When called on datasets of type (K, V) and (K, W), returns a dataset of (K, (Iterable, Iterable)) tuples. This operation is also called groupWith.

将两个RDD按照Key进行汇总，第一个RDD中的Key对应的数据放在一个Iterable中，第二个RDD中同样的Key对应的数据放在一个Iterable中，最后得到一个Key，对应两个Iterable的数据。第二个参数就是指定task数量。

操作示例：

// 按照Key进行分类汇总
    private static void CogroupOperator(JavaSparkContext sc) {
        List<Tuple2<String, String>> stus = Arrays.asList(
                new Tuple2<String, String>("stu1", "zhangsan"),
                new Tuple2<String, String>("stu2", "lisi"),
                new Tuple2<String, String>("stu3", "lisi"),
                new Tuple2<String, String>("stu2", "wangwu"),
                new Tuple2<String, String>("stu2", "lisi"));

        List<Tuple2<String, String>> scores = Arrays.asList(
                new Tuple2<String, String>("stu1", "90"),
                new Tuple2<String, String>("stu1", "100"),
                new Tuple2<String, String>("stu2", "80"),
                new Tuple2<String, String>("stu3", "120"));

        JavaPairRDD<String, String> stuRDD = sc.parallelizePairs(stus);
        JavaPairRDD<String, String> scoreRDD = sc.parallelizePairs(scores);

        JavaPairRDD<String, Tuple2<Iterable<String>, Iterable<String>>> result = stuRDD.cogroup(scoreRDD);

        result.foreach(new VoidFunction<Tuple2<String,Tuple2<Iterable<String>,Iterable<String>>>>() {

            private static final long serialVersionUID = 1L;

            @Override
            public void call(Tuple2<String, Tuple2<Iterable<String>, Iterable<String>>> result) throws Exception {
                System.out.println(result._1);//第一个Tuple2的Key
                System.out.println(result._2._1);//第一个Tuple2的Vale
                System.out.println(result._2._2);//第二个Tuple2的Value
                System.out.println();
            }
        });

    }

输出结果：

stu3
[lisi]
[120]

stu2
[lisi, wangwu, lisi]
[80]

stu1
[zhangsan]
[90, 100]

25 . join(otherDataset, [numTasks])。

官方简介：

When called on datasets of type (K, V) and (K, W), returns a dataset of (K, (V, W)) pairs with all pairs of elements for each key. Outer joins are supported through leftOuterJoin, rightOuterJoin, and fullOuterJoin.

同样的也是按照Key将两个RDD中进行汇总操作，不过会对每个Key所对应的两个RDD中的数据进行笛卡尔积计算。

操作示例：

//按照Key进行分类汇总，并且做笛卡尔积
    private static void JoinOperator(JavaSparkContext sc) {
        List<Tuple2<String, String>> stus = Arrays.asList(
                new Tuple2<String, String>("stu1", "zhangsan"),
                new Tuple2<String, String>("stu2", "lisi"),
                new Tuple2<String, String>("stu3", "lisi"),
                new Tuple2<String, String>("stu2", "wangwu"),
                new Tuple2<String, String>("stu2", "lisi"));

        List<Tuple2<String, String>> scores = Arrays.asList(
                new Tuple2<String, String>("stu1", "90"),
                new Tuple2<String, String>("stu1", "100"),
                new Tuple2<String, String>("stu2", "80"),
                new Tuple2<String, String>("stu3", "120"));

        JavaPairRDD<String, String> stuRDD = sc.parallelizePairs(stus);
        JavaPairRDD<String, String> scoreRDD = sc.parallelizePairs(scores);

        JavaPairRDD<String, Tuple2<String, String>> result = stuRDD.join(scoreRDD);

        result.foreach(new VoidFunction<Tuple2<String,Tuple2<String,String>>>() {


            private static final long serialVersionUID = 1L;

            @Override
            public void call(Tuple2<String, Tuple2<String, String>> result) throws Exception {
                System.out.println(result._1);
                System.out.println(result._2._1);
                System.out.println(result._2._2);
                System.out.println();
            }
        });

    }

输出结果：

stu3
lisi
120
=================
stu2
lisi
80
=================
stu2
wangwu
80
=================
stu2
lisi
80
=================
stu1
zhangsan
90
=================
stu1
zhangsan
100
=================

你可能感兴趣的:(大数据)

践行乡村支教，助力乡村振兴 bc1bd9748b57
在大数据时代，大量农村青年进城寻求机遇，在工资待遇环境各个方面追求改善，导致大批留守儿童与孤寡老人，教育环境差，师资力量薄弱，这些孩子的教育问题受到大众关注。同时，大学毕业生在求职时也更加倾向于留在大城市，发展较快的地方寻求更大的发展机遇。当然也不乏大学生回乡为新一代的成长奉献自己，通过支教或者直接就业的形式，为乡村孩子的成长奉献自己的力量。有一些有才华的人放弃自己在大城市继续深造的机会，专心于这
时序数据库：数据库领域的未来之星数据库管理艺术数据库专家之路大数据AI人工智能 MCP&Agent SQL实战数据库时序数据库 ai
时序数据库：数据库领域的未来之星关键词：时序数据库、时间序列数据、物联网、大数据分析、数据库优化、TSDB、实时数据处理摘要：本文深入探讨了时序数据库(TimeSeriesDatabase,TSDB)这一新兴数据库技术。我们将从基本概念入手，分析时序数据库的核心原理和架构设计，详细讲解其特有的数据模型和存储机制。通过实际代码示例展示如何使用主流时序数据库处理时间序列数据，并探讨其在物联网、金融科技
MySQL 大数据量分页查询优化实战：从 90秒到 965毫秒的性能飞跃要阿尔卑斯吗. mysql 数据库分布式架构 java
在日常开发中，我们经常需要对数据库中的数据进行分页展示。特别是当表数据量达到几十万甚至上百万级时，传统的LIMIT分页方式会面临严重的性能瓶颈。今天，我将分享一个真实的性能优化案例，通过模拟大页码查询的现场，从90秒缩短到965毫秒，显著提升了查询效率。本篇文章将从问题出现的原因、索引原理、优化思路和最终实战效果等方面，为你全面讲解如何高效处理MySQL大数据分页查询问题。一、问题背景：大页码分页
老码农和你一起学AI：Python系列-Pandas大数据处理 chilavert318 熬之滴水穿石 pandas python
今天开始梳理一下pandas的大数据处理，在数据处理领域，Pandas凭借简洁的API和强大的功能成为Python开发者的首选工具。但当面对GB级甚至更大的数据集时，直接读取数据往往会触发“内存不足”的错误——这是因为Pandas默认将数据全部加载到内存中进行处理。此时，分块处理（Out-of-Core）技术就成为解决问题的关键。它通过将大文件拆分为小块，逐块加载并处理，最终整合结果，实现“用有限
关于线上技术学习的一点学习心得 GuangHui
我是**五期学员,和你分享一下我的学习心得,希望能够帮助到你.这是自己对于学习的思考和想法,因为我还在不断的学习和调整中,所以并不能说自己的所想都是正确的.我想即使我实现了成功的转行,也并不代表我说的我所选择的方式都是适合所有人的.每个人还需结合自己的实际情况,找到适合自己的最佳方法.我们一起努力.一.目标篇因为大数据需要学习的内容很多,所以学习过程中,一定要对进行定位,要做到有所取舍.针对自己的
贝融助手是什么？贝融助手是专业的大数据信用查询平台无忧达人
贝融助手是一个可以快速了解自己信用的工具，是一个生活中非常实用的小助手，信用是现在最重要的一个生活场景，人人都想有一个好的信用，贝融助手就是帮助我们查询自己信用的平台。贝融助手是一个非常专业的平台，贝融助手18年就上线了，到现在已经有很多年的历史了，在信用行业一直都是行业前三的平台，用户量也是非常的大，身边朋友都在用的平台。贝融助手查询入口放在文末了，划到文章结尾就可以看到查询入口贝融助手大数据信
从AWS MySQL数据库下载备份到S3的完整解决方案 AWS官方合作商数据库 aws mysql
本文将介绍两种主流方法将AWSRDSMySQL数据库备份下载到S3，适用于生产环境需求。方法一：通过RDS快照导出（AWS原生方案）适用场景：全量备份、大数据量、无需额外计算资源流程：创建数据库快照进入AWSRDS控制台→选择目标MySQL实例→点击"操作"→"拍摄快照"输入快照名称（如my-db-snapshot-2024）配置S3导出任务在RDS控制台左侧菜单选择快照→选择刚创建的快照点击"操
java毕业设计-基于Javaweb的家常小菜烹饪学习管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿刘 vue spring boot 毕业设计 java 课程设计学习
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费开题报告、任务书、全bao定制+
java毕业设计源码案例-基于ssm+协同过滤的个性化小说推荐系统设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 项目帮 springboot java 计算机毕设 java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
碳中和碳交易骗局揭晓！第七届内部操盘群伍戈被骗黑幕曝光!血泪事迹令人惊心! 昌龙律法
如今大家生活好了，手里或多或少有点闲钱了。就开始想着怎么赚更多的钱！这也使得各种投资市场很火爆，无孔不入的骗子们又暗戳戳上线了，利用人们对赚钱的渴望，打着网络投资的旗号实施诈骗。随着“互联网+”的发展，万物皆可“数字经济”的“数字大数据”投资项目走入现实生活中。但是有不法分子就利用了这一“商机”，将数字投资变为新型找形式，并且利用洗脑话术，核心骗术仍然是高额返利，让人不知不觉掉进提前布局的“陷阱”
计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥数据可视化计算机毕设 spark 大数据课程设计 spark
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
智慧水库信息化系统建设产品需求文档V2.0 小赖同学啊 test Technology Precious 物联网
智慧水库信息化系统建设产品需求文档1.引言1.1文档目的本文档旨在明确智慧水库信息化系统的建设需求，为系统设计、开发和实施提供全面依据，确保系统功能满足水库管理业务需求，提升水库管理的智能化水平和决策效率。1.2背景介绍传统水库管理面临数据采集不及时、分析手段有限、决策依赖经验等问题，难以应对复杂多变的水文情势和日益增长的管理需求。随着物联网、大数据、人工智能等技术的发展，智慧水库建设成为必然趋势
9.20其二道左无人
做一家服务公司，为下面的公司提供一些事务性的管理、财务管理、风险管理的服务，粘住一个大圈子的HR，通过下面的公司做掉项目，为HR提供一个稳定的资源变现的渠道；做一家科技公司，提供线上的平台运营，大数据采集，以及基于这个基础上的卖货、信贷等服务做一家连锁企业，每一家门店都是独立的企业，提供招聘、引流以及终端服务所以外部通过众筹绑定大批量的HR，就会有稳定的订单，通过服务公司提供服务，通过终端门店保证
只靠可视化大屏，做不了数字化，数据总监总结3点，你做到了几个大数据的那些事
企业数字化是很多企业热衷的话题。本文的数字化指各行业头的头部企业的端到端数字化解决方案，常见部署于华为专有云、阿里私有云、亚马逊云，项目金额一般百万起步，上不封顶。很多企业投人、投钱数字化，都希望有个酷炫的数据大脑，政府、合作伙伴来参观时，用酷炫的数据大脑让来宾们啧啧称赞。热闹散去后，企业内部的各部门，天天围着数据挖宝，大数据快告诉我，下个月能卖多少，哪几个渠道卖得不好，哪条生产线有问题，哪些货压
你多久没有认真读一本书了我是巴卡
我九岁博览群书，二十岁达到顶峰。我现在都是看社会人文类的书，例如《知音》《故事会》……往前推三百年，往后推三百年，总共六百年没有人超过我。——凤姐引用凤姐的话，没有嘲讽的意思。现在的人，包括我自己，除了刷手机，恐怕连杂志都很少读了，更别说认真读一本书了。1、大数据下，人越读越窄，越读越傻前段时间，埃航波音737MAX8出事，就在网上跟着读了几篇报道。随后的一段时间，基本打开APP都是关于波音和73
注意力才是我们最值钱的东西心守平凡_王慧超
4月10日晚，罗永浩携手国民神车哈弗品牌完成了第二场带货直播。此次直播共售出11357张2777元的优惠券，预估销售额15.65亿元，创造了汽车直播带货的新纪录。流量时代真的已经来临了，随着互联网的高速发展，越来越多的网络用户增加，我们不得不承认，我们已经进入了一个网络时代，进入了一个流量大数据时代。我们所有想获得的东西都可以通过网络获取，资料、信息、购物，网络正在改变人们的生活方式，正在成为人们
六、深度剖析 Hadoop 分布式文件系统（HDFS）的数据存储机制与读写流程
深度剖析Hadoop分布式文件系统（HDFS）的数据存储机制与读写流程在当今大数据领域当中，Hadoop分布式文件系统（HDFS）作为极为关键的核心组件之一，为海量规模的数据的存储以及处理构筑起了坚实无比的根基。本文将会对HDFS的数据存储机制以及读写流程展开全面且深入的探究，通过将原理与实际的实例紧密结合的方式，助力广大读者更加全面地理解HDFS的工作原理以及其具体的应用场景。一、HDFS概述H
养老院管理系统基于SpringBoot的养老院管理系统系统设计与实现（源码+论文+部署讲解等）
博主介绍：✌全网粉丝60W+,csdn特邀作者、Java领域优质创作者、csdn/掘金/哔哩哔哩/知乎/道客/小红书等平台优质作者，计算机毕设实战导师，目前专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌技术栈范围：SpringBoot、Vue、SSM、Jsp、HLMT、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习、单片机
大数据处理技术：分布式文件系统HDFS 茜茜西西CeCe hdfs hadoop 大数据 HDFS-JAVA接口文件头歌 Java
目录1实验名称：2实验目的3实验内容4实验原理5实验过程或源代码5.1HDFS的基本操作5.2HDFS-JAVA接口之读取文件5.3HDFS-JAVA接口之上传文件5.4HDFS-JAVA接口之删除文件6实验结果6.1HDFS的基本操作6.2HDFS-JAVA接口之读取文件6.3HDFS-JAVA接口之上传文件6.4HDFS-JAVA接口之删除文件1实验名称：分布式文件系统HDFS2实验目的1.理
基于用户画像的商品推荐系统 Dush32 机器学习人工智能 python 推荐算法
随着人工智能和大数据技术的进步，产品推荐系统成为了现代广告与电商平台中不可或缺的部分。通过深度挖掘用户的行为数据，能够为广告主提供精准的用户画像，从而更高效地推荐相关产品，提升购买转化率。本项目基于科大讯飞AI营销云大赛的赛题，目的是利用用户画像进行产品推荐，预测用户是否会购买相应商品。我们使用了机器学习的二分类模型，通过分析用户的性别、年龄、常驻地、机型等信息，来判断用户的付费行为。项目目标：本
InfluxDB 数据模型：桶、测量、标签与字段详解（一）计算机毕设定制辅导-无忧 #InfluxDB db
一、引言**在大数据和物联网蓬勃发展的当下，时间序列数据的处理需求呈爆发式增长。InfluxDB作为一款高性能的开源时序数据库，凭借其卓越的特性，在时序数据库领域占据了重要地位，被广泛应用于各种场景。InfluxDB专为时间序列数据设计，拥有高效的存储和查询性能。它采用独特的存储引擎，能够快速写入大量带有时间戳的数据，并支持灵活的查询操作。其核心设计针对时间序列数据的特点进行了优化，包括时间索引、
Kafka 集群架构与高可用方案设计（一）计算机毕设定制辅导-无忧 #Kafka kafka 架构分布式
Kafka集群架构与高可用方案设计的重要性在大数据和分布式系统的广阔领域中，Kafka已然成为了一个中流砥柱般的存在。它最初由LinkedIn开发，后捐赠给Apache软件基金会并成为顶级项目，凭借其卓越的高吞吐量、可扩展性以及持久性，被广泛应用于日志收集、实时数据处理、流计算、数据集成等诸多关键领域。在日志收集场景下，以大型互联网公司为例，每天都会产生海量的日志数据，如用户的访问记录、系统操作日
大数据集成方案对比：Kafka vs Flume vs Sqoop AI天才研究院计算 AI大模型应用入门实战与进阶 Agentic AI 实战大数据 kafka flume ai
大数据集成方案对比：KafkavsFlumevsSqoop关键词：大数据集成、Kafka、Flume、Sqoop、流处理、批量迁移、日志收集摘要：在大数据生态中，数据集成是连接数据源与数据处理平台的关键环节。本文深度对比Kafka、Flume、Sqoop三大主流集成工具，从核心架构、技术原理、适用场景到实战案例展开系统性分析。通过数学模型量化性能差异，结合实际项目经验总结选型策略，帮助开发者根据业
飞算科技：以创新科技引领数字化变革，旗下飞算 JavaAI 成开发利器飞算JavaAI开发助手科技
作为国家级高新技术企业，飞算科技专注于自主创新，在数字科技领域持续深耕，用前沿技术为各行业客户赋能，助力其实现数字化转型升级的飞跃。飞算科技凭借深厚的技术积累，将互联网科技、大数据、人工智能等技术与实际应用紧密融合。公司组建了一支由行业资深专家和技术精英构成的团队，他们在相关领域积累了多年实践经验，深刻理解不同行业客户在数字化进程中面临的痛点与挑战。基于这些洞察，飞算科技推出了一系列具有创新性和实
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用青云交大数据新视界 Java 大视界 java 大数据机器学习情绪分析智能投资多源数据
Java大视界--Java大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用）引言：正文：一、金融情绪数据的立体化采集与治理1.1多模态数据采集架构1.2数据治理与特征工程二、Java机器学习模型的工程化实践2.1情感分析模型的深度优化2.2强化学习驱动的动态投资策略三、顶级机构实战：Java系统的金融炼金术四、技术前沿：Java与金融科技的未来融合4.1量子机器学习集成4.2联邦学习在合
Java 大视界 -- Java 大数据在影视内容推荐与用户兴趣挖掘中的深度实践（183）青云交大数据新视界 Java 大视界 Java+Python 双剑合璧：AI 大数据实战通关秘籍大数据影视内容推荐用户兴趣挖掘协同过滤基于内容推荐数据可视化个性化推荐系统
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！全网（微信公众号/CSDN/抖音/华为/支付宝/微博）：青云交一、欢迎加入【福利社群】点击快速加入1：青云交技术圈福利社群（NEW)点击快速加入2：2025CS
Java 大视界 -- 基于 Java 的大数据分布式文件系统在科研数据存储与共享中的应用优化（187）青云交大数据新视界 Java 大视界 Java+Python 双剑合璧：AI 大数据实战通关秘籍大数据大数据分布式文件系统科研数据存储科研数据共享应用优化 HDFS 数据分区
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！全网（微信公众号/CSDN/抖音/华为/支付宝/微博）：青云交一、欢迎加入【福利社群】点击快速加入1：青云交技术圈福利社群（NEW)点击快速加入2：CSDN博客
Python医疗大数据实战：基于Scrapy-Redis的医院评价数据分布式爬虫设计与实现 Python爬虫项目 python 开发语言爬虫 selenium scrapy
摘要本文将详细介绍如何使用Python构建一个高效的医院评价数据爬虫系统。我们将从爬虫基础讲起，逐步深入到分布式爬虫架构设计，使用Scrapy框架结合Redis实现分布式爬取，并采用最新的反反爬技术确保数据采集的稳定性。文章包含完整的代码实现、性能优化方案以及数据处理方法，帮助读者掌握医疗大数据采集的核心技术。关键词：Python爬虫、Scrapy-Redis、分布式爬虫、医疗大数据、反反爬技术1
flink-sql读写hive-1.13 第一片心意 flink flink sql hive
1.版本说明本文档内容基于flink-1.13.x，其他版本的整理，请查看本人博客的flink专栏其他文章。1.1.概述ApacheHive已经成为了数据仓库生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎，同样也是一个数据管理平台，可用于发现，定义，和演化数据。Flink与Hive的集成包含两个层面。一是利用了Hive的MetaStore作为持久化的Catalog，用户可通
觉察与正念佳佳的宝瓶子
今天因为交电费的事与妈妈沟通。在沟通的过程中，年届八十的母亲一直给我强调着过去怎么怎么。父母家的电费一直是银行代扣的，这样的模式自从可以通过银行代扣便开始了。可见那时候的父母还是蛮新潮的，能接受新事物的。至从有了智能手机，人类便进入了大数据时代。通过微信或支付宝来交电费方便得多。可惜父亲不在了，老母亲是连手机都坚决不用的人。（因为想要掩饰自己的不能、不敢，所以干脆拒绝！不愿意做任何的改变）。今年，
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =