li385805776

Hadoop 二次排序 Secondary Sort

转自：http://blog.csdn.net/heyutao007/article/details/5890103，红色字体为针对原博文察看源码所添加的理解内容

mr自带的例子中的源码SecondarySort，我重新写了一下，基本没变。

这个例子中定义的map和reduce如下，关键是它对输入输出类型的定义：（java泛型编程）

public static class Map extends Mapper<LongWritable, Text, IntPair, IntWritable>
public static class Reduce extends Reducer<IntPair, NullWritable, IntWritable, IntWritable>

1 首先说一下工作原理：

在map阶段，使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites，同时InputFormat提供一个RecordReder的实现。本例子中使用的是TextInputFormat，他提供的RecordReder会将文本的一行的行号作为key，这一行的文本作为value。这就是自定义Map的输入是<LongWritable, Text>的原因。然后调用自定义Map的map方法，将一个个<LongWritable, Text>对输入给Map的map方法。注意输出应该符合自定义Map中定义的输出<IntPair, IntWritable>。最终是生成一个List<IntPair, IntWritable>。在map阶段的最后，会先调用job.setPartitionerClass对这个List进行分区，每个分区映射到一个reducer。每个分区内又调用job.setSortComparatorClass设置的key比较函数类排序。可以看到，这本身就是一个二次排序。如果没有通过job.setSortComparatorClass设置key比较函数类，则使用key的实现的compareTo方法。在第一个例子中，使用了IntPair实现的compareTo方法，而在下一个例子中，专门定义了key比较函数类。
在reduce阶段，reducer接收到所有映射到这个reducer的map输出后，也是会调用job.setSortComparatorClass设置的key比较函数类对所有数据对排序。然后开始构造一个key对应的value迭代器。这时就要用到分组，使用jobjob.setGroupingComparatorClass设置的分组函数类。只要这个比较器比较的两个key相同，他们就属于同一个组，它们的value放在一个value迭代器，而这个迭代器的key使用属于同一个组的所有key的第一个key。最后就是进入Reducer的reduce方法，reduce方法的输入是所有的（key和它的value迭代器）。同样注意输入与输出的类型必须与自定义的Reducer中声明的一致。

跟踪源码发现，Reduce中的Context继承自ReduceContext，ReduceContext的public boolean nextKey() 是通过判断hasMore && nextKeyIsSame，而对hasMore 和 nextKeyIsSame修改的方法是public boolean nextKeyValue()，该方法中通过

hasMore = input.next();
    if (hasMore) {
      next = input.getKey();
      nextKeyIsSame = comparator.compare(currentRawKey.getBytes(), 0, 
                                         currentRawKey.getLength(),
                                         next.getData(),
                                         next.getPosition(),
                                         next.getLength() - next.getPosition()
                                         ) == 0;
    } else {
      nextKeyIsSame = false;
    }

hasMore = input.next() 中会使用ReduceContext构造方法中传入的comparator对象，而生成ReduceContext对象的是ReduceTask中的如下代码：

RawComparator comparator = job.getOutputValueGroupingComparator();

    if (useNewApi) {
      runNewReducer(job, umbilical, reporter, rIter, comparator, 
                    keyClass, valueClass);

在runNewReducer()中有如下代码：

org.apache.hadoop.mapreduce.Reducer.Context 
         reducerContext = createReduceContext(reducer, job, getTaskID(),
                                               rIter, reduceInputKeyCounter,
                                               reduceInputValueCounter, 
                                               trackedRW, committer,
                                               reporter, comparator, keyClass,
                                               valueClass);

createReduceContext代码如下：

protected static <INKEY,INVALUE,OUTKEY,OUTVALUE> 
  org.apache.hadoop.mapreduce.Reducer<INKEY,INVALUE,OUTKEY,OUTVALUE>.Context
  createReduceContext(org.apache.hadoop.mapreduce.Reducer
                        <INKEY,INVALUE,OUTKEY,OUTVALUE> reducer,
                      Configuration job,
                      org.apache.hadoop.mapreduce.TaskAttemptID taskId, 
                      RawKeyValueIterator rIter,
                      org.apache.hadoop.mapreduce.Counter inputKeyCounter,
                      org.apache.hadoop.mapreduce.Counter inputValueCounter,
                      org.apache.hadoop.mapreduce.RecordWriter<OUTKEY,OUTVALUE> output, 
                      org.apache.hadoop.mapreduce.OutputCommitter committer,
                      org.apache.hadoop.mapreduce.StatusReporter reporter,
                      RawComparator<INKEY> comparator,
                      Class<INKEY> keyClass, Class<INVALUE> valueClass
  ) throws IOException, ClassNotFoundException {
    try {

      return contextConstructor.newInstance(reducer, job, taskId,
                                            rIter, inputKeyCounter, 
                                            inputValueCounter, output, 
                                            committer, reporter, comparator, 
                                            keyClass, valueClass);
    } catch (InstantiationException e) {
      throw new IOException("Can't create Context", e);
    } catch (InvocationTargetException e) {
      throw new IOException("Can't invoke Context constructor", e);
    } catch (IllegalAccessException e) {
      throw new IOException("Can't invoke Context constructor", e);
    }
  }

contextConstructor为反射出的Constructor object

private static final Constructor<org.apache.hadoop.mapreduce.Reducer.Context> contextConstructor;
  static {
    try {
      contextConstructor = 
        org.apache.hadoop.mapreduce.Reducer.Context.class.getConstructor
        (new Class[]{org.apache.hadoop.mapreduce.Reducer.class,
            Configuration.class,
            org.apache.hadoop.mapreduce.TaskAttemptID.class,
            RawKeyValueIterator.class,
            org.apache.hadoop.mapreduce.Counter.class,
            org.apache.hadoop.mapreduce.Counter.class,
            org.apache.hadoop.mapreduce.RecordWriter.class,
            org.apache.hadoop.mapreduce.OutputCommitter.class,
            org.apache.hadoop.mapreduce.StatusReporter.class,
            RawComparator.class,
            Class.class,
            Class.class});
    } catch (NoSuchMethodException nme) {
      throw new IllegalArgumentException("Can't find constructor");
    }
  }

可以发现ReduceContext中的comparator是设置的GroupingComparator

2 二次排序就是首先按照第一字段排序，然后再对第一字段相同的行按照第二字段排序，注意不能破坏第一次排序的结果。例如

输入文件
20 21
50 51
50 52
50 53
50 54
60 51
60 53
60 52
60 56
60 57
70 58
60 61
70 54
70 55
70 56
70 57
70 58
1 2
3 4
5 6
7 82
203 21
50 512
50 522
50 53
530 54
40 511
20 53
20 522
60 56
60 57
740 58
63 61
730 54
71 55
71 56
73 57
74 58
12 211
31 42
50 62
7 8
输出：（注意需要分割线）
------------------------------------------------
1       2
------------------------------------------------
3       4
------------------------------------------------
5       6
------------------------------------------------
7       8
7       82
------------------------------------------------
12      211
------------------------------------------------
20      21
20      53
20      522
------------------------------------------------
31      42
------------------------------------------------
40      511
------------------------------------------------
50      51
50      52
50      53
50      53
50      54
50      62
50      512
50      522
------------------------------------------------
60      51
60      52
60      53
60      56
60      56
60      57
60      57
60      61
------------------------------------------------
63      61
------------------------------------------------
70      54
70      55
70      56
70      57
70      58
70      58
------------------------------------------------
71      55
71      56
------------------------------------------------
73      57
------------------------------------------------
74      58
------------------------------------------------
203     21
------------------------------------------------
530     54
------------------------------------------------
730     54
------------------------------------------------
740     58

3 具体步骤：
（1）自定义key

在mr中，所有的key是需要被比较和排序的，并且是二次，先根据partitione，再根据大小。而本例中也是要比较两次。先按照第一字段排序，然后再对第一字段相同的按照第二字段排序。根据这一点，我们可以构造一个复合类IntPair，他有两个字段，先利用分区对第一字段排序，再利用分区内的比较对第二字段排序。
所有自定义的key应该实现接口WritableComparable，因为是可序列的并且可比较的。并重载方法：

[cpp]  view plain copy 
     
    
 //反序列化，从流中的二进制转换成IntPair  
 public void readFields(DataInput in) throws IOException          
 //序列化，将IntPair转化成使用流传送的二进制  
 public void write(DataOutput out)  
 //key的比较  
 public int compareTo(IntPair o)          
 //另外新定义的类应该重写的两个方法  
 //The hashCode() method is used by the HashPartitioner (the default partitioner in MapReduce)  
 public int hashCode()   
 public boolean equals(Object right)  

（2）由于key是自定义的，所以还需要自定义一下类：
（2.1）分区函数类。这是key的第一次比较。

[cpp]  view plain copy 
     
 public static class FirstPartitioner extends Partitioner<IntPair,IntWritable>

在job中使用setPartitionerClasss设置Partitioner。
（2.2）key比较函数类。这是key的第二次比较。这是一个比较器，需要继承WritableComparator。

[cpp]  view plain copy 
     
 public static class KeyComparator extends WritableComparator

必须有一个构造函数，并且重载 public int compare(WritableComparable w1, WritableComparable w2)

另一种方法是实现接口RawComparator。
在job中使用setSortComparatorClass设置key比较函数类。
（2.3）分组函数类。在reduce阶段，构造一个key对应的value迭代器的时候，只要first相同就属于同一个组，放在一个value迭代器。这是一个比较器，需要继承WritableComparator。

[cpp]  view plain copy 
     
 public static class GroupingComparator extends WritableComparator

分组函数类也必须有一个构造函数，并且重载 public int compare(WritableComparable w1, WritableComparable w2)
分组函数类的另一种方法是实现接口RawComparator。
在job中使用setGroupingComparatorClass设置分组函数类。

另外注意的是，如果reduce的输入与输出不是同一种类型，则不要定义Combiner也使用reduce，因为Combiner的输出是reduce的输入。除非重新定义一个Combiner。

3 代码。

这个例子中没有使用key比较函数类，而是使用key的实现的compareTo方法。

[java]  view plain copy 
     
    
 package secondarySort;  
 import java.io.DataInput;  
 import java.io.DataOutput;  
 import java.io.IOException;  
 import java.util.StringTokenizer;  
 import org.apache.hadoop.conf.Configuration;  
 import org.apache.hadoop.fs.Path;  
 import org.apache.hadoop.io.IntWritable;  
 import org.apache.hadoop.io.LongWritable;  
 import org.apache.hadoop.io.Text;  
 import org.apache.hadoop.io.WritableComparable;  
 import org.apache.hadoop.io.WritableComparator;  
 import org.apache.hadoop.mapreduce.Job;  
 import org.apache.hadoop.mapreduce.Mapper;  
 import org.apache.hadoop.mapreduce.Partitioner;  
 import org.apache.hadoop.mapreduce.Reducer;  
 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;  
 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;  
 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;  
 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;  
   
 public class SecondarySort {  
     //自己定义的key类应该实现WritableComparable接口  
     public static class IntPair implements WritableComparable<IntPair> {  
         int first;  
         int second;  
         /** 
          * Set the left and right values. 
          */  
         public void set(int left, int right) {  
             first = left;  
             second = right;  
         }  
         public int getFirst() {  
             return first;  
         }  
         public int getSecond() {  
             return second;  
         }  
         @Override  
         //反序列化，从流中的二进制转换成IntPair  
         public void readFields(DataInput in) throws IOException {  
             // TODO Auto-generated method stub  
             first = in.readInt();  
             second = in.readInt();  
         }  
         @Override  
         //序列化，将IntPair转化成使用流传送的二进制  
         public void write(DataOutput out) throws IOException {  
             // TODO Auto-generated method stub  
             out.writeInt(first);  
             out.writeInt(second);  
         }  
         @Override  
         //key的比较  
         public int compareTo(IntPair o) {  
             // TODO Auto-generated method stub  
             if (first != o.first) {  
                 return first < o.first ? -1 : 1;  
             } else if (second != o.second) {  
                 return second < o.second ? -1 : 1;  
             } else {  
                 return 0;  
             }  
         }  
           
         //新定义类应该重写的两个方法  
         @Override  
         //The hashCode() method is used by the HashPartitioner (the default partitioner in MapReduce)  
         public int hashCode() {  
             return first * 157 + second;  
         }  
         @Override  
         public boolean equals(Object right) {  
             if (right == null)  
                 return false;  
             if (this == right)  
                 return true;  
             if (right instanceof IntPair) {  
                 IntPair r = (IntPair) right;  
                 return r.first == first && r.second == second;  
             } else {  
                 return false;  
             }  
         }  
     }  
      /** 
        * 分区函数类。根据first确定Partition。 
        */  
       public static class FirstPartitioner extends Partitioner<IntPair,IntWritable>{  
         @Override  
         public int getPartition(IntPair key, IntWritable value,   
                                 int numPartitions) {  
           return Math.abs(key.getFirst() * 127) % numPartitions;  
         }  
       }  
         
       /** 
        * 分组函数类。只要first相同就属于同一个组。 
        */  
     /*//第一种方法，实现接口RawComparator 
     public static class GroupingComparator implements RawComparator<IntPair> { 
         @Override 
         public int compare(IntPair o1, IntPair o2) { 
             int l = o1.getFirst(); 
             int r = o2.getFirst(); 
             return l == r ? 0 : (l < r ? -1 : 1); 
         } 
         @Override 
         //一个字节一个字节的比，直到找到一个不相同的字节，然后比这个字节的大小作为两个字节流的大小比较结果。 
         public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2){ 
             // TODO Auto-generated method stub 
              return WritableComparator.compareBytes(b1, s1, Integer.SIZE/8,  
                      b2, s2, Integer.SIZE/8); 
         } 
     }*/  
     //第二种方法，继承WritableComparator  
     public static class GroupingComparator extends WritableComparator {  
           protected GroupingComparator() {  
             super(IntPair.class, true);  
           }  
           @Override  
           //Compare two WritableComparables.  
           public int compare(WritableComparable w1, WritableComparable w2) {  
             IntPair ip1 = (IntPair) w1;  
             IntPair ip2 = (IntPair) w2;  
             int l = ip1.getFirst();  
             int r = ip2.getFirst();  
             return l == r ? 0 : (l < r ? -1 : 1);  
           }  
         }  
       
           
     // 自定义map  
     public static class Map extends  
             Mapper<LongWritable, Text, IntPair, IntWritable> {  
         private final IntPair intkey = new IntPair();  
         private final IntWritable intvalue = new IntWritable();  
         public void map(LongWritable key, Text value, Context context)  
                 throws IOException, InterruptedException {  
             String line = value.toString();  
             StringTokenizer tokenizer = new StringTokenizer(line);  
             int left = 0;  
             int right = 0;  
             if (tokenizer.hasMoreTokens()) {  
                 left = Integer.parseInt(tokenizer.nextToken());  
                 if (tokenizer.hasMoreTokens())  
                     right = Integer.parseInt(tokenizer.nextToken());  
                 intkey.set(left, right);  
                 intvalue.set(right);  
                 context.write(intkey, intvalue);  
             }  
         }  
     }  
     // 自定义reduce  
     //  
     public static class Reduce extends  
             Reducer<IntPair, IntWritable, Text, IntWritable> {  
         private final Text left = new Text();  
         private static final Text SEPARATOR =   
               new Text("------------------------------------------------");  
         public void reduce(IntPair key, Iterable<IntWritable> values,  
                 Context context) throws IOException, InterruptedException {  
             context.write(SEPARATOR, null);  
             left.set(Integer.toString(key.getFirst()));  
             for (IntWritable val : values) {  
                 context.write(left, val);  
             }  
         }  
     }  
     /** 
      * @param args 
      */  
     public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {  
         // TODO Auto-generated method stub  
         // 读取hadoop配置  
         Configuration conf = new Configuration();  
         // 实例化一道作业  
         Job job = new Job(conf, "secondarysort");  
         job.setJarByClass(SecondarySort.class);  
         // Mapper类型  
         job.setMapperClass(Map.class);  
         // 不再需要Combiner类型，因为Combiner的输出类型<Text, IntWritable>对Reduce的输入类型<IntPair, IntWritable>不适用  
         //job.setCombinerClass(Reduce.class);  
         // Reducer类型  
         job.setReducerClass(Reduce.class);  
         // 分区函数  
         job.setPartitionerClass(FirstPartitioner.class);  
         // 分组函数  
         job.setGroupingComparatorClass(GroupingComparator.class);  
           
         // map 输出Key的类型  
         job.setMapOutputKeyClass(IntPair.class);  
         // map输出Value的类型  
         job.setMapOutputValueClass(IntWritable.class);  
         // rduce输出Key的类型，是Text，因为使用的OutputFormatClass是TextOutputFormat  
         job.setOutputKeyClass(Text.class);  
         // rduce输出Value的类型  
         job.setOutputValueClass(IntWritable.class);  
           
         // 将输入的数据集分割成小数据块splites，同时提供一个RecordReder的实现。  
         job.setInputFormatClass(TextInputFormat.class);  
         // 提供一个RecordWriter的实现，负责数据输出。  
         job.setOutputFormatClass(TextOutputFormat.class);  
           
         // 输入hdfs路径  
         FileInputFormat.setInputPaths(job, new Path(args[0]));  
         // 输出hdfs路径  
         FileOutputFormat.setOutputPath(job, new Path(args[1]));  
         // 提交job  
         System.exit(job.waitForCompletion(true) ? 0 : 1);  
     }  
 }  

冒泡排序选择排序插入排序 2401_89791565 java 排序算法算法
packagecom.nobody.sort;/**@authorMr.nobody@Description插入排序@date2020/9/5*/publicclassCode01_InsertionSort{publicstaticvoidinsertionSort(int[]arr){//数组为空，或者数组长度小于2就没必要操作if(null==arr||arr.length=0&&arr[j
leetcode 485 python weixin_36908057 leetcode
Givenabinaryarray,findthemaximumnumberofconsecutive1sinthisarray.Example1:Input:[1,1,0,1,1,1]Output:3Explanation:Thefirsttwodigitsorthelastthreedigitsareconsecutive1s.Themaximumnumberofconsecutive1sis
集群间hive数仓迁移 one code database
方式一：(此方法需要建库建表)第一步：建库建表在原集群hive上查看迁移表的建表语句及所在库，然后在新集群hive上建库建表；showcreatetabletb_name;createdatabasedb_name;createtabletb_name.....第二步：转移数据文件到新集群；在旧集群中下载数据到本地hadoopfs-get/user/hive/warehouse/dc_ods.db
Hive中没有超级管理员，如何进行权限控制二进制_博客大数据 hive hadoop 数据仓库
Hive中没有超级管理员，任何用户都可以进行Grant/Revoke操作开发实现自己的权限控制类，确保某个用户为超级用户比如任何用户都可以grant权限给别的用户。grantselectontabletest2touserhadoop;如何开发一个超级管理员：创建一个项目，导入mavanjar包，然后开始编写hook类importcom.google.common.base.Joiner;impo
调试Hadoop源代码一张假钞 hadoop eclipse 大数据
个人博客地址：调试Hadoop源代码|一张假钞的真实世界Hadoop版本Hadoop2.7.3调试模式下启动HadoopNameNode在${HADOOP_HOME}/etc/hadoop/hadoop-env.sh中设置NameNode启动的JVM参数，如下：exportHADOOP_NAMENODE_OPTS="-Xdebug-Xrunjdwp:transport=dt_socket,addr
大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构武子康大数据离线数仓大数据数据仓库 java 后端 hadoop hive
点一下关注吧！！！非常感谢！！持续更新！！！Java篇开始了！目前开始更新MyBatis，一起深入浅出！目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark（已更完）Flink（已更完）ClickHouse（已
pyspark 中删除hdfs的文件夹 TDengine （老段）大数据 spark hadoop hdfs mapreduce
在pyspark中保存rdd的内存到文件的时候，会遇到文件夹已经存在而失败，所以如果文件夹已经存在，需要先删除。搜索了下资料，发现pyspark并没有提供直接管理hdfs文件系统的功能。寻找到一个删除的方法，是通过调用shell命令hadoopfs-rm-f来删除，这个方法感觉不怎么好，所以继续找。后来通过查找hadoophdfs的源代码发现hdfs是通过java的包org.appache.had
第十四届蓝桥杯三月真题刷题训练——第 18 天不摘月亮蓝桥杯蓝桥杯 c++职场和发展算法
第1题：排列字母思路：直接调用sort函数对字符串进行排序#includeusingnamespacestd;intmain(){stringarr;cin>>arr;sort(arr.begin(),arr.end());cout#definelllonglongusingnamespacestd;intmain(){lln,m,k,res;cin>>n>>m;if(n>m)swap(n,m);
Python 爬虫：获取网页数据的 5 种方法王子良. 经验分享 python python 开发语言爬虫
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
Java Arrays 方法详解赔罪 Java 系统学习 java 算法 eclipse 开发语言 intellij-idea java-ee Array 方法详解
目录1.JavaArrays.fill()方法详解2.JavaArrays.copyOf()方法详解3.JavaArrays.copyOfRange()方法详解4.JavaArrays.sort()方法详解1.sort(T[]a)2.sort(T[]a,intformIndex,inttoIndex)3.sort(T[]a,Comparatorc)(1)按第一维元素比较二维数组：(2)按第二维元素
C++堆排序越甲八千算法 c++算法数据结构
堆排序（HeapSort）是一种基于二叉堆数据结构的比较排序算法，它是一种选择排序，可分为最大堆排序和最小堆排序，以下主要介绍最大堆排序。堆排序的基本原理二叉堆的定义：最大堆：对于每个节点i（除根节点外），都满足A[parent(i)]>=A[i]，即父节点的值大于或等于其子节点的值。最小堆：对于每个节点i（除根节点外），都满足A[parent(i)]#include//辅助函数：交换两个元素vo
快速排序介绍 max500600 算法算法数据结构排序算法
快速排序（QuickSort）是种高效的基于比较的排序算法，它采用了分治策略（DivideandConquer）。其基本思想是通过选择一个基准值（pivot），将数组分为两部分，小于基准值的元素放在左边，大于基准值的元素放在右边，然后递归地对这两部分进行排序，最终使整个数组有序。1.算法步骤选择基准值：从数组中选择一个元素作为基准值。通常可以选择数组的第一个元素、最后元素或中间元素等，这里以选择第
案例分享｜快速了解实时湖仓集一体技术如何助力企业降本增效 mysql
1.替代TD仓、Hadoop湖，助力农商行构建一体化数据平台某农商行最初构建了Teradata数据仓库、Oracle小数据平台以及Hadoop数据湖。多平台混合架构开发运维高，存在冗余存储、数据搬迁一致性、跨平台流转数据实时性低等问题。该农商行基于星环科技实时湖仓集一体平台，替代了Teradata数仓、Oracle数据平台和Hadoop数据湖三个平台，一体化架构同时满足数据湖海量汇集、复杂数仓模型
代码随想录算法训练营Day2:977有序数组、209长度最小的子数组、59螺旋矩阵|| 爱吃甜食的靓仔算法 leetcode 数据结构
（1）977有序数组文章链接：代码随想录(programmercarl.com)思考：题目中提到了该数组为有序数组，那么在进行平方后，最大值一定是在数组的最左边或者最左边，所以用双指针进行比较。Java代码：classSolution{publicint[]sortedSquares(int[]nums){int[]result=newint[nums.length];intleft=0;intr
万字详解数仓分层设计架构 ODS-DWD-DWS-ADS _Jordan 自己写的数据仓库
参考：万字详解数仓分层设计架构ODS-DWD-DWS-ADS数据分层的意义1、清晰数据结构2、数据血缘追踪3、数据复用，减少重复开发4、把复杂问题简单化5、屏蔽原始数据的(影响)，屏蔽业务的影响ETL操作1、数据抽取2、数据清洗3、数据转换4、数据加载数据中台包含的内容很多，对应到具体工作中的话，它可以包含下面的这些内容：系统架构：以Hadoop、Spark等组件为中心的架构体系数据架构：顶层设计
真是惭愧，直到今天，我才搞懂桶排序算法前端javascript算法
前言在我重新复习我创建的代码段集合网站，我复习到了桶排序算法的实现，它的代码如下所示:constbucketSort=(arr,size=5)=>{constmin=Math.min(...arr);constmax=Math.max(...arr);constbuckets=Array.from({length:Math.floor((max-min)/size)+1},()=>[]);arr.
深入HDFS——DataNode启动源码黄雪超大数据基础 #深入HDFS hdfs hadoop 大数据
引入上一篇我们看完了NameNode的启动源码，对于NameNode我们已经很熟悉了，今天我们接着来看看它的“得力干将”——DataNode。首先，自然还是从元数据管理篇提到的DataNode类（org.apache.hadoop.hdfs.server.datanode.DataNode）开始。不过在深入启动源码前，我们先看看它的源码注释：DataNodeisaclass(andprogram)
深入HDFS——NameNode启动源码黄雪超大数据基础 #深入HDFS hdfs hadoop 大数据
引入前面我们已经对HDFS有了很多了解，但是光说不练假把式，今天开启深入源码的纯享模式，先来看看NameNode启动流程，在代码层面，到底是如何实现的。首先还是得从我们的前一篇提到过的NameNode类（org.apache.hadoop.hdfs.server.namenode.NameNode）开始，既然是看启动流程，那自然是先找类里面的main方法啦。当我们启动NameNode的时候，它就会
python列表 [禾火] 链表数据结构散列表
目录1.列表（list(线性表)）2.定义一个列表1.直接用2.用list()3.常见的方法1.append(object)-------向列表尾部追加元素2.insert(index,object)-----向指定位置（index）添加元素3.sort()-----列表进行排序4.index（）-------查找元素的位置5.reverse()------将列表进行翻转6.remove()---
【YashanDB知识库】原生mysql驱动配置连接崖山数据库数据库
本文内容来自YashanDB官网，原文内容请见https://www.yashandb.com/newsinfo/7919231.html?templateId=171...【问题分类】功能兼容【关键字】YAS-07202、YAS\_MYERROR，不兼容【问题描述】本项目的架构是hadoop+hive+yashandb使用崖山数据库，将mysql相关的创建表语句进行初始化同步使用崖山23.3版本
Spring Boot 和微服务：快速入门指南王子良. Java 经验分享 spring boot 微服务后端
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
集合帖：排序 ← sort() 函数 hnjzsyjyj 信息学竞赛 #排序与查找数据结构排序算法
排序算法的学习虽然很重要、很必要，但是在算法竞赛中，一般不需要自己写排序的代码，而是直接调用C++的sort()函数就可以了。详见：https://blog.csdn.net/hnjzsyjyj/article/details/130524018https://blog.csdn.net/hnjzsyjyj/article/details/144239572https://blog.csdn.ne
JPA使用原生SQL实现分页查询、排序 weixin_45834569 sql hibernate 数据库
1.使用PageRequest.of静态方法创建一个PageRequest对象或者Pageable接口；PageablepageRequest=PageRequest.of();2.传入分页和排序的参数；intpage=10;intsize=5;PageRequestpageRequest=PageRequest.of(page,size,Sort.by("account"));3.使用@Quer
jpa知识点 The_Best_Hacker Jpa 分页
1.分页publicstaticPageRequestof(intpage,intsize,Directiondirection,String...properties){returnof(page,size,Sort.by(direction,properties));}官方API说明:since2.0,useof(...)instead,2.0版本后,使用of(...)方法代替PageRequ
【PGCCC】PostgreSQL 临时文件的使用 PGCCC-PostgeSQL培训认证 postgresql 数据库
临时文件某些查询操作（例如sort或hash表）需要一些内存功能。此内存由运行时配置提供work_mem。来自官方文档work_memwork_mem(整数)设置在写入临时磁盘文件之前查询操作（例如排序或哈希表）使用的基本最大内存量。请注意，对于复杂查询，可能会并行运行多个排序或哈希操作；在开始将数据写入临时文件之前，通常允许每个操作使用此值指定的内存量。排序操作用于ORDERBY、DISTINC
【YashanDB知识库】Hive 命令工具insert崖山数据库报错数据库
本文内容来自YashanDB官网，原文内容请见https://www.yashandb.com/newsinfo/7919217.html?templateId=171...【问题分类】功能兼容【关键字】spark30041、不兼容【问题描述】本项目的架构是hadoop+hive+yashandb使用崖山数据库，初始化所有的原数据表和数据新建表之后，插入数据时候报错，hadoopcode30041
初学者如何用 Python 写第一个爬虫？王子良. python 经验分享 python 开发语言爬虫
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
微服务实战——ElasticSearch（搜索）松弛进取微服务实战 java 后端微服务 springcloud 分布式
商品检索——ElasticSearch（搜索）1.检索条件&排序条件分析全文检索：skuTitle->keyword排序：saleCount（销量）、hotScore（热度分）、skuPrice（价格）过滤：hasStock、skuPrice区间、brandId、catalog3Id、attrs聚合：attrs完整查询参数keyword=小米&sort=saleCount_desc/asc&has
大数据学习笔记——zookeeper在hadoop集群中的作用鹅鹅鹅呢 java hadoop 大数据学习 tcp/ip tomcat
zookeeper主要是用来搭建高可用的Hadoop集群，即HighAvailability，简称(HA)测试中集群是可以不需要高可用的，即使用一个namenode即可。但是在生产环境中为了提高集群的可靠性，需要增加一个namenode备用，当active的namenode挂了之后，系统会启动standby的namenode。这就需要zookeeper监控namenode的状态。
应急救援路径规划中的蚁群算法与路径评价研究【附代码】拉勾科研工作室算法
数据科学与大数据专业|数据分析与模型构建|数据驱动决策✨专业领域：数据挖掘与清洗大数据处理与存储技术机器学习与深度学习模型数据可视化与报告生成分布式计算与云计算数据安全与隐私保护擅长工具：Python/R/Matlab数据分析与建模Hadoop/Spark大数据处理平台SQL数据库管理与优化Tableau/PowerBI数据可视化工具TensorFlow/PyTorch深度学习框架✅具体问题可以私
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。

Hadoop 二次排序 Secondary Sort

你可能感兴趣的:(Hadoop 二次排序 Secondary Sort)