东方神剑

Hadoop实现全排序

1、1TB（或1分钟）排序的冠军
作为分布式数据处理的框架，集群的数据处理能力究竟有多快？或许1TB排序可以作为衡量的标准之一。

1TB排序，就是对1TB（1024GB，大约100亿行数据）的数据进行排序。2008年，Hadoop赢得1TB排序基准评估第一名，排序1TB数据耗时209秒。后来，1TB排序被1分钟排序所取代，1分钟排序指的是在一分钟内尽可能多的排序。2009年，在一个1406个节点组成的hadoop集群，在59秒里对500GB完成了排序；而在1460个节点的集群，排序1TB数据只花了62秒。

这么惊人的数据处理能力，是不是让你印象深刻呢？呵呵

下面我们来看看排序的过程吧。

2、排序的过程

1TB的数据？100亿条数据？都是什么样的数据呢？让我们来看几条：

.t^#\|v$2\ 0AAAAAAAAAABBBBBBBBBBCCCCCCCCCCDDDDDDDDDDEEEEEEEEEEFFFFFFFFFFGGGGGGGGGGHHHHHHHH
75@~?'WdUF 1IIIIIIIIIIJJJJJJJJJJKKKKKKKKKKLLLLLLLLLLMMMMMMMMMMNNNNNNNNNNOOOOOOOOOOPPPPPPPP
w[o||:N&H, 2QQQQQQQQQQRRRRRRRRRRSSSSSSSSSSTTTTTTTTTTUUUUUUUUUUVVVVVVVVVVWWWWWWWWWWXXXXXXXX
^Eu)<n#kdP 3YYYYYYYYYYZZZZZZZZZZAAAAAAAAAABBBBBBBBBBCCCCCCCCCCDDDDDDDDDDEEEEEEEEEEFFFFFFFF
+l-$$OE/ZH 4GGGGGGGGGGHHHHHHHHHHIIIIIIIIIIJJJJJJJJJJKKKKKKKKKKLLLLLLLLLLMMMMMMMMMMNNNNNNNN
LsS8)|.ZLD 5OOOOOOOOOOPPPPPPPPPPQQQQQQQQQQRRRRRRRRRRSSSSSSSSSSTTTTTTTTTTUUUUUUUUUUVVVVVVVV
le5awB.$sm 6WWWWWWWWWWXXXXXXXXXXYYYYYYYYYYZZZZZZZZZZAAAAAAAAAABBBBBBBBBBCCCCCCCCCCDDDDDDDD
q__[fwhKFg 7EEEEEEEEEEFFFFFFFFFFGGGGGGGGGGHHHHHHHHHHIIIIIIIIIIJJJJJJJJJJKKKKKKKKKKLLLLLLLL
;L+!2rT~hd 8MMMMMMMMMMNNNNNNNNNNOOOOOOOOOOPPPPPPPPPPQQQQQQQQQQRRRRRRRRRRSSSSSSSSSSTTTTTTTT
M^*dDE;6^< 9UUUUUUUUUUVVVVVVVVVVWWWWWWWWWWXXXXXXXXXXYYYYYYYYYYZZZZZZZZZZAAAAAAAAAABBBBBBBB

.t^#\|v$2\ 0AAAAAAAAAABBBBBBBBBBCCCCCCCCCCDDDDDDDDDDEEEEEEEEEEFFFFFFFFFFGGGGGGGGGGHHHHHHHH 75@~?'WdUF 1IIIIIIIIIIJJJJJJJJJJKKKKKKKKKKLLLLLLLLLLMMMMMMMMMMNNNNNNNNNNOOOOOOOOOOPPPPPPPP w[o||:N&H, 2QQQQQQQQQQRRRRRRRRRRSSSSSSSSSSTTTTTTTTTTUUUUUUUUUUVVVVVVVVVVWWWWWWWWWWXXXXXXXX ^Eu)<n#kdP 3YYYYYYYYYYZZZZZZZZZZAAAAAAAAAABBBBBBBBBBCCCCCCCCCCDDDDDDDDDDEEEEEEEEEEFFFFFFFF +l-$$OE/ZH 4GGGGGGGGGGHHHHHHHHHHIIIIIIIIIIJJJJJJJJJJKKKKKKKKKKLLLLLLLLLLMMMMMMMMMMNNNNNNNN LsS8)|.ZLD 5OOOOOOOOOOPPPPPPPPPPQQQQQQQQQQRRRRRRRRRRSSSSSSSSSSTTTTTTTTTTUUUUUUUUUUVVVVVVVV le5awB.$sm 6WWWWWWWWWWXXXXXXXXXXYYYYYYYYYYZZZZZZZZZZAAAAAAAAAABBBBBBBBBBCCCCCCCCCCDDDDDDDD q__[fwhKFg 7EEEEEEEEEEFFFFFFFFFFGGGGGGGGGGHHHHHHHHHHIIIIIIIIIIJJJJJJJJJJKKKKKKKKKKLLLLLLLL ;L+!2rT~hd 8MMMMMMMMMMNNNNNNNNNNOOOOOOOOOOPPPPPPPPPPQQQQQQQQQQRRRRRRRRRRSSSSSSSSSSTTTTTTTT M^*dDE;6^< 9UUUUUUUUUUVVVVVVVVVVWWWWWWWWWWXXXXXXXXXXYYYYYYYYYYZZZZZZZZZZAAAAAAAAAABBBBBBBB

描述一下：每一行，是一条数据。每一条，由2部分组成，前面是一个由10个随即字符组成的key，后面是一个80个字符组成的value。

排序的任务：按照key的顺序排。

那么1TB的数据从何而来？答案是用程序随即生成的，用一个只有map，没有reduce的MapReduce job，在整个集群上先随即生成100亿行数据。然后，在这个基础上，再运行排序的MapReduce job，以测试集群排序性能。

3、排序的原理

先说明一点，熟悉MapReduce的人都知道：排序是MapReduce的天然特性！在数据达到reducer之前，mapreduce框架已经对这些数据按键排序了。

所以，在这个排序的job里，不需要特殊的Mapper和Reducer类。用默认的
IdentityMapper和IdentityReducer即可。

既然排序是天然特性，那么1TB排序的难点在哪里呢？？答：100亿行的数据随即分散在1000多台机器上，mapper和reducer都是Identity的，这个难点就在MapReduce的shuffle阶段！关键在如何取样和怎么写Partitioner。

好在这个排序的源代码已近包含在hadoop的examples里了，下面我们就来分析一下。

4、取样和partition的过程

面对对这么大量的数据，为了partition的更均匀。要先“取样”：

1) 对Math.min(10, splits.length)个split（输入分片）进行随机取样，总共10万个样，对每个split取10000个(split数目达到10个及以上时候， added by jiwan)。
2) 10万个样排序，根据reducer的数量(n)，取出将所有10万个样平均分隔的n-1个样
3) 将这个n-1个样写入partitionFile(_partition.lst，是一个SequenceFile)，key是取的样，值是nullValue
4) 将partitionFile写入DistributedCache

接下来，正式开始执行MapReduce job：
5) 每个map节点：
a.根据n-1个样，build一棵类似于B-数的“索引树”：
* 每个非叶子节点，都有256个子节点(应为2^8=256, added by jiwan)。
* 不算根节点的非叶子节点有1层，加上根节点和叶子节点，共3层。
* 非叶子节点代表key的“byte path”
* 每个叶子节点代表key的前2个bytes path
* 叶子节点上，保存的是partition number的范围，有多少个reducer就有多少partition number

b.前缀相同的key，被分配到同一个叶子节点。
c.一个子节点上，可能有多个reducer
d.比第i个样小的key，被分配到第i个reducer，剩下的被分配到最后一个reducer。

6) 针对一个key，partition的过程：

a. 首选判断key的第1个byte，找到第1层非叶子节点
b. 再根据key的第2个byte，叶子节点
c. 每个叶子节点可能对应多个取样(即多个reducer)，再逐个和每个样比较，确定分配给哪一个reducer

5、图解partition的“索引树”

对上面的文字描述可能比较难理解，etongg 同学建议我画个图。所有才有了下面这些文字。感谢etongg和大家对本帖的关注。

“索引树”的作用是为了让key快速找到对应的reducer。下图是我画的索引树示意图：

对上面的图做一点解释：
1、为了简单，我只画了A、B、C三个节点，实际的是有256个节点的。
2、这个图假设有20个reducer（下标0到19），那么我们最终获得n-1个样，即19个样（下标为18的为最后一个样）
3、图中的圆圈，代表索引树上的节点，索引树共3层。
4、叶子节点下面的长方形代表取样数组。红色的数字代表取样的下标。
5、每个节点都对应取样数组上的一个下标范围（更准备的说，是对应一个partition number的范围，每个partition number代表一个reducer）。这个范围在途中用蓝色的文字标识。

前面文中有一句话：
比第i个样小的key，被分配到第i个reducer，剩下的被分配到最后一个reducer

这里做一个小小的纠正，应该是：
小于或者等于第i个样的key，被分配到第i个reducer，剩下的被分配到最后一个reducer。

下面开始partition：
如果key以"AAA"开头，被分配到第“0”个reducer。
如果key以"ACA"开头，被分配到第“4”个reducer。
如果key以"ACD"开头，被分配到第“4”个reducer。
如果key以"ACF"开头，被分配到第“5”个reducer。

那么，
如果key以"ACZ"开头，被分配到第几个reducer？？
答案是：被分配到第“6”个reducer。

同理，
如果key以"CCZ"开头，被分配到第“19”个reducer，也就是最后一个reducer。

6、为什么不用HashPartitioner？

还需要再说明的一点：
上面自定义的Partitinoner的作用除了快速找到key对应的reducer，更重要的一点是：这个Partitioner控制了排序的总体有序！

上文中提到的“排序是MapReduce的天然特性！”这句话有点迷惑性。更准确的说，这个“天然特性”只保证了：a) 每个map的输出结果是有序的； b) 每个reduce的输入是有序的（参考下面的图）。而1TB的整体有序还需要靠Partitioner的帮助！

Partitioner控制了相似的key(即前缀相同)落在同一个reducer里，然后mapreduce的“天然特性”再保证每个reducer的输入（在正式执行reduce函数前，有一个排序的动作）是有序的！

这样就理解了为什么不能用HashPartitioiner了。因为自定义的Partitioner要保证排序的“整体有序”大方向。

另外，推荐一篇关于partitioner博文：Hadoop Tutorial Series, Issue #2: Getting Started With (Customized) Partitioning

再贴《Hadoop.The.Definitive.Guide》中一张图，更有利于理解了：

具体实现：

分为两步：取样+Partition对每条数据做标记（即发往哪个reducer做处理）

1. 取样

原理：取样工作在JobClient端进行，目的是取出n-1个、排序好的样本（可以划分出n个reducer），在partition的过程中，通过将当前keyvalue对的key跟样本中数据作比较，就可以知道该keyvalue对发往哪个reducer了。

以此我们需要写自己的“取样类”：

 static class TextSampler implements IndexedSortable {  
  
    public ArrayList<IntWritable> records = new ArrayList<IntWritable>();//全部样本数据   
  
    @Override  
    public int compare(int arg0, int arg1) {  
        IntWritable right = records.get(arg0);  
        IntWritable left = records.get(arg1);  
        return right.compareTo(left);  
    }  
  
    @Override  
    public void swap(int arg0, int arg1) {  
        IntWritable right = records.get(arg0);  
        IntWritable left = records.get(arg1);  
        records.set(arg0, left);  
        records.set(arg1, right);  
    }  
  
    public void addKey(IntWritable key) {  
        records.add(key);  
    }  
  
    public IntWritable[] createPartitions(int numPartitions) {  
        int numRecords = records.size();  
        if (numPartitions > numRecords) {  
            throw new IllegalArgumentException("Requested more partitions than input keys (" + numPartitions +  
                    " > " + numRecords + ")");  
        }  
        new QuickSort().sort(this, 0, records.size());  
        float stepSize = numRecords / (float) numPartitions;//取数的步长   
        IntWritable[] result = new IntWritable[numPartitions - 1];  
        for (int i = 1; i < numPartitions; ++i) {  
            result[i - 1] = records.get(Math.round(stepSize * i));//从全部样本数据中再抽出n-1个样本   
        }  
        return result;  
    }  
}

说明：实现了IndexedSortable接口，IndexedSortable接口是Hadoop中的排序器，Hadoop关于可排序的数据集定义了一个抽象接口IndexedSortable，也就是说任何能够排序的数据集必须要实现两个方法，一是能够比较它的数据集中任意两项的大小，二是能够交换它的数据集中任意两项的位置。实现了这个接口我们就可以使用hadoop预定义的快排进行排序。如上：new QuickSort().sort(this, 0, records.size());

那么样本怎么得来的呢？

我们需要从分片中获得，在Job启动前必须得到n-1个取样数据——>需要对输入的数据进行控制——>需要自定义实现InputFormat接口的类。InputFormat做了2件事：

（1）InputSplit[] getSplits(JobConf job, int numSplits) throws IOException; 得到划分

（2）RecordReader<K, V> getRecordReader(InputSplit split, JobConf job, Reporter reporter) throws IOException; 处理每个划分，对每个划分的数据生成KeyValue对

分片不用重写。需要自定义实现RecordReader接口的类。

static class TeraRecordReader implements RecordReader<IntWritable, Text> {  
  
        private LineRecordReader in;  
        private LongWritable junk = new LongWritable();  
        private Text line = new Text();  
  
        public TeraRecordReader(Configuration job, FileSplit split) throws IOException {  
            in = new LineRecordReader(job, split);  
        }  
  
        @Override  
        public void close() throws IOException {  
            in.close();  
        }  
  
        @Override  
        public IntWritable createKey() {  
            return new IntWritable();  
        }  
  
        @Override  
        public Text createValue() {  
            return new Text();  
        }  
  
        @Override  
        public long getPos() throws IOException {  
            // TODO Auto-generated method stub   
            return in.getPos();  
        }  
  
        @Override  
        public float getProgress() throws IOException {  
            // TODO Auto-generated method stub   
            return in.getProgress();  
        }  
  
        @Override  
        public boolean next(IntWritable key, Text value) throws IOException {  
            if (in.next(junk, line)) {  
                    key.set(Integer.parseInt(line.toString()));  
                    value.clear();  
                return true;  
            } else {  
                return false;  
            }  
        }  
    }//end RecordReader

默认情况下会对每个分片中的每行数据得到一个形如<Key=该行的起始位置：LongWritable，Value=该行的内容的：Text>的KeyValue对，我们需要将这个KeyValue对转化成我们想要的形式<Key=该行内容：IntWritable，Value=空字符串：Text>，所以如上重写了next函数。

到此我们可以按格式读到RecordReader提供的KeyValue对了。那么接下来我们就要找到读到的数据中你认为可以当做样本的数据：

public static void writePartitionFile(JobConf conf, Path partFile) throws IOException {  
    SamplerInputFormat inputFormat = new SamplerInputFormat();  
    TextSampler sampler = new TextSampler();  
    int partitions = conf.getNumReduceTasks(); // Reducer任务的个数   
    long sampleSize = conf.getLong(SAMPLE_SIZE, 100); // 采集数据-键值对的个数   
    InputSplit[] splits = inputFormat.getSplits(conf, conf.getNumMapTasks());// 获得数据分片   
    int samples = Math.min(10, splits.length);// 采集分片的个数   
    long recordsPerSample = sampleSize / samples;// 每个分片采集的键值对个数   
    int sampleStep = splits.length / samples; // 采集分片的步长   
    long records = 0;  
    IntWritable key = new IntWritable();  
    Text value = new Text();  
    for (int i = 0; i < samples; i++) {  
        //to particular split construct a record_reader   
        RecordReader<IntWritable, Text> reader = inputFormat.getRecordReader(splits[sampleStep * i], conf, null);  
        while (reader.next(key, value)) {  
            sampler.addKey(key);  
            key=new IntWritable();  
            value = new Text();  
            records += 1;  
            if ((i + 1) * recordsPerSample <= records) {  
                break;  
            }  
        }  
    }  
    FileSystem outFs = partFile.getFileSystem(conf);  
    if (outFs.exists(partFile)) {  
        outFs.delete(partFile, false);  
    }  
    SequenceFile.Writer writer = SequenceFile.createWriter(outFs, conf, partFile, IntWritable.class, NullWritable.class);  
    NullWritable nullValue = NullWritable.get();  
    for (IntWritable split : sampler.createPartitions(partitions)) {  
        writer.append(split, nullValue);  
    }  
    writer.close();  
}

如上所示，我们通过writer将（n-1）个样本写入到了临时的样本文件中。接下来可以启动Job了。

3. Partition对每条数据做标记（即发往哪个reducer做处理）

在map-reduce流程中，partitioner会负责“告知”每条数据的归属地reducer，这里我们要根据上面写好的临时样本文件判断每天数据的归属，因此需要自定义实现Partitioner接口的类：

// 自定义的Partitioner     
public static class TotalOrderPartitioner implements Partitioner<IntWritable, NullWritable> {    
      
    private IntWritable[] splitPoints;    
      
    public TotalOrderPartitioner() {    
    }    
      
    @Override    
    public int getPartition(IntWritable key, NullWritable value, int numReduceTasks) {    
        // TODO Auto-generated method stub     
        return findPartition(key);    
    }    
      
    public void configure(JobConf conf) {    
        try {    
            FileSystem fs = FileSystem.get(conf);  
            Path partFile = new Path(SamplerInputFormat.PARTITION_FILENAME);    
            splitPoints = readPartitions(fs, partFile, conf,splitPoints); // 读取采集文件    
        } catch (IOException ie) {    
            throw new IllegalArgumentException("can't read paritions file", ie);    
        }    
    }  
    //通过找区间的方式定位partition   
    public int findPartition(IntWritable key) {    
        int len = splitPoints.length;    
        for (int i = 0; i < len; i++) {    
            int res = key.compareTo(splitPoints[i]);    
            if (res > 0 && i < len - 1) {    
                continue;    
            } else if (res == 0) {    
                return i;    
            } else if (res < 0) {    
                return i;    
            } else if (res > 0 && i == len - 1) {    
                return i + 1;    
            }    
        }   
        return 0;    
    }    
      
    private static IntWritable[] readPartitions(FileSystem fs, Path p, JobConf job, IntWritable[] splitPoints) throws IOException {   
        URI[] uris = DistributedCache.getCacheFiles(fs.getConf());  
        SequenceFile.Reader reader = new SequenceFile.Reader(fs, new Path(uris[0]), job);    
        ArrayList<IntWritable> parts = new ArrayList<IntWritable>();    
        IntWritable key = new IntWritable();             
        NullWritable value = NullWritable.get();   
        while (reader.next(key, value)) {    
            parts.add(key);     
            key=new IntWritable();  
            value = NullWritable.get();  
        }    
        reader.close();    
        splitPoints = new IntWritable[parts.size()];  
        for(int i=0;i<parts.size();i++) {  
            splitPoints[i] = parts.get(i);  
        }  
        return splitPoints;  
    }    
}

如上所示，一个自定义的Partitioner只需要实现两个功能：getPartition()和configure()。

（1）getPartition()函数返回一个0到（Reducer数目-1）之间的int值来确定将<key,value>键值对送到哪一个Reducer中。

（2）configure()使用Hadoop Job Configuration来配置partitioner，并读取样本数据。

至此，我们控制了哪些数据发往哪些reducer，且这种控制是有序的控制，在每个reducer中的数据，hadoop会自动实现排序，因此整体上实现了全排序。

以上是整形的全排序，字符串的全排序与此大同小异。

注意：伪分布式reducer的个数只能是0或1，无法设置reducer的个数。

无论字符串排序还是整型排序都是在job启动前先把采样的样本放到SequenceFile中，然后job开始后，读取SequenceFile中的样本数据到一维数组中。之后，

（1）如果是字符串排序，既可以使用字符串比较的方法通过查找区间来定位partition，也可以通过构建2层字典树（terasort中使用的方法）定位partition；

（2）如果是整形排序，就直接按找区间的方法定位partition；

Spring Boot应用首次请求性能优化实战：从数据库连接池到JVM调优一休哥助手 java spring boot 性能优化数据库
目录问题现象与背景分析性能瓶颈定位方法论数据库连接池深度优化SpringBean生命周期调优JVM层性能预热策略全链路监控体系建设生产环境验证方案总结与扩展思考1.问题现象与背景分析1.1典型问题场景在某互联网金融项目的SpringBoot应用上线后，运维团队发现一个关键现象：应用重启后首次访问提现接口耗时约1300ms后续请求稳定在200ms以内每日凌晨服务重启后，首笔交易超时率高达30%1.2
算法在各领域的广泛应用：100 个实例全解析软件职业规划 AI&模型算法
一、互联网与信息技术领域搜索引擎算法：如谷歌的PageRank算法，用于根据网页的重要性和相关性对搜索结果进行排序，帮助用户快速找到所需信息。推荐系统算法：例如亚马逊和Netflix使用的协同过滤算法。根据用户的历史行为（购买、观看记录等）和其他相似用户的偏好，为用户推荐可能感兴趣的产品或内容。社交网络分析算法：用于分析社交网络中的用户关系，如Facebook通过算法发现用户的好友推荐、社区划分等
机器学习驱动的智能化电池管理技术与应用萌萌可爱郭德纲机器学习人工智能
电池管理技术概述电池的工作原理与关键性能指标电池管理系统的核心功能ØSOC估计ØSOH估计Ø寿命预测Ø故障诊断人工智能机器学习基础人工智能的发展机器学习的关键概念机器学习在电池管理中的应用案例介绍人工智能在电池荷电状态估计中的应用荷电状态估计方法概述基于迁移学习的SOC估计(1)基于迁移学习的SOC估计方法数据集、估计框架、估计结果(2)全生命周期下的SOC估计方法数据集、估计框架、估计结果基于数
数字孪生对于新基建的价值浅析，算是抛砖引玉。大牛工控设计师人工智能信息可视化前端
数字孪生（DigitalTwin）作为一项融合物理世界与数字世界的关键技术，在新基建中扮演着虚实协同、智能决策、全生命周期管理的核心角色，其价值贯穿于基础设施的设计、建设、运维到优化全流程。一、核心价值：虚实映射与智能决策实时动态映射通过传感器、IoT设备实时采集物理实体（如工厂、城市、电网）的运行数据，构建高精度虚拟模型，实现**“所见即所控”**的透明化管理。模拟预测与优化利用AI和大数据分析
算法训练-拓扑排序2 往往歌咏理想算法深度优先
洛谷P1807最长路https://www.luogu.com.cn/problem/P1807本题数据范围过大盲目使用dfs容易超时爆栈题目要求中提到i#defineintlonglong#defineendl'\n'/*===\\================//\\===================//\\============//\\==========//=========\\=
【颠覆认知】大模型开发终极实战：30分钟用LangChain打造「超级AI客服」系统（附全代码+黑科技调参技巧）煜bart 人工智能
重磅提示：文末含99%开发者不知道的Prompt逆向注入破解方案！---###一、撕开大模型开发的遮羞布：传统方案的三大致命陷阱![](https://img-blog.csdnimg.cn/direct/8a7d3f8c2c7f4e5e8d3c4d0a6e5d8e7a.png)传统AI客服系统开发面临：1.对话记忆金鱼症（7轮对话必失忆）2.知识库更新堪比器官移植3.业务逻辑与AI模型强耦合我们
第十三届蓝桥杯研究生组C++省赛格格巫ZYX 算法 c语言 c++蓝桥杯
有一根围绕原点O顺时针旋转的棒OA，初始时指向正上方（Y轴正向）。在平面中有若干物件，第i个物件的坐标为(xi,yi)，价值为zi。当棒扫到某个物件时，棒的长度会瞬间增长zi，且物件瞬间消失（棒的顶端恰好碰到物件也视为扫到），如果此时增长完的棒又额外碰到了其他物件，也按上述方式消去（它和上述那个点视为同时消失）。如果将物件按照消失的时间排序，则每个物件有一个排名，同时消失的物件排名相同，请输出每个
webgl threejs 云渲染(服务器渲染、后端渲染)解决方案 allenjiao Threejs webgl threejs 云渲染后端渲染服务器渲染云流化三维云渲染
云渲染和流式传输共享三维模型场景1、本地无需高端GPU设备即可提供三维项目渲染云渲染和云流化媒体都可以让3D模型共享变得简单便捷。配备强大GPU的远程服务器早就可以处理密集的处理工作，而专有应用程序，用户也可以从任何个人设备查看全保真模型并与之交互。2、云流媒体实现多终端联动共享价值更高在项目应用场景中，在大屏、电脑、平板、手机和其它移动终端，可以实现多屏联动、远程协助，三维云流化让客户访问时可以
STL--list基本使用 csdnjiajiac C++学习语言学习笔记 c++开发语言
目录一.基本概念二.基本使用1.list构造2.list赋值与交换3.list的大小操作4.list插入和删除5.list数据存取6.list反转和排序一.基本概念**功能：**将数据进行链式存储**链表**（list）是一种物理存储单元上非连续的存储结构，数据元素的逻辑顺序是通过链表中的指针链接实现的由于链表的存储方式并不是连续的内存空间，因此链表list中的迭代器只支持前移和后移，属于**双向
守护网站安全的隐形卫士——SSL证书全解析安全
在网络世界中，保护用户数据的安全至关重要。无论你是经营一家小型网店还是管理大型企业网站，确保客户信息的安全性都是不可忽视的任务。今天，我们就来揭开一个默默守护网站安全的重要角色——SSL证书的神秘面纱。什么是SSL证书？SSL（SecureSocketsLayer）证书是一种数字证书，用于加密客户端与服务器之间的通信，确保数据传输过程中的安全性。简单来说，当您访问一个启用SSL证书的网站时，您的浏
sql语句编写逻辑賢843 mysql sql
一、SQL语句的「书写顺序」与「执行顺序」书写顺序（人类思维逻辑）SELECT字段列表--第3步：确定要输出的内容FROM表名--第1步：确定数据来源[JOIN表ON条件]--第2步：处理表连接关系WHERE筛选条件--第4步：过滤原始数据GROUPBY分组字段--第5步：数据分组HAVING分组后条件--第6步：过滤分组结果ORDERBY排序字段--第7步：排序结果LIMIT分页参数--第8步：
redis操作zset类型的基本命令 JavaWeb学起来 redis redis 数据结构
zset是有序存储的数据结构，它和set一样，不允许重复的值，下面我们总结一些常用的命令。zaddkey排序的数值值(这里为了zset可以有序的存储，需要设定数值)127.0.0.1:6379>zaddz15java3redis1mysql2nginx4oracle(integer)5zcardkey(返回key中的成员数)127.0.0.1:6379>zcardz1(integer)5zrang
Java 入门指南：Java 8 新特性 —— Stream 流热带鱼Tech Java java 后端个人开发 java-ee
文章目录JavaStream操作类型操作过程创建流操作流遍历forEach过滤filter映射map匹配match归约reduce排序sorted去重distinct限制limit跳过skip转换流流操作的特性JavaStreamJavaStream是Java8引入的一个新的API，它提供了一种函数式编程的方式来处理集合数据。Stream可以看作是一系列支持高效的、函数式操作的元素序列。通过使用S
Python 科学计算与机器学习入门：NumPy + Scikit-Learn 实战指南吴师兄大模型 python numpy scikit-learn 人工智能开发语言机器学习编程
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
手写一些常见算法林tong学算法排序算法 java 数据结构
手写一些常见算法快速排序归并排序Dijkstra自定义排序交替打印0和1冒泡排序插入排序堆排序快速排序publicclassMain{publicstaticvoidmain(String[]args){intnums[]={1,3,2,5,4,6,8,7,9};quickSort(nums,0,nums.length-1);}privatestaticvoidquickSort(int[]num
Java Stream 流从零到一全指南秋‍. JAVA windows java 开发语言流 strem
1.什么是JavaStream？JavaStream是Java8引入的一种用于处理数据集合的API，提供了声明式的方式进行数据处理。它能够支持函数式编程风格，极大地简化了集合操作，提高了代码的可读性和可维护性。Stream的核心特性链式操作：流操作可以串联在一起，避免了传统迭代方式的冗余代码。惰性求值：只有在终端操作时，流的计算才会执行。内部迭代：相比于for循环的外部迭代，Stream采用内部迭
哨兵2号遥感影像解析全流程：步骤、算法与AI应用详解 zhz5214 AI GIS 人工智能遥感 ai sentinel 智能体
遥感影像解析是农业监测、环境评估等领域的重要技术手段。哨兵2号（Sentinel-2）凭借其高分辨率多光谱数据，成为遥感分析的热门数据源。本文将系统梳理哨兵2号影像解析的核心步骤、适用算法与软件工具，并探讨AI技术在该领域的创新应用。一、哨兵2号影像解析核心步骤1.数据获取与预处理数据下载哨兵2号数据可通过官方平台[CopernicusOpenAccessHub](https://scihub.c
大数据学习（67）- Flume、Sqoop、Kafka、DataX对比 viperrrrrrr 大数据学习 flume kafka sqoop datax
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦工具主要作用数据流向实时性数据源/目标应用场景Flume实时日志采集与传输从数据源到存储系统实时日志文件、网络流量等→HDFS、HBase、Kafka等日志收集、实时监控、实时分析Sqoop关系型数据库与Hadoop间数据同步关系型数据库→Hadoop生态系统（HDFS、Hive、
Kubernetes集群版本升级程序员Realeo Java后端 kubernetes 容器云原生
集群升级注意事项升级集群版本建议逐步升级，比如v1.20.1–>v1.21.1–>v1.22.1–>v1.23.1–>v1.24.1，不能跨度过大，否则会报错。升级步骤查看集群版本[root@hadoop102~]#kubectlgetnodesNAMESTATUSROLESAGEVERSIONhadoop102Ready,SchedulingDisabledcontrol-plane,maste
阿里巴巴发布 R1-Omni：首个基于 RLVR 的全模态大语言模型，用于情感识别新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/情感识别一直是AI领域的难题，尤其是视觉与音频信号的融合。单独依赖视觉或音频的模型，往往
解码数字基因：数据架构如何重塑企业核心竞争力？——全面解析数据架构的战略价值与实践路径领码科技产业篇央国企技能篇数据架构数据模型数据资产目录企业数字化转型 TOGAF
摘要：数据架构作为企业数字化转型的“基因图谱”，通过整合业务需求与IT实现，构建起数据流动的规则体系。本文系统剖析数据架构的四大核心组件（数据资产目录、数据模型、数据标准、数据分布）及其协同逻辑，揭示其在TOGAF4A架构中的桥梁作用，解读从架构规划到主数据落地的全生命周期管理。结合华为等标杆企业实践，提供兼具理论深度与实操指导的方法论框架，助力企业打造高质量数据底座。关键词：数据架构、数据模型、
智驾赋能新质生产力，开启“全感知时代” 高工智能汽车汽车人工智能自动驾驶大数据
当前，人类社会正稳步踏入全领域智能化的崭新时代。工业智能化、农业智能化、商业智能化浪潮奔涌，全方位融入人们的工作与生活，成为推动社会进步的重要力量。在各行各业的高端技术前沿领域，设备智能化、自动化、无人化升级进程正不断加速。然而，环境感知与实时决策能力，始终是横亘在技术飞跃之路上的关键阻碍。这两大能力犹如高悬的“达摩克利斯之剑”，一旦成为短板，就会迅速演变为制约技术突破的“瓶颈”。只有精准、高效地
千里科技亮相吉利AI智能科技发布会，共启“AI+车”新纪元高工智能汽车科技人工智能
今天，在三亚举行的吉利AI智能科技发布会上，千里科技董事长印奇发表了主题为《从“车+AI”到“AI+车”》的演讲。印奇重点分享了对于“AI+车”未来趋势的判断，并重点介绍了在吉利AI科技生态体系下，围绕智驾、智舱等领域的创新合作。基于千里科技和吉利汽车集团的深度技术合作，全新的“千里浩瀚”智驾系统在今天的发布会上正式亮相。千里浩瀚将覆盖吉利全系不同价位车型。吉利银河未来的全新产品都将搭载千里浩瀚，
Go语言分布式ID生成策略优选：UUID、Snowflake、XID、ObjectID、Krand性能对比评测 zhuyasen golang 分布式
在高并发应用场景下，如订单系统、分布式数据库主键、消息队列等，分布式ID的生成至关重要。本文将基于Go语言，对多种分布式ID生成方案进行基准测试（Benchmark），并分析其性能及适用场景，帮助开发者选择最优方案。常见分布式ID生成方案在Go语言生态中，常见的分布式ID生成方案包括：XID（github.com/rs/xid）：基于MongoDBObjectID改进的方案，时间排序、唯一性强、无
LeetCode 热题 100_前 K 个高频元素（73_347_中等_C++）(堆)(哈希表+排序；哈希表+优先队列（小根堆）) Dream it possible！ LeetCode 热题 100 leetcode c++散列表数据结构
LeetCode热题100_前K个高频元素（73_347）题目描述：输入输出样例：题解：解题思路：思路一（哈希表+排序）：思路二（哈希表+优先队列（小根堆））：代码实现代码实现（思路一（哈希表+排序））：代码实现（思路二（哈希表+优先队列（小根堆）））：以思路二为例进行调试部分代码解读题目描述：给你一个整数数组nums和一个整数k，请你返回其中出现频率前k高的元素。你可以按任意顺序返回答案。输入输
LeetCode 热题 100_数组中的第K个最大元素（74_215_中等_C++）（堆）（暴力破解法（将整个数组进行排序）；线性时间选择（快速排序：基础版）；线性时间选择（快速排序：三路划分）） Dream it possible！ LeetCode 热题 100 leetcode c++算法
LeetCode热题100_数组中的第K个最大元素（74_215）题目描述：输入输出样例：题解：解题思路：思路一（暴力破解法（将整个数组进行排序））：思路二（线性时间选择（快速排序：基础版））：思路三（线性时间选择（快速排序：三路划分））：代码实现代码实现（思路一（暴力破解法（将整个数组进行排序）））：代码实现（思路二（线性时间选择（快速排序：基础版）））：代码实现（思路三（线性时间选择（快速排序
C++中map和set的详解 yang789022 c++算法开发语言
C++中map和set的介绍与使用在C++编程中，map和set是标准模板库（STL）中两种非常重要的关联容器。它们基于平衡二叉搜索树（通常是红黑树）的数据结构来实现，提供了高效的数据存储和检索功能。本文将详细介绍map和set的特点、用法以及一些常见的操作示例。一、map的介绍与使用1.map的基本概念map是一个键值对容器，其中每个键都是唯一的，且按照升序排序。map的内部结构是红黑树，这使得
AI Agent代理框架与直接 API 调用的选择、构建块、工作流与代理的模式 AI Echoes 人工智能
建立有效的代理代理与工作流的概念什么是代理？代理可以有多种定义。一部分客户将其视为能够独立运行、利用多种工具完成复杂任务的全自主系统；而另一部分客户则认为代理是按照预定义工作流程执行任务的系统。我们将这两种实现统称为“代理系统”，但在架构上做出区分：工作流是指通过预定义代码路径协调LLM与工具的组合；代理则是让LLM自主决定流程和工具使用，保持对任务执行过程的动态控制。何时使用代理？在使用LLM构
C++中map和set的详解漏洞猎人001 c++算法开发语言
C++中map和set的介绍与使用在C++编程中，map和set是标准模板库（STL）中两种非常重要的关联容器。它们基于平衡二叉搜索树（通常是红黑树）的数据结构来实现，提供了高效的数据存储和检索功能。本文将详细介绍map和set的特点、用法以及一些常见的操作示例。一、map的介绍与使用1.map的基本概念map是一个键值对容器，其中每个键都是唯一的，且按照升序排序。map的内部结构是红黑树，这使得
每日一练题目及题解6 全保AC 「已注销」 #各大编程比赛题目解析 c++
一.最长公共子序列描述给你一个序列X和另一个序列Z，当Z中的所有元素都在X中存在，并且在X中的下标顺序是严格递增的，那么就把Z叫做X的子序列。例如：Z=是序列X=的一个子序列，Z中的元素在X中的下标序列为。现给你两个序列X和Y，请问它们的最长公共子序列的长度是多少？输入描述输入包含多组测试数据。每组输入占一行，为两个字符串，由若干个空格分隔。每个字符串的长度不超过100。输出描述对于每组输入，输出
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str

Hadoop实现全排序

你可能感兴趣的:(hadoop,全排序)