一字千金

9.2.2 hadoop全排序实例详解

1.1.1 全排序

（1）全排序概述

指的是让所有的输出结果都是有序的，最简单的方法就是用一个reduce任务，但是这样处理大型文件时效率极低，失去的并行架构的意义。所以可以采用分组排序的方法来实现全局排序，例如现在要实现按键的全局的排序，可以将键值按照取值范围分为n个分组，<-10℃，-10℃~0℃, 0℃~10℃,>10℃。实现partitioner类，创建4个分区，将温度按照取值范围分类到四个分区中，每个分区进行排序，然后将4个分区结果合并成一个，既是一个全局有序的输出。

（2）分组排序

分组排序就是按照值的大小将数据进行分组，第i组的数据小于所有第i+1组的数据，每组排序，在合并，就是全局有序。按照上述分区的方法，可能数据落在每个区间内的数据数量并不相同，可能所占比例非常大，有的非常下，这样reduce任务有的处理数据多，有的处理数据少。理想情况是让各个分区所含的记录数大致相等，使作业的总体执行时间不会受制于个别reducer任务。为了让数据尽量均匀的分布到各个区间，又不用对所有数据进行统计（消耗太大），可以通过采样的方法，对数据进行采样分区，得到分区的边界值。

（3）采样分组

用InputSampler对象对输入数据进行采样，得到数据的采样区间分隔值，将这些值写入到一个文件中。然后TotalOrderPartitioner类读取这些边界值作为分区依据。采样分组就是通过采集输入的部分数据，得到相对均匀的分布区间，每个区间的数据量差不多。InputSampler是采样方式有三种：前n条记录采样SplitSample，随机采样RandomSample，固定间隔采样？IntervalSample。

类名称	采样方式	构造方法	效率
SplitSampler(int numSamples, int maxSplitsSampled)	对输入分片均匀采样，每个分片取前n个。	采样总数，用于采样的分片数	最高
RandomSampler(double freq, int numSamples, int maxSplitsSampled)	遍历所有数据，随机采样	采样频率，采样总数，划分数	最低
IntervalSampler(double freq, int maxSplitsSampled)	固定间隔采样对有序的数据十分适用	采样频率，划分数	中

（4）InputSampler原理

1）InputSampler是个hadoop任务类，继承Configured，实现Tool接口，main函数作为入口函数，run函数用来执行任务，InputSampler还有另外一个writePartitionFile函数，它是将采样的值排序，然后按照分区的数量进行划分，得到边界值写入分区文件，其定义为如下：

public class InputSampler extends Configured implements Tool {

    private static final Log LOG = LogFactory.getLog(InputSampler.class);



    static int printUsage() {

        System.out.println("sampler -r \n      [-inFormat ]\n      [-keyClass ]\n      [-splitRandom    |              // Sample from random splits at random (general)\n       -splitSample   |              // Sample from first records in splits (random data)\n       -splitInterval  ]             // Sample from splits at intervals (sorted data)");

        System.out.println("Default sampler: -splitRandom 0.1 10000 10");

        ToolRunner.printGenericCommandUsage(System.out);

        return -1;

    }



    public InputSampler(Configuration conf) {

        this.setConf(conf);

    }



    public static  void writePartitionFile(Job job, InputSampler.Sampler sampler) throws IOException, ClassNotFoundException, InterruptedException {

        Configuration conf = job.getConfiguration();

        InputFormat inf = (InputFormat)ReflectionUtils.newInstance(job.getInputFormatClass(), conf);

    //有numPartitions个reduce任务就有numPartitions分区，产生numPartitions个文件

        int numPartitions = job.getNumReduceTasks();

      //获取采样的值

        K[] samples = (Object[])sampler.getSample(inf, job);

        LOG.info("Using " + samples.length + " samples");

      //获取排序函数，对采样值进行排序

        RawComparator comparator = job.getSortComparator();

        Arrays.sort(samples, comparator);

      //获取分区文件的路径

        Path dst = new Path(TotalOrderPartitioner.getPartitionFile(conf));

        FileSystem fs = dst.getFileSystem(conf);

      //如果存在，删除原来的分区文件

        if (fs.exists(dst)) {

            fs.delete(dst, false);

        }

      创建写入对象，创建新的文件

        Writer writer = SequenceFile.createWriter(fs, conf, dst, job.getMapOutputKeyClass(), NullWritable.class);

        NullWritable nullValue = NullWritable.get();

      //获取间隔值的步长，已经排好序之后，每隔stepSize取一个值作为分组的边界值

        float stepSize = (float)samples.length / (float)numPartitions;

        int last = -1;



        for(int i = 1; i < numPartitions; ++i) {

            int k;

            for(k = Math.round(stepSize * (float)i); last >= k && comparator.compare(samples[last], samples[k]) == 0; ++k) {

                ;

            }



            writer.append(samples[k], nullValue);

            last = k;

        }



        writer.close();

    }

//run函数执行采样任务，入参是采样类型

    public int run(String[] args) throws Exception {

        Job job = new Job(this.getConf());

        ArrayList otherArgs = new ArrayList();

        InputSampler.Sampler sampler = null;



        for(int i = 0; i < args.length; ++i) {

            try {

                if ("-r".equals(args[i])) {

                    ++i;

                    job.setNumReduceTasks(Integer.parseInt(args[i]));

                } else if ("-inFormat".equals(args[i])) {

                    ++i;

                    job.setInputFormatClass(Class.forName(args[i]).asSubclass(InputFormat.class));

                } else if ("-keyClass".equals(args[i])) {

                    ++i;

                    job.setMapOutputKeyClass(Class.forName(args[i]).asSubclass(WritableComparable.class));

                } else if ("-splitSample".equals(args[i])) {

                    ++i;

                    int numSamples = Integer.parseInt(args[i]);

                    ++i;

                    int maxSplits = Integer.parseInt(args[i]);

                    if (0 >= maxSplits) {

                        maxSplits = 2147483647;

                    }

分区采样

                    sampler = new InputSampler.SplitSampler(numSamples, maxSplits);

                } else {

                    int maxSplits;

                    double pcnt;

                    if ("-splitRandom".equals(args[i])) {

                        ++i;

                        pcnt = Double.parseDouble(args[i]);

                        ++i;

                        maxSplits = Integer.parseInt(args[i]);

                        ++i;

                        int maxSplits = Integer.parseInt(args[i]);

                        if (0 >= maxSplits) {

                            maxSplits = 2147483647;

                        }

                     //随机采样

                        sampler = new InputSampler.RandomSampler(pcnt, maxSplits, maxSplits);

                    } else if ("-splitInterval".equals(args[i])) {

                        ++i;

                        pcnt = Double.parseDouble(args[i]);

                        ++i;

                        maxSplits = Integer.parseInt(args[i]);

                        if (0 >= maxSplits) {

                            maxSplits = 2147483647;

                        }

                     //间隔采样

                        sampler = new InputSampler.IntervalSampler(pcnt, maxSplits);

                    } else {

                        otherArgs.add(args[i]);

                    }

                }

            } catch (NumberFormatException var10) {

                System.out.println("ERROR: Integer expected instead of " + args[i]);

                return printUsage();

            } catch (ArrayIndexOutOfBoundsException var11) {

                System.out.println("ERROR: Required parameter missing from " + args[i - 1]);

                return printUsage();

            }

        }

      // reduce任务数量不能<=2，否则分组就没有了任何意义



        if (job.getNumReduceTasks() <= 1) {

            System.err.println("Sampler requires more than one reducer");

            return printUsage();

        } else if (otherArgs.size() < 2) {

            System.out.println("ERROR: Wrong number of parameters: ");

            return printUsage();

        } else {

            if (null == sampler) {

               //默认采用随机采样

                sampler = new InputSampler.RandomSampler(0.1D, 10000, 10);

            }



            Path outf = new Path((String)otherArgs.remove(otherArgs.size() - 1));

            TotalOrderPartitioner.setPartitionFile(this.getConf(), outf);

            Iterator i$ = otherArgs.iterator();



            while(i$.hasNext()) {

                String s = (String)i$.next();

                FileInputFormat.addInputPath(job, new Path(s));

            }

           //默任执行写入分区文件

            writePartitionFile(job, (InputSampler.Sampler)sampler);

            return 0;

        }

    }



    public static void main(String[] args) throws Exception {

        InputSampler sampler = new InputSampler(new Configuration());

        int res = ToolRunner.run(sampler, args);

        System.exit(res);

    }

public interface Sampler {

        K[] getSample(InputFormat var1, Job var2) throws IOException, InterruptedException;

    }

}

2）InputSampler类定义个一个采样接口Sample接口，定义方法getSample，SplitSample、RandomSample、IntervalSample类都实现了这个接口，采用不同的方法获取采样值。三个类都是InputSampler的内部静态类，实现了getSample方法，下面分别阐述。

SplitSample类定义

总的采样数除以用于采样的分片数量，得到每个分片的取样数n，采取每个分片的前n个数据。

public static class SplitSampler implements InputSampler.Sampler {

    protected final int numSamples;

    protected final int maxSplitsSampled;

    public SplitSampler(int numSamples) {

        this(numSamples, 2147483647);

    }



    public SplitSampler(int numSamples, int maxSplitsSampled) {

        this.numSamples = numSamples;//采样总数

        this.maxSplitsSampled = maxSplitsSampled;// 用于取样的分片数量，不大于实际分片数

    }



    public K[] getSample(InputFormat inf, Job job) throws IOException, InterruptedException {

        //获取分片数

    List splits = inf.getSplits(job);

    //采样总数创建数组

        ArrayList samples = new ArrayList(this.numSamples);

    //用于取样的分片数量

        int splitsToSample = Math.min(this.maxSplitsSampled, splits.size());

        //每个分片需要采集多少个数据

    int samplesPerSplit = this.numSamples / splitsToSample;

        long records = 0L;



        for(int i = 0; i < splitsToSample; ++i) {

            TaskAttemptContext samplingContext = new TaskAttemptContextImpl(job.getConfiguration(), new TaskAttemptID());

//创建读取记录的reader

            RecordReader reader = inf.createRecordReader((InputSplit)splits.get(i), samplingContext);

            reader.initialize((InputSplit)splits.get(i), samplingContext);



            while(reader.nextKeyValue()) {

//采样数据写入smaple数组

                samples.add(ReflectionUtils.copy(job.getConfiguration(), reader.getCurrentKey(), (Object)null));

                ++records;

             //每个分片只采集前个samplesPerSplit数据，超出则退出

                if ((long)((i + 1) * samplesPerSplit) <= records) {

                    break;

                }

            }



            reader.close();

        }



        return (Object[])samples.toArray();

    }

}

IntervalSample类定义

遍历用于采样的分片数据，根据采样率来等间隔采集数据，例如采样率是0.1，则每隔10个采集一个数据。

public static class IntervalSampler implements InputSampler.Sampler {

    protected final double freq;

    protected final int maxSplitsSampled;



    public IntervalSampler(double freq) {

        this(freq, 2147483647);

    }



    public IntervalSampler(double freq, int maxSplitsSampled) {

        this.freq = freq;//采样率

        this.maxSplitsSampled = maxSplitsSampled;//用于采样的分片数

    }



    public K[] getSample(InputFormat inf, Job job) throws IOException, InterruptedException {

        List splits = inf.getSplits(job);

        ArrayList samples = new ArrayList();

        int splitsToSample = Math.min(this.maxSplitsSampled, splits.size());

        long records = 0L;//遍历的记录数

        long kept = 0L;//采集的记录数



        for(int i = 0; i < splitsToSample; ++i) {

            TaskAttemptContext samplingContext = new TaskAttemptContextImpl(job.getConfiguration(), new TaskAttemptID());

            RecordReader reader = inf.createRecordReader((InputSplit)splits.get(i), samplingContext);

            reader.initialize((InputSplit)splits.get(i), samplingContext);



            while(reader.nextKeyValue()) {

             //假设freq为0.1,第一次循环，record为1，kept为0，0/1小于freq0.1，第一条记录会被采到，kept变为1；第二次循环，record=2，kept=1，1/2大于freq0.1，第二条记录不会取到；kept/records的值从1/2,1/3,1/4……1/10大于等于freq0.1，第11条记录时，1/11小于0.1，第11条记录会被取到，kept变成2，只有到2/21时，才会取第三条数据，所以是每隔10条取一个，是等间隔取数据。

             ++records;

                if ((double)kept / (double)records < this.freq) {

                    samples.add(ReflectionUtils.copy(job.getConfiguration(), reader.getCurrentKey(), (Object)null));

                    ++kept;

                }

            }



            reader.close();

        }



        return (Object[])samples.toArray();

    }

}

RandomSample类定义

随机采样输入参数是采样频率，采样总数，用于采样的的分片数。遍历用于采样的分片中的记录，如果随机数小于采样率则进行采样，添加进入采样数组，或者更换已满数组中的值。同时减小采样率，越往后面，采集到数据的概率越小。

public static class RandomSampler implements InputSampler.Sampler {

    protected double freq;

    protected final int numSamples;

    protected final int maxSplitsSampled;



    public RandomSampler(double freq, int numSamples) {

        this(freq, numSamples, 2147483647);

    }



    public RandomSampler(double freq, int numSamples, int maxSplitsSampled) {

        this.freq = freq;//采样率

        this.numSamples = numSamples;//采样总数

        this.maxSplitsSampled = maxSplitsSampled;//用于采样的分片数

    }



    public K[] getSample(InputFormat inf, Job job) throws IOException, InterruptedException {

        List splits = inf.getSplits(job);

        ArrayList samples = new ArrayList(this.numSamples);//采样保存申请空间

        int splitsToSample = Math.min(this.maxSplitsSampled, splits.size());//计算用于采样的分片数

        Random r = new Random();//创建随机对象

        long seed = r.nextLong();//创建随机种子

        r.setSeed(seed);

        InputSampler.LOG.debug("seed: " + seed);



        int i;//将分片打乱顺序，随机获取第j个分片，和第i个分片进行交换

        for(i = 0; i < splits.size(); ++i) {

            InputSplit tmp = (InputSplit)splits.get(i);

            int j = r.nextInt(splits.size());

            splits.set(i, splits.get(j));

            splits.set(j, tmp);

        }

    //循环从用于采样的分片中随机获取数据，直到采样分片遍历完（可能数量不够numSamples个），或者已经采集到numSamples个数据

        for(i = 0; i < splitsToSample || i < splits.size() && samples.size() < this.numSamples; ++i) {

            TaskAttemptContext samplingContext = new TaskAttemptContextImpl(job.getConfiguration(), new TaskAttemptID());

            RecordReader reader = inf.createRecordReader((InputSplit)splits.get(i), samplingContext);

            reader.initialize((InputSplit)splits.get(i), samplingContext);



            while(reader.nextKeyValue()) {

//随机double值小于采样率，符合条件，进行获取当前值，这样有可能，遍历所有的值，可能没有获取到指定的numSamples记录？

                if (r.nextDouble() <= this.freq) {

//采样数组中数据还不足则add进去，如果已经采集到了numSamples个记录，则随机替换set到sample数组中

                    if (samples.size() < this.numSamples) {

                        samples.add(ReflectionUtils.copy(job.getConfiguration(), reader.getCurrentKey(), (Object)null));

                    } else {

                        int ind = r.nextInt(this.numSamples);

                        if (ind != this.numSamples) {

                            samples.set(ind, ReflectionUtils.copy(job.getConfiguration(), reader.getCurrentKey(), (Object)null));

                        }

//每采样到一个数据，采样率会减小，r.nextDouble() <= this.freq采样到的数据概率会减小

                        this.freq *= (double)(this.numSamples - 1) / (double)this.numSamples;

                    }

                }

            }



            reader.close();

        }



        return (Object[])samples.toArray();

    }

}

（1） TotalOrderPartitioner

全局有序分区的类，通过函数job.setPartitionerClass(TotalOrderPartitioner.class);输入数据就会将key值传入TotalOrderPartitioner中分getPartition()函数获取分区号。分区是按照采样的结果得出的分区区间。

public class TotalOrderPartitioner, V> extends Partitioner implements Configurable {

（2）随机采样全局排序实例

下面的实例就是将输入文件进行按键值排序，首先采用随机采样的方式，采样率为0.1，从10个分片文件中采集10000个记录的key值。进行排序，如果要分成4个分区，则取2500位置处的5.6℃,5000位置处的13.9℃，7500位置处的22.0℃作为分界点，将温度分为4个区间，将边界值写入分区文件中，TotalOrderPartitioner会读取文件中的值，作为分区边界。这样每个分区内都会得到大致相等数量的数据。处理数据时，会根据温度值调用getPartition()函数，返回所属分区的编号，将该条记录交给该分区的reduce处理。最后得到四个文件，每个文件内都是有序的，且文件之间也是有序的，四个文件合并之后就得到一个全局有序的顺序文件。

温度区间	<5.6	[5.6,13.9]	[13.9,22.0）	>=22.0

package Temperature;



import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.SequenceFile;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.io.compress.GzipCodec;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.SequenceFileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;

import org.apache.hadoop.mapreduce.lib.partition.InputSampler;

import org.apache.hadoop.mapreduce.lib.partition.TotalOrderPartitioner;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;



import java.io.IOException;

import java.net.URI;



public class SortTempetatureTotalOrder extends Configured implements Tool {

    public int run(String[] args) throws Exception

    {

        Job job = JobBuilder.parseInputAndOutput(this, getConf(), args);

            if (job == null) {

            return -1;

        }

        //设置输入类型，输出键类型，输出文件类型，压缩、压缩类型

        job.setInputFormatClass(SequenceFileInputFormat.class);

        job.setOutputKeyClass(IntWritable.class);

        job.setOutputFormatClass(SequenceFileOutputFormat.class);

        SequenceFileOutputFormat.setCompressOutput(job, true);

        SequenceFileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);

        SequenceFileOutputFormat.setOutputCompressionType(job, SequenceFile.CompressionType.BLOCK);

        //设置partitioner为全局分区类

        job.setPartitionerClass(TotalOrderPartitioner.class);

        //设置采样随机采样频率为0.1，采样值为10000，用于采样的分片数为10.

        InputSampler.Sampler sampler = new InputSampler.RandomSampler(

                0.1, 10000, 10);

        //进行采样，并把分区的边界值写入分区文件中，路径默认设置为mapreduce.totalorderpartitioner.path

        InputSampler.writePartitionFile(job,sampler);

        Configuration conf =job.getConfiguration();

        //将分区文件加入缓冲区，提供给TotalOrderPartitioner读取,getPartition函数会根据键值判断属于哪个分区区间，从而返回partition值

        String partitionFile=TotalOrderPartitioner.getPartitionFile(conf);

        URI partitionUri=new URI(partitionFile);

        job.addCacheFile(partitionUri);

        return job.waitForCompletion(true)? 0:1;



    }

    public static class JobBuilder {

        public static Job parseInputAndOutput(Tool tool, Configuration conf, String[] args) throws IOException {

            if (args.length != 2) {

                return null;

            }

            Job job = null;

            try {

                job = new Job(conf, tool.getClass().getName());

            } catch (IOException e) {

                e.printStackTrace();

            }

            FileInputFormat.addInputPath(job, new Path(args[0]));

            FileOutputFormat.setOutputPath(job, new Path(args[1]));

            return job;

        }

    }

    public static void main(String[] args) throws Exception {

        int exitCode = ToolRunner.run(

                new SortTempetatureTotalOrder(), args);

        System.exit(exitCode);

    }

}

执行任务的hadoop命令如下, -totalsort表示采用全局排序

%hadoop jar Hadoop-example.jar SortTempetatureTotalOrder –D mapreduce.job.reduces=4 input/ncdc/all –seq outout -totalsort

参考文献

https://www.cnblogs.com/xiaoyh/p/9322244.html

自己开发了一个股票智能分析软件，功能很强大，需要的点击下面的链接获取：

https://www.cnblogs.com/bclshuai/p/11380657.html

leetcode501-二叉搜索树中的众数记得早睡~ 算法小课堂 leetcode 算法 javascript 数据结构
leetcode501思路由于是二叉搜索树，那么我们知道它的特性：使用中序遍历得到的是从小到大排序的，所以我们利用这个规则，使用count来统计每次出现一个新的数的总个数，maxCount统计最大的个数值，result来存储二叉树中的众数，也就是要得到的结果值，pre用于统计前一个节点值初始化定义好值以后，我们需要使用中序遍历，中间处理逻辑值当pre还不存在的时候或者前一个节点跟后一个节点不相同时
在线视频创作平台（Vidnami） deepdata_cn 视频生成视频剪辑视频创作
Vidnami是一款功能强大的在线视频创作平台，前身为ContentSamurai，于2015年推出，2020年更名为Vidnami。它运用人工智能技术，能够分析输入的文本，自动从大量素材中选取合适的图像和视频片段，将文字快速转化为具有专业外观的视频，无需用户具备视频编辑经验。该平台提供多种视频模板、全主题定制功能以及内置的免版权媒体库，包括3000万张图片和3万首音乐，还支持自动配音，用户可以录
基于图像比对的跨平台UI一致性校验工具开发全流程指南——Android/iOS/Web三端自动化测试实战追寻向上 ui android ios
一、需求背景与方案概述1.1为什么需要跨平台UI校验？在移动互联网时代，同一产品需覆盖Android、iOS和Web三端。由于不同平台的开发框架（如Android的MaterialDesign与iOS的Cupertino风格）及渲染引擎差异，UI界面易出现以下问题：布局错位：按钮位置偏移、文本换行不一致视觉差异：颜色色差、字体粗细不同交互逻辑冲突：滑动方向、弹窗动画不一致传统人工测试效率低且易遗漏
2023年中职网络安全——SQL注入测试（PL）解析旺仔Sec 网络安全职业技能大赛任务解析服务器运维 web安全 sql 网路安全
SQL注入测试（PL）任务环境说明：服务器场景：Server2312服务器场景操作系统：未知（关闭链接）已知靶机存在网站系统，使用Nmap工具扫描靶机端口，并将网站服务的端口号作为Flag（形式：Flag字符串）值提交。访问网站/admin/pinglun.asp页面，此页面存在SQL注入漏洞，使用排序语句进行列数猜测，将语句作为Flag（形式：URL无空格）值提交。页面没有返回任何有用信息，尝试
《算法笔记》9.4小节——数据结构专题(2)-＞二叉查找树（BST）问题 A: 二叉排序树圣保罗的大教堂《算法笔记》算法
题目描述输入一系列整数，建立二叉排序数，并进行前序，中序，后序遍历。输入输入第一行包括一个整数n(1#include#include#include#include#include#include#include#include#include#include#include#include#include#defineINF0x3f3f3f3f#definedb1(x)coutleft);Fre
TDE透明加密技术：免改造实现华为云ECS中数据库和文件加密存储安当加密华为云数据库
在数字经济与云计算深度融合的今天，华为云ECS（弹性云服务器）已成为企业数字化转型的核心载体，承载着数据库、文件存储、AI训练等关键业务。然而，云上数据安全形势日益严峻：2024年全球云环境勒索攻击同比激增210%，密钥泄露、权限失控、合规失效成为企业上云的三大痛点。作为国内数据安全领域的领军者，上海安当推出的TDE透明加密技术，以“存储层无感加密、密钥全生命周期管理、动态防勒索”为核心，为华为云
DeepSeek智能政务大脑：城市服务知识库构建全指南——从RAG架构到民生场景落地实践 Coderabo DeepSeek R1模型企业级应用政务架构
DeepSeek赋能城市智慧升级：基于RAG架构的市民服务智能知识库构建全解一、需求分析与技术选型1.1市民服务场景需求市民服务智能知识库需要解决政务咨询效率低下、专业术语难理解、多轮对话能力弱等核心问题。系统需具备：自然语言理解能力（NLU）异构知识整合能力政策法规精准解读能力多轮对话上下文管理应急服务联动机制1.2DeepSeek技术栈选择基于DeepSeek-Large语言模型构建核心系统，
AI 原生 IDE Trae 深度体验：SSHremote 功能如何重新定义远程开发与云原生部署芯作者 DD：日记人工智能
一、引言：AI原生IDE的革新意义在AI技术全面渗透软件开发的今天，编程工具正从“辅助工具”向“智能协作伙伴”转变。字节跳动推出的Trae（国内首个AI原生IDE）以其独特的Builder模式、自然语言编程和SSHremote功能，不仅重新定义了开发流程，更将远程开发与云原生部署的效率提升至新高度。本文将从实际体验出发，深度解析Trae如何通过SSHremote功能实现“开发-调试-部署”全链路的
linux find 命令超全完整指南疑犯 linux 服务器 find命令
linuxfind命令超全完整指南一、基础语法与工作逻辑find[起始路径][表达式][操作]起始路径：指定搜索根目录，默认为当前目录.。支持多路径（如find/etc/var）表达式：定义搜索条件（如文件名、类型、时间等）。操作：对匹配文件执行命令（如删除、压缩等）。二、核心查找条件详解1.按名称查找精确匹配：-name"文件名"find/home-name"example.txt"#精确查找文
力扣算法Hot100——75. 颜色分类飞奔的马里奥算法 leetcode java
解法1：当然可以冒泡排序，时间复杂度O(n2n^2n2)解法2：单指针循环两次，第一次循环将所有的0交换到前面；第二次循环将所有的1交换到0的后面classSolution{publicvoidsortColorsBySinglePointer(int[]nums){intzeroCnt=0,p=0;for(inti=0;i
详解小程序多端框架全面测评前端可乐老师前端
现在流行的多端框架可以大致分为三类：1.全包型这类框架最大的特点就是从底层的渲染引擎、布局引擎，到中层的DSL，再到上层的框架全部由自己开发，代表框架是Qt和Flutter。这类框架优点非常明显：性能（的上限）高；各平台渲染结果一致。缺点也非常明显：需要完全重新学习DSL（QML/Dart），以及难以适配中国特色的端：小程序。这类框架是最原始也是最纯正的的多端开发框架，由于底层到上层每个环节都掌握
理解并使用基于n-gram重叠的示例选择器 shuoac easyui 前端 javascript python
在AI及自然语言处理任务中，选择与输入最相似的示例可以显著提升生成的质量和上下文相关性。本文将介绍如何使用NGramOverlapExampleSelector工具，通过n-gram重叠来筛选和排序示例，从而帮助实现这一目标。技术背景介绍n-gram重叠技术通过比较输入文本与示例文本在字符或词组上的相似度，计算一个介于0到1之间的分数来表示相似度。这个分数越高，表示文本间的重叠越大。NGramOv
决策树算法全解析：从零基础到Titanic实战，一文搞定机器学习经典模型吴师兄大模型 0基础实现机器学习入门到精通算法机器学习决策树人工智能深度学习编程开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
pandas 读取某一单元格的值_07-Pandas Excel新建/读取/填充（一）扇贝编程 pandas 读取某一单元格的值
Excel是微软的经典之作，几乎可以满足我们日常工作的所有需求，但是在处理海量数据时，Excel在效率及性能方面就显得很吃力。正因为Pandas在数据处理方面有着独特的优势，所有掌握pandas库处理excel格式的数据就显得十分必要。目录excel文档新建读取excel文档行列操作空值自动填充行列函数运算excel数据排序excel数据按条件筛选#1.创建excel文件在jupyter中导入pa
正则表达式全解程序喵；正则表达式 mysql 数据库 python java
Regexregularexpressions先理解什么是正则表达式,有什么用途理解:是表达一类串的抽象模式的串,来匹配字符串中符合模式的子串人话:举例,例如abc9,abcd9,a&*&%*()9,这三个字符串有相同的模式(人话来说就是他们有共同点):都以a开头,9结尾.正则表达式就能用来表示这种以a开头,9结尾的模式(共同点),来匹配这一类字符串.a开头,9结尾的模式用正则表达式表示就是:a.
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
LeetCode56☞合并区间 fantasy_4 LeetCode刷题 leetcode python java 算法贪心算法
关联LeetCode题号56本题特点贪心本题思路将二维数组排序按照左边界排序。排序后，右边界的大小成为找到局部最大值的关键。由题意合并区间可知，应该取数组的’并集‘，局部最优解推出全局最优解，每次找到局部最大的范围，整体就会合并成一个大区间Python写法defmerge(self,intervals):result=[]iflen(intervals)==0:returnresult#区间集合为
Pandas完全指南：数据处理与分析从入门到实战 xiaoyu❅ python python pandas 开发语言
目录引言一、Pandas环境配置与核心概念1.1安装Pandas1.2导入惯例1.3核心数据结构二、数据结构详解2.1Series创建与操作2.2DataFrame创建三、数据查看与基本操作3.1数据预览3.2索引与选择3.3数据排序四、数据清洗实战4.1处理缺失值4.2处理重复值4.3数据类型转换4.4字符串处理五、数据处理进阶5.1数据筛选5.2列操作5.3应用函数六、数据分组与聚合6.1基础
Tsfresh + TA-Lib + LightGBM ：A 股市场量化投资策略实战入门船长@Quant Python 金融科技 python tsfresh TA-Lib LightGBM 量化技术策略开发
Tsfresh+TA-Lib+LightGBM：A股市场量化投资策略实战入门本项目以A股市场为研究对象，通过量化技术对市场数据进行分析，构建量化投资策略，并利用历史数据回测验证策略的有效性。项目旨在为量化技术初学者提供一个系统的学习框架，帮助读者掌握从数据获取到策略评估的全流程操作。文中内容仅限技术学习与代码实践参考，市场存在不确定性，技术分析需谨慎验证，不构成任何投资建议。适合量化新手建立系统认
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
路由器的配置命令 yinyaoqi 路由器 interface cisco ios network 网络
路由命令十全大补router>enable从用户模式进入特权模式router#disableorexit从特权模式退出到用户模式router#showsessions查看本机上的TELNET会话router#disconnect关闭所有的TELNET会话router#showusers查看本机上的用户router#erasestartup-config删除NVRAM中的配置router#reloa
实现音视频播放功能鸿蒙示例代码
本文原创发布在华为开发者社区。介绍本示例基于Avplayer构建了一个音视频播放器，包括音视频的播放、暂停、全屏播放、倍速播放、快进等基本操作。实现音视频播放功能源码链接效果预览使用说明打开应用，展示视频播放器，选择不同按钮进行不同操作。切换音频，展示音频播放器，选择不同按钮进行不同操作。实现思路AVPlayer播放主流程播放的全流程包含：创建AVPlayer，设置播放资源，设置播放参数（音量/倍
按照时间排序的分布式游标分页像云~ 记录分布式
背景最近有这么一个需求，就是在分页查询的时候，需要返回最近的pagesize条记录，即按照时间倒序的近pagesize条记录。有两个问题：一个就是这些记录来自于不同的存储位置，不能通过一次查询统一排序取数据，而需要分开查询读入，再汇总统一排序另一个就是在进行分页的时候，要保证当前页数据与上一页的连贯性，有点类似刷短视频的瀑布流。即分页查询是统一的，而数据存储是分布式的。方案由于是在高并发的场景下，
Websoft9 开源软件实操平台：快速积累企业级软件技能，深入理解真实业务场景开源创业
引言：打破“纸上谈兵”的实训困境当前高校技术教育普遍面临一个矛盾：学生对开源工具的理论知识掌握充分，但在真实业务场景中常因环境配置复杂、工具链割裂而难以落地。例如，部署一套完整的电商系统需协调数据库、服务器、安全策略等多环节，传统虚拟机环境难以模拟企业级复杂度。Websoft9作为开源软件自动化部署工具，通过预集成200+企业级应用模板（如GitLab、Odoo、Jenkins）和全流程管理能力，
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算【超级详细版】 AI筑梦师计算机视觉算法深度学习人工智能机器学习计算机视觉 python
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算1.引言1.1研究背景在计算机视觉、模式识别、医学影像分析和自动驾驶等领域，形状匹配是核心任务之一。然而，现实世界的形状往往存在可变性（Variability），主要体现在以下几个方面：形变（Deformation）：物体可能由于柔性材料、外力作用或生物运动发生非刚性形变。尺度变化（ScaleVariation）：目标形状在不同场景下可能大
vue2实现表格拖拽功能。整列的数据可以随意拖拽排序，但是行的拖拽只影响当前列火炬冬天 vue.js javascript elementui
概述本文介绍基于Vue2实现的表格组件，支持以下核心功能：列拖拽排序（整列位置交换）行拖拽排序（每列内部独立排序）自适应列宽与内容溢出提示可视化拖拽反馈效果数据与视图的自动同步功能演示源码分享{{column.label}}-->⠿{{data[rowIndex][column.prop]}}importdraggablefrom'vuedraggable';exportdefault{compo
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。

9.2.2 hadoop全排序实例详解

1.1.1 全排序

你可能感兴趣的:(9.2.2 hadoop全排序实例详解)