MapTask阶段shuffle源码分析

1. 收集阶段

在Mapper中，调用context.write(key,value)实际是调用代理NewOutPutCollector的wirte方法

public void write(KEYOUT key, VALUEOUT value
          ) throws IOException, InterruptedException {
  output.write(key, value);
 }

实际调用的是MapOutPutBuffer的collect（），在进行收集前，调用partitioner来计算每个key-value的分区号

@Override
  public void write(K key, V value) throws IOException, InterruptedException {
   collector.collect(key, value,
            partitioner.getPartition(key, value, partitions));
  }

2. NewOutPutCollector对象的创建

@SuppressWarnings("unchecked")
  NewOutputCollector(org.apache.hadoop.mapreduce.JobContext jobContext,
            JobConf job,
            TaskUmbilicalProtocol umbilical,
            TaskReporter reporter
            ) throws IOException, ClassNotFoundException {
  // 创建实际用来收集key-value的缓存区对象
   collector = createSortingCollector(job, reporter);
  // 获取总的分区个数
   partitions = jobContext.getNumReduceTasks();
   if (partitions > 1) {
    partitioner = (org.apache.hadoop.mapreduce.Partitioner)
     ReflectionUtils.newInstance(jobContext.getPartitionerClass(), job);
   } else {
    // 默认情况，直接创建一个匿名内部类，所有的key-value都分配到0号分区
    partitioner = new org.apache.hadoop.mapreduce.Partitioner() {
     @Override
     public int getPartition(K key, V value, int numPartitions) {
      return partitions - 1;
     }
    };
   }
  }

3. 创建环形缓冲区对象

@SuppressWarnings("unchecked")
 private  MapOutputCollector
     createSortingCollector(JobConf job, TaskReporter reporter)
  throws IOException, ClassNotFoundException {
  MapOutputCollector.Context context =
   new MapOutputCollector.Context(this, job, reporter);
  // 从当前Job的配置中，获取mapreduce.job.map.output.collector.class，如果没有设置，使用MapOutputBuffer.class
  Class[] collectorClasses = job.getClasses(
   JobContext.MAP_OUTPUT_COLLECTOR_CLASS_ATTR, MapOutputBuffer.class);
  int remainingCollectors = collectorClasses.length;
  Exception lastException = null;
  for (Class clazz : collectorClasses) {
   try {
    if (!MapOutputCollector.class.isAssignableFrom(clazz)) {
     throw new IOException("Invalid output collector class: " + clazz.getName() +
      " (does not implement MapOutputCollector)");
    }
    Class subclazz =
     clazz.asSubclass(MapOutputCollector.class);
    LOG.debug("Trying map output collector class: " + subclazz.getName());
   // 创建缓冲区对象
    MapOutputCollector collector =
     ReflectionUtils.newInstance(subclazz, job);
   // 创建完缓冲区对象后，执行初始化
    collector.init(context);
    LOG.info("Map output collector class = " + collector.getClass().getName());
    return collector;
   } catch (Exception e) {
    String msg = "Unable to initialize MapOutputCollector " + clazz.getName();
    if (--remainingCollectors > 0) {
     msg += " (" + remainingCollectors + " more collector(s) to try)";
    }
    lastException = e;
    LOG.warn(msg, e);
   }
  }
  throw new IOException("Initialization of all the collectors failed. " +
   "Error in last collector was :" + lastException.getMessage(), lastException);
 }

3. MapOutPutBuffer的初始化环形缓冲区对象

@SuppressWarnings("unchecked")
  public void init(MapOutputCollector.Context context
          ) throws IOException, ClassNotFoundException {
   job = context.getJobConf();
   reporter = context.getReporter();
   mapTask = context.getMapTask();
   mapOutputFile = mapTask.getMapOutputFile();
   sortPhase = mapTask.getSortPhase();
   spilledRecordsCounter = reporter.getCounter(TaskCounter.SPILLED_RECORDS);
   // 获取分区总个数，取决于ReduceTask的数量
   partitions = job.getNumReduceTasks();
   rfs = ((LocalFileSystem)FileSystem.getLocal(job)).getRaw();
   //sanity checks
   // 从当前配置中，获取mapreduce.map.sort.spill.percent，如果没有设置，就是0.8
   final float spillper =
    job.getFloat(JobContext.MAP_SORT_SPILL_PERCENT, (float)0.8);
   // 获取mapreduce.task.io.sort.mb，如果没设置，就是100MB
   final int sortmb = job.getInt(JobContext.IO_SORT_MB, 100);
   indexCacheMemoryLimit = job.getInt(JobContext.INDEX_CACHE_MEMORY_LIMIT,
                     INDEX_CACHE_MEMORY_LIMIT_DEFAULT);
   if (spillper > (float)1.0 || spillper <= (float)0.0) {
    throw new IOException("Invalid \"" + JobContext.MAP_SORT_SPILL_PERCENT +
      "\": " + spillper);
   }
   if ((sortmb & 0x7FF) != sortmb) {
    throw new IOException(
      "Invalid \"" + JobContext.IO_SORT_MB + "\": " + sortmb);
   }
// 在溢写前，对key-value排序，采用的排序器，使用快速排序，只排索引
   sorter = ReflectionUtils.newInstance(job.getClass("map.sort.class",
      QuickSort.class, IndexedSorter.class), job);
   // buffers and accounting
   int maxMemUsage = sortmb << 20;
   maxMemUsage -= maxMemUsage % METASIZE;
   // 存放key-value
   kvbuffer = new byte[maxMemUsage];
   bufvoid = kvbuffer.length;
  // 存储key-value的属性信息，分区号，索引等
   kvmeta = ByteBuffer.wrap(kvbuffer)
     .order(ByteOrder.nativeOrder())
     .asIntBuffer();
   setEquator(0);
   bufstart = bufend = bufindex = equator;
   kvstart = kvend = kvindex;
   maxRec = kvmeta.capacity() / NMETA;
   softLimit = (int)(kvbuffer.length * spillper);
   bufferRemaining = softLimit;
   LOG.info(JobContext.IO_SORT_MB + ": " + sortmb);
   LOG.info("soft limit at " + softLimit);
   LOG.info("bufstart = " + bufstart + "; bufvoid = " + bufvoid);
   LOG.info("kvstart = " + kvstart + "; length = " + maxRec);
   // k/v serialization
    // 获取快速排序的Key的比较器，排序只按照key进行排序！
   comparator = job.getOutputKeyComparator();
  // 获取key-value的序列化器
   keyClass = (Class)job.getMapOutputKeyClass();
   valClass = (Class)job.getMapOutputValueClass();
   serializationFactory = new SerializationFactory(job);
   keySerializer = serializationFactory.getSerializer(keyClass);
   keySerializer.open(bb);
   valSerializer = serializationFactory.getSerializer(valClass);
   valSerializer.open(bb);
   // output counters
   mapOutputByteCounter = reporter.getCounter(TaskCounter.MAP_OUTPUT_BYTES);
   mapOutputRecordCounter =
    reporter.getCounter(TaskCounter.MAP_OUTPUT_RECORDS);
   fileOutputByteCounter = reporter
     .getCounter(TaskCounter.MAP_OUTPUT_MATERIALIZED_BYTES);
   // 溢写到磁盘，可以使用一个压缩格式！ 获取指定的压缩编解码器
   // compression
   if (job.getCompressMapOutput()) {
    Class codecClass =
     job.getMapOutputCompressorClass(DefaultCodec.class);
    codec = ReflectionUtils.newInstance(codecClass, job);
   } else {
    codec = null;
   }
   // 获取Combiner组件
   // combiner
   final Counters.Counter combineInputCounter =
    reporter.getCounter(TaskCounter.COMBINE_INPUT_RECORDS);
   combinerRunner = CombinerRunner.create(job, getTaskID(),
                       combineInputCounter,
                       reporter, null);
   if (combinerRunner != null) {
    final Counters.Counter combineOutputCounter =
     reporter.getCounter(TaskCounter.COMBINE_OUTPUT_RECORDS);
    combineCollector= new CombineOutputCollector(combineOutputCounter, reporter, job);
   } else {
    combineCollector = null;
   }
   spillInProgress = false;
   minSpillsForCombine = job.getInt(JobContext.MAP_COMBINE_MIN_SPILLS, 3);
   // 设置溢写线程在后台运行，溢写是在后台运行另外一个溢写线程！和收集是两个线程！
   spillThread.setDaemon(true);
   spillThread.setName("SpillThread");
   spillLock.lock();
   try {
   // 启动线程
    spillThread.start();
    while (!spillThreadRunning) {
     spillDone.await();
    }
   } catch (InterruptedException e) {
    throw new IOException("Spill thread failed to initialize", e);
   } finally {
    spillLock.unlock();
   }
   if (sortSpillException != null) {
    throw new IOException("Spill thread failed to initialize",
      sortSpillException);
   }
  }

4. Paritionner的获取

从配置中读取mapreduce.job.partitioner.class，如果没有指定，采用HashPartitioner.class

如果reduceTask > 1，还没有设置分区组件，使用HashPartitioner

@SuppressWarnings("unchecked")
 public Class> getPartitionerClass()
   throws ClassNotFoundException {
  return (Class>)
   conf.getClass(PARTITIONER_CLASS_ATTR, HashPartitioner.class);
 }

public class HashPartitioner extends Partitioner {
 /** Use {@link Object#hashCode()} to partition. **/
 public int getPartition(K key, V value,
             int numReduceTasks) {
  return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
 }
}

分区号的限制：0 <= 分区号 < 总的分区数(reduceTask的个数)

if (partition < 0 || partition >= partitions) {
    throw new IOException("Illegal partition for " + key + " (" +
      partition + ")");
   }

5.MapTask shuffle的流程

①在map()调用context.write()

②调用MapoutPutBuffer的collect()

调用分区组件Partitionner计算当前这组key-value的分区号

③将当前key-value收集到MapOutPutBuffer中

如果超过溢写的阀值，在后台启动溢写线程，来进行溢写！

④溢写前，先根据分区号，将相同分区号的key-value，采用快速排序算法，进行排序！

排序并不在内存中移动key-value，而是记录排序后key-value的有序索引！

⑤ 开始溢写，按照排序后有序的索引，将文件写入到一个临时的溢写文件中

如果没有定义Combiner，直接溢写！
如果定义了Combiner，使用CombinerRunner.conbine（）对key-value处理后再次溢写！

⑥多次溢写后，每次溢写都会产生一个临时文件

⑦最后，执行一次flush()，将剩余的key-value进行溢写

⑧MergeParts: 将多次溢写的结果，保存为一个总的文件！

在合并为一个总的文件前，会执行归并排序，保证合并后的文件，各个分区也是有序的！
如果定义了Conbiner，Conbiner会再次运行（前提是溢写的文件个数大于3）！
否则，就直接溢写！

⑨最终保证生成一个最终的文件，这个文件根据总区号，分为若干部分，每个部分的key-value都已经排好序，等待ReduceTask来拷贝相应分区的数据

6. Combiner

combiner其实就是Reducer类型：

Class> cls =
    (Class>) job.getCombinerClass();

Combiner的运行时机：

MapTask：

①每次溢写前，如果指定了Combiner，会运行
②将多个溢写片段，进行合并为一个最终的文件时，也会运行Combiner，前提是片段数>=3

ReduceTask:

③reduceTask在运行时，需要启动shuffle进程拷贝MapTask产生的数据！

数据在copy后，进入shuffle工作的内存，在内存中进行merge和sort！
数据过多，内部不够，将部分数据溢写在磁盘！
如果有溢写的过程，那么combiner会再次运行！

①一定会运行，②，③需要条件！

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对脚本之家的支持。如果你想了解更多相关内容请查看下面相关链接

RAG 助力教育个性化：重塑学习体验的科技引擎 hy098543 学习科技
一、引言1.1研究背景与动机随着自然语言处理（NLP）技术的飞速发展，大语言模型（LLM）在众多任务中展现出了强大的能力，如文本生成、问答系统和机器翻译等。然而，传统的大语言模型在知识存储和更新方面存在一定的局限性。一方面，模型的知识主要依赖于预训练阶段所接触的数据，这导致其知识更新滞后，难以应对快速变化的现实世界信息。例如，对于一些新出现的事件、技术或研究成果，模型可能无法及时给出准确的信息。另
畸形的爱2023-07-20 敬夜里的百合
昨晚陪他搬家，陪他同事喝酒吃饭我买单，而他却是对我只有甜言蜜语，我只有一遍忍受各自家庭的痛苦，还需要忍受他的各种没心没肺。突然感觉到很累，不愿意过这种生活了，只想一个人过，一个人生活。我想找个地方，一个人静静地待上一阶段，太累了。我心情不好，说不吃，他就没有做早餐，自己喝了牛奶吃了香蕉，给我什么也没有给吃。现在浑身发酸没有力气，不想自己去吃饭，想把自己虐待的到晕倒，到自己不省人事乱，烦，。。。。
髋关节控制器 - OpenExo 強云 OpenExo OpenExo
髋关节控制器FranksCollinsHipController简介Parameters补充说明ProportionalHipMomentController简介Parameters补充说明FranksCollinsHipController简介FranksCollinsHipController通过一系列分段spline曲线（包括伸展和屈曲两个阶段），为髋关节提供助力。它基于步态百分比进行控制，
关于avif和heic图片格式的对比 huluang 视频编解码
前言：avif最新的图片格式，基于av1heic苹果独家格式，基于H.265由于特殊原因需要对两种格式进行选优，现阶段通过特定软件发现heic比avif在最终体积和转换速度上拥有不可比拟的优势，具体如下：raw原图：无损转换速度对比可以看到heic速度快，当转换图片数量多时，这个差距就非常明显了。avif格式444，10速度转换如下图：heic格式100%转换如下图：体积对比经过对比avif比he
0711易效能践行检视2019 秋天的盛开
石柱扶贫出差第四天，因为新工作项目特性初级阶段，所以有关工作计划都是一周为单位，但是要事都提前安排，效率有保障。白天扶贫现场指导完成产品，今天新产品改良成功，特别高兴。下班就是回归大自然，与儿子一起体验乡村生活，今天他开始结交朋友，特别高兴看到他这样的成长和适应环境的过程。这样的一天，是我喜欢的人生模式，工作生活都是良性的循环，有自己的爱好，价值，意义。与身边的人，达到和谐共生，距离刚刚好，彼此互
郑州一模答案你的光芒
语文试题答案1.(3分）shàn覆赋（每字1分，共3分）2.(5分）示例：辩论共四个环节（1分）；立论阶段由双方的一辩正面论述己方观点：（1分）攻辩阶段由双方二辩提出质疑并回答对方提问：（1分）然后自由辩论，双方辩手可轮流发言，强调己方观点的同时进行反驳；（1分）最后总结陈词，双方三简总结。每一环节均不超过3分钟。（1分）3.(8分）①人生自古谁无死②留取丹心照汗青③苦将依强派作蛾眉④长风破浪会有
GPU 之后，IMU 登场：AI 发展的下一次飞跃
你早晨醒来，手机上的大模型帮你写完邮件、翻译合同，却依旧不能帮你把厨房里洒掉的牛奶擦干。你戴上的AR眼镜知道“那里有杯子”，却抓不到它——AI会说不会做。是不是哪里少了一截？人工智能（AI）的发展历程中，我们见证了从简单的数据处理到复杂的语言生成能力的飞跃。然而，尽管AI在虚拟世界中表现出色，它在物理世界中的表现却相对滞后。为了填补这一空白，AI正在进入一个新的发展阶段：行动驱动时代。在本文中，我
以太坊正处于漫长而复杂的过渡阶段！合并在即？短期痛苦为长期收益做准备！链科天下
目前，以太坊正处于“漫长而复杂的过渡”阶段，使其成为更强大的网络是“深度变革”的原因。在昨天法国举行的以太坊社区会议上，以太坊联合创始人VitalikButerin（V神）分享了以太坊的未来计划和愿景。V神将以太坊升级分为合并、激增、边缘和清除四个阶段。“合并”只是一系列计划升级中的第一部分，而激增、边缘和清除阶段实际上是以太坊扩展、清理和进化的关键部分，预计以太坊合并仅完成升级计划的55%。事实
python学习路线（从菜鸟到起飞）突突突然不会编了 python 学习开发语言
以下是基于2025年最新技术趋势的Python学习路线，综合多个权威资源整理而成，涵盖从零基础到进阶应用的全流程，适合不同学习目标（如Web开发、数据分析、人工智能等）的学习者。路线分为基础、进阶、实战、高级、方向拓展五个阶段，并附学习资源推荐：一、基础阶段（1-2个月）目标：掌握Python核心语法与编程思维，熟悉开发环境。环境搭建安装Python3.10+，配置PyCharm或VSCode开发
上清剑法：续篇 Yuner2000 现代哲学学习生活
目录第一篇总论篇斗姆元君与度母密教源流密教三身佛观念在斗姆体系中的映现剑法密宗双修体系概览实相斗姆·羯磨斗姆·摧魔斗姆三本尊体系第二篇次第篇1.四部次第概说事部（摧魔阶段）：剑诀、护坛剑阵、藏形术行部（羯磨阶段）：剑气导脉、阵法护身、伏魔剑阵瑜伽部（羯磨后期）：剑气周天、虚空护坛、剑气藏形无上部（实相阶段）：剑空双运、剑阵化虚、虚空法界护坛2.第一阶段：摧魔斗姆修炼次第主尊：摧魔斗姆（化身修行成就
只有在独处时还能做到持续自律的人，才是人生舞台上真正的狠角色读书的羽丛
人这一生，无论在哪个阶段，大概都会遇到一些关于个人成长或者是职场方面的问题，这些来自生活磨砺或职场打拼中的问题，心中的各种情绪，掺杂在与生活无穷无尽琐碎的斗争中，我们该如何安顿自己的内心，找到前进的方向与力量？如果我们知道有一些人，和我们在同样的处境、面临相同的遭遇与问题，如果我们知道，他们是如何面对与处理的，我们的内心会不会平静许多，会不会就不再那样焦虑？网络上的鸡汤文太多，励志话语我们也看了不
2023-05-16 莫忘小寒
当你发泄的方式再也不是换头像，改签名，发朋友圈，找朋友倾诉，而是静一静，吹吹风，发发呆，那么恭喜你，你成长了，只是成长的过程有点艰难甚至有点痛苦。2、读那么多书干什么呢?就是为了在要紧关头，我们有选择的自由和底气，对于我们不喜欢的人和事，我们站起来就走，无谓纠缠。3、总有一天你会明白:任何关系到最后只是相识一场，大家也都是阶段性的陪伴，那些你放不下的人和事到最后岁月都会替你去轻描淡写。这个世界上从
2023-11-08 低代码云MES
万界星空科技半导体MES应用工艺流程：半导体制造涉及多个工艺步骤，包括晶圆制备、沉积、刻蚀、离子注入、扩散、封装等。MES系统可以在每个工艺步骤中发挥关键作用。01、晶圆制备在晶圆制备阶段，MES系统可以监测晶圆的生产状态，记录晶圆的特性参数，并确保按照计划进行。02、刻蚀和沉积刻蚀和沉积是半导体制造中的关键步骤，要求高度精密的控制。MES系统可以监控刻蚀和沉积过程，确保薄膜的均匀性和厚度。03、
我在成长的哪个阶段一方悠然
在我们的改变旅程中，我们能够发现自己的成长与变化并且信任这种变化确实在发生,本身就是一种成长。为什么我们对于自己是否得到了成长如此不确定,因为我们可能缺乏一把衡量的尺子。这把尺子是《非暴力沟通》这本书给出的,而这把尺子其实与我在航线中的工作体验很匹配，所以今天我们用这把尺子来量一量现在的自己在哪里。个人成长一般会经历三个阶段:(1)情感的奴隶——我们认为自己有义务使他人快乐，如果别人不高兴，我们就
《Spring Bean生命周期全景图解：从实例化到销毁》没有bug.的程序员 Spring全家桶实战精通系列 spring java 后端 Spring生命周期源码解析 Java后端实战 IOC容器
SpringBean生命周期全景图解：从实例化到销毁文章目录SpringBean生命周期全景图解：从实例化到销毁一、引言：为什么需要理解Bean生命周期？二、SpringBean生命周期全景图三、生命周期阶段详解与源码剖析1️⃣实例化阶段：instantiateBean2️⃣依赖注入阶段：populateBean3️⃣初始化阶段：initializeBean✅执行Aware接口✅调用BeanPos
c++自学日记 day11 清风0407 c++开发语言
1、多态：多态的基本概念多态是C++面向对象三大特性之一多态分为两类静态多态:函数重载和运算符重载属于静态多态，复用函数名动态多态:派生类和虚函数实现运行时多态静态多态和动态多态区别：静态多态的函数地址早绑定-编译阶段确定函数地址动态多态的函数地址晚绑定-运行阶段确定函数地址总结：多态满足条件有继承关系子类重写父类中的虚函数多态使用条件父类指针或引用指向子类对象重写：函数返回值类型函数名参数列表完
还未进入第三阶段解封啊琳sheryl
到超市买完东西回家时，经过附近的咖啡店。发现今天的咖啡店好像特别热闹，一眼望去，就看到每张桌子围着七，八个人在吃喝聊天。不是说阻断期第三阶段解封最早也要今年底吗?住家外的聚会人数和家中访客人数均目前还是限制在五人啊。还未进入第三阶段解封期，可是这些人已"雀跃万分"，自己"提前"放宽聚会人数了?!等出问题后才来后悔莫及，怨天尤人，责怪他人，唉!
2022-08-05日学录当年观棋
月的最后一天，睡了很长的时间。外面的天气是燥热的，在宿舍的房间里有一丝微凉。实验说到底来说还是想法的验证，但在远远超出自己知识和能力范围的假设，自己也奈何估算不出来。对一些高级仪器的使用还在处于一个基本的阶段。后续在研二的这个阶段，要全身心投入到毕业论文的内容撰写之中去。其实想法有很多，但是真正估计出来可以做的其实也就一两个。这就最终决定了自己毕业论文的宽度。哈哈哈哈哈哈哈哈哈哈
Flutter（二十三）编译模式 AlanGe
Flutter编译模式在Android和iOS中，应用程序运行分为debug和release模式，分别对应调试阶段和发布阶段；在Flutter中，应用程序分为以下三种模式1.debug2.profile3.release下面我们就聊一下三种模式的区别和应用；一.Flutter编译模式1.1.debug模式在Debug模式下，app可以被安装在真机、模拟器、仿真器上进行调试。Debug模式有如下特点
YOLO 目标检测的改进方法
YOLO目标检测的改进方法可以从模型架构、训练策略、损失函数等多个方面入手，以下是一些常见的改进方法方向及参考文献：模型架构改进骨干网络替换：使用更轻量或更强大的网络替换原始骨干网络。轻量级网络如MobileNetV3、ShuffleNetV2等适合移动端部署，可提高推理速度；高性能网络如ConvNeXt、SwinTransformer等能提取更丰富的语义特征，提升检测精度。还可添加CBAM、SE
【第17章】亿级电商订单系统架构设计-概要设计 cherry5230 亿级流量架构设计与落地系统架构架构分布式中间件
1-1本章导学课程概述核心内容：从粗到精细化系统架构设计项目案例：年交易额200亿的B2B电商平台订单系统学习路径1.高层架构设计细化阶段分为两个核心部分：概要设计（本章重点）详细设计2.本章学习目标(1)概要设计方法论理解设计阶段的核心任务掌握具体实施方法建立设计思想指导体系(2)项目实践应用项目工程架构搭建环境配置规范组件关系梳理客户端->网关层->业务层->数据层(3)基础框架构建工程结构初
《自动驾驶汽车致损的民事侵权责任》（三）刘东利2020
由此，回到道路交通责任的框架下：由于绝大多数交通事故都源于驾驶员的某种程度上的过错，因而驾驶过失是驾驶员承担机动车道路交通事故损害赔偿责任的责任基础。虽然从原则上看这是成立的，但是却没有照顾到以下两个方面对于该原则的突破。这是在人类驾驶汽车，也就是L0-L2阶段仍然试用的原则。具体到事故场景，又分为：一是，关于机动车驾驶员的责任原则，立法例中存在从过错责任到无过错责任的各种变化。我国《道路交通安全
PD分离技术分析老兵发新帖人工智能
PD分离中的“PD”指的是大语言模型（LLM）推理过程中的两个核心阶段：Prefill（预填充）和Decode（解码）。这两个阶段在计算特性和资源需求上存在显著差异，分离部署可优化整体性能。以下是详细解析：一、PD的具体含义Prefill（预填充阶段）任务：处理用户输入的整个提示（Prompt），为所有Token生成初始的键值缓存（KVCache）和隐藏状态（HiddenStates）。特性：计算
大模型训练中的“训练阶段”（如Pre-training、SFT、RLHF等）与“微调技术” 老兵发新帖人工智能深度学习机器学习
大模型训练中的“训练阶段”（如Pre-training、SFT、RLHF等）与“微调技术”（如Full-tuning、Freeze-tuning、LoRA、QLoRA）是两类不同维度的概念，二者共同构成模型优化的完整流程。以下是二者的关系解析及技术对照：一、训练阶段的核心流程与目标预训练（Pre-training）目标：在无标注通用数据（如互联网文本）上训练模型，学习语言、视觉等通用特征。微调技术
快手开源 Kwaipilot-AutoThink 思考模型，有效解决过度思考问题
新闻在专为防止数据泄露设计的挑战性基准测试LiveCodeBenchPro中，Kwaipilot-AutoThink位列所有开源模型榜首，甚至超越了Seed和o3-mini等强大的专有系统。介绍KAT(Kwaipilot-AutoThink)是一个开源大语言模型，通过学习何时生成显式思维链及何时直接作答，有效缓解过度思考问题。它的发展遵循简洁的两阶段训练流程：阶段核心思想关键技术成果1.预训练阶段
2020.05.23《毛泽东选集》持久战的三个阶段聂贝贝
持久战的三个阶段中日战争是持久战，具体表现在三个阶段之中，第一个阶段是敌之战略进攻，我之战略防御的时期，我方的战争形式以运动战为主，以游击战和阵地战辅助。第二个阶段是敌之战略保守，我之准备反攻的时期，我方的战争形式以游击战为主，以运动战辅助。第三个阶段是我之战略反攻，敌之战略退却的时期，我方的战争形式以运动战为主，阵地战也将提到重要地位。在第一阶段，中国的劣势更为严重，土地人口，经济力量，军事力量
2023-09-15 3874c7d085f5
邵杰工作日志9.15兴趣是最好的老师。要让学生积极、主动地学习，最有效的方法就是让学生对所学内容产生浓厚的兴趣。心理学研究表明，学生在上课的前五分钟注意力往往不在课堂，尤其是低年级学生，特定的年龄阶段、心理特点决定了他们在上伊始不能迅速地、自觉地将注意力集中到所学内容上来。这就需要教师通过精心设计的导语，引导学生迅速将注意力集中到学习内容上来，使学生对所学内容产生浓厚的学习兴趣，并充满期待。
机器学习数据预处理阶段为什么需要——归一化处理
参考：https://www.cnblogs.com/bjwu/p/8977141.html通常，在DataScience中，预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明，主要把各个标准化方法的应用场景以及优缺点总结概括，以来充当笔记。提升模型精度在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化)，许多学习算法中目标函数
【软件测试】从软件测试到Bug评审：生命周期与管理技巧卜及中软件工程(测试)bug 测试工具软件工程
文章目录一、软件测试的生命周期软件生命周期软件测试生命周期各阶段内容二、Bugbug的概念bug要素bug级别1.按严重程度（Severity）分类2.按优先级（Priority）分类示例冲突场景bug的生命周期三、测试时与开发人员意见不统一Bug是否描述清楚？站在用户角度重新思考问题Bug定级要有依据Bug评审一、软件测试的生命周期软件生命周期我们知道：软件生命周期（SoftwareDevelo
Vue 3 组合式 API 中的组件生命周期函数详解码力无边-OEC Vue vue.js 前端 javascript 前端框架 web
Vue3组合式API中的组件生命周期函数详解Vue3引入了组合式API（CompositionAPI），相比于选项式API（OptionsAPI），它更加灵活且易于复用。在组件的开发中，生命周期函数是必不可少的一部分，用于在特定的阶段执行逻辑操作。本文将详细讲解Vue3组合式API的生命周期函数及其相关知识点，并通过语法糖实现相关示例。什么是生命周期函数？Vue组件从创建到销毁的过程中，会经历一系
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

MapTask阶段shuffle源码分析

你可能感兴趣的:(MapTask阶段shuffle源码分析)