PeakCrosser

[CUDA 学习笔记] Element-wise 算子优化

Element-wise 算子优化

注: 本文主要是对文章【BBuf 的CUDA笔记】一，解析OneFlow Element-Wise 算子实现 - 知乎的学习整理

Element-wise 算子即针对输入 Tensor(可能有多个) 进行逐元素操作. 如 ReLU 操作.

朴素实现

__global__ void relu_kernel(float* input, float* output){
  int32_t idx = blockIdx.x * blockDim.x + threadIdx.x;
  output[idx] = input[idx] < 0 ? 0 : input[idx];
}

问题分析

Element-wise 操作一般需要读取较多数据(tensor 中的元素), 然后对每个数据逐一计算. 一般是从全局内存加载, 因此容易看出, 这个操作是 memory bound 的.
朴素实现就是逐元素的"读取-计算-写入", 这样每个元素大部分时间必然花在内存的读写上.

对于 memory bound 的内核, 首先考虑的就是向量化内存访问, 即每个线程一次性加载更多的数据 (GPU 上最大是 128 比特即 16 字节)并计算. 这样也能增大计算强度.
在 Oneflow 的 Element-wise 算子设计中, 内核启动时的 grid_size 和 block_size 的选择也是有一定的学问.

Oneflow 实现

实现代码: oneflow/elementwise.cuh, how-to-optim-algorithm-in-cuda/elementwise.cu

ApplyPack(const FunctorT& functor, const Packed<IN, pack_size>... in) {
  Packed<R, pack_size> ret;
  // 对向量化合并读取的元素两个两个的处理
  #pragma unroll
  for (int j = 0; j < pack_size; j += 2) { functor.Apply2(ret.elem + j, (in.elem + j)...); }
  return ret;
}

template<int pack_size, typename FunctorT, typename R, typename... IN>
__device__ typename std::enable_if<HasApply2<FunctorT>::value == false || pack_size % 2 != 0,
                                   Packed<R, pack_size>>::type
ApplyPack(const FunctorT& functor, const Packed<IN, pack_size>... in) {
  Packed<R, pack_size> ret;
  // 对向量化合并读取的元素逐一处理
  #pragma unroll
  for (int j = 0; j < pack_size; ++j) { ret.elem[j] = functor((in.elem[j])...); }
  return ret;
}

template<int pack_size, typename FactoryT, typename R, typename... IN>
__global__ void __launch_bounds__(kBlockSize)
    ApplyGeneric(FactoryT factory, int64_t n_pack, Packed<R, pack_size>* pack_r,
                 const Packed<IN, pack_size>*... pack_in, int64_t n_tail, R* tail_r,
                 const IN*... tail_in) {
  auto functor = factory(); // 仿函数
  const int global_tid = blockIdx.x * kBlockSize + threadIdx.x;
  // 处理向量化合并的元素
  for (int64_t i = global_tid; i < n_pack; i += blockDim.x * gridDim.x) {
    pack_r[i] = ApplyPack<pack_size, decltype(functor), R, IN...>(functor, (pack_in[i])...);
  }
  // 处理尾部不够向量化合并的元素
  if (global_tid < n_tail) { tail_r[global_tid] = functor((tail_in[global_tid])...); }
}

template<size_t pack_size, typename FactoryT, typename R, typename... IN>
cudaError_t LaunchKernel(FactoryT factory, int64_t n, R* r, const IN*... in) {
  // 向量化合并后的分组数
  const int64_t n_pack = n / pack_size;
  const int64_t tail_offset = n_pack * pack_size;
  // 合并后剩余不够合并的个数
  const int64_t n_tail = n - tail_offset;
  int num_blocks;
  {
    cudaError_t err = GetNumBlocks(n_pack, &num_blocks);
    if (err != cudaSuccess) { return err; }
  }
  ApplyGeneric<pack_size, FactoryT, R, IN...><<<num_blocks, kBlockSize, 0>>>(
      factory, n_pack, reinterpret_cast<Packed<R, pack_size>*>(r),
      (reinterpret_cast<const Packed<IN, pack_size>*>(in))..., n_tail, r + tail_offset,
      (in + tail_offset)...);
  return cudaPeekAtLastError();
}

值得一提的是, 在 Oneflow 的实现代码中, 像 pack_size 这种常量, 会作为模板参数传入; 而像 n_pack, n_tail 等所有线程公共的变量, 并不是在 kernel 中计算, 而是由 CPU 计算后作为参数传至 kernel (即 ApplyGeneric()) 中; 这样可以一定程度上减轻 GPU 寄存器压力并减少 kernel 中重复的公共计算.

Oneflow 向量化访存通用数据结构

OneFlow 针对不同数据类型提供了一个 Pack 数据结构, 以通用支持不同数据类型向量化.

template<typename T, int pack_size>
struct GetPackType {
  using type = typename std::aligned_storage<pack_size * sizeof(T), pack_size * sizeof(T)>::type;
};

template<typename T, int pack_size>
using PackType = typename GetPackType<T, pack_size>::type;

template<typename T, int pack_size>
union Pack {
  static_assert(sizeof(PackType<T, pack_size>) == sizeof(T) * pack_size, "");
  __device__ Pack() {
    // do nothing
  }
  PackType<T, pack_size> storage;
  T elem[pack_size];
};


template<typename T, int pack_size>
struct alignas(sizeof(T) * pack_size) Packed {
  __device__ Packed() {
    // do nothing
  }
  union {
    T elem[pack_size];
  };
};

constexpr int kMaxPackBytes = 128 / 8;
constexpr int kMaxPackSize = 8;

constexpr int Min(int a, int b) { return a < b ? a : b; }

template<typename T>
constexpr int PackSize() {
  return Min(kMaxPackBytes / sizeof(T), kMaxPackSize);
}

template<typename T, typename U, typename... Args>
constexpr int PackSize() {
  return Min(PackSize<T>(), PackSize<U, Args...>());
}

上述代码中:

PackType, 定义了对总共 pack_size (元素总个数, 分为多个序列化访问)个 T 类型数据的序列化访问, 底层类型使用了 C++ 11 的 std::aligned_storage, 即地址对齐的数据存储.
Pack 联合体主要是用在 Kernel 启动之前判断 Element-Wise 操作的输入输出 Tensor 对应的数据指针地址是否满足内存对齐的条件
PackSize() 用于计算对 T 类型最大的向量化访问的元素个数. kMaxPackBytes 即 CUDA 向量化最大的访问粒度, 即上文提到的 128 比特(16 字节); kMaxPackBytes 定义了一个序列化访问的个数上限.
Packed 结构体即实际进行序列化访存的合并的元素.
实际实现中, 通过 std::enable_if 判断算子是否包含 Apply2() 函数以执行相应的代码(具体见"【BBuf 的CUDA笔记】一，解析OneFlow Element-Wise 算子实现 0x3.2 向量化数据访问提升带宽"一节) , Apply2() 一般针对像 half 这种 CUDA 提供了 __hmul2() 函数可以直接两个一起算的情况.

Oneflow `grid_size` 和 `block_size` 选择

Oneflow 的 Element-wise 算子的 block_size 是一个常量 256. grid_size 根据数据量进行选择.
选择的原因具体可以见文章: 如何设置CUDA Kernel中的grid_size和block_size？ - 知乎

constexpr int kBlockSize = 256;
constexpr int kNumWaves = 32;
/// @brief 获取kernel启动的grid_size大小
/// @param n element-wise处理的数据总数
/// @param[out] num_blocks 设置的线程块数
inline cudaError_t GetNumBlocks(int64_t n, int* num_blocks) {
  int dev;
  {
    cudaError_t err = cudaGetDevice(&dev);
    if (err != cudaSuccess) { return err; }
  }
  int sm_count; // SM个数
  {
    cudaError_t err = cudaDeviceGetAttribute(&sm_count, cudaDevAttrMultiProcessorCount, dev);
    if (err != cudaSuccess) { return err; }
  }
  int tpm;  // SM中线程最大数
  {
    cudaError_t err = cudaDeviceGetAttribute(&tpm, cudaDevAttrMaxThreadsPerMultiProcessor, dev);
    if (err != cudaSuccess) { return err; }
  }
  *num_blocks = std::max<int>(1, std::min<int64_t>((n + kBlockSize - 1) / kBlockSize, // 按数据个数取整划分线程块(数据量比较小)
                                                   sm_count * tpm / kBlockSize * kNumWaves)); // 按GPU线程处理量划分(数据量比较大)
  return cudaSuccess;
}

向量化内存访问

优化方面

带宽瓶颈

向量化内存访问会提高带宽, 但会降低总体并行性并增加寄存器用量. 因为相当于每个线程串行处理了多个数据.
不适用于内核已受到寄存器限制或并行度非常低的情况
更适合每个线程对数据的操作比较简单的情况(如 Element-wise 操作). 因为这样增加读写带宽的收益要大于串行降低并行性的损失.

具体说明

CUDA 每个线程一次性至多可以读写 128 比特(16 字节)的数据.
具体而言, 在 SASS 指令中, LD.E 和 ST.E 指令可以读取 32 比特(4 字节)数据, 可以替换为 LD.E.64 和 ST.E.64 指令读取 64 比特(8 字节)数据, 以及 LD.E.128 和 ST.E.128 指令读取 128 比特(16 字节)数据.

注: 需要地址对齐. 即读取 8 字节时, 数据地址需 8字节对齐.

CUDA 相关实现

int2, int4, uint2, uint4, float2 等.
可以直接使用 reinterpret_cast 或 (int2*) 将 int* 类型的指针转换为 int2* 类型的指针.

例子:

__global__ void device_copy_scalar_kernel(int* d_in, int* d_out, int N) { 
  int idx = blockIdx.x * blockDim.x + threadIdx.x; 
  for (int i = idx; i < N; i += blockDim.x * gridDim.x) { 
    d_out[i] = d_in[i]; 
  } 
}

使用 int2 序列化, 改为:

__global__ void device_copy_vector2_kernel(int* d_in, int* d_out, int N) {
  int idx = blockIdx.x * blockDim.x + threadIdx.x;
  for (int i = idx; i < N/2; i += blockDim.x * gridDim.x) {
    reinterpret_cast<int2*>(d_out)[i] = reinterpret_cast<int2*>(d_in)[i];
  }

  // in only one thread, process final element (if there is one)
  if (idx==N/2 && N%2==1)
    d_out[N-1] = d_in[N-1];
}

整体效果是将循环减少了 N/2 次, 而每次迭代每个线程一次处理 2 个元素. 从而减少了指令的发射数, 提高了数据读取带宽.

参考资料

【BBuf 的CUDA笔记】一，解析OneFlow Element-Wise 算子实现 - 知乎
CUDA Pro Tip: Increase Performance with Vectorized Memory Access | NVIDIA Technical Blog
高效、易用、可拓展我全都要：OneFlow CUDA Elementwise 模板库的设计优化思路 - 知乎

单片机C语言程序设计实训100例--Proteus仿真实战
本文还有配套的精品资源，点击获取简介：《单片机C语言程序设计实训100例--Proteus仿真实战》是一本面向初学者和进阶者的实践指南，通过100个实例帮助读者掌握8051单片机的C语言编程技能。涵盖了I/O端口控制、定时器/计数器、中断系统、串行通信等关键知识点，并结合Proteus仿真，使得学习过程更为直观和高效。本课程设计项目经过测试，旨在帮助学生掌握单片机C语言编程的实际应用，为进入更复杂
中原焦点团队焦点初级32期孙晓娟2022年️3月10日坚持分享第️30天 85b9745cfed8
一个连父母都不放在眼里的孩子，长大后也必然是一位斤斤计较、眼界狭窄、礼仪欠缺的人。父母就是孩子最初成长的学习对象，严格要求自我，把控好自己的一言一行。孩子才能从父母这里，学会包容与爱，学会理解与尊重。我们尊重孩子，也赢得孩子的尊敬.如此才能让良好的教育理念滋养孩子的心田，幻化成孩子前行的动力，陪他走过漫长的人生岁月。
Java学习-----Bean 典孝赢麻崩乐急 java 学习 rpc
在Spring框架中，Bean是核心概念之一，它贯穿了整个Spring应用的生命周期，是实现依赖注入（DI）和控制反转（IoC）的基础。理解Bean的原理、作用及使用特点，对于掌握Spring框架至关重要。SpringBean的本质是由SpringIoC容器管理的对象，它的创建、初始化、依赖注入及销毁等过程均由容器控制，而非通过传统的new关键字手动创建。其核心原理可概括为以下两点：1.控制反转（
Java学习----NIO模型典孝赢麻崩乐急 java 学习 nio
在Java的I/O模型中，NIO（Non-BlockingI/O，非阻塞I/O）是对BIO的重要改进。它为高并发场景提供了更高效的处理方式，在众多Java应用中发挥着关键作用。NIO模型的核心在于非阻塞和多路复用，其采用“一个线程处理多个连接”的模式，主要依靠通道（Channel）、缓冲区（Buffer）和选择器（Selector）这三个核心组件协同工作，每个核心组件的功能原理和功能如下：（1）通
Java学习————————ThreadLocal 典孝赢麻崩乐急 java 学习开发语言
ThreadLocal是Java中一个非常重要的线程级别的变量隔离机制，它提供了线程局部变量，使得每个线程都可以拥有自己独立的变量副本，从而避免了多线程环境下的共享变量竞争问题。ThreadLocal的实现原理主要依赖于：（1）ThreadLocalMap：每个Thread对象内部都有一个ThreadLocalMap实例（2）弱引用键：ThreadLocalMap使用ThreadLocal对象作为
【第17章】亿级电商订单系统架构设计-概要设计 cherry5230 亿级流量架构设计与落地系统架构架构分布式中间件
1-1本章导学课程概述核心内容：从粗到精细化系统架构设计项目案例：年交易额200亿的B2B电商平台订单系统学习路径1.高层架构设计细化阶段分为两个核心部分：概要设计（本章重点）详细设计2.本章学习目标(1)概要设计方法论理解设计阶段的核心任务掌握具体实施方法建立设计思想指导体系(2)项目实践应用项目工程架构搭建环境配置规范组件关系梳理客户端->网关层->业务层->数据层(3)基础框架构建工程结构初
熬夜之后吃什么养生食物来补身体？2022-12-29 ffd7b3b7d90f
熬夜之后吃什么养生食物来补身体?因为工作，学习等方面的原因，现如今的年轻人越来越多地开始经常熬夜。都提倡早睡早起，很明显地说明熬夜晚睡对身体有害。有时候年轻人因为年轻身体好，不觉得熬几天夜有什么。但其实熬夜的危害特别大，如果你熬了夜，第二天一定要补回来的。一、需要的营养素1、补水。水是生命之源，熬夜的你，生物钟被打乱，代谢加快，体内的水循环出现异常。所以必须要补充足够的水分来滋养你的身体。2、维生
20181207 旅一30王思宁
1.在文章中我学到的重要概念:讲故事不要平铺直叙2.这篇中我学到的怦然心动词汇:facialrecognition刷脸smogfog雾霾3.本篇文章中我最喜欢的句子:Forgetthememories,continuetobelife,miss,justpassby.4.本周学习中我遇到的困难:东西太多，不知道从哪开始复习5.语伴给我的建议:好好复习吧，别挂科6.我的一些其他感受和收获:游戏的坑真
2022暑假总结 yanpinghappy
这个假期，娃都是按照每天的学习计划做事（10天日照旅游期间除外），大概是因为之前两三个寒暑假都是如此规律，所以娃也适应了这种按部就班的节奏。学习时间表，几乎都是我俩商量的结果，中间遇到时间紧张或者无法执行的情况，我们会再做调整。美中不足的是，复盘这一项我俩做得极少，这一点下次寒假时一定要加强起来。暑假第一个月，报了两个课程奥数和《水浒传》，时间排得满满的，把头一年报的游泳课挤出去了，到了第二个月才
2020-5-7晨间日记邓芬芳
今天是什么日子起床：五点三十五就寝：十一点之前天气：阴天有雨心情：焦虑纪念日：高品质的生活需要适度的焦虑任务清单昨日完成的任务，最重要的三件事：打扫卫生、听课、准备复学第一课团体训练活动改进：团体训练活动准备的不理想习惯养成：科学、合理安排时间，提高效率，知行合一周目标·完成进度积极主动高效快速完成领导安排的任务学习·信息·阅读继续阅读《自卑与超越》《权宜之计》等书籍继续学习微笑主义——整合心理学
2023-07-22 付宇杰
在我看来，王老师对整个课堂节奏把控的很好，从开始王老师从现实生活入手，将数学与实际相结合，通过现实生活中的数学问题引导学生进入课堂，接着就是王老师准备的六个例题，诱导引入，变式深入，带领学生逐步深入，了解学习排列问题的本质，王老师用准确、清晰、易懂、生动的语言，呈现知识，践行“以学生为主体“的课堂模式，选择适合该龄段的教学方法，从而激发学生的学习兴趣，促进学生的思维活动,能注意因材施教、因人施教,
《第十五次网课收获》宛如初夏
伊川王利珍坚持原创分享第386天今天晚上是网络中级第15次课程。再有一次就要结束了，还真的有点恋恋不舍呢！刘老师已经开始提前给我们预告了，以期降低我们的分离焦虑！四个月的学习历程。我们彼此由陌生到熟悉。现在经常在一块约练的几个学员已经是老朋友的感觉。虽然从未谋面，但心灵相通，互相扶持，互相帮助。电波相连的情谊也是一种别样的美好！首先通过顾老师展示的案例，大家各抒己见，加上刘老师的讲解。又收获了很多
【HCIA】DHCP配置实验
DHCP（DynamicHostConfigurationProtocol）配置实验通常用于网络课程或网络管理工作中，目的是让学习者或网络管理员理解并掌握如何配置和管理DHCP服务器，以便自动分配IP地址给网络中的设备。一、导言DHCP（DynamicHostConfigurationProtocol）是一种网络协议，用于自动分配IP地址给网络中的设备。DHCP通过以下三种主要机制来分配IP地址：
学习与财富同行：大学生校园内的多元赚钱之路高省飞智导师
随着经济的发展和社会的进步，越来越多的人开始关注学校里的赚钱项目。这些项目不仅能为学校带来收益，同时也能为创业者提供很多商机。那么，学校里究竟有哪些赚钱项目呢？下面就为大家详细介绍一下。一、校园快递代领服务随着网购的普及，校园快递业务也日益繁忙。学生们常常因为上课、兼职等原因无法及时领取包裹，这时候校园快递代领服务应运而生。这个项目需要有一定的组织和协调能力，以及对校园环境的熟悉程度。通过与快递公
自我感动式的努力，真的有用吗？星辰同学
你曾经有过这种感受吗？我今天有努力学习哎，我看书看了两个个小时，我觉得自己很刻苦；我今天有努力跑步哎，跑了两公里，觉得自己很自律；我今天有努力工作哎；晚上10点才回去…其实，你看书两小时，手机不停看了一个多小时，你努力跑步，也只是坚持了两天而已，努力工作，也是因为工作拖拉，没办法加班…最后，你没有取得成就，却怀疑人生，我明明努力了呀？可是一无所获。这种属于努力吗？应该算是自我感动式的努力吧！其实，
日精进第三十五天金缔尊周大生珠宝玉玉
尊敬的李老师，智慧的马教授，亲爱的家人们:大家好，我是（刘翠平)刘总的人，今天是2018年9月17号我的日精进第三十五天，我们互相勉励，携手前行，每天进步一点点，距离成功便不远。比学习:学习同事的素转非技巧，如何打动顾客的心，让顾客成为我们的老顾客。比改变:只要进店看的都是要买的，相信家人相信自己是最棒的，大家互相帮助，互相加油！比付出:总监中午来给我们开会，给我们从专卖店调货来辛苦了。比感恩:感
JAVA学习-行为抽象和Lambda.Lambda表达式守护者170 java学习 java 学习开发语言
行为抽象和Lambda表达式是Java8引入的新特性，用于简化代码和提高代码的可读性。一、概述、特点、使用方法以及与其他比较和高级应用的说明：1.行为抽象：它是指将一段代码抽象为一种功能或行为，以便在需要时可以传递给其他方法或对象。行为抽象通常通过接口来定义，其中接口包含一个或多个抽象方法来表示不同的功能。2.Lambda表达式：Lambda表达式是一种简洁的语法，用于实现行为抽象。它可以替代匿名
开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-玩转ollama（一）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言在AI大模型百花齐放的时代，很多人都对新兴技术充满了热情，都想尝试一下。然而，实际上要入门AI技术的门槛非常高。除了需要高端设备，还需要面临复杂的部署和安装过程，这让很多人望而却步。在这样的背景下，Ollama的出现为广大开发者和爱好者提供了一条便捷的道路，极大地降低了应用机器学习的门槛。Ollama的优势在于其极致的简化。通过这个平台，用户可以轻松下载、运行和管理各种机器学习模型，而无需
刘萍萍老师《基于新课标的情境活动与学习任务群设计策略》学习青箬笠0
刘萍萍新乡市基础教育教学研究室“让学生直接思考真实问题有助于激发和唤醒学生的理解。”（「美]格兰特·威金斯·「美」杰伊·麦克泰格《追求理解的教学设计》P44）所以要设计情境活动。一、情境活动与学习任务群概念从何而来“考试命题应以情境为载体，依据学生在真实情境下解决问题的过程和结果评定其素养水平。日常生活情境指向真实具体的社会生活，关注学生在生活场景中的语言实践，凸显语言交际活动的对象、目的和表述方
互相学习似水年华平
今晚受群内班主任的邀请，和大家分享我的学习心得。在晚上的分享会上，我听到了分享姐妹在讲述她们的故事，我不禁感叹，姐妹们的生活都是非常自律、人生有着清晰的目标。主播100课程班姐妹分享她每天早上如何练声，以及练声小技巧。蜕变100课程班姐妹分享她如何通过学习，制定人生的小目标、大目标以及终级目标。形象管理课程姐妹分享如何通过合理搭配穿衣打扮来提升自己的自信心。我和大家分享的是通过学习情商课，让我知道
一.初识C语言（1） Yu_Lijing C语言学习 c语言学习算法开发语言程序人生学习方法
目录1.前言2.什么是C语言3.第一个C语言代码4.数据类型5.常见内存单位6.变量①命名规则②全局变量和局部变量7.从键盘接收数据8.结尾1.前言本篇文章是学习《初识C语言》的总结，旨在复习，巩固，并产生新的理解。文中将会尽可能详尽阐述本章所学知识，会涉及知识的讲解，代码的演示，问题的探索。当然，这些都是浅尝辄止的，毕竟只是“初识”。2.什么是C语言在《初识C语言》中，我们首先先学习了什么是C语
2019-09-28 新明半岛
今日和一个朋友电话聊了一个半小时，哈哈好久没和人煲过电话粥了。主要聊最近各自在干嘛，关键主题是家庭英语启蒙。之前跟这这个朋友学习家庭英语启蒙，这位朋友也是我比较佩服的一个人，比较优秀，通过不断精进自己，学以致用，创造财富。我们都是普通的上班族，过去的我只知道做家务，照顾孩子，很少有时间去自我学习自我提升，很少去复盘我的人生，没有得到家庭的认可，亲子关系和亲密关系都没有处理好。今年七月份，我跟着这位
机器学习之——认识机器学习 -睡到自然醒~ golang 重构开发语言
首先，什么是机器学习？参照百度百科的讲解，“机器学习是一门多领域交叉学科，设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习能力，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。”什么意思呢？也就是说，机器学习是一门跨领域的学科，是一种能够让机器模仿人类学习能力的一种学科。在Andrew的课程中，提到了几个机器学习的定义：1，A
LWIP学习记录1——认识
一、LWIP是什么，有什么作用Lwip是一个阉割版的TCP/IP协议栈，开源的，它只实现了TCP/IP协议栈大部分功能。TCP/IP协议栈应该在生活中哪些产品？交换机、路由器、光纤收发机等等，这些产品都是使用TCP/IP协议栈来实现的。那么LWIP能做什么？云台接入、无线网关、工控器、远程模块、网络摄像头、嵌入式NAT无线路由器（注：LWIP没有NAT协议，之所以能实现是因为我们在LWIP基础上添
2021-01-12 蹦哒吧小蹦儿
终于开始明白为什么很多人不愿从舒适圈里出来，并不是因为舒适圈有多舒服，只是因为舒适圈外挑战太多了——需要去适应这个社会，需要去学习很多新的东西，需要去接受挑战……本来拍照就可以完成的事，现在需要拍摄视频，而如何拍出好的视频，并且剪辑好看，这真是一门技术呀。需要学习太多东西。为了能更好的拍片，特意买了云台，但是为什么云台不听使唤？令人发愁，于是又开始新一轮的学习。汽车领域的平台开始了讲师课，可以有更
大模型微调技术的详细解析及对比老兵发新帖人工智能大数据
以下是四种主流大模型微调技术的详细解析及对比，结合技术原理、适用场景与性能表现进行说明：1.Full-tuning（全量微调）核心原理：加载预训练模型的所有参数，用特定任务数据（通常为指令-回答对）继续训练，更新全部权重。相当于对模型整体知识结构进行重构。操作流程：加载预训练模型；用任务数据集（如分类文本）和优化目标（如最小化误差）训练；所有参数参与梯度更新。优势：模型充分学习任务特征，效果通常最
大模型训练中的“训练阶段”（如Pre-training、SFT、RLHF等）与“微调技术” 老兵发新帖人工智能深度学习机器学习
大模型训练中的“训练阶段”（如Pre-training、SFT、RLHF等）与“微调技术”（如Full-tuning、Freeze-tuning、LoRA、QLoRA）是两类不同维度的概念，二者共同构成模型优化的完整流程。以下是二者的关系解析及技术对照：一、训练阶段的核心流程与目标预训练（Pre-training）目标：在无标注通用数据（如互联网文本）上训练模型，学习语言、视觉等通用特征。微调技术
Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
感恩日记（54）安然521
感恩天地，感恩大自然，感恩父母，感恩孩子，感恩自己所有的一切！1.今天早上开始内训，感恩自己5：00起床，高一内训第三天。2.感恩领导同事，有缘一起工作。3.感恩自己不断学习成长，今天在单位忙一天。4.感恩孩子自己旅游，玩的嗨。5.感恩孩子自己照顾自己，越放手越自律，越放手越成长！6.感恩老天送我这么一个有灵性的闺女！7.祝福孩子考上自己理想的二附中学校！祝福孩子一定能考上！8.感恩孩子来修行我，
学习安静地呆着和语
原创分享第713天周四我们是一个多么喜欢热闹的民族啊！热热闹闹过大年！欢欢喜喜迎新年！走街串巷去拜年！串门子！赶庙会！旅游！聚会喝酒！聚堆打麻将……一切我们喜欢和习惯的过年方式都因为一场突如其来的疫情改变了！大家都只能乖乖地呆在家里！这样的生活方式对我们来说是一种挑战！很多人都特别不适应！一家人团聚在一起，互相聊聊天，读读书，互相陪伴，这些平时期待的事情，反而觉得不重要了！越不让出去，越想出去……
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?

[CUDA 学习笔记] Element-wise 算子优化

Element-wise 算子优化

朴素实现

问题分析

Oneflow 实现

Oneflow 向量化访存通用数据结构

相关手写 kernel

kernel 0

kernel 1

kernel 2

kernel 3

kernel 4

Oneflow `grid_size` 和 `block_size` 选择

向量化内存访问

优化方面

具体说明

CUDA 相关实现

参考资料

你可能感兴趣的:(CUDA,学习,CUDA)

[CUDA 学习笔记] Element-wise 算子优化

Element-wise 算子优化

朴素实现

问题分析

Oneflow 实现

Oneflow 向量化访存通用数据结构

相关手写 kernel

kernel 0

kernel 1

kernel 2

kernel 3

kernel 4

Oneflow grid_size 和 block_size 选择

向量化内存访问

优化方面

具体说明

CUDA 相关实现

参考资料

你可能感兴趣的:(CUDA,学习,CUDA)

Oneflow `grid_size` 和 `block_size` 选择