在搜索/推荐场景中(一般是CTR/CVR预估)Serving的模型一般是稀疏参数占比比较大,工程落地方面会遇到两方面的困难:
对于稀疏参数的存储/IO,在上一篇【深度学习推荐系统 工程篇】二、从TF-Serving看生产环境的模型推理服务 有提及,这篇是想总结下 网络结构的优化
本篇借助分析FasterTransformer框架,看Transformer在工程落地中需要做什么样的优化,然后总结一些通用的优化思路
读完这篇文章,希望读者可以:
关于Transformer的网络结构,网上都有了各种分析,但大多良莠不齐,随便找一个看大概率容易一头雾水;
这里分享下找到比较优秀的资料:
看完这几个,基本可以对Transformer的结构有大致的了解。
如果想要进行工程落地,最好对Transformer理论上的计算复杂度有个大概了解;
在实际推理过程中,假设输入的BatchSize为 M M M,每条的SequenceLength为 N N N,
网络的hidden_dim为 D D D,Encoder个数为 e n c o d e r _ s i z e encoder\_size encoder_size,Decoder的个数为 d e c o d e r _ s i z e decoder\_size decoder_size;
一次推理的计算复杂度:
O ( M N ˙ 2 D ˙ ) ∗ ( e n c o d e r _ s i z e + d e c o d e r _ s i z e ) O(M \dot N^2 \dot D) * (encoder\_size +decoder\_size) O(MN˙2D˙)∗(encoder_size+decoder_size)
PS:计算量的大头 是 Attention结构中QKV的计算
本次分析FastTransformer源码是v5.0版本,项目地址:https://github.com/NVIDIA/FasterTransformer
项目框架比较清晰,将Attention结构封装成Layer,内部再实现调用高度优化的kernel函数
目录结构如下:
/src/fastertransformer: source code of FasterTransformer
|–/models: Implementation of different models, like BERT, GPT.(常用网络的实现)
|–/layers: Implementation of layer modeuls, like attention layer, ffn layer.(封装成Layer模块,如attention/ffn等结构)
|–/kernels: CUDA kernels for different models/layers and operations, like addBiasResiual.(CUDA Kernel算子实现,一般在layer中调用)
|–/tf_op: custom Tensorflow OP implementation(封装成TensorflowOp)
|–/th_op: custom PyTorch OP implementation(封装成PytorchOp)
|–/triton_backend: custom triton backend implementation()
|–/utils: Contains common cuda utils, like cublasMMWrapper, memory_utils(封装成的工具类,如cublas参数,Allocator接口,Tensor接口)
上述目录中,最重要的是layers和kernels,layer抽象了计算流程,kernel给出了高效实现;
在Transformer结构中,两个重要的layer就是AttentionLayer和FFNLayer,这里画了类图整理下层次关系:
Attention layer:
FFN layer:
整体层次比较简单,下面以Example里的Bert模型为例,看下Forward流程
相应的代码在:https://github.com/NVIDIA/FasterTransformer/blob/release/v5.0_tag/src/fastertransformer/models/bert/Bert.h
相应的文档:https://github.com/NVIDIA/FasterTransformer/blob/release/v5.0_tag/docs/bert_guide.md
Bert模型主要包括 AttentionLayer和FFNLayer,可通过参数配置具体实现:
// Attention Layer
enum class AttentionType
{
UNFUSED_MHA,
UNFUSED_PADDED_MHA,
FUSED_MHA,
FUSED_PADDED_MHA
};
// FFN Layer
enum ActivationType
{
Gelu,
Relu
};
Bert模型的一次Forward流程:
在这个文档中 https://github.com/NVIDIA/FasterTransformer/blob/release/v5.0_tag/docs/bert_guide.md 给出了去除Padding的流程图,
一个Batch中,对于没有达到MaxSeqLen的输入,一般会进行padding,补齐到MaxSeqLen,但显而易见会引入不必要的计算;
Effective-transformer 引入segment offset数组来去除Padding;FasterTransformer把这个优化集成到了项目中
OpFusion是网络结构优化中常见的手段,主要是以下几点目标:
回到FastTransformer,它将琐碎的操作尽可能的合并成一个Kernel;
PS:Tensorflow框架的一个特点是算子比较琐碎,一个操作经常由多个基础算子组成,因此针对Tensorflow的模型,OpFusion几乎是上线推理前必做的优化手段
这里主要有几点:
这里想分享2点:
一个是NV的线性计算库
看代码的时候发现用到Blas库比较多,除了基础的cublas接口,还有cuBlasLT,cuBlasXT等等,特意查了下资料:
二是针对Gemm/Kernel函数的AutoTunning思路
背景:由于GPU架构的复杂性,没有一组通用的参数,可以让某一操作 在所有数据规模/硬件 上达到最优的性能
在这种限制下,一种可能的做法 是将可调的参数独立出来组成参数空间(如 O ( b a t c h _ s i z e , m , n , k , d a t a _ t y p e ) O(batch\_size, m, n, k, data\_type) O(batch_size,m,n,k,data_type) 这几个参数够成了参数空间),在上线前,针对线上的真实请求,遍历参数空间中的性能指标,挑出最优的一组 写到 config文件里 使用;
适用的场景不仅包括Gemm,也可以对Kernel函数的BlockSize, ThreadSize进行调整
关于half2,额外找了些资料:
half2提升数据读取:https://developer.nvidia.com/blog/cuda-pro-tip-increase-performance-with-vectorized-memory-access/
关于half2与half的区别:https://forums.developer.nvidia.com/t/half2-vs-half-datatype/219492/3
另外关于低精度还想再分享一点,就是能降存储,
最近比较火的大模型动辄上百亿参数,很难进行进行单机加载(近期发布的BaiChuan-13B,模型大小约30GB),
如果想在显存较小的显卡上加载,只能尝试低精度的方式(FP16或量化)降低数据存储(不过会影响网络精度,需要客观评估带来的业务影响)
项目中Kernel函数上都实现的很高效,如Reduce操作,都可以当做CUDA编程例子来学,
主要的点:
谈问题之前,我们首先设想一个能充分发挥GPU算力的完美推理框架,它应该是这样
但实际情况中,:
这些问题是GPU硬件架构 客观决定的,所以我们的优化工作只能是尽力缓解,然后去逼近理论计算的上限
针对上面提到的问题,我们可以总结下可能优化思路(在2.3中已经提到):
基本上涵盖了可能的思路
另外对于模型的优化,笔者想借助软件工程的一句经典名言来发表下自己的想法:“No sliver bullet”,
即优化框架的通用性 和 极致性能很难兼得,没有一种框架可以对 现在所有的网络结构以及未来可能出现的结构 提供极致的优化;
优化 的 过程永远是 螺旋式的迭代前进,即