llvm后端之指令选择源码分析
- 引言
- 1 主要流程
-
- 1.1 参数降级
- 1.2 构建DAG
- 1.3 类型合法化
- 1.4 向量合法化
- 1.5 DAG合法化
- 1.6 DAG合并
- 2 目标实现
-
- 2.1 TargetLowering
- 2.2 SelectionDAGISel
引言
llvm后端指令选择主要是class SelectionDAGISel的子类实现。整个过程将llvm IR转为有向无环图节点,通过系列替换合并,最终生成目标相关的DAG。最后再将目标DAG通过td规则匹配成目标指令MachineInstr。
1 主要流程
1.1 参数降级
参数降级,由SelectionDAGISel::LowerArguments(const Function &F)实现。其主要过程如下:
- 首先,构建TargetLowering::LowerFormalArguments方法的Ins参数;
- 调用由TargetLowering子类重写的LowerFormalArguments方法;
- 将Ins参数中打散成寄存器粒度的节点合并为参数分拆类型节点,由ISD::BUILD_PAIR节点合并;
构建Ins参数:
- 当函数不能降级return,则会插入一个存返回地址的额外参数。
- 对于每个参数通过ComputeValueVTs函数计算每个参数的IR类型转换后的EVT类型;再对每个EVT类型,通过TargetLowering子类可重写的getRegisterTypeForCallingConv和getNumRegistersForCallingConv方法计算分配的需要分配的寄存器类型和个数,并构建ISD::InputArg放入Ins参数中;
注1 :ComputeValueVTs是根据IR阶段的Type类型生成EVT类型,过程中会对结构体和数组展开为基本类型,所以是一对多生成EVT类型;
注2 :getRegisterTypeForCallingConv和getNumRegistersForCallingConv是TargetLowering子类可重写方法,用于计算每个参数需要寄存器类型和个数。每个基本类型占用一个或多个寄存器。
调用LowerFormalArguments方法:
- 该方法由TargetLowering子类重写,用于计算参数拆分到寄存器粒度后,对应的SDValue节点;
- 以RISCV为例,其实现主要是借助class CCState实现参数寄存器分配或参数栈分配;
注:一般地,在参数寄存器还可以分配的时候,会优先使用CCState::AllocateReg分配参数寄存器;否则才会通过CCState::AllocateStack分配栈空间。
合并参数寄存器:
- 对LowerFormalArguments返回的SDValue节点,通过ISD::BUILD_PAIR合并成更大类型,也就是ComputeValueVTs分拆的EVT类型;
- 然后,通过ISD::MERGE_VALUES将ComputeValueVTs分拆的EVT类型以参数为粒度合并为一个节点;
1.2 构建DAG
在对于每个基本块执行SelectionDAGISel::SelectBasicBlock方法,在该方法内对每个指令调用SelectionDAGBuilder::visit构建DAG。其主要流程如下:
- 如果IR指令是终结指令,通过SelectionDAGBuilder::HandlePHINodesInSuccessorBlocks对后继节点使用该基本块为输入值的PHI指令转为寄存器拷贝;
- 通过SelectionDAGBuilder::visit(unsigned Opcode, const User &I)方法对指令进行生成DAG操作,该方法通过switch将不同的IR指令XXInst,转为调用visitXXInst方法。例如CallBrInst则调用SelectionDAGBuilder::visitCallBr方法;
- 最后,对一些特殊的IR指令做一些后处理。
处理每个PHI后继节点:
- 对每个后继节点使用了该基本块作为输入的PHI指令,取其为PHI单独分配的寄存器;
- 记录PHI替换指令与对应拆分的源寄存器号的对应关系。
注1:为PHI指令分配寄存器是在SelectionDAGISel::runOnMachineFunction调用FuncInfo->set方法完成的。在该方法内部会FunctionLoweringInfo的InitializeRegForValue为PHI指令分配目的寄存器;最后再调用BuildMI创建一个目标的PHI指令,并将目的寄存器添加进去。
注2 :PHI指令的源寄存器是在SelectionDAGISel::FinishBasicBlock方法中通过建立的映射关系添加的。
AllocaInst转DAG
- 首先,通过指令的数组维度乘以类型大小,最后加上对其长度;
- 最后,通过生成ISD::DYNAMIC_STACKALLOC节点,即栈分配节点;
ReturnInst转DAG
CallInst转DAG
1.3 类型合法化
类型合法化是在DAGTypeLegalizer::run中完成的,它在向量合法化前后都会执行。主要有如下步骤:
- 初始化Worklist,将叶子节点加入,并setNodeId为ReadyToProcess,即0; 非叶子节点设置为Unanalyzed,即-2;然后进入while循环处理Worklist中的节点;
- 在while开始处,于是先合法化节点输出类型,跳转到NodeDone处理;
- 在NodeDone段中,将处理节点的使用节点的NodeId设置为操作数个数减1,最后等所有操作数的输出值都合法化后,便将其加入到Worklist中;最后回到while开始处继续;
- 大多数节点不需要处理操作数,因为操作数依赖的节点输出类型已经先行类型合法化。对于一些特殊节点(例如输出本身合法、没有输出值、register/TargetConstant节点),则会进入ScanOperands段对操作数类型合法化;
注:整个类型合法化依赖TargetLoweringBase::computeRegisterProperties初始化设置
TargetLowering::TypePromoteInteger
- 该枚举会将int类型上提到合法的长度类型;
- 处理输出值合法化时,通过DAGTypeLegalizer::PromotedIntegers成员记录原输出SDValue与转换后的输出SDValue的映射;
- 后续节点合法化时,通过前面的映射找到转换后的SDValue替换;
TargetLowering::TypeExpandInteger
- 该枚举会将不支持的过长int类型分拆为两个更小的长度类型;
- 处理输出值合法化时,通过DAGTypeLegalizer::ExpandedIntegers成员记录原输出SDValue与转换后的两个分拆输出SDValue的映射;
- 后续节点合法化时,通过前面的映射找到转换后的SDValue进行替换;
注:TypeExpandInteger与TypePromoteInteger不同的时,经过一次TypeExpandInteger可能还不是合法类型
TargetLowering::TypeSoftenFloat
- 该枚举是当硬件不支持某类型浮点运算时,先将其转同长度int,然后由软件实现模拟浮点运算。即调用软件实现的libcall;
- 处理输出值合法化时,通过DAGTypeLegalizer::SoftenedFloats成员记录原输出SDValue与转换后输出的SDValue的映射;
- 后续节点合法化时,通过前面的映射找到转换后的SDValue进行替换;
TargetLowering::TypeExpandFloat
- 该枚举是将较大类型拆分为两个较短类型,与TypeSoftenFloat一样,两个较短类型的运算也是由软件模拟实现;
- 处理输出值合法化时,通过DAGTypeLegalizer::ExpandedFloats成员记录原输出SDValue与转换后的两个分拆节点SDValue的映射;
- 后续节点合法化时,通过前面的映射找到转换后的SDValue进行替换;
TargetLowering::TypePromoteFloat
- 该枚举将较小的不合法浮点类型上提到较大的浮点类型,它只是进行类型转换,不会软件模拟;
- 处理输出值合法化时,通过DAGTypeLegalizer::PromotedFloats成员记录原输出SDValue与转换后输出SDValue的映射
- 后续节点合法化时,通过前面的映射找到转换后的SDValue进行替换;
TargetLowering::TypeScalarizeVector
- 该枚举是当向量只有一个元素时,直接使用元素类型操作;
- 它通过DAGTypeLegalizer::ScalarizedVectors记录转换映射;
TargetLowering::TypeSplitVector
- 该枚举是将一个较长向量拆分为两个维度较短向量;
- 它通过DAGTypeLegalizer::SplitVectors记录转换映射;
TargetLowering::TypeWidenVector
- 该枚举将一个较短向量扩展为维度较大的向量。扩展的元素用undef初始化,通过ISD::CONCAT_VECTORS合并为一个较大向量;
- 它通过DAGTypeLegalizer::WidenedVectors记录转换映射;
1.4 向量合法化
类型合法化是在VectorLegalizer::Run中完成的;在Run中如果DAG中至少有一个节点使用了向量类型,则会对每个DAG节点调用VectorLegalizer::LegalizeOp。LegalizeOp方法的主要有如下步骤:
- 当节点已经合法化后,则直接返回VectorLegalizer::LegalizedNodes成员缓存的合法化后的节点。否则,继续;
- 递归调用LegalizeOp对节点的操作数合法化,并通过DAG.UpdateNodeOperands替换掉当前节点的操作数。后续处理节点输出值转换;
- 对load和store节点做特别处理。如果load节点是向量类型且为扩展load类型、或store节点是向量类型且是截断存储,则会根据TargetLowering::getLoadExtAction返回值作不同处理(Custom则会调用TargetLowering子类重写的LowerOperation方法、Expand则会调用VectorLegalizer::ExpandLoad/ExpandStore);
- 对于其他节点类型,只要操作数或输出值类型只要有一个向量类型,则进行通用处理。通用节点处理共分为三步:通过TargetLowering::getOperationAction获取节点的action(有些是根据输出值,有些是根据输入值);根据action作不同的处理(为Promote枚举调用VectorLegalizer::Promote方法、为Custom枚举调用TargetLowering子类重写的LowerOperation方法、为Expand枚举调用VectorLegalizer::Expand方法);在VectorLegalizer::LegalizedNodes成员中,建立节点的输出值到转换后的输出节点的映射缓存(如果没有转换则缓存当前节点)。
注:整个向量合法化依赖TargetLowering::setOperationAction和TargetLowering::setLoadExtAction初始化设置
VectorLegalizer::ExpandLoad
- 对于Load的内存源类型是字节对齐(存储对齐)的、或其向量长度为1,则会通过TargetLowering::scalarizeVectorLoad处理Load节点。它会将对向量的Load分拆为单个元素的Load,并通过ISD::BUILD_VECTOR将Load值合并为一个向量;
- 对于Load的内存源类型不是字节对齐的、且其向量长度大于1,则会分拆为目标指针类型大小Load(不够分拆则按幂退大小),然后经过系列位操作组合元素,最后再将元素通过ISD::BUILD_VECTOR合并为一个向量
VectorLegalizer::ExpandStore
- 通过TargetLowering::scalarizeVectorStore处理;
- 如果store节点的内存类型不是字节对齐的,则将每个向量元素截断为单个元素内存类型,再零扩展为与整个向量内存类型等bit长度的int类型,然后通过移位和ISD::OR合并为一个值,最后生成新的store节点存储合并的值;
- 如果store节点的内存类型是字节对齐的,则对每个元素截断存储为单个元素的内存类型,最后通过ISD::TokenFactor组合为一个节点。
VectorLegalizer::Promote
- 除了少数节点需要单独处理,大多数节点根据TargetLowering::getTypeToPromoteTo获取节点输出值的上提类型,然后重新生成相关操作节点;
VectorLegalizer::Expand
- 一部分节点需要单独处理,例如ISD::MERGE_VALUES,将合并的值分拆返回便是;
- 其他节点则通过SelectionDAG::UnrollVectorOp展开向量,本质上对向量的操作展开为相应位置的元素操作,最后再通过ISD::BUILD_VECTOR合并成一个向量。
1.5 DAG合法化
DAG合法化是最后一个合法化阶段,它在SelectionDAG::Legalize中完成,它会不断通过SelectionDAGLegalize::LegalizeOp对每个节点合法化,直到所有节点都不再需要合法化结束。SelectionDAGLegalize::LegalizeOp的主要流程如下:
- 在LegalizeOp中,同样会对Load和Store单独处理,会分别调用SelectionDAGLegalize::LegalizeLoadOps / LegalizeStoreOps进行处理;
- 对其他节点,先通过TargetLowering::getOperationAction获取LegalizeAction;再通过action不同做不同处理:为Legal,不处理;为Custom,调用TargetLowering子类重写的LowerOperation方法;为Promote,则调用SelectionDAGLegalize::PromoteNode处理;为Expand,则调用SelectionDAGLegalize::ExpandNode处理;为LibCall,则调用SelectionDAGLegalize::ConvertNodeToLibcall处理;
SelectionDAGLegalize::LegalizeLoadOps
- 对于非扩展的Load节点,根据输出值类型调用TargetLowering::getOperationAction,根据返回值不同处理不同。
- 对于扩展的Load节点,如果内存源类型没有字节对齐,且内存源类型不为MVT::i1或i1的getLoadExtAction返回为Promote行为,则将内存源类型上提到字节对齐类型生成新扩展Load,最后按未上提的内存源类型扩展输出值。
后续则是内存源类型字节对齐、或内存源类型为MVT::i1且i1的getLoadExtAction不为Promote行为;
- 对于扩展的Load节点,如果内存源类型位宽为2的幂次方,则根据大小端分拆为两个扩展Load,最后再通过移位操作合并为大类型;
- 对于扩展的Load节点,如果内存源类型位宽不是2的幂次方(隐含条件字节对齐),调用TargetLowering::getLoadExtAction,根据返回值不同处理方式不同;
注:TargetLowering::expandUnalignedLoad用于处理不支持对齐的Load。对浮点或向量的不合法内存源类型,会拆分为寄存器类型粒度分别从栈上load;对于其他类型(例如int)拆分为两个更小的长度类型load,再通过位操作合并为一个节点
SelectionDAGLegalize::LegalizeStoreOps
- 非截断store节点,根据待存储值类型调用TargetLowering::getOperationAction,根据返回值不同处理不同。
- 截断store节点,如果内存类型为非字节对齐,则将内存类型上提到字节对齐类型;同时,对存储值超过的位截断为0;再重新生成新截断store节点;
- 截断store节点,如果内存类型字节对齐且位宽为2的幂次方,则根据大小端分拆为两个较小类型存储;最后通过ISD::TokenFactor合并为一个节点;
- 截断store节点,如果内存类型字节对齐但位宽不是2的幂次方,根据内存类型调用TargetLowering::getTruncStoreAction,根据返回值不同处理方式不同;
SelectionDAGLegalize::PromoteNode
- 根据节点第一个输出类型获取上提类型,特别地,一些特殊节点是根据操作数的类型获取上提类型;
- 根据节点类型不同作不同处理,以ISD::MUL为例,对操作数全部扩展为上提类型,再对输出值截断为上提前的类型;
- 最后,通过ReplaceNode函数将引用原节点的use关系替换为Results(此外还会将新节点添加到更新列表),一般Results个数为1;
SelectionDAGLegalize::ExpandNode
- 根据节点类型不同,作不同处理:以ISD::MERGE_VALUES为例,直接将合并的值取出来放到Results中;
- 最后,通过ReplaceNode函数将引用原节点的use关系替换为Results(此外还会将新节点添加到更新列表)。其内部实现是调用SelectionDAG::ReplaceAllUsesWith实现的,Results数组代表的是每个原节点的输出值;
SelectionDAGLegalize::ConvertNodeToLibcall
- 根据节点类型不同,调用不同的Libcall转换,并将节点加入到Results列表;
- 最后与PromoteNode和ExpandNode一样,通过ReplaceNode替换原节点的输出值;
1.6 DAG合并
从构建DAG开始每个阶段完成后都要进行一次DAG合并,通过调用DAGCombiner::Run实现DAG合并。其主要流程如下:
- 首先将所有节点加入Worklist中,然后进入while循环处理;
- 如果当前节点没有被引用,则通过recursivelyDeleteUnusedNodes函数向上检索并删除没有使用的节点(其实前面的几个阶段也有无用节点的删除);
- 如果AtLevel大于等于阶段AfterLegalizeDAG(即合法化DAG之后),则再次通过SelectionDAGLegalize::LegalizeOp对当前节点进行DAG合法化,并将全部新转换的节点添加到Worklist中;
- 将当前节点加入CombinedNodes缓存中,并把当前节点的每个还没加入到CombinedNodes缓存的操作数节点加入到Worklist中,最后调用combine执行真正的节点合并;
2 目标实现
llvm后端支持三种指令选择:
- SelectionDagISel : SDAG指令选择
- FastISel : 快速指令选择
- GlobalISel :全局指令选择
实现SDAG指令选择
- 实现TargetLowering子类:将其实例化注册到Subtarget的子类中通过重写的getTargetLowering方法返回TargetLowering引用。重点是实现TargetLowering子类
- 实现SelectionDAGISel子类:先实现TargetPassConfig子类,并重写addInstSelector方法;在addInstSelector中添加SelectionDAGISel子类实现。
实现快速指令选择
实现全局指令选择
2.1 TargetLowering
2.2 SelectionDAGISel