nvcc编译器之编译内幕(chapter 2&3)

目录

2. 编译阶段(步骤)

2.1 NVCC预定义宏

2.2 NVCC编译步骤

2.3 NVCC支持的文件后缀

2.4 支持的编译阶段

3. CUDA 编译内幕


2. 编译阶段(步骤)

2.1 NVCC预定义宏

  • __NVCC__

在编译C/C++/CUDA源文件时定义

  • __CUDACC__

在编译CUDA源文件时定义

  • __CUDACC_RDC__

在编译可重定位(relocatable)设备端代码模式时定义(详见6.2章节)

  • __CUDACC_EWP__

在可扩展整个程序模式下编译CUDA源文件时定义(详见4.2.3章节)

  • __CUDACC_DEBUG__

在指定编译debug版本的CUDA源文件时定义(详见4.2.3章节)

  • __CUDACC_RELAXED_CONSTEXPR__

命令行中指定--expt-relaxed-constexpr标志位时定义,详细参阅《cuda C编程指南》

  • __CUDACC_EXTENDED_LAMBDA__

命令行中指定--expt-extended-lambda或者--extended-lambda标志位时定义,详细参阅《cuda C编程指南》

  • __CUDACC_VER_MAJOR__

随nvcc的major版本定义

  • __CUDACC_VER_MINOR__

随nvcc的minor版本定义

  • __CUDACC_VER_BUILD__

随nvcc的构建版本定义

2.2 NVCC编译步骤

nvcc的编译由几个不同的逻辑翻译步骤组成,这可以通过nvcc命令行选项来选择。

一个单独的编译阶段,也可以被NVCC分解成几个不同的步骤,这些步骤合并组成一个编译过程。然而,编译取决于nvcc所使用的(nvcc更像一个编译工具的集成者)内部编译套件,这些编译套件会随着CUDA工具套件的更新而改变。因此,在不同的发行版本中,只有统一的整个编译流程是稳定不变的。nvcc提供了一系列命令行选项来展示编译所执行的不同阶段,但这仅仅用作debug使用,不要拷贝并在构建脚本中使用。因为编译的中间结果依赖于特定的nvcc编译工具套件,多版本之间可能不兼容。

实际上,nvcc的编译除了依赖于编译选项,也依赖于输入文件的后缀。通过输入文件后缀确定编译阶段的输入,通过命令行选项确定编译阶段的输出。2.3章节会介绍NVCC支持的文件后缀,2.4章节会介绍NVCC支持的编译阶段。

2.3 NVCC支持的文件后缀

  • .cu:cuda源文件,包含了host代码和device代码
  • .c:C源文件
  • .cc,.cxx,.cpp:C++源文件
  • .ptx:ptx中间汇编码文件
  • .cubin:cuda设备端可执行二进制码文件(单GPU架构下)
  • .fatbin:cuda fat二进制文件,可以包含多个ptx码和cubin码文件
  • .o,.obj:对象文件
  • .a,.lib:库文件
  • .res: 资源文件
  • .so:动态库文件

2.4 支持的编译阶段

下表介绍支持的编译阶段和相关的命令行选项,以及不同编译阶段的默认输出文件名称(当不使用--output-file选项时):

Phase

nvcc选项

默认输出文件名称

cuda编译到C/C++源文件

--cuda

-cuda

x.cpp.ii,x表示源文件名。该输出文件可以通过host编译器进行后续编译,nvcc使用host编译器对.cu文件进行预处理

C/C++预处理

--preprocess

-E

标准的预处理输出

C/C++编译到目标文件

--compile

-c

x.o(Linux和Mac OS X),x.obj(Windows)

从cuda源文件生成cubin文件

--cubin

-cubin

x.cubin

从ptx中间码生成cubin文件

--cubin

-cubin

x.cubin

从cuda源文件生成ptx中间码文件

--ptx

-ptx

x.ptx

从源文件,ptx或cubin文件生成fatbin文件

--fatbin

-fatbin

x.fatbin

链接生成设备端的可重定位代码

--device-link

-dlink

a_dlink.obj(Windows)或a_dlink.o(Linux, Mac OS X)

从设备端可重定位代码生成设备端cubin二进制

--device-link --cubin

-dlink -cubin

a_dlink.cubin

从设备端可重定位代码生成fatbin

--device-link --fatbin

-dlink -fatbin

a_dlink.fatbin

链接生成可执行文件

无选项

a.out(Linux, Mac OS X)或a.exe(Windows)

目标文件打成包或库

--lib

-lib

a.a(Linux, Mac OS X)或a.lib(Windows)

生成依赖

--generate-dependencies

-M

标准的输出

生成不包含系统path路径的依赖

--generate-nonsystem-dependencies

-MM

标准输出

运行可执行文件

--run

-run

直接运行编译好的可执行文件,无需指定库路径(LD_LIBRARY_PATH)

在不指定具体命令行选项的时候,nvcc编译并链接所有输入的文件。

3. CUDA 编译内幕

cuda编译过程如下:

1) 源程序进行设备端(GPU)代码编译前的预处理,预处理后编译成cuda二进制(cubin)和(或)ptx中间码,放到fatbin文件中
2)源程序进行主机端(CPU)代码编译前的预处理,预处理后合入fatbin进去,并转换所有cuda C++扩展语法到标准的C++语法
3)host主机侧编译器编译合并后的代码(标准C++,以及嵌入了fatbin设备端代码)成目标文件。

当主机(端)程序启动(launch)运行设备端(__global__)代码时,cuda运行时系统会检查嵌入的fatbin代码,并获取适合当前GPU运行的fatbin(也就是说其中可以有支持各个不同架构GPU的fabin码嵌入在host程序中 ?)

cuda程序默认是被整体编译的,即设备端代码(C++文件对外暴露的函数和变量等)无法在另外一个文件中被引用。在整体编译模式下,设备代码的链接步长是无影响的。有关整体编译和分开编译,可以参考第6章节。

CUDA编译原理如下:

nvcc编译器之编译内幕(chapter 2&3)_第1张图片

 

关于作者:

犇叔,浙江大学计算机科学与技术专业,研究生毕业,而立有余。先后在华为、阿里巴巴和字节跳动,从事技术研发工作,资深研发专家。主要研究领域包括虚拟化、分布式技术和存储系统(包括CPU与计算、GPU异构计算、分布式块存储、分布式数据库等领域)、高性能RDMA网络协议和数据中心应用、Linux内核等方向。

专业方向爱好:数学、科学技术应用

关注犇叔,期望为您带来更多科研领域的知识和产业应用。

内容坚持原创,坚持干货有料。坚持长期创作,关注犇叔不迷路

你可能感兴趣的:(nvcc编译器,人工智能,ai)