LLVM的介绍和编译

一、 概述

LLVM是架构编译器的框架系统,由C++编写而成。由于优化以任意程序语言编写的程序的编译时间(complie-time)链接时间(link-time)运行时间(run-time)以及空闲时间(idle-time)。对开发者保持开放,并兼容已有的脚本。

二、LLVM设计结构

传统的LLVM设计结构如下:

编译器架构.png

分为 源码、前端、优化器、后端、以及机器识别语言等几部分。

2.1 前端编译器(Frontend)

前端编译器的任务是解析源代码。它会进行相应的:词法分析语法分析语义分析。检查源代码是否存在语法错误,然后构建抽象语法树(Abstract Syntax Tree,AST),LLVM的前端编译器还会生成中间代码((intermediate representation,IR).

2.2 优化器(optimizer)

优化器负责进行各种优化,改善代码的运行时间。例如消除冗余计算等。

2.3后端(backend)

将代码映射带目标指令集,生成机器语言,并且进行机器相关的代码优化。

2.4 iOS的编译架构

Objective C、C、C++使用的编译器前端是clang,Swift 的编译器前端是swift,后端都是LLVM.


设计.png

2.5 LLVM的设计

当编译器决定支持多种语言或多种硬件架构时,LLVM的最重要的时刻就来了。其他的编译器如GCC,它方法非诚成功,但是由于它是作为整体程序设计的,因此它的用途受到了很大的限制。
LLVM设计最重要的地方是、使用通过代码形式(IR)、是用来在编译器中表示代码的形式。所以LLVM可以为任何编程语言独立编写前端,并且可以为任意硬件架构独立编写后端。


图片.png

2.6 Clang

clang是LLVM的项目中的一个子项目,它是基于LLVM架构的轻量级编译器,诞生之初是为咯替换GCC,提供更快的编译速度,它属于LLVM的前端编译器。

三,LLVM的编译过程

3.1 LLVM的编译步骤

现在我们新建一个空项目,创建一个命令行的项目,然后写一些相关的代码

#import 

#define C  30
int main(int argc, const char * argv[]) {
    
    int a = 10;
    int b = 20;
    printf("%d \n",a + b + C);
    
    return 0;
}

然后我们在该工程的目录下创建终端命令:

然后我们看看LLVM进行编译的过程中要执行的相关步骤命令

clang -ccc-print-phases main.m

执行结果如下:

0: input, "main.m", objective-c
1: preprocessor, {0}, objective-c-cpp-output
2: compiler, {1}, ir
3: backend, {2}, assembler
4: assembler, {3}, object
5: linker, {4}, image
6: bind-arch, "x86_64", {5}, image

  • step1 :输入文件,找到源文件
  • stem2:预处理阶段,这个过程包括宏定义的替换,头文件的导入和展开。
  • step3:编译阶段,进行词法分析、语法分析、检测语法是否正确生成IR.
  • step4:后端,这里LLVM会通过一个一个的Pass去优化,每个Pass做一些事情,最终生成汇编代码。
  • step5 生成目标文件,
  • step6 链接,链接需要的动态库和静态库,生成可执行文件。
  • step7 通过不同的架构,生成对应的可执行文件

3.2 预处理阶段(preprocessor)

我们执行以下命令

clang -E main.m -o main2.m

我们会看到和main文件同级目录下多了一个main2.m的文件,我们打开改文件会发现和之前的main有所不一样了,不一样之处如下图

预编译.png

我们看到预编译阶段,文件的行数变得多了很多,所以并且之处的宏定义C已经替换为30。这就是预编译过程的事情,

3.3 词法分析

预处理阶段过后就会进行词法分析,这里会把每个代码切成一个一个的token,这里我们只需要执行以下命令

clang -fmodules -fsyntax-only -Xclang -dump-tokens main.m

这样 在终端就会生成一行一行的代码


token.png

这样,我们程序就被切成一个一个的token 包括空格和标点符号,以及具体对应的代码位置都被token标注的清清楚楚。

3.4 生成语法树

由上一步生成的语法树,我们只需要执行命令

clang -fmodules -fsyntax-only -Xclang -ast-dump main.m

语法树的生成如下


语法树.png

3.6 生成中间代码

对于以上生成中间的代码。我们需要执行命令

clang -S -fobjc-arc -emit-llvm main.m

执行完成过后我们能看到和main.m文件同级的目录中多了的main.ll的文件,这就是IR的格式文件
我们用WebStorm打开改文件如图


图片.png

相关的关键之解析

@:全局标识
% 局部标识
alloca 开辟内存空间
align 字节对齐
store 写入内存load 肚内存
call 调用函数
ret 返回值
i32 int 4个字节

3.7 IR的优化方式

LLVM的优化级别分别是-O0、-O1、-O2、-O3、-Os(第一个字母必须大写)
执行命令

clang -Os -S -fobjc-arc -emit-llvm main.m -o main.ll

3.8 bitCode

通过编译生成的中间代码生成bitCode执行指令

clang -emit-llvm -c main.ll -o main.bc

3.9 生成汇编代码

通过生成的bitCode 或者中间代码生成汇编代码如下

clang -S -fobjc-arc main.bc -o main.s
clang -S -fobjc-arc main.ll -o main.s

生成的汇编代码也可以进行优化

clang -Os -S -fobjc-arc main.m -o main.s

3.10 生成目标文件

生成目标文件的执行指令

clang -fmodules -c main.s -o main.o

通过nm指令,查看main.o文件

$xcrun nm -nm main.o

3.11 生成可执行文件(链接)

命令如下

clang main.o -o main

再次可以通过nm命令查看,可以看到完全不一样的结果。

四、总结

以上就是对LLVM的初探的整个过程,虽然有些内容自己还没去验证,但是大致流程就这样,这也是先记录然后自我学习的一个过程,希望在每天的学习过程中进步一点点吧,有什么不足的地方还请多多指正。觉得有用的就借鉴一下,如果觉得没用的请越过。

你可能感兴趣的:(LLVM的介绍和编译)