原文
LibTooling
和LibASTMatchers
构建工具这里展示如何基于Clang
的LibTooling
构建有用的源到源
翻译工具.基础
0
:取Clang
因为Clang
是LLVM
项目的一部分,因此你需要先下载LLVM
的源码.Clang
和LLVM
都在同一个git
仓库中,在不同的目录下.更多见入门指南.
cd ~/clang-llvm
git clone https://github.com/llvm/llvm-project.git
接着,要取CMake
构建系统和Ninja
构建工具.
cd ~/clang-llvm
git clone https://github.com/martine/ninja.git
cd ninja
git checkout release
./bootstrap.py
sudo cp ninja /usr/bin/
cd ~/clang-llvm
git clone git://cmake.org/stage/cmake.git
cd cmake
git checkout next
./bootstrap
make
sudo make install
好.现在构建Clang
!
cd ~/clang-llvm
mkdir build && cd build
cmake -G Ninja ../llvm -DLLVM_ENABLE_PROJECTS="clang;clang-tools-extra" -DLLVM_BUILD_TESTS=ON
# 允许测试,默认关闭.
ninja
ninja check # Test LLVM only.
ninja clang-test # Test Clang only.
ninja install
好,可以了.所有测试都应通过.
最后,想设置Clang
为它自己
的编译器.
cd ~/clang-llvm/build
cmake ../llvm
第二个
命令打开配置Clang
的GUI
.你需要设置CMAKE_CXX_COMPILER
项.按"t"
打开高级模式.向下滚动到CMAKE_CXX_COMPILER
,并设置它为/usr/bin/clang++
,或安装位置.
按"c"
配置,然后按"g"
生成CMake
的文件.
最后,最后一次运行ninja
,你就完成了.
1
:创建ClangTool
创建最简单的ClangTool
:语法
检查器.虽然已有clang-check
了.
首先,为工具创建新目录
,并告诉CMake
它存在.因为这不会是核心clang
工具,它将在clang-tools-extra
仓库中.
cd ~/clang-llvm
mkdir clang-tools-extra/loop-convert
echo 'add_subdirectory(loop-convert)' >> clang-tools-extra/CMakeLists.txt
vim clang-tools-extra/loop-convert/CMakeLists.txt
CMakeLists.txt
应包含以下内容:
set(LLVM_LINK_COMPONENTS support)
add_clang_executable(loop-convert
LoopConvert.cpp
)
target_link_libraries(loop-convert
PRIVATE
clangAST
clangASTMatchers
clangBasic
clangFrontend
clangSerialization
clangTooling
)
完成后,Ninja
可编译此工具.编译!在clang-tools-extra/loop-convert/LoopConvert.cpp
中放置以下内容.
不同部件见LibTooling
文档.
//声明`clang::SyntaxOnlyAction`.
#include "clang/Frontend/FrontendActions.h"
#include "clang/Tooling/CommonOptionsParser.h"
#include "clang/Tooling/Tooling.h"
//声明`llvm::cl::extrahelp`.
#include "llvm/Support/CommandLine.h"
using namespace clang::tooling;
using namespace llvm;
//对所有命令行选项,自定义分类,这样只显示他们.
static llvm::cl::OptionCategory MyToolCategory("my-tool options");
//`CommonOptionsParser`用与编译数据库和输入文件相关的常见命令行选项的`说明`声明`HelpMessage`.
//在所有工具中都有此帮助消息.
static cl::extrahelp CommonHelp(CommonOptionsParser::HelpMessage);
//之后可添加此`特定工具`的帮助消息.
static cl::extrahelp MoreHelp("\nMore help text...\n");
int main(int argc, const char **argv) {
auto ExpectedParser = CommonOptionsParser::create(argc, argv, MyToolCategory);
if (!ExpectedParser) {
//对不支持的选项,优雅失败.
llvm::errs() << ExpectedParser.takeError();
return 1;
}
CommonOptionsParser& OptionsParser = ExpectedParser.get();
ClangTool Tool(OptionsParser.getCompilations(), OptionsParser.getSourcePathList());
return Tool.run(newFrontendActionFactory<clang::SyntaxOnlyAction>().get());
}
就这样!可通过从build
目录运行ninja
来编译新工具.
cd ~/clang-llvm/build
ninja
现在应可在源文件
上运行在~/clang-llvm/build/bin
中的语法检查器
.试试!
echo "int main() { return 0; }" > test.cpp
bin/loop-convert test.cpp --
注意指定
源文件后的两个破折号
.在破折号之后传递编译器附加选项
,而不是从编译数据库
中加载它们,现在不需要选项
.
Intermezzo
:学习AST
匹配器基础Clang
最近推出了,提供简单,强大且简洁
方式来描述AST
中的指定模式
的ASTMatcher
库.
按宏和模板
提供支持的DSL
实现匹配器
(见ASTMatchers.h
,这里),它提供了函数式语言
常见的代数数据类型
的感觉.
如,假设只想检查二元符号
.有个叫binaryOperator
的匹配器可完成:
binaryOperator(hasOperatorName("+"), hasLHS(integerLiteral(equals(0))))
它会与左侧
正好是0字面
的加式
匹配.不会与其他形式
的0
(如"\0"
或NULL
)匹配,但它与到0的扩展宏
匹配.
匹配器
也不会匹配
调用"+"
重载符号,因为有个单独的operatorCallExpr
匹配器来处理重载符号
.
有个AST
匹配器来匹配AST
的所有不同节点
,缩小匹配器
以仅匹配指定条件
的AST
节点,及从一个AST
节点取到另一个AST
节点的遍历匹配器
.
AST
匹配器的完整列表
所有名词
匹配器都描述了AST
中的可绑定实体
,以便找到匹配项
时可引用
它们.为此,只需在这些匹配器
上调用bind
方法,如:
variable(hasType(isInteger())).bind("intvar")
AST
匹配器好的,使用
匹配器.先定义一个抓按零定义初化的新变量
的所有语句的匹配器
.从匹配所有for
循环开始:
forStmt()
接着,要在循环
的第一部分,指定声明
单个变量,以便可扩展匹配器
到
forStmt(hasLoopInit(declStmt(hasSingleDecl(varDecl()))))
最后,可添加把变量
初化为零的条件
.
forStmt(hasLoopInit(declStmt(hasSingleDecl(varDecl(
hasInitializer(integerLiteral(equals(0))))))))
很容易阅读和理解
匹配器定义(“匹配
,init
部分声明了一个按0
字面初化
的变量的循环”),但很难确定
每个部分都是必要的.
注意,此匹配器
不会匹配,初化为"\0",0.0,NULL
或除0整数
之外的零的变量
的循环.
最后一步是给匹配器
取个名字,并绑定ForStmt
,因为想用它干活:
StatementMatcher LoopMatcher =
forStmt(hasLoopInit(declStmt(hasSingleDecl(varDecl(
hasInitializer(integerLiteral(equals(0)))))))).bind("forLoop");
定义了匹配器后,要添加更多助手
来运行它们.匹配器与MatchCallback
配对,并用MatchFinder
对象注册
,然后从ClangTool
运行.
添加以下内容
到LoopConvert.cpp
:
#include "clang/ASTMatchers/ASTMatchers.h"
#include "clang/ASTMatchers/ASTMatchFinder.h"
using namespace clang;
using namespace clang::ast_matchers;
StatementMatcher LoopMatcher =
forStmt(hasLoopInit(declStmt(hasSingleDecl(varDecl(
hasInitializer(integerLiteral(equals(0)))))))).bind("forLoop");
class LoopPrinter : public MatchFinder::MatchCallback {
public :
virtual void run(const MatchFinder::MatchResult &Result) {
if (const ForStmt *FS = Result.Nodes.getNodeAs<clang::ForStmt>("forLoop"))
FS->dump();
}
};
并将main()
更改为:
int main(int argc, const char **argv) {
auto ExpectedParser = CommonOptionsParser::create(argc, argv, MyToolCategory);
if (!ExpectedParser) {
//对不支持的选项,优雅失败.
llvm::errs() << ExpectedParser.takeError();
return 1;
}
CommonOptionsParser& OptionsParser = ExpectedParser.get();
ClangTool Tool(OptionsParser.getCompilations(), OptionsParser.getSourcePathList());
LoopPrinter Printer;
MatchFinder Finder;
Finder.addMatcher(LoopMatcher, &Printer);
return Tool.run(newFrontendActionFactory(&Finder).get());
}
现在,应该可重新编译
,并运行
代码以发现for
循环.创建包含几个示例
的新文件,并测试新手工
作品:
cd ~/clang-llvm/llvm/llvm_build/
ninja loop-convert
vim ~/test-files/simple-loops.cc
bin/loop-convert ~/test-files/simple-loops.cc
3.5
:更复杂的匹配器简单
匹配器可发现for
循环,但仍需要过滤
掉更多循环.可用一些巧妙
选择的匹配器来完成很大一部分剩余工作,但先要决定想要允许的属性
.
如何表征可转换为基于区间
语法的数组
上的循环?大小为N
的数组,基于区间
的循环:
1,从0索引
开始
2,连续迭代
3,在N-1
索引处结束
已检查了
(1)
,因此还要添加
的只是检查循环条件
,以确保循环的索引变量
与N
比较,并再次检查
确保增量步骤
只是递增
相同变量.
(2)
的匹配器很简单:要求在init
部分,声明相同变量
的前增量或后增量
.
可惜,不能写此匹配器
.匹配器
不包含比较两个
任意AST
节点,并确定是否相等
的逻辑,因此最好就是匹配
比允许更多,并额外与回调
比较.
就可开始构建
该子匹配器.可要求增量步骤
是一元增量
,如下:
hasIncrement(unaryOperator(hasOperatorName("++")))
指定递增
内容,引入了Clang
的AST
的另一个怪癖
:因为它们是引用
变量声明的表达式
,按DeclRefExpr
(“声明引用式
”)表示变量
用法.
要找到引用
指定声明的unaryOperator
,可简单地给它添加第二个条件
:
hasIncrement(unaryOperator(
hasOperatorName("++"),
hasUnaryOperand(declRefExpr())))
此外,可按仅在递增
变量为整数
时才限制匹配
匹配器:
hasIncrement(unaryOperator(
hasOperatorName("++"),
hasUnaryOperand(declRefExpr(to(varDecl(hasType(isInteger())))))))
最后一步是,把标识
附加到此变量
,以便可在回调
中提取它:
hasIncrement(unaryOperator(
hasOperatorName("++"),
hasUnaryOperand(declRefExpr(to(
varDecl(hasType(isInteger())).bind("incrementVariable"))))))
可添加
这段代码到LoopMatcher
定义中,并确保
配备了新匹配器的程序
,只打印出按零初化声明
的单个变量
的循环,并有由某个变量
的一元增量
组成的增量步骤
.
现在,只需要添加一个匹配器
,来检查for
循环的条件变量
部分是否与数组
大小比较.只有一个问题:如果不查看循环
主体,则不知道正在迭代的数组
!
再次限制为,在匹配器
中得到近似
想要结果,在回调
中填写细节.因此,从如下开始:
hasCondition(binaryOperator(hasOperatorName("<")))
确保左侧
是引用
变量,且右侧有整数类型
.
hasCondition(binaryOperator(
hasOperatorName("<"),
hasLHS(declRefExpr(to(varDecl(hasType(isInteger()))))),
hasRHS(expr(hasType(isInteger())))))
为什么?因为它不管用.在test-files/simple.cpp
中提供的三个循环
中,没有一个
有匹配条件.快速查看第一个由上一个
循环转换迭代
生成的for
循环的AST
转储,展示了答案:
(ForStmt 0x173b240
(DeclStmt 0x173afc8
0x173af50 "int i =
(IntegerLiteral 0x173afa8 'int' 0)")
<<>>
(BinaryOperator 0x173b060 '_Bool' '<'
(ImplicitCastExpr 0x173b030 'int'
(DeclRefExpr 0x173afe0 'int' lvalue Var 0x173af50 'i' 'int'))
(ImplicitCastExpr 0x173b048 'int'
(DeclRefExpr 0x173b008 'const int' lvalue Var 0x170fa80 'N' 'const int')))
(UnaryOperator 0x173b0b0 'int' lvalue prefix '++'
(DeclRefExpr 0x173b088 'int' lvalue Var 0x173af50 'i' 'int'))
(CompoundStatement ...
已知道声明
和增量
都匹配,否则就不会转储该循环
.原因在小于
符号的第一个操作数
(即LHS
)的隐式转换
,即引用i
的式
中,有个L值到R值
的转换.
好的是,匹配器库
,以ignoringParenImpCast
提供了此问题
方法,告诉匹配器
,在继续
匹配前,忽略隐式转换和括号
.
调整条件符号
,恢复期望匹配
.
hasCondition(binaryOperator(
hasOperatorName("<"),
hasLHS(ignoringParenImpCasts(declRefExpr(
to(varDecl(hasType(isInteger())))))),
hasRHS(expr(hasType(isInteger())))))
在把绑定
添加到想抓的式
中,并把标识串
提取到变量
中后,完成了数组第2步.
4
:提取匹配的节点目前,匹配器
回调,还不是很有趣:它只是转储
循环的AST
.有时,需要更改
输入源码.接着,使用上一步中绑定
的节点.
MatchFinder::run()
回调带MatchFinder::MatchResult&
参数.感兴趣的是它的Context
和Nodes
成员.
即,Clang
使用ASTContext
类,来表示AST
的环境信息,但最重要
的是多个操作
需要ASTContext*
参数.
更直接有用
的是匹配
节点的集合
,及如何提取它们.
因为绑定
了三个(由ConditionVarName,InitVarName
和IncrementVarName
标识)变量,因此可用getNodeAs()
成员函数取匹配节点
.
在LoopConvert.cpp
中添加
#include "clang/AST/ASTContext.h"
更改LoopMatcher
为:
StatementMatcher LoopMatcher =
forStmt(hasLoopInit(declStmt(
hasSingleDecl(varDecl(hasInitializer(integerLiteral(equals(0)))).bind("initVarName")))),
hasIncrement(unaryOperator(
hasOperatorName("++"),
hasUnaryOperand(declRefExpr(
to(varDecl(hasType(isInteger())).bind("incVarName")))))),
hasCondition(binaryOperator(
hasOperatorName("<"),
hasLHS(ignoringParenImpCasts(declRefExpr(
to(varDecl(hasType(isInteger())).bind("condVarName"))))),
hasRHS(expr(hasType(isInteger())))))).bind("forLoop");
并将LoopPrinter::run
更改为
void LoopPrinter::run(const MatchFinder::MatchResult &Result) {
ASTContext *Context = Result.Context;
const ForStmt *FS = Result.Nodes.getNodeAs<ForStmt>("forLoop");
//不想转换头文件!
if (!FS || !Context->getSourceManager().isWrittenInMainFile(FS->getForLoc()))
return;
const VarDecl *IncVar = Result.Nodes.getNodeAs<VarDecl>("incVarName");
const VarDecl *CondVar = Result.Nodes.getNodeAs<VarDecl>("condVarName");
const VarDecl *InitVar = Result.Nodes.getNodeAs<VarDecl>("initVarName");
if (!areSameVariable(IncVar, CondVar) || !areSameVariable(IncVar, InitVar))
return;
llvm::outs() << "发现可能基于数组的循环.\n";
}
Clang
用每个表示变量声明
的变量关联VarDecl
.因为每个声明的"规范"
形式按地址
都是唯一
的,因此只需要确保(VarDecl
的基类)ValueDecl
不是NULL
并比较规范声明
.
static bool areSameVariable(const ValueDecl *First, const ValueDecl *Second) {
return First && Second &&
First->getCanonicalDecl() == Second->getCanonicalDecl();
}
如果执行到达LoopPrinter::run()
的末尾,知道循环壳
如下
for (int i= 0; i < expr(); ++i) { ... }
现在,只打印一条说明发现了个循环
的消息.
顺便,尽管Clang
已通过提供规范式
方法,完成了艰苦
工作,测试两个式
是否相同
,并不是那么简单:
static bool areSameExpr(ASTContext *Context, const Expr *First, const Expr *Second) {
if (!First || !Second)
return false;
llvm::FoldingSetNodeID FirstID, SecondID;
First->Profile(FirstID, *Context, true);
Second->Profile(SecondID, *Context, true);
return FirstID == SecondID;
}
此代码依赖两个llvm::FoldingSetNodeID
间的比较
.如Stmt::Profile()
文档所示,Profile()
成员函数,根据AST
中的节点属性
及其子节点
的属性
构建节点描述
.
然后,FoldingSetNodeID
按比较
式的哈希来用.稍后需要areSameExpr
.在添加其他循环
到test-files/simple.cpp
上,运行新代码
前,请试找出哪些
是可转换的循环
.