简介:
angr是一个二进制代码分析工具,能够自动化完成二进制文件的分析,并找出漏洞。angr基于python,它将以前多种分析技术集成进来,它能够进行动态的符号执行分析,也能够进行多种静态分析。本文以介绍angr的基本信息与静态分析二进制文件方法为主。
(1)将二进制程序载入angr分析系统
(2)将二进制程序转换成中间语言(intermediate representation,IR)
(3)将IR语言转换成语义较强的表达形式,比如,这个程序做了什么,而不是它是什么。
(4)执行进一步的分析,比如,完整的或者部分的静态分析(依赖关系分析,程序分块)、程序空间的符号执行探索(挖掘溢出漏洞)、一些对于上面方式的结合。
Linux:(两种不同方法)
1. 依赖:sudo apt-getupdate; sudo apt-get upgrade;
sudo apt-getinstall python-dev libffi-dev build-essential libssl-dev python-pip;
虚拟环境:sudo pipinstall urllib3 request virtualenvwrapper virtualenv
下载angr-dev:git clone https://github.com/angr/angr-dev; cd angr-dev
自动化安装:./setup.sh-i -e angr(自动化安装一切)
2. 安装依赖:sudo apt-get install python-dev libffi-dev build-essential virtualenvwrapper
安装angr:mkvirtualenv angr && pip install angr
两种安装方法可以先尝试一种,安装失败再尝试另一种。
安装之后都可以用workon angr命令进入angr环境。进入angr环境然后进入Python环境,使用import angr导入angr环境。
另:若分析CFG信息,需要安装angr-utils:
gitclone https://github.com/axt/angr-utils. 然后python setup.pybuild;python setup.py install
Angr的使用:
angr的二进制装载组件是CLE,它负责装载二进制对象(以及它依赖的任何库)和把这个对象以易于操作的方式交给angr的其他组件。
angr将这些包含在Project类中。一个Project类是代表了二进制文件的实体。angr的大部分操作都会经过它。
使用angr装载一个二进制文件(比如说,“/bin/true”),需要这样做:
>>>import angr
>>> b = angr.Project("/bin/true")
这样操作之后,b就是主二进制文件以及它依赖的所有库的代表。可以从b这个project中得到二进制文件的一些信息:
# 这是二进制文件的入口点
>>>print b.entry
# 这些是二进制文件内存空间中的最小地址和最大地址
>>>print b.loader.min_addr(), b.loader.max_addr()
# 这些是文件的全名
>>>print b.filename
由于angr需要处理很多不同的架构,所以它必须选择一种中间语言(IR)来进行它的分析。angr使用Valgrind的中间语言——VEX来完成这方面的内容。VEX中间语言抽象了几种不同架构间的区别,允许在他们之上进行统一的分析:
·寄存器名。在不同架构间的寄存器数量和名字是不一样的,但是现代的各CPU设计有通用之处:每一种CPU包含几个通用寄存器,一个寄存器装载栈指针,一系列寄存器装载状态标志等等。中间语言提供了一个统一的、抽象的对于不同平台的寄存器接口。VEX模型将寄存器作为一个独立的内存空间,使用偏移来访问它们(比如,AMD64的rax寄存器在这个内存空间的偏移16的地址上)。
·内存访问。不同的架构使用不同的方式访问内存。比如ARM既可以通过小端序也可以通过大端序来访问内存。中间语言必须能够抽象分离出其中的差异。
·内存分段。一些架构,比如x86,通过使用特殊的段寄存器实现内存的分段。中间语言能够理解这样的内存访问机制。
·指令的副作用。大多数的指令有产生一些影响。比如,ARM中Thumb模式下的大多数操作会更新状态标志,栈上的push/pop操作更新栈指针。在分析中通过ad hoc 的方式来跟踪这些影响是愚蠢的,所以中间语言使这些影响很清晰直接。
将二进制代码转换为VEX已经有了很好的支持。VEX是一种支持大量目标机器语言的架构无关、无副作用的语言。它抽象了机器指令到中间表达来使程序更易于分析。这一中间语言有四个主要的对象类:
·表达式(Expressions)。IR表达式代表了一个计算出的数值或者常量。这包括了内存装载,读寄存器以及算数计算的结果。
·操作(Operations)。IR操作描述了对IR表达式的修改。这包括了整形的运算,浮点型的运算,位运算等等。一个IR操作应用于IR表达式会产生一个IR表达式作为结果。
·临时变量(Temporary variables)。VEX使用临时变量作为内部寄存器:IR表达式在使用过程中存储在临时变量中。临时变量的值可以通过IR表达式重新获取。这些临时变量被从t0开始编号,且是强类型的(比如64位的整形或者32位的浮点型)。
·语句(Statements)。IR语句模型根据目标机器而改变,比如内存存储和写寄存器产生的效果,IR语句使用IR表达式获取可能用到的值。比如,一个内存存储操作的IR语句使用IR表达式作为要写入的目标地址,使用另一个IR表达式作为要写入的内容。
·块(Blocks)。一个IR块是一系列IR语句的集合,代表了目标架构上的一个扩展块(术语为“IR超级块(IR Super Block)”或者“IRSB”)。一个超级块可以有多个出口。在基本块中间有条件退出时,会使用特殊的退出IR语句。一个IR表达式被用来代表在块的最后无条件退出时的目标指向。
Angr中使用一个叫做pyvex的库作为Python和Vex的接口,pyvex可以通过 Project.factory.block接口来访问。有很多种不同的对象可以用来访问一个块的属性,但是他们在分析特定的字节序列的时候具有共通特性。通过factory.block构造器,可以得到一个能够轻松转换成几种不同代表的Block对象。尝试.vex来获取pyvex的IRSB,或者.capstone获取Capstone块:
>>>import angr
# 装载二进制程序
>>> b = angr.Project("/bin/true")
# 转换入口点为基本块
>>> irsb = b.factory.block(b.entry).vex
>>> irsb.pp()
# 转换特定地址为基本块
>>> irsb = b.factory.block(0x401340).vex
>>> irsb.pp()
# 这是代表了这一基本块的最后无条件退出时的跳转目标的IR表达式
>>>print irsb.next
# 这一无条件退出的类型(比如,一个函数调用,或者从一个函数返回,或者是系统调用等等)
>>>print irsb.jumpkind
# 你也可以将它以良好的可读方式打印出来
>>> irsb.next.pp()
# 遍历每一个语句并且将它们打印出来
>>>for stmt inirsb.statements:
... stmt.pp()
# 打印代表了数据的IR表达式以及其被对应的存储语句存储下来的类型
>>>import pyvex
>>>for stmt inirsb.statements:
... ifisinstance(stmt,pyvex.IRStmt.Store):
... print"Data:",
... stmt.data.pp()
... print""
... print"Type:",
... print stmt.data.result_type
... print""
# 打印基本块中每一个条件退出的条件和跳转目标
...for stmt in irsb.statements:
... ifisinstance(stmt,pyvex.IRStmt.Exit):
... print"Condition:",
... stmt.guard.pp()
... print""
... print"Target:",
... stmt.dst.pp()
... print""
# 这些是在IRSB中的每一个临时变量的类型
>>>print irsb.tyenv.types
# 这是获取第0个临时变量的类型的一种方法
>>>print irsb.tyenv.types[0]
了解了angr的装载和IR,下面来用例子说明angr的分析模块。Analyses可以从程序中获取一些信息的自定义的分析行为,包括:
这里以分析CFG为例来调用analyses,生成一个accurate CFG:
>>>import angr
>>> b=angr.Project(‘/bin/true’,load_optins={‘auto_load_libs’:False})
>>> cfg= b.analyses.CFGAccurate(keep_state=True)
在构造CFGFast或者CFGAccurate或其他分析行为时,有很多不同的选项可以设置,具体请参考http://angr.io/api-doc/index.html。需要说明的是,CFG图是NetworkX di-graph,也就是如果需要生成CFG图形视图,需要安装networkx。
例子:
import angr
from angrutils import plot_cfg
proj = angr.Project("<...>/ais3_crackme",load_options={'auto_load_libs':False})
main = proj.loader.main_bin.get_symbol("main")
start_state = proj.factory.blank_state(addr=main.addr)
cfg = proj.analyses.CFG(fail_fast=True, starts=[main.addr],initial_state=start_state)
plot_cfg(cfg, "ais3_cfg", asminst=True, remove_imports=True, remove_path_terminator=True)
输出CFG:(图中为部分CFG)
在对构造的CFG进行信息提取时,以粗粒度CFI为例,可以在CFG中得到所有遍历到的函数头信息与函数大小;利用pyvex中IRSB的信息可以得到所有jumpkind为call的基本块,而基本块的最后一条IMark信息就是call指令地址。其他的类似于call target,jump target,return target等信息也可以通过脚本去生成的CFG和IRSB模块中提取。
参考资料:
http://www.angr.io/api-doc/index.html
https://docs.angr.io/INSTALL.html
https://github.com/angr/angr-doc/blob/master/docs/toplevel.md
http://www.angr.io/