利用angr进行二进制静态分析

简介:

angr是一个二进制代码分析工具,能够自动化完成二进制文件的分析,并找出漏洞。angr基于python,它将以前多种分析技术集成进来,­­­它能够进行动态的符号执行分析,也能够进行多种静态分析。本文以介绍angr的基本信息与静态分析二进制文件方法为主。

Angr的基本过程:

(1)将二进制程序载入angr分析系统

(2)将二进制程序转换成中间语言(intermediate representation,IR)

(3)将IR语言转换成语义较强的表达形式,比如,这个程序做了什么,而不是它是什么。

(4)执行进一步的分析,比如,完整的或者部分的静态分析(依赖关系分析,程序分块)、程序空间的符号执行探索(挖掘溢出漏洞)、一些对于上面方式的结合。

安装方法:

Linux:(两种不同方法)

1.  依赖:sudo apt-getupdate; sudo apt-get upgrade; 

sudo apt-getinstall python-dev libffi-dev build-essential libssl-dev python-pip;

虚拟环境:sudo pipinstall urllib3 request virtualenvwrapper virtualenv

下载angr-dev:git clone https://github.com/angr/angr-dev; cd angr-dev

自动化安装:./setup.sh-i -e angr(自动化安装一切)

2.  安装依赖:sudo apt-get install python-dev libffi-dev build-essential virtualenvwrapper

安装angr:mkvirtualenv angr && pip install angr

 

两种安装方法可以先尝试一种,安装失败再尝试另一种。

安装之后都可以用workon angr命令进入angr环境。进入angr环境然后进入Python环境,使用import angr导入angr环境。

 

另:若分析CFG信息,需要安装angr-utils:

gitclone https://github.com/axt/angr-utils. 然后python setup.pybuild;python setup.py install

 

 

Angr的使用:

1.装载:

angr的二进制装载组件是CLE,它负责装载二进制对象(以及它依赖的任何库)和把这个对象以易于操作的方式交给angr的其他组件。

angr将这些包含在Project类中。一个Project类是代表了二进制文件的实体。angr的大部分操作都会经过它。

使用angr装载一个二进制文件(比如说,“/bin/true”),需要这样做:

>>>import angr

 

>>> b = angr.Project("/bin/true")

 

这样操作之后,b就是主二进制文件以及它依赖的所有库的代表。可以从b这个project中得到二进制文件的一些信息:

# 这是二进制文件的入口点
>>>print b.entry
 
# 这些是二进制文件内存空间中的最小地址和最大地址
>>>print b.loader.min_addr(), b.loader.max_addr()
 
# 这些是文件的全名
>>>print b.filename
 

2.中间语言

由于angr需要处理很多不同的架构,所以它必须选择一种中间语言(IR)来进行它的分析。angr使用Valgrind的中间语言——VEX来完成这方面的内容。VEX中间语言抽象了几种不同架构间的区别,允许在他们之上进行统一的分析:

·寄存器名。在不同架构间的寄存器数量和名字是不一样的,但是现代的各CPU设计有通用之处:每一种CPU包含几个通用寄存器,一个寄存器装载栈指针,一系列寄存器装载状态标志等等。中间语言提供了一个统一的、抽象的对于不同平台的寄存器接口。VEX模型将寄存器作为一个独立的内存空间,使用偏移来访问它们(比如,AMD64的rax寄存器在这个内存空间的偏移16的地址上)。

·内存访问。不同的架构使用不同的方式访问内存。比如ARM既可以通过小端序也可以通过大端序来访问内存。中间语言必须能够抽象分离出其中的差异。

·内存分段。一些架构,比如x86,通过使用特殊的段寄存器实现内存的分段。中间语言能够理解这样的内存访问机制。

·指令的副作用。大多数的指令有产生一些影响。比如,ARM中Thumb模式下的大多数操作会更新状态标志,栈上的push/pop操作更新栈指针。在分析中通过ad hoc 的方式来跟踪这些影响是愚蠢的,所以中间语言使这些影响很清晰直接。

将二进制代码转换为VEX已经有了很好的支持。VEX是一种支持大量目标机器语言的架构无关、无副作用的语言。它抽象了机器指令到中间表达来使程序更易于分析。这一中间语言有四个主要的对象类:

·表达式(Expressions)。IR表达式代表了一个计算出的数值或者常量。这包括了内存装载,读寄存器以及算数计算的结果。

·操作(Operations)。IR操作描述了对IR表达式的修改。这包括了整形的运算,浮点型的运算,位运算等等。一个IR操作应用于IR表达式会产生一个IR表达式作为结果。

·临时变量(Temporary variables)。VEX使用临时变量作为内部寄存器:IR表达式在使用过程中存储在临时变量中。临时变量的值可以通过IR表达式重新获取。这些临时变量被从t0开始编号,且是强类型的(比如64位的整形或者32位的浮点型)。

·语句(Statements)。IR语句模型根据目标机器而改变,比如内存存储和写寄存器产生的效果,IR语句使用IR表达式获取可能用到的值。比如,一个内存存储操作的IR语句使用IR表达式作为要写入的目标地址,使用另一个IR表达式作为要写入的内容。

·块(Blocks)。一个IR块是一系列IR语句的集合,代表了目标架构上的一个扩展块(术语为“IR超级块(IR Super Block)”或者“IRSB”)。一个超级块可以有多个出口。在基本块中间有条件退出时,会使用特殊的退出IR语句。一个IR表达式被用来代表在块的最后无条件退出时的目标指向。

 

Angr中使用一个叫做pyvex的库作为Python和Vex的接口,pyvex可以通过 Project.factory.block接口来访问。有很多种不同的对象可以用来访问一个块的属性,但是他们在分析特定的字节序列的时候具有共通特性。通过factory.block构造器,可以得到一个能够轻松转换成几种不同代表的Block对象。尝试.vex来获取pyvex的IRSB,或者.capstone获取Capstone块:

 

>>>import angr

 

# 装载二进制程序

>>> b = angr.Project("/bin/true")

 

# 转换入口点为基本块

>>> irsb = b.factory.block(b.entry).vex

>>> irsb.pp()

 

# 转换特定地址为基本块

>>> irsb = b.factory.block(0x401340).vex

>>> irsb.pp()

 

# 这是代表了这一基本块的最后无条件退出时的跳转目标的IR表达式

>>>print irsb.next

 

# 这一无条件退出的类型(比如,一个函数调用,或者从一个函数返回,或者是系统调用等等)

>>>print irsb.jumpkind

 

# 你也可以将它以良好的可读方式打印出来

>>> irsb.next.pp()

 

# 遍历每一个语句并且将它们打印出来

>>>for stmt inirsb.statements:

...     stmt.pp()

 

# 打印代表了数据的IR表达式以及其被对应的存储语句存储下来的类型

>>>import pyvex

>>>for stmt inirsb.statements:

...     ifisinstance(stmt,pyvex.IRStmt.Store):

...         print"Data:",

...         stmt.data.pp()

...         print""

...         print"Type:",

...         print stmt.data.result_type

...         print""

 

# 打印基本块中每一个条件退出的条件和跳转目标

...for stmt in irsb.statements:

...     ifisinstance(stmt,pyvex.IRStmt.Exit):

...         print"Condition:",

...         stmt.guard.pp()

...         print""

...         print"Target:",

...         stmt.dst.pp()

...         print""

 

# 这些是在IRSB中的每一个临时变量的类型

>>>print irsb.tyenv.types

 

# 这是获取第0个临时变量的类型的一种方法

>>>print irsb.tyenv.types[0]

3.分析

了解了angr的装载和IR,下面来用例子说明angr的分析模块。Analyses可以从程序中获取一些信息的自定义的分析行为,包括:

这里以分析CFG为例来调用analyses,生成一个accurate CFG:

>>>import angr

 

>>> b=angr.Project(‘/bin/true’,load_optins={‘auto_load_libs’:False})

 

>>> cfg= b.analyses.CFGAccurate(keep_state=True)

 

在构造CFGFast或者CFGAccurate或其他分析行为时,有很多不同的选项可以设置,具体请参考http://angr.io/api-doc/index.html。需要说明的是,CFG图是NetworkX    di-graph,也就是如果需要生成CFG图形视图,需要安装networkx。

 

例子:

import angr

from angrutils import plot_cfg

 

proj = angr.Project("<...>/ais3_crackme",load_options={'auto_load_libs':False})

main = proj.loader.main_bin.get_symbol("main")

 

start_state = proj.factory.blank_state(addr=main.addr)

cfg = proj.analyses.CFG(fail_fast=True, starts=[main.addr],initial_state=start_state)

plot_cfg(cfg, "ais3_cfg", asminst=True, remove_imports=True, remove_path_terminator=True

 

 

 

 

 

输出CFG:(图中为部分CFG)

在对构造的CFG进行信息提取时,以粗粒度CFI为例,可以在CFG中得到所有遍历到的函数头信息与函数大小;利用pyvex中IRSB的信息可以得到所有jumpkind为call的基本块,而基本块的最后一条IMark信息就是call指令地址。其他的类似于call target,jump target,return target等信息也可以通过脚本去生成的CFG和IRSB模块中提取。

 

 

 

 

 

 

 

 

 

 

参考资料:

http://www.angr.io/api-doc/index.html

https://docs.angr.io/INSTALL.html

https://github.com/angr/angr-doc/blob/master/docs/toplevel.md

http://www.angr.io/

你可能感兴趣的:(利用angr进行二进制静态分析)