在静态编译的程序中会包含很多库函数,这些库函数不是我们分析代码的关键,但是在分析的时候可能会分析到库函数中降低我们分析的效率。如果能够正确高效的识别这些库函数,就能加快我们分析的效率。
现有的方法可以分为三大类(我自己分的不一定准确)
FLIRT是ida自带的函数识别方案,通过待分析函数与目标签名文件中的机器码序列来识别函数。FLIRT的签名识别方案只能提取静态编译库的符号表,无法对可执行二进制文件生成符号。在ida的sig文件夹中带有一些常见的签名文件。
前提条件:
FLIRT签名生成流程如下:
3. 对.lib或.a文件使用pelf提取生成PAT文件
4. 对PAT文件使用sigmake生成sig
下面是对deepin的libc.a(/lib/x86_x64_linux-gnu目录下)生成签名文件的过程:
F:\tools\IDA_Pro_v7.5_Portable\SDK75\flair75\bin\win>pelf.exe libc.a libc.pat
F:\tools\IDA_Pro_v7.5_Portable\SDK75\flair75\bin\win\libc.a: skipped 6, total 1695
F:\tools\IDA_Pro_v7.5_Portable\SDK75\flair75\bin\win>sigmake.exe libc.pat libc.sig
libc.sig: modules/leaves: 1359/1688, COLLISIONS: 20
See the documentation to learn how to resolve collisions.
在生成sig的过程中如果出现冲突,需要对exec文件进行修复。
生成的exec文件如下所示
优点:能够比较好的识别函数,ida自带不需要额外安装。
缺点:需要事先知道被分析函数使用了那些库,并需要对这些库生成sig文件
如果分析的程序没有可以参考的历史版本和二进制,可以使用lscan通过比对大量的sig文件来确定固件使用的第三方依赖
安装:真正有用的就是lscan.py(需要修改源码并适配python3)一个文件,其他为测试集。
常用的两个sig数据库为:
https://github.com/Maktm/FLIRTDB
https://github.com/push0ebp/sig-database
但是我测试并没有通过,报错显示节点太多???有知道的师傅可以交流一下
优点:在有较多sig文件时,能够辅助识别出函数使用了哪些库,并选择对应的sig进行函数识别。
缺点:使用的两个公开sig数据库没法正常使用。
Rizzo使用启发式的函数识别方法,能够比FLIRT识别出更多的函数。同样Rizzo也需要现先有一个和被分析的程序类似的程序。
安装方法:https://github.com/fuzzywalls/ida下载rizzo.py和ida_shims.py放在plugins目录下(可能需要修复一些python3和python2语法不同的问题)就能使用
使用方法:
1.先对之前分析过的程序或者带有源码的程序生成Rizzo signature文件夹。file->Produce file->Rizzo signature file
2.打开待分析的程序加载Rizzo signature file。
加载符号文件,File->load file->Rizzo signature file
优点:启发式的识别方法,能够更好的识别出函数
缺点:需要有类似的分析样本或需要知道程序使用了哪些库函数,在此基础上才能很好的使用。
阿里公开的函数识别插件,使用了阿里生成的签名库。
安装:
pip install finger_sdk
下载
https://github.com/aliyunav/Finger/blob/master/finger_plugin.py放入plugins中
安装成功会出现Finger按钮
优点:简单好用、识别比较准确
缺点:有些简单的函数无法识别正确(如getpid)需要自己对函数额外判断一下(尽信书不如无书)。大文件识别需要比较久的时间,且无法中断。
ida7.2新推出的功能,类似finger。ida官方出了一个符号识别服务器。但是正版太贵了,买不起。
山寨lumina安装:具体参数参考https://lumen.abda.nl/cert
1. 修改{IDA_HOME}\cfg\ida.cfg
LUMINA_HOST = "lumen.abda.nl"; // This semicolon is important!
LUMINA_PORT = 1235
2.安装签名文件:下载hexrays.crt(https://abda.nl/lumen/hexrays.crt)放到IDA根目录,重启IDA即可
优点:类似Finger,如果公司里面自建服务器,应该会越用越好用。
缺点:公开使用的lumem貌似被污染了,能够识别的函数有限,不如finger好用。
在知道程序使用的库函数时:可以先编译相关的库,再使用FLIRT、Rizzo、bindiff进行识别。
在不知道程序使用的库函数时:可以使用lscan先识别可能的库,再加载识别。也可以使用Finger或lumina进行识别。
个人比较倾向于对市面上有的库先构建签名文件(大量体力活),并在每天的分析中将分析的结果push到个人或公司的lumina服务器,方便日后对新样本的快速分析。