异常测试模拟库 libfiu介绍

libfiu是一个故障注入的C库。它提供用于标识“故障点”(“核心API”)里面的代码,功能启用/禁用这些点的失败(“控制API”)。核心API内部使用上要执行故障注入代码。控制API用于内部测试代码,以控制注入失败。

原理:

libfiu是一个c库,可以用来模拟posix接口,使posix接口返回错误。这也是libfiu实现的原理:当用户使用libfiu来测试程序时,libfiu把其中的一些posix接口mock掉,比如测试程序需要调用系统的open()函数,libfiu会将这个open()指向自己库里面的函数,然后直接返回posix错误码抛给测试程序。这时候我们可以观测被测程序的表现来判断异常处理能力。

 官方例子:

 比如我们有个程序是查看磁盘是否有足够剩余空间

size_t free_space() {

        [code to find out how much free space there is]

        return space;

}

bool file_fits(FILE *fd) {

        if (free_space() < file_size(fd)) {

                return false;

        }

        return true;

}

而测试的时候,我们需要考虑free_space返回0的时候,也就是磁盘被写满的时候这个场景;但是真正写满磁盘是非常难的,就算能写满,每次写满也会耗费非常长的时间。而fiulib就可以使用下面的方法让free_space在需要的时候返回0.

size_t free_space() {

        fiu_return_on("no_free_space", 0);

        [code to find out how much free space there is]

        return space;

}

bool file_fits(FILE *fd) {

        if (free_space() < file_size(fd)) {

                return false;

        }

        return true;

}

其实上面的方法就是你在free_space中加了一个注入点,通过下面的方法来触发注入的异常,然后进行测试。当然不触发的情况下是不会产生作用的。

fiu_init();

fiu_enable("no_free_space", 1, NULL, 0);

assert(file_fits("tmpfile") == false);

使用方法:

1.比如我们测试ls这个命令,我们可以直接使用下面的命令,其中 -x 参数是告诉fiu-run当程序调用posix api的时候注入错误,name指向了具体的模块,可以通过随机的方法,控制错误发生的概率。

fiu-run -x  -c"enable_random name=posix/io/*,probability=0.05"ls

下面是调大概率后和将概率调成0后的一些测试结果,可以看出ls这个系统命令在各种posix错误下都有错误提示返回,也没有导致崩溃等情况,概率调成0后,也能正确返回结果:


2.也可以通过下面的方法进行测试:

比如需要测试top命令:

可以在一个session中启动被测程序

fiu-run -x top

然后再另一个session中启动错误注入

fiu-ctrl -c"enable name=posix/io/oc/open"`pidof top`

这时候我们可以观测到top已经没有输出了;

然后停止错误注入,

fiu-ctrl -c"disable name=posix/io/oc/open"`pidof top`

top又能正常输出了。

其实原理也很简单,前面已经提到了,top需要读取一些文件来展示信息,必然会调用open()这个函数,而fiulib将系统的open()指向自己库里面的open(),然后返回错误给top,这样top就没法输出了。这也是符合预期的。

libfiu支持的posix api错误注入有很多,看官方介绍原来还能通过-i参数指定错误类型,现在取消了这个功能(原因没写,随机模式下实际作用也不大)。

 当然,上面2个例子你可能觉得这个工具作用不是很大,只能测测简单的程序,但实际上对于复杂程序也能测试的。比如测试ceph。

root@pubt1-ceph64:~# fiu-run -x -c "enable_random name=posix/io/*,probability=0.8" /etc/init.d/ceph start osd.3/etc/init.d/ceph: error reading input file: Input/output errorroot@pubt1-ceph64:~# fiu-run -x -c "enable_random name=posix/io/*,probability=0.8" /etc/init.d/ceph start osd.3/bin/sh: /etc/init.d/ceph: No such file or directory

libfiu具体支持哪些库我们也可以通过下面命令看到。类似于malloc() read() write() fork() mmap()以及一些 socket相关的都能模拟。

cat /root/libfiu-0.96/preload/posix/function_list

回到错误注入这个话题,提供一些常见的错误注入方法

 附录:

Network Delay: Use tc like `tc qdisc add dev eth0 root netem delay 1000ms` to set network delay or recover.

Network Unavailable: Use iptable to block the specific port, like `iptables -A OUTPUT -p tcp --dport 3306 -j DROP `.

Network Bandwidth Limit: Use tc like `tc qdisc add dev eth0 root tbf rate 5800kbit latency 50ms burst 1540` to limit the bandwidth.

Disk Full: Use dd to create a really large file to fill up the disk, like `dd if=/dev/zero of=/$path/tst.img bs=1M count=20K `.

Disk Failure: Maybe use fiu-ctrl

Disk Slow: Use fio to write or read a lot making the disk under stress.

Memory Limit: Impl a program from  http://minuteware.net/simulating-high-memory-usage-in-linux/ .

CPU Limit: Use cpulimit from  https://github.com/opsengine/cpulimit .

POSIX: fiulib

大规模分布式系统的测试的话题很大,难度也很高;可能随着硬件环境的规模或者业务逻辑的差异,系统会走到不同的代码分支。曾经 看到阿里云飞天测试的时候,他们的系统里会加入Log Coverage工具,能够通过程序在运行过程中输出的log进行比对,看看测试是否覆盖了各个分支,同时也会拿到线上的log进行比对,补充各种各样的测试场景。

在后期的稳定性和异常测试中,最有效的保障还是让测试框架随机的挑选各种错误触发,校验系统的可靠性及数据的正确性。

你可能感兴趣的:(异常测试模拟库 libfiu介绍)