异常测试模拟库 libfiu介绍

libfiu是一个故障注入的C库。它提供用于标识“故障点”（“核心API”）里面的代码，功能启用/禁用这些点的失败（“控制API”）。核心API内部使用上要执行故障注入代码。控制API用于内部测试代码，以控制注入失败。

原理：

libfiu是一个c库，可以用来模拟posix接口，使posix接口返回错误。这也是libfiu实现的原理：当用户使用libfiu来测试程序时，libfiu把其中的一些posix接口mock掉，比如测试程序需要调用系统的open()函数，libfiu会将这个open()指向自己库里面的函数，然后直接返回posix错误码抛给测试程序。这时候我们可以观测被测程序的表现来判断异常处理能力。

官方例子：

比如我们有个程序是查看磁盘是否有足够剩余空间

size_t free_space() {

[code to find out how much free space there is]

return space;

}

bool file_fits(FILE *fd) {

if (free_space() < file_size(fd)) {

return false;

}

return true;

}

而测试的时候，我们需要考虑free_space返回0的时候，也就是磁盘被写满的时候这个场景；但是真正写满磁盘是非常难的，就算能写满，每次写满也会耗费非常长的时间。而fiulib就可以使用下面的方法让free_space在需要的时候返回0.

size_t free_space() {

fiu_return_on("no_free_space", 0);

[code to find out how much free space there is]

return space;

}

bool file_fits(FILE *fd) {

if (free_space() < file_size(fd)) {

return false;

}

return true;

}

其实上面的方法就是你在free_space中加了一个注入点，通过下面的方法来触发注入的异常，然后进行测试。当然不触发的情况下是不会产生作用的。

fiu_init();

fiu_enable("no_free_space", 1, NULL, 0);

assert(file_fits("tmpfile") == false);

使用方法：

1.比如我们测试ls这个命令，我们可以直接使用下面的命令，其中 -x 参数是告诉fiu-run当程序调用posix api的时候注入错误，name指向了具体的模块，可以通过随机的方法，控制错误发生的概率。

fiu-run -x -c"enable_random name=posix/io/*,probability=0.05"ls

下面是调大概率后和将概率调成0后的一些测试结果，可以看出ls这个系统命令在各种posix错误下都有错误提示返回，也没有导致崩溃等情况，概率调成0后，也能正确返回结果：

2.也可以通过下面的方法进行测试：

比如需要测试top命令：

可以在一个session中启动被测程序

fiu-run -x top

然后再另一个session中启动错误注入

fiu-ctrl -c"enable name=posix/io/oc/open"`pidof top`

这时候我们可以观测到top已经没有输出了；

然后停止错误注入，

fiu-ctrl -c"disable name=posix/io/oc/open"`pidof top`

top又能正常输出了。

其实原理也很简单，前面已经提到了，top需要读取一些文件来展示信息，必然会调用open()这个函数，而fiulib将系统的open()指向自己库里面的open(),然后返回错误给top，这样top就没法输出了。这也是符合预期的。

libfiu支持的posix api错误注入有很多，看官方介绍原来还能通过-i参数指定错误类型，现在取消了这个功能（原因没写，随机模式下实际作用也不大）。

当然，上面2个例子你可能觉得这个工具作用不是很大，只能测测简单的程序，但实际上对于复杂程序也能测试的。比如测试ceph。

root@pubt1-ceph64:~# fiu-run -x -c "enable_random name=posix/io/*,probability=0.8" /etc/init.d/ceph start osd.3/etc/init.d/ceph: error reading input file: Input/output errorroot@pubt1-ceph64:~# fiu-run -x -c "enable_random name=posix/io/*,probability=0.8" /etc/init.d/ceph start osd.3/bin/sh: /etc/init.d/ceph: No such file or directory

libfiu具体支持哪些库我们也可以通过下面命令看到。类似于malloc() read() write() fork() mmap()以及一些 socket相关的都能模拟。

cat /root/libfiu-0.96/preload/posix/function_list

回到错误注入这个话题，提供一些常见的错误注入方法

附录：

Network Delay: Use tc like `tc qdisc add dev eth0 root netem delay 1000ms` to set network delay or recover.

Network Unavailable: Use iptable to block the specific port, like `iptables -A OUTPUT -p tcp --dport 3306 -j DROP `.

Network Bandwidth Limit: Use tc like `tc qdisc add dev eth0 root tbf rate 5800kbit latency 50ms burst 1540` to limit the bandwidth.

Disk Full: Use dd to create a really large file to fill up the disk, like `dd if=/dev/zero of=/$path/tst.img bs=1M count=20K `.

Disk Failure: Maybe use fiu-ctrl

Disk Slow: Use fio to write or read a lot making the disk under stress.

Memory Limit: Impl a program from http://minuteware.net/simulating-high-memory-usage-in-linux/ .

CPU Limit: Use cpulimit from https://github.com/opsengine/cpulimit .

POSIX: fiulib

大规模分布式系统的测试的话题很大，难度也很高；可能随着硬件环境的规模或者业务逻辑的差异，系统会走到不同的代码分支。曾经看到阿里云飞天测试的时候，他们的系统里会加入Log Coverage工具，能够通过程序在运行过程中输出的log进行比对，看看测试是否覆盖了各个分支，同时也会拿到线上的log进行比对，补充各种各样的测试场景。

在后期的稳定性和异常测试中，最有效的保障还是让测试框架随机的挑选各种错误触发，校验系统的可靠性及数据的正确性。

异常测试模拟库 libfiu介绍

你可能感兴趣的:(异常测试模拟库 libfiu介绍)