Linux迭代调用共享动态库导致segment fault

    项目需要我编写了一个动态库libs2cShareLib.so供同组同事Carson使用,他也也编了一个动态库libnative.so,并在这个库内部使用我提供的接口。

昨天下午CAE的Evan编写的一个动态库libcapi_pcie.so中用到了libnative.so。这样Evan的一个工程下就有了3个动态库libcapi_pcie.so, libnative.so和libs2cShareLib.so,

他的编译命令行是这样的:

    "gcc -rdynamic -DKERNEL_64BIT -m64 -DLINUX  -Wall  -o main main.c  -ldl",

    并没有指定链接相关动态库,而是在程序中采用手动方式加载动态库:

    “void *CAPI_LIB_handle = dlopen(”./capi_pcie.so“, RTLD_LAZY); 

     ......

    dlclose(CAPI_LIB_handle);"

    编译完,运行"./main",前面都运行正常,到最后程序退出时出现segment fault。


    我们尝试了几种改动都可以避免出现segment fault:

    1. 注释掉代码最后”(CAPI_LIB_handle);“;

    2.注释掉libnative.so中调用libs2cShareLib.so的部分代码并重新编译libnative.so;


    问题貌似已经定位到是libs2cShareLib.so的问题了,但这个库是我写的,经过反复测试的,我把自己的测试程序拿到Evan那里跑也是OK的。难道是动态库中调用动态库会有什么限制?我又写了个自测试程序测试libnative.so。编译参数:

    ”gcc -o test -lnative -lstdc++ main.cpp“

    结果一切正常。


    只能查找我测试程序和Evan程序的不同了,不同点有两个:

    1.我的测试程序中的调用关系是:test->libnative.so->libs2cShareLib.so,两层动态库调用;而Evan的程序中是main->libcapi_pcie.so->libnative.so->libs2cShareLib.so,三层动态库调用。

    2.我的测试程序中我是用链接器链接要用到的动态库;而Evan的程序中是采用手动load的方式。

   

    一个一个来排查,针对第一点,让Evan修改他的程序,直接load libnative.so,结果还是出错,说明不是动态库调用层数的关系了。

    针对第二点,修改Evan的编译选项,指定链接要用到的相关动态库,而不是程序中手动load。运行,结果正确!!!

    说明不是动态库本身的问题了,难道说多层动态库调用不能手动load?带着这个疑问找老大,老大看了一下Evan代码,指着”void *CAPI_LIB_handle = dlopen(”./capi_pcie.so“, RTLD_LAZY); “这一行,会不会是这个load参数的问题。百度了一下:

    函数定义
    void * dlopen( const char * pathname, int mode);
    函数描述:
    mode是打开方式,其值有多个,不同操作系统上实现的功能有所不同,在linux下,按功能可分为三类:
    1、解析方式
        RTLD_LAZY:在dlopen返回前,对于动态库中的未定义的符号不执行解析(只对函数引用有效,对于变量引用总是立即解析)。
        RTLD_NOW: 需要在dlopen返回前,解析出所有未定义符号,如果解析不出来,在dlopen会返回NULL,错误为:: undefined symbol: xxxx.......
    2、作用范围,可与解析方式通过“|”组合使用。
        RTLD_GLOBAL:动态库中定义的符号可被其后打开的其它库重定位。
        RTLD_LOCAL: 与RTLD_GLOBAL作用相反,动态库中定义的符号不能被其后打开的其它库重定位。如果没有指明是RTLD_GLOBAL还是RTLD_LOCAL,则缺省为RTLD_LOCAL。
    3、作用方式
       RTLD_NODELETE: 在dlclose()期间不 卸载库,并且在以后使用dlopen()重新加载库时不初始化库中的静态变量。这个flag不是POSIX-2001标准。
       RTLD_NOLOAD: 不加载库。可用于测试库是否已加载(dlopen()返回NULL说明未加载,否则说明已加载),也可用于改变已加载库的flag,如:先前加载库的flag为 RTLD_LOCAL,用dlopen(RTLD_NOLOAD|RTLD_GLOBAL)后flag将变成RTLD_GLOBAL。这个flag不是POSIX-2001标准。
       RTLD_DEEPBIND:在搜索全局符号前先搜索库内的符号,避免同名符号的冲突。这个flag不是POSIX-2001标准。

    果断把RTLD_LAZY改成RTLD_NOW,重新编译运行,正常,也没有segment fault了。

    终于找到原因了,RTLD_LAZY在调用dlopen时为了节省时间,并没有解析所用到的未定义符号,而是在用到的时候再来解析;而RTLD_NOW就是解析所有用到的符号,类似于链接器链接指定动态库的效果。

   但还是有个问题搞不明白,问什么在libnative.so中注释掉调用libs2cShareLib.so的代码, RTLD_LAZY方式就是可以的呢?

    main->libcapi_pcie.so->libnative.so->libs2cShareLib.so 程序结束出现segment fault错误;

    main->libcapi_pcie.so->libnative.so 程序结束,正常退出。

    希望有大神帮忙解惑,小弟感激不尽!

你可能感兴趣的:(Linux)