msvcrt-vs2017的编译机制

vs对于C/C++开发者来说,还是比较易用和友好的IDE。虽然我经常开发linux下的服务,也用过vi、kdeveloper、qtcreator等Linux下的IDE环境,但从开发效率而言,最终还是选择在VS下开发调试,再到linux下编译运行。跨平台部分可以简单地采用boost或者自己写一些简单地封装。

vs的c++实现还算可以,但在posix c部分,差得很远。导致原生linux下的代码,在vs下基本不能直接编译,特别涉及到系统级别的API,缺胳膊少腿得太厉害。为了让支持posix c的qkc更加简洁,减少对vs原生库的依赖,深入研究了vs2017的编译机制。虽然因为工作量太大,影响了qkc进度而暂停,但依然取得不少成果,在这里分享一下。

在vs2017编译一个控制台项目时,会有Debug/Release和win32/x64组合而成的四种选项。从代码复杂度而言,Debug版本的库源码要比Release版本的库源码要复杂,因为要增加不少检查和调试代码。而win32和x64主要是字节长度和平台特性不同,相差不大。所以在这里主要研究win32下Debug版本的编译机制。

一、研究方法

1、网址:https://github.com/QuarkCloud/msvcrt-vs2017.git 这是整理后,可以直接运行测试的版本,代码结构还比较复杂。根目录下vs2017-xxx-xxx编译过程.txt是vs2017编译过程的记录文件。

2、打开项目属性页,进入“配置属性”页。点开 “C/C++” --> “高级”,将“显示包含文件”设置为“是(showIncludes)”;再点开“链接器” --> “常规” ,将“显示进度”设置为“显示所有进度消息(/VERBOSE)”。通过这两个设置,可以在IDE的输出栏中,看到整个编译过程。

3、基础源码分布在ucrt库和vcruntime库下,ucrt的源码目录在$(Windows Kits)\10\Source和$(Windows Kits)\10\Include;vcruntime的源码目录在$(Microsoft Visual Studio)\2017\Community\VC\Tools\MSVC\14.16.27023,不能版本可能有所不同。在整个研究过程中,一个最频繁的操作,就是在这些目录下,用代码搜索工具搜关键字。

二、编译流程

1、启动引导。可能是为了和早前的版本兼容,vs2017在开始编译时,会首先引用msvctd.lib。在整个编译过程中,msvcrtd.lib扮演着重要角色,它就像是操作系统的引导区一样,和其它库完全不同,其它库的主要功能一般都是输出函数。msvcrtd.lib的细节太多,后续单列一个章节讲述。

2、入口点函数。exe和dll在windows系统中,都是PE格式,都有一个默认的入口函数。exe的入口点是mainCRTStartup,该函数在msvcrtd.lib的exc_main.obj文件中,vcruntime目录下有源码;而dll的入口点是_DllMainCRTStartup,该函数在msvcrtd.lib的dll_dllmain.obj文件,vcruntime目录下也有源码。

3、默认动态库。在早前的VS中,默认是msvcrxxx.dll库,在vs2017中,默认变成ucrtbased.dll和vcruntimexxxd.dll,其中xxx表示版本号。一些系统初始化的函数并不在msvcrtd.lib中,而是分布在这两个库中。

4、生成文件。msvcrtd.lib中的启动文件被拷贝到目标项目中,和项目的其他文件一起编译成二进制文件再打包,同时链接到urcrtbased.dll和vcruntimexxxd.dll。

三、msvcrtd.lib

在前面章节提到过,vs2017会首先引用msvcrtd.lib,这个行为和vs早期版本一致,可能是为了保持兼容的缘故。和动态库的lib文件不同,msvcrtd.lib名字是动态库规范,但更像是一个静态库,所以看起来比较古怪。

微软一直不厚道的地方,就是没有提供msvcrtd.lib全部的源码,因此自己是无法重新编译出msvcrtd.lib的,缺的文件还不少。不过好在办法总比困难多,用7zip解压msvcrtd.lib,可以拿到所有未提供源码的obj文件,不要问我怎么知道的,直接使用这些obj文件也是一样的效果。这一点非常关键,要定制一个整洁的库,这个切入点必然要用到。

msvcrtd.lib调用的函数分布在ucrtbased.dll和vcruntimexxxd.dll中,而这些函数又关联了更多的其他文件,纯粹的startup代码实际没有那么多,但关联文件太多,导致整个目录依然很庞大。要清理这些文件,工作量可不小。

Debug版本的整理之所以更加困难,就是因为加入太多的跟踪分析代码,比如RTC系列函数,还有内存管理这块的。特别是RTC系列函数,在rtcapi.h中定义,但大都没有提供源码。直接使用obj文件还会链接到更多的文件。

四、难点

1、intrinsic。编译器内联函数是一个巨大无比的坑,在所有地方都找不到目标函数时,先查下以下地址:https://docs.microsoft.com/en-us/cpp/intrinsics/intrinsics-available-on-all-architectures 。因为需要编译器设置/Oi支持,在Debug版本中默认是取消的,而在Release版本默认是打开,这样容易造成混淆。同时,在winnt.h库中定义了一部分Intrinsic函数,而ucrt库也新增一部分intrinsic,这新增部分也容易造成混淆。

2、SEH。结构化异常在startup阶段,占据了大量代码,而且十分繁杂。要去掉的话,不利于调试阶段的代码分析。

3、RTC。和SEH类似作用,但RTC是Debug版本特有的功能,在Release版本中默认是关闭,毕竟频繁的检查影响性能。

4、代码分散。msvcrtd.lib调用的函数分散在ucrtbased.dll和vcruntimexxxd.dll中,而这些函数又会有其他调用链。一个完整的调用链就构成一个复杂的网状结构,导致新的文件不断被拷贝进目标项目。

 

 

你可能感兴趣的:(程序开发,沉思拾遗)