对于APK里面的Resources.arsc文件大家应该都知道是干什么的(不知道的请看我的另一篇文章Android应用程序资源文件的编译和打包原理),它实际上就是App的资源索引表。下面我会结合实例对它的格式做一下剖析,读完这篇文章应该能够知道Resources.arsc的格式,并可以从二进制的文件中查找到资源的相关信息,或者根据资源的id可以定位到二进制文件中的位置。不过本人对Android资源文件的有一些相关概念并不是特别熟悉,所以文章中有很多地方也并不明白,如有错误欢迎指正!
首先先介绍一下我们在Android应用开发过程中程序中用的资源的id,相信大家都知道R.java文件,这个是通过aapt对资源文件进行编译生成的资源id文件,这样我们程序中使用资源文件更加方便。举例我们先看一下原始的资源文件res/values/strings.xml内容如下:
<?xml version="1.0" encoding="utf-8"?> <resources> <string name="app_name">Cert</string> <string name="hello_world">Hello world!</string> <string name="action_settings">Settings</string> </resources>
这里先介绍几个概念,上面的app_name和hello_world这些叫做资源项名称(其它的还有windowActionBar、ActionBarTabStyle类似这种),而它们对应的资源项类型就是string(其它的还有attr、drawable类似这些),资源项的值就是Cert和Hello world!这些。
下面是对应R.java文件的内容:
public final class R { ... public static final class string { ... /** Description of the choose target button in a ShareActionProvider (share UI). [CHAR LIMIT=NONE] */ public static final int abc_shareactionprovider_share_with=0x7f0a000c; /** Description of a share target (both in the list of such or the default share button) in a ShareActionProvider (share UI). [CHAR LIMIT=NONE] */ public static final int abc_shareactionprovider_share_with_application=0x7f0a000b; public static final int action_settings=0x7f0a000f; public static final int app_name=0x7f0a000d; public static final int hello_world=0x7f0a000e; } ... }
代码段2
可以看到每个资源文件在R中都是一个class,每个资源项名称都分配了一个id,id值是一个四字节无符号整数,格式是这样的:0xpptteeee,(p代表的是package,t代表的是type,e代表的是entry),最高字节代表Package ID,次高字节代表Type ID,后面两个字节代表Entry ID。Package ID相当于是一个命名空间,限定资源的来源。Android系统当前定义了两个资源命令空间,其中一个系统资源命令空间,它的Package ID等于0x01,另外一个是应用程序资源命令空间,它的Package ID等于0x7f。所有位于[0x01, 0x7f]之间的Package ID都是合法的,而在这个范围之外的都是非法的Package ID。前面提到的系统资源包package-export.apk的Package ID就等于0x01,而我们在应用程序中定义的资源的Package ID的值都等于0x7f,这一点可以通过生成的R.java文件来验证。
Type ID是指资源的类型ID。资源的类型有animator、anim、color、drawable、layout、menu、raw、string和xml等等若干种,每一种都会被赋予一个ID。
Entry ID是指每一个资源在其所属的资源类型中所出现的次序。注意,不同类型的资源的Entry ID有可能是相同的,但是由于它们的类型不同,我们仍然可以通过其资源ID来区别开来。
下面我们开始看Resources.arsc(后面截图给出的resources.arsc文件的二进制内容都是与上面代码段1和代码段2相对应的),首先看一下文件的格式,如下面两个图:
图2
以上两个图都是Resources.arsc文件的格式,图1是从网上找的,其中很多项都展开了,不了解对应的数据结构肯定看不懂,所以我自己画了图2(画图好蛋疼的说~),相对来说更容易接受一点,这里都放出来做个对照吧。Resources.arsc对应的数据结构的定义在Android源码/frameworks/base/include/androidfw/ResourceType.h中,大家可以自己去看一下。
下面我来从上到下介绍一下文件的格式,首先是chunk概念,整个文件是由一系列的chunk构成的,算是整个文件划分的基本单位吧,实际上就是把整个文件无差别的划分成多个模块,每个模块就是一个chunk,结构更加清晰。每个chunk是最前面是一个ResChunk_header的结构体,描述这个chunk的信息,ResChunk_header如下:
struct ResChunk_header { enum { RES_NULL_TYPE = 0x0000, RES_STRING_POOL_TYPE = 0x0001, RES_TABLE_TYPE = 0x0002, RES_XML_TYPE = 0x0003, RES_XML_FIRST_CHUNK_TYPE = 0x0100, RES_XML_START_NAMESPACE_TYPE= 0x0100, RES_XML_END_NAMESPACE_TYPE = 0x0101, RES_XML_START_ELEMENT_TYPE = 0x0102, RES_XML_END_ELEMENT_TYPE = 0x0103, RES_XML_CDATA_TYPE = 0x0104, RES_XML_LAST_CHUNK_TYPE = 0x017f, RES_XML_RESOURCE_MAP_TYPE = 0x0180, RES_TABLE_PACKAGE_TYPE = 0x0200, RES_TABLE_TYPE_TYPE = 0x0201, RES_TABLE_TYPE_SPEC_TYPE = 0x0202 }; //当前这个chunk的类型 uint16_t type; //当前这个chunk的头部大小 uint16_t headerSize; //当前这个chunk的大小 uint32_t size; };
Resources.arsc文件的最开始是整个文件的header,结构是ResTable_header:
struct ResTable_header { struct ResChunk_header header; // The number of ResTable_package structures. uint32_t packageCount; };
图3
图中选中的部分就是header,可以看到类型是0x0002,对应类型是RES_TABLE_TYPE,headerSize是0x0c,整个chunk的大小也就是文件的大小是0x019584,package的数量是1个。
紧接着是Global String Pool,全局字符串池,这也是Resources.arsc存在最重要的一个原因之一,就是把所有字符串放到这个池子里,大家复用这些字符串,可以很大的减小APK包的尺寸。从图1和图2可以看到后面还有两个字符串池,那么什么字符串会放到这个全局字符串池中呢?所有的资源文件的路径名,以及资源文件中所定义的资源的值,比如代码段1中的Cert和Hello world!都存在这里。
字符串池的结构体如下:
struct ResStringPool_header { struct ResChunk_header header; // Number of strings in this pool (number of uint32_t indices that follow in the data). uint32_t stringCount; // Number of style span arrays in the pool (number of uint32_t indices follow the string indices). uint32_t styleCount; // Flags. enum { // If set, the string index is sorted by the string values (based on strcmp16()). SORTED_FLAG = 1<<0, // String pool is encoded in UTF-8 UTF8_FLAG = 1<<8 }; uint32_t flags;<span style="white-space:pre"> </span>//If flags is 0x0, string pool is encoded in UTF-16 // Index from header of the string data. uint32_t stringsStart; // Index from header of the style data. uint32_t stylesStart; };
图4
从图中可以看到类型是0x0001,对应代码段3中RES_STRING_POOL_TYPE,整个chunk的大小是0x919C,stringCount是0x03E1,styleCount是0,flags是0x0100即UTF8格式,stringsStart即字符串相对头部起始位置的偏移是0x0FA0。
从图2中可以看到紧接着header的是stringCount个字符串偏移数组,数组每一个元素记录着每个字符串的起始位置相对于stringsStart的偏移。字符串池中每个UTF8格式字符串都是以字符串结束符0x00结束的,UTF16是0x0000。
style偏移数组与string是一样的就不多说了,但这个style是干什么的现在我还不清楚,以后知道了再更新。
下面要介绍重头戏Package了。首先是一个package的header,结构体如下:
struct ResTable_package { struct ResChunk_header header; //包的ID,等于Package Id,一般用户包的值Package Id为0X7F,系统资源包的Package Id为0X01。 uint32_t id; //包名称 char16_t name[128]; //类型字符串资源池相对头部的偏移 uint32_t typeStrings; //最后一个导出的Public类型字符串在类型字符串资源池中的索引,目前这个值设置为类型字符串资源池的元素个数。 uint32_t lastPublicType; //资源项名称字符串相对头部的偏移 uint32_t keyStrings; //最后一个导出的Public资源项名称字符串在资源项名称字符串资源池中的索引,目前这个值设置为资源项名称字符串资源池的元素个数。 uint32_t lastPublicKey; };
图5
从上图可以看到chunk类型是0x0200,对应代码段3中的RES_TABLE_PACKAGE_TYPE,id是0x7F(这与R.java中的每个资源id的最高字节是一样的),这个package的名字是com.example.cert,类型字符串池typeStrings相对于package header起始位置的偏移是0x011C,类型字符串的个数是0x0C,资源项名称字符串池keyStrings相对于package header起始位置的偏移是0x01C8,个数是0x01E1。
对于类型字符串池(图2中的Type String Pool)和资源项名称字符串池(图2中的Key String Pool)的结构和内容我这里就不贴出来了,结构和全局字符串池是一样的。类型字符串池中存储的是所有类型相关的字符串,比如attr,drawable,layout这些;而资源项名称字符串池中存储的是应用所有资源文件中的资源项名称相关的字符串,比如代码段1中的app_name,hello_world,action_settings。
类型规范数据块用来描述资源项的配置差异性。通过这个差异性描述,我们就可以知道每一个资源项的配置状况。知道了一个资源项的配置状况之后,Android资源管理框架在检测到设备的配置信息发生变化之后,就可以知道是否需要重新加载该资源项。类型规范数据块是按照类型来组织的,也就是说,每一种类型都对应有一个类型规范数据块。
上面是从参考文章里copy过来的,可能有些人不太了解这个Type Spec是什么东西,我个人的理解它实际上就是类型。说到这里需要提几句Android资源文件的配置问题,大家都知道Android设备众多,为了使得一个应用程序能够在运行时同时支持不同的大小和密度的屏幕,以及支持国际化,即支持不同的国家地区和语言,Android应用程序资源的组织方式有18个维度,每一个维度都代表一个配置信息,从而可以使得应用程序能够根据设备的当前配置信息来找到最匹配的资源来展现在UI上,从而提高用户体验。也就是说,每一个资源类,都会有一个配置列表,配置着这个资源类的不同维度的信息,那么Type Spec就是这个资源类的代表。比如前面看到的attr,drawable,string这种都是资源类,Type Spec就是描述这些的结构,前面说到过R.java中每个资源id的格式是0xpptteeee,里面那个次高字节的tt就是Type Spec的id,同时这个id值也是这个Type Spec的类型名称在Type String Pool类型字符串池中索引数组的索引值,根据id值就可以找到其名称。
下面是Type Spec的结构:
struct ResTable_typeSpec { struct ResChunk_header header; //标识资源的Type ID,Type ID是指资源的类型ID,从1开始。资源的类型有animator、anim、color、drawable、layout、menu、raw、string和xml等等若干种,每一种都会被赋予一个ID。 uint8_t id; //保留,始终为0 uint8_t res0; //保留,始终为0 uint16_t res1; //等于本类型的资源项个数,指名称相同的资源项的个数。 uint32_t entryCount; };
图6
上图可以看出该chunk的类型是0x0202,这个Type Spec的id是1,entryCount是6E,在这个ResTable_typeSpec结构后面紧跟着entryCount个资源spec数组,entryCount指的是这个类型有多少资源项,在后面我们会讲到aapt解码resources.arsc,输出中每个Type Spec的资源项后面会有一个flags,它的值就是这个数组中对应的值,但是这个flag代表什么我还不清楚。
上面讲到每个Type Spec是对一个类型的描述,每个类型会有多个维度,那就是接下来的Config List了,这个Config List是由多个ResTable_type结构来描述的,每个ResTable_type描述的是一个维度,下面是这个结构体的定义:
struct ResTable_type { struct ResChunk_header header; enum { NO_ENTRY = 0xFFFFFFFF }; //标识资源的Type ID uint8_t id; //保留,始终为0 uint8_t res0; //保留,始终为0 uint16_t res1; //等于本类型的资源项个数,指名称相同的资源项的个数。 uint32_t entryCount; //等于资源项数据块相对头部的偏移值。 uint32_t entriesStart; //指向一个ResTable_config,用来描述配置信息,地区,语言,分辨率等 ResTable_config config; };
struct ResTable_config { // Number of bytes in this structure. uint32_t size; union { struct { // Mobile country code (from SIM). 0 means "any". uint16_t mcc; // Mobile network code (from SIM). 0 means "any". uint16_t mnc; }; uint32_t imsi; }; union { struct { // \0\0 means "any". Otherwise, en, fr, etc. char language[2]; // \0\0 means "any". Otherwise, US, CA, etc. char country[2]; }; uint32_t locale; }; union { struct { uint8_t orientation; uint8_t touchscreen; uint16_t density; }; uint32_t screenType; }; union { struct { uint8_t keyboard; uint8_t navigation; uint8_t inputFlags; uint8_t inputPad0; }; uint32_t input; }; union { struct { uint16_t screenWidth; uint16_t screenHeight; }; uint32_t screenSize; }; union { struct { uint16_t sdkVersion; // For now minorVersion must always be 0!!! Its meaning // is currently undefined. uint16_t minorVersion; }; uint32_t version; }; union { struct { uint8_t screenLayout; uint8_t uiMode; uint16_t smallestScreenWidthDp; }; uint32_t screenConfig; }; union { struct { uint16_t screenWidthDp; uint16_t screenHeightDp; }; uint32_t screenSizeDp; }; }
图7
上图可以看到这个chunk的类型是0x0201,id是1与上面的Type Spec是对应的,entryCount是0x6E与上面的Type Spec也是一样的,entriesStart是0x01F0表示entry列表相对于此头部起始位置的偏移,后面0x24表示ResTable_config的大小,后面其它的字节全是0说明配置信息全是any,也就是default默认的配置。
紧接着ResTable_type后面是entryCount个entry的索引数组,每个索引数组的值表示该entry相对于entriesStart的偏移。那么这个entry代表什么呢?就是一个资源项!R.java中每个id的结构是0xpptteeee,低位两个字节的eeee就是这个资源项在索引数组中的索引值。entry的数据结构定义如下:
struct ResTable_entry { //表示资源项头部大小。 uint16_t size; enum { //如果flags此位为1,则ResTable_entry后跟随ResTable_map数组,为0则跟随一个Res_value。 FLAG_COMPLEX = 0x0001, //如果此位为1,这个一个被引用的资源项 FLAG_PUBLIC = 0x0002 }; //资源项标志位 uint16_t flags; //资源项名称在资源项名称字符串资源池的索引 struct ResStringPool_ref key; };
struct ResTable_map_entry : public ResTable_entry { //指向父ResTable_map_entry的资源ID,如果没有父ResTable_map_entry,则等于0。 ResTable_ref parent; //等于后面ResTable_map的数量 uint32_t count; }; struct ResTable_map { //bag资源项ID ResTable_ref name; //bag资源项值 Res_value value; }; struct Res_value { //Res_value头部大小 uint16_t size; //保留,始终为0 uint8_t res0; enum { TYPE_NULL = 0x00, TYPE_REFERENCE = 0x01, TYPE_ATTRIBUTE = 0x02, TYPE_STRING = 0x03, TYPE_FLOAT = 0x04, TYPE_DIMENSION = 0x05, TYPE_FRACTION = 0x06, TYPE_FIRST_INT = 0x10, TYPE_INT_DEC = 0x10, TYPE_INT_HEX = 0x11, TYPE_INT_BOOLEAN = 0x12, TYPE_FIRST_COLOR_INT = 0x1c, TYPE_INT_COLOR_ARGB8 = 0x1c, TYPE_INT_COLOR_ARGB8 = 0x1c, TYPE_INT_COLOR_RGB8 = 0x1d, TYPE_INT_COLOR_ARGB4 = 0x1e, TYPE_INT_COLOR_RGB4 = 0x1f, TYPE_LAST_COLOR_INT = 0x1f, TYPE_LAST_INT = 0x1f }; //数据的类型,可以从上面的枚举类型中获取 uint8_t dataType; //数据对应的索引 uint32_t data; };
下面看示例中对应ResTable_entry的二进制代码:
图8
可以看到size是0x10,flags是0x0001,也就是说它是一个ResTable_map_entry结构而不是ResTable_entry,key是0表示其名字在Key String Pool的索引数组中的0号元素,然后看到count是1,那么后面跟一个ResTable_map,其中name的值是0x01000000,具体含义查看系统源码文件中该结构的定义,这里就不多说了,后面ResTable_value的size是0x08,dataType是0x10即TYPE_FIRST_INT即后面data数据是int类型。
到这里整个文件的结构解析大概就介绍完了,下面我们会从另一个角度来介绍,我们根据资源的id值来找resources.arsc中的数据。
我们在用Eclipse或者Android Studio来写Android应用的时候,IDE直接帮我们生成了R.java文件,我们可以在这里面看到某个资源的id值,其实IDE也是使用aapt来编译资源文件生成的R.java。如果我们拿到一个APK怎么看资源的id呢?当然也是用aapt来反编译就好了,命令如下:
aapt d resources XXX.apk对应我们之前的示例输出如下:
Package Groups (1) Package Group 0 id=127 packageCount=1 name=com.example.cert Package 0 id=127 name=com.example.cert typeCount=12 ...... type 9 configCount=56 entryCount=16 spec resource 0x7f0a000b com.example.cert:string/abc_shareactionprovider_share_with_application: flags=0x00000004 spec resource 0x7f0a000c com.example.cert:string/abc_shareactionprovider_share_with: flags=0x00000004 spec resource 0x7f0a000d com.example.cert:string/app_name: flags=0x00000000 spec resource 0x7f0a000e com.example.cert:string/hello_world: flags=0x00000000 spec resource 0x7f0a000f com.example.cert:string/action_settings: flags=0x00000000 config (default): resource 0x7f0a000b com.example.cert:string/abc_shareactionprovider_share_with_application: t=0x03 d=0x00000162 (s=0x0008 r=0x00) resource 0x7f0a000c com.example.cert:string/abc_shareactionprovider_share_with: t=0x03 d=0x0000015b (s=0x0008 r=0x00) resource 0x7f0a000d com.example.cert:string/app_name: t=0x03 d=0x00000154 (s=0x0008 r=0x00) resource 0x7f0a000e com.example.cert:string/hello_world: t=0x03 d=0x00000152 (s=0x0008 r=0x00) resource 0x7f0a000f com.example.cert:string/action_settings: t=0x03 d=0x00000155 (s=0x0008 r=0x00) config ca: resource 0x7f0a000b com.example.cert:string/abc_shareactionprovider_share_with_application: t=0x03 d=0x00000197 (s=0x0008 r=0x00) resource 0x7f0a000c com.example.cert:string/abc_shareactionprovider_share_with: t=0x03 d=0x0000019f (s=0x0008 r=0x00) config da: resource 0x7f0a000b com.example.cert:string/abc_shareactionprovider_share_with_application: t=0x03 d=0x000001bb (s=0x0008 r=0x00) resource 0x7f0a000c com.example.cert:string/abc_shareactionprovider_share_with: t=0x03 d=0x000001bc (s=0x0008 r=0x00) config fa: resource 0x7f0a000b com.example.cert:string/abc_shareactionprovider_share_with_application: t=0x03 d=0x000001fe (s=0x0008 r=0x00) resource 0x7f0a000c com.example.cert:string/abc_shareactionprovider_share_with: t=0x03 d=0x000001fb (s=0x0008 r=0x00) config ja: resource 0x7f0a000b com.example.cert:string/abc_shareactionprovider_share_with_application: t=0x03 d=0x00000287 (s=0x0008 r=0x00) resource 0x7f0a000c com.example.cert:string/abc_shareactionprovider_share_with: t=0x03 d=0x00000280 (s=0x0008 r=0x00) ......
后面我们看到spec resource的字样,这个spec就和我们前面介绍的Type Spec是一样的了,这几行就代表它是类型规范数据块了,然后后面是Config List,有很多config,每个config是一个维度,里面对每个资源项都有自己的配置信息,aapt输出config的格式如下:
resource <Resource ID> <Package Name>:<Type>/<Name>: t=<DataType> d=<Data> (s=<Size> r=<Res0>) Resource ID R.java中的资源ID Package Name 资源所在的的包 Type 资源的类型 Name 资源名称 DataType 数据类型,按照以下枚举类型取值 Data 资源的值,根据dataType进行解释 Size 一直为0x0008 Res0 固定为0x00
这里面因为只有一个Package,所以就不需要去定位Package了。
从图2中我们没找到对Type Spec有索引数组,所以我们需要去一个一个的找Type Spec,从第一个ResTable_typeSpec开始,在ResChunk_header中有整个chunk的大小,一个一个的将收地址加上这个大小就可以了,直到我们找到chunk的类型是0x0202,id是0x0A的ResTable_typeSpec结构体就可以了,下图是示例对应的二进制数据:
hello_world的entry id是0x0E,那么我们从紧接着ResTable_type的entry数组中找第0x0E个元素,它的值是0xE0,加上ResTable_entry的起始地址,得到我们要找的hello_world对应的ResTable_entry的地址是0x11E24,对应内容如下图:
图11
可以看到size是0x08,flags是0,也就是说它是ResTable_entry结构,后面跟一个ResTable_value结构,再看key的值是0x0152,即资源项名称在Key String Pool的字符串偏移数组的索引是第0x0152个,找到以后如下图,具体方法我就不啰嗦了,就是偏移数组收地址加上那个0x0152的时候别忘了这个0x0152要先乘以4,因为数组元素是4字节大小嘛。
图12
然后再看图11中ResTable_value的内容,size是0x08,type是0x03对应TYPE_STRING类型,data值是0x0152,这个就是全局字符串池的字符串偏移数组的索引了,找到以后如下图:
图13
可以看到对应的字符串值就找到了!!
啰嗦了这么多,好累。。。不过大概搞明白了,算是自己的笔记吧,同时也分享给大家,我相信这个够详细了!只不过里面很多16进制的地址,还有乱七八糟的数据结构,看着肯定头大,所以不能光看,还是要动手去做,这样才能明白的透彻,否则肯定看不下来。resources.arsc文件的格式还是很简单的,说白了就是一个索引文件。稍后我会写一个解析这个文件的C++程序练手,加深印象,写完以后我会放到github上并把链接放出来。
参考文章:
1. http://www.freebuf.com/articles/terminal/75944.html
2. http://blog.csdn.net/jiangwei0910410003/article/details/50628894
3. http://blog.csdn.net/luoshengyang/article/details/8744683
4. http://blog.csdn.net/mldxs/article/details/44956911