bsdiff 差分算法使用

1. 背景

玩过王者荣耀的同学肯定碰到过这样的场景:一段时间没打开 APP,打开的时候会提醒你下载安装升级资源包,一个完整的资源包可能超过 1 个 G ,但是升级资源包可能只有百来 M 大小;用 Android 手机的同学下载一个微信或者淘宝,完整的包大小有一两百 M 大小,但是手机应用市场提醒你更新时,会提醒你只需要下载几十 M 就可以了。这些场景都使用了差分算法,以 Android APP 为例,一个完整的 apk 包大小可能有 100 多 M 大小,每次版本升级时,如果让用户下载 100 多 M 大小的文件,无疑用户体验是很差的,文件越大越耗流量,下载成功率也越低,用户等待的时间也越长,但是如果用差分算法比较新旧两个 apk 包文件,计算出一个大小小很多的差分包来,用户更新时下载的是差分包,然后本地将原包与差分包合并成新包,对用户体验来说无疑是巨大的提升。

差分算法有很多,这里介绍一种比较常用的差分算法 bsdiff

2. 安装步骤

2.1. 下载安装编译 bsdiff

首先下载 bsdiff 库,其下载地址为:bsdiff,其次 bsdiff 算法里用到了 bzlib 这个压缩库,下载地址为:bzip2

将这 2 个库解压之后,将 bzip2 文件夹和 bsdiff.c 文件放在同一目录,最终目录结构如下图所示:


在 bsdiff.c 里添加如下引用:

#include "bzip2/bzlib.c"
#include "bzip2/crctable.c"
#include "bzip2/compress.c"
#include "bzip2/decompress.c"
#include "bzip2/randtable.c"
#include "bzip2/blocksort.c"
#include "bzip2/huffman.c"

打开命令行进入到 bsdiff 所在目录,执行 gcc bsdiff.c 命令编译,会生成一个 a.out 文件,然后就可以运行生成差分包了。

2.2. 生成差分包

我们看下 bsdiff.c 的 main 方法:

int main(int argc,char *argv[])
{
        int fd;
        u_char *old,*new;
        off_t oldsize,newsize;
        off_t *I,*V;
        off_t scan,pos,len;
        off_t lastscan,lastpos,lastoffset;
        off_t oldscore,scsc;
        off_t s,Sf,lenf,Sb,lenb;
        off_t overlap,Ss,lens;
        off_t i;
        off_t dblen,eblen;
        u_char *db,*eb;
        u_char buf[8];
        u_char header[32];
        FILE * pf;
        BZFILE * pfbz2;
        int bz2err;

        if(argc!=4) errx(1,"usage: %s oldfile newfile patchfile\n",argv[0]);

        /* Allocate oldsize+1 bytes instead of oldsize bytes to ensure
                that we never try to malloc(0) and get a NULL pointer */
        if(((fd=open(argv[1],O_RDONLY,0))<0) ||
                ((oldsize=lseek(fd,0,SEEK_END))==-1) ||
                ((old=malloc(oldsize+1))==NULL) ||
                (lseek(fd,0,SEEK_SET)!=0) ||
                (read(fd,old,oldsize)!=oldsize) ||
                (close(fd)==-1)) err(1,"%s",argv[1]);

可以看到代码中有注释 usage: %s oldfile newfile patchfile,也就是 main 方法总共需要 3 个参数:oldFile(旧文件)、newFile(新文件)、patchfile(待生成的差分文件路径)。

以为自己电脑上的配置为例:

//注意 a.out 一定为全路径,old.bundle、new.bundle 文件都都放在同个文件夹下
/Users/hjy/Desktop/bsdiff/a.out old.bundle new.bundle patch.bundle

执行完成后会生成差分文件 patch.bundle,如下图所示:

说明一下,上面例子中我使用了自己的一个 react-native 项目, old.bundle 文件是将 rn 工程单独打包出来的 js bundle 文件,然后再修改几行 js 代码,重新打包出来后得到的是 new.bundle 文件,patch.bundle 文件是新旧两个 js bundle 的差分包。如果我们在进行版本更新时,理论上我只需要下载 patch.bundle 文件,然后再将其与 old.bundle 合并生成 new.bundle 即可,这样就可以少下载很多东西。

在我这个例子当中 old.bundle、new.bundle 文件大小都差不多,均为 19 M 多,但我只是修改了几行代码,所以生成的差分包及其小,只有 200 多个字节的大小。

2.3. 合并旧包和差分包

合并需要使用 bspatch,规则如下:

bspatch oldfile newfile patchfile

同样通过命令行进入 bsdiff 目录,将前面生成的差分包与老包合并:

bspatch old.bundle merge.bundle patch.bundle

merge.bundle 就是我们合成的新包:


我们分别计算下 new.bundlemerge.bundle 文件的 md5 值,如果两者相同则说明我们合并是 OK 的。

hjydeMacBook-Pro:bsdiff hjy$ md5 new.bundle merge.bundle 
MD5 (new.bundle) = 940d3ec68c041dcd16b0740890022cf2
MD5 (merge.bundle) = 940d3ec68c041dcd16b0740890022cf2

上面的结果验证了我们生成差分包以及合并差分包都是正确的。

3. 在 Android 中编译 bsdiff

bsdiff 是采用 c 来编写,在 Android 中肯定是不能直接拿来使用的,那就需要将 bsdiff 编译成静态 so 库,然后通过 JNI 的方式来调用。

3.1. 创建 jni 目录

为了方便可以新建一个 Android 工程,在 app/src/main 目录下新建 jni 文件夹,将前面的 bsdiff 源文件拷贝到 jni 目录下。

3.2. 创建 java native 方法以及 .h 头文件

创建一个 Java 类 FileDiffer,在其中声明 native 方法,如下所示:

package com.hjy.bsdiff;
public class FileDiffer {
    public static native int fileDiff(String oldFile, String newFile, String patchFile);
    public static native int fileCombine(String oldFile, String newFile, String patchFile);
}

然后使用 javah 命令生成 .h 头文件,在 app/src/main/java 目录下执行命令(注意自己实际的包名,我这里为com.hjy.bsdiff):

javah com.hjy.bsdiff.FileDiffer

执行完之后,会生成一个 com_hjy_bsdiff_FileDiffer.h 头文件,将该头文件拷贝到 jni 目录下。

3.3. 修改 bsdiff.c、bspatch.c

为了能让 JNI 里的方法能够调用,需要将 main 方法改造成普通的方法,然后在我们定义的 jni 方法中组装好参数之后调用。

#if 0
__FBSDID("$FreeBSD: src/usr.bin/bsdiff/bsdiff/bsdiff.c,v 1.1 2005/08/06 01:59:05 cperciva Exp $");
#endif

//引入我们自己生成的头文件
#include 

#include 

#include "bzip2/bzlib.c"
#include "bzip2/crctable.c"
#include "bzip2/compress.c"
#include "bzip2/decompress.c"
#include "bzip2/randtable.c"
#include "bzip2/blocksort.c"
#include "bzip2/huffman.c"

//注意删除源文件的这里
//#include 

#include 
#include 
#include 
#include 
#include 
#include 

//引入 jni 库
#include 

...
省略部分
...

//原来 main 方法修改
int fileDiff(int argc,char *argv[])
{
    int fd;
    u_char *old,*new;
    off_t oldsize,newsize;
    off_t *I,*V;
    off_t scan,pos,len;
    off_t lastscan,lastpos,lastoffset;
    off_t oldscore,scsc;
    off_t s,Sf,lenf,Sb,lenb;
    off_t overlap,Ss,lens;
    off_t i;
    off_t dblen,eblen;
    u_char *db,*eb;
    u_char buf[8];
    u_char header[32];
    FILE * pf;
    BZFILE * pfbz2;
    int bz2err;

    if(argc!=4) errx(1,"usage: %s oldfile newfile patchfile\n",argv[0]);
  ...
  省略部分
  ...
    return 0;
}

JNIEXPORT jint JNICALL Java_com_hjy_bsdiff_FileDiffer_fileDiff
  (JNIEnv *env, jclass clazz, jstring old, jstring new, jstring patch)
{
    int argc = 4;
    char *argv[argc];
    argv[0] = "bsdiff";
    argv[1] = (char *)((*env) -> GetStringUTFChars(env, old, 0));
    argv[2] = (char *)((*env) -> GetStringUTFChars(env, new, 0));
    argv[3] = (char *)((*env) -> GetStringUTFChars(env, patch, 0));
    int result = fileDiff(argc, argv);
    //释放资源
    (*env) -> ReleaseStringUTFChars(env,old,argv[1]);
    (*env) -> ReleaseStringUTFChars(env,new,argv[2]);
    (*env) -> ReleaseStringUTFChars(env,patch,argv[3]);
    return result;
}

3.4. 编辑 Android.mk

在 jni 目录下增加 Android.mk 文件,内容如下:

LOCAL_PATH := $(call my-dir)
include $(CLEAR_VARS)
LOCAL_MODULE := bsdiff
LOCAL_SRC_FILES :=  bsdiff.c
LOCAL_C_INCLUDES += \ $(JNI_H_INCLUDE) bzip2
include $(BUILD_SHARED_LIBRARY)

include $(CLEAR_VARS)
LOCAL_MODULE := bspatch
LOCAL_SRC_FILES :=  bspatch.c
LOCAL_C_INCLUDES += \ $(JNI_H_INCLUDE) bzip2
include $(BUILD_SHARED_LIBRARY)

进入 jni 目录执行命令 sh /Users/hjy/Library/Android/sdk/ndk/21.3.6528147/ndk-build 进行编译,就会在工程中生成 libs 目录,这里就是编译好的静态库了。

代码已放在 github 上,有兴趣可以下载过来自己编译:https://github.com/houjinyun/bsdiff-android

4. 基于 bsdiff 进行Android增量更新

现在我们简单来说说 Android 的增量更新是怎么做的?在 Android 中有个 apk 包安装之后,原始的 apk 安装文件会缓存到 /data/app 目录下,比方说我上面这个测试 demo 缓存文件叫 /data/app/com.hjy.bsdiff-4wzfIowNkU7QjvyXt0MRew==/base.apk,可有通过以下方法获取到:

ApplicationInfo applicationInfo = getPackageManager().getApplicationInfo(getPackageName(), 0);
//sourceDir即原始apk文件路径
String sourceDir = applicationInfo.sourceDir;

当我们发布新版本的时候,首先利用 bsdiff 工具将新老 apk 包生成一个差分包,用户在手机端只下载这个差分包,然后在本地读取老的 apk 文件,将之与差分包一起合并成新包,最后重新覆盖安装就可以了。

这是 Android 中进行增量更新的方案,当然实际上远没这么简单,因为老的版本分布会很广泛,每发布一个新版本之后,你需要针对不同的版本生成对应的差分包,同一个版本因为发布渠道的不同可能也会有很多变体。

差分算法在实际当中有很多应用,我想到的有:

  • Android 增量更新;
  • react-native 中发布热更新时,对 js bundle 生成差分包,本地合并 js bundle 文件,减小文件下载量;
  • 动态资源更新时,如果全量资源包很大,后续有更新时,也可进行增量更新,提高下载成功率;

你可能感兴趣的:(bsdiff 差分算法使用)