文档的完全备份和增量备份

要求:

  • 周一完全备份,其他时间增量备份
  • 源文件:/tmp/demo/security
  • 目标文件:/tmp/demo/backup
  • md5文件:/tmp/demp/backup/md5.data
import hashlib                        #导入哈希模块,用于计算哈希值
import tarfile                           #导入备份模块
from time import strftime      #导入时间模块
import os                  
import pickle                        #pickle用于将任意类型数据以二进制写入文件

def check_md5(fname):        #定义计算md5值的函数
    m = hashlib.md5()             #因一个文件对应一个md5值,所以使用字典

    with open(fname, 'rb') as fobj:    #打开要计算的文件,作为一个对象
        while True:
            data = fobj.read(4096)        #一次读取4k字节
            if not data:
                break
            m.update(data)                    #如果读取到数据,就更新md5值

    return m.hexdigest()                  #计算完之后,返回md5值字典
  
def full_backup(src, dst, md5file):                #定义完全备份函数
    fname = '%s_full_%s.tar.gz' % (os.path.basename(src), strftime('%Y%m%d'))              #定义文件名:xxx_full_20190710.tar.gz
#将文件名和路径组合:/tmp/demp/backup/xxx_full_20190710.tar.gz
    fname = os.path.join(dst, fname)      

    # 打压缩包
    tar = tarfile.open(fname, 'w:gz')        #以gz格式压缩
    tar.add(src)
    tar.close()                                        #压缩完成之后要关闭文件

    # 计算每个文件的md5值
    md5dict = {}                    #以字典类型保存md5值
#os.walk输出的格式为[路径][文件夹名][文件名]
    for path, folders, files in os.walk(src):      
        for file in files:          
#一个文件中可能有多个文件和文件夹,使用此方法可以遍历所有文件
            key = os.path.join(path, file)      #将路径和文件名组合起来
            md5dict[key] = check_md5(key)    #计算md5值

    # 把md5值字典保存到文件
#wb方式打开,若文件有则清空,若无则创建
    with open(md5file, 'wb') as fobj:          
        pickle.dump(md5dict, fobj)      #使用pickle.dump写入

#定义增量备份函数
#思路:先计算当前目录的md5值,然后把前一天的md5值取出来比较,若不一样则备份

def incr_backup(src, dst, md5file):            
    fname = '%s_incr_%s.tar.gz' % (os.path.basename(src), strftime('%Y%m%d'))      #xxx_incr_20190710.tar.gz
#/tmp/demo/backup/xxx_incr_20190710.tar.gz
    fname = os.path.join(dst, fname)  

    # 计算当前目录下文件的md5值
    md5dict = {}
    for path, folders, files in os.walk(src):
        for file in files:
            key = os.path.join(path, file)
            md5dict[key] = check_md5(key)

    # 取出前一天的文件md5值
    with open(md5file, 'rb') as fobj:
        old_md5 = pickle.load(fobj)

    # 找出变化的文件和新增的文件,把它们压缩
    tar = tarfile.open(fname, 'w:gz')
    for key in md5dict:      #遍历当前目录下的md5值
#有两种情况,old_md5.get(key)为空,则为新文件,old_md5.get(key)和新的md5值不一样,则文件发送改变
        if old_md5.get(key) != md5dict[key]:      
            tar.add(key)
    tar.close()

    # 把当前的md5字典写到文件中,以便下一次比较使用
    with open(md5file, 'wb') as fobj:
        pickle.dump(md5dict, fobj)

if __name__ == '__main__':  
    src = '/tmp/demo/security'          #源文件,要备份的文件
    dst = '/tmp/demo/backup'          #备份后的文件
    md5file = '/tmp/demo/backup/md5.data'        #md5值文件
    if strftime('%a') == 'Mon':                #周一执行完全备份
        full_backup(src, dst, md5file)
    else:
        incr_backup(src, dst, md5file)

你可能感兴趣的:(文档的完全备份和增量备份)