博客图片迁移折腾记

  去年国庆的时候,七牛官方开始回收测试域名,这直接导致博客中大量图片出现无法访问的情况,虽然博主第一时间启用了新的域名:https://blog.yuanpei.me,可是因为七牛官方要求域名必须备案,所以,这件事情一直耽搁着没有往下进行。至于为什么会一直拖到2019年,我想大家都能猜到一二,没错,我就是懒得去弄域名备案这些事情?。最近花了点时间,把博客里的图片从七牛和CSDN迁移了出来,所以,今天这篇博客,主要想和大家分享下这个折腾的过程,如果能帮助到和我一样,因为七牛官方回收了域名而无法导出图片的朋友,在下开心之至。虽然今天没有回望过去,没有给新的一年立flag,就如此平淡地过渡到了2019年,可或许这才是生活本来的样子吧!

  七牛的测试域名被官方回收了以后,我们有两种思路去导出这些图片,其一,是临时像官方提工单申请一个测试域名,这样在测试域名被回收前,我们可以直接使用官方提供的qrsctl或者qshell工具进行批量导出,因为此时我们可以直接在配置文件里配置测试域名,具体可以参考这篇文章:跑路之后七牛图片如何导出备份至本地,甚至你可以直接到七牛的管理控制台手动下载,可这样就一点都不极客了对吗?我们是一生追求做极客的人好伐。其二,同样是借助官方提供的qshell工具,因为没有域名,我们没有办法批量导出,可是工具中提供了两个非常有用的命令,它们分别是:qshell listbucketqshell get。通过这两个命令,我们就可以列举出指定bucket中的文件以及下载指定文件,所以,这就是我们的第一步,首先把图片从七牛那里导出到本地。以博主的blogspace为例:

qshell account   '[email protected]' /* 请使用你的ak/sk,谢谢 */
qshell listbucket blogspace

  事实上,通过第一列的Key,即文件名,我们就可以下载该资源到本地,因为七牛实际上是采用对象存储的方式来组织资源的,这里我们以第一张图片05549344-BF85-4e8c-BCBC-1F63DFE80E43.png为例:

qshell get blogspace 05549344-BF85-4e8c-BCBC-1F63DFE80E43.png

  默认情况下,该图片会下载到当前目录下,本地文件和远程文件名保持一致。当然,我们还可以通过-o参数来指定输出文件:

  好了,有了这个基础,我们就可以着手博客图片的迁移啦。博主最初的想法是,先获取到指定bucket下的全部文件,然后再对结果进行拆分,循环执行qshell get命令,可惜再PowerShell下并没有类似grep的命令,所以,这个想法放弃。其实,你仔细观察七牛图片外链的格式就会发现,除了域名部分以外,剩下的就是该文件在bucket里对应的key啦,所以,博主的想法开始从Markdown文件入手,最终我们的思路是,解析博客对应的Markdown文件,通过正则匹配所有的图片链接,截取出图片的文件名并通过qshell下载到本地。人生苦短,我用Python。具体写出来,大概是下面这个样子:

def sync(root,ak,sk,account,bucket):
    files = []
    children = os.listdir(root)
    for child in children:
        path = os.path.join(root,child)
        if os.path.isfile(path):
            files.append(path)
    for file in files:
        links = []
        newContent = ''
        with open(file,'rt',encoding='utf-8') as fp:
            content = fp.read()
            matches = re.compile('!\\[.*?\\]\\((.*?)\\)').findall(content) 
            if(len(matches)>0):
                links.extend(matches)
            for link in links:
                fileKey = link.split('/')[-1]
                if('https://img-blog.csdn.net' in link):
                    newLink = sync_csdn(link)
                    newContent = content.replace(link,newLink)
                elif('clouddn.com' in link):
                    newLink = sync_qiniu(ak,sk,account,bucket,fileKey)
                    newContent = content.replace(link,newLink)
        if(newContent != '' and len(links) > 0):
            with open(file,'wt',encoding='utf-8') as fp:
                fp.write(newContent)
            print('已自动完成对{0}中图片链接的自动更新'.format(file))

  因为博主的博客,在此之前(指2012年~2018年,暴露年龄啦ORZ),主要都在:https://blog.csdn.net/qinyuanpei这里维护,所以,这次就一并通过脚本处理啦。这部分我们这里不用太关注,对于托管在七牛上的图片资源,我们通过sync_qiniu方法来完成同步:

def sync_qiniu(ak,sk,account,bucket,fileKey):
    os.system('qshell account {0} {1} {2} -w'.format(ak,sk,account))
    outfile = root + "\\download\\blogspace\\" + fileKey
    outfile = outfile.replace('\\','/')
    if(os.path.exists(outfile)):
        os.remove(outfile)
    os.system('qshell get {0} {1} -o {2}'.format(bucket,fileKey,outfile))
    print("同步七牛图片{0}完成".format(fileKey))
    pid = upload(outfile)
    if(pid != None):
        print('同步后的图片链接为:' + upload(outfile))
        return pid

  博客中的图片导出到本地以后,我们就要开始考虑第二个问题,这些图片要放到哪里去,直接和博客放在一起,估计早晚会突破Github单个仓库1G的限制。七牛增加域名备案的限制以后,像又拍云这种同类产品必须会跟进这个feature,原因嘛,我想大家都知道不必多说。大概考虑了像阿里云和腾讯云的OSS类产品,因为我司的产品最近正在着手从自有的FTP上切换到阿里云的OSS上,主要是考虑服务器的维护成本,但对博主这样的个人用户而言,这类OSS产品实在太贵了,最终,博主选择国内某知名社交平台提供的**“图床服务”**。参考这篇文章:PHP上传图片到微博图床,最终实现了一个简洁(陋)的版本:

def upload(src_file):
    url = "http://picupload.service.weibo.com/interface/pic_upload.php"
    fileExt = src_file.split('.')[-1]
    if(fileExt == 'png'):
        fileExt = 'jpg'
    timestamp = str(int(time.time()))
    mimes = {"gif":'image%2Fgif','jpg':'image%2Fjpeg','jpeg':'image%2Fjpeg'}
    querystring = {"mime":mimes[fileExt],"data":"base64","url":"0","markpos":"1","logo":"","nick":"0","marks":"1","app":"miniblog","cb":"http://weibo.com/aj/static/upimgback.html?_wv=5","callback":"STK_ijax_" + timestamp}
    headers = {
        'Cookie': "在这里填入Cookie",
    }
    files = {'pic1':open(src_file,'rb').read()}
    response = requests.request("POST", url, headers=headers, params=querystring,files=files)
    if(response.status_code == 200):
        result = re.sub(r"", "", response.text, flags=re.S)
        image_result = json.loads(result)
        image_id = image_result.get('data').get('pics').get('pic_1').get('pid')
        return 'https://ws1.sinaimg.cn/large/{0}.{1}'.format(image_id,fileExt)

  如果你现在访问我的博客,大概就会发现,之前那些无法显示的图片,现在基本上都可以显示啦,而我所做的事情,就是执行这些Python脚本,让它帮我完成从图片下载、上传再到替换链接的所有事情。感觉配合Typora在插入图片时可以拷贝到指定目录的功能,完全可以支持本地图片链接自动替换的功能,这样子以后写博客的时候,只要插入准备后的本地图片就好了,真是想想都觉得美好呢?我和一位朋友分享了这个想法,他觉得**"微博图床"并**不靠谱,这样说起来,它最不好的地方大概就是没有办法保留原有的文件名,所以,万一将来有一天它挂了,你要恢复这些图片会比较麻烦,一个好的建议是维护一个数据库,譬如SQLite足矣,把本地文件名和远程文件名对应起来,甚至你可以把图片的Base64编码存储到数据库里呢,对吧?

  好了,以上就这2019年第一篇碎碎念啦,为了证明我的思维的确是跳跃的,最后的最后,强烈地向大家安利两个图床工具:WeiBox、PicGo,它们都支持微博图床,所以,你猜我是用哪个工具上传这篇文章里地图片的呢?当然是脚本啊,那样不就不那么极客了嘛,我们是一生追求做极客的人好伐!✌️

你可能感兴趣的:([编程语言],[独立博客],Python)