豆瓣跑路计划 - 介绍

昨天晚上正在调试我的豆瓣图书备份脚本时,我就被豆瓣永久封禁了。我总算成为一个活生生的豆瓣无警告、无告知封禁的案例了。好在我的书影音条目没有被豆瓣隐藏,但我的3k+收藏日记已经看不到了。再加上昨天(2020年9月4日)豆瓣宣布要整改豆瓣图书、近几个月在豆瓣发长动态和长评需要等好几小时/天的审核【友邻“丧面人”和“水泥”的遭遇】

当然可能许多人还有友邻在豆瓣上,不舍得离开。但如果有喜欢的友邻现在不去询问其他联系方式/平台账号,等到他们封禁后这个人的存在将会被豆瓣从你的世界抹去,不难受吗?还有他们的日记、长评也“被消失”,多可惜?

所以我不打算再在豆瓣发布长文章,能看到本文的豆瓣用户可能也算是我以前《豆瓣备份计划》的老用户了吧,如果是新人也不用担心,不麻烦,脚本帮你解决了大部分操作。

1. 准备工作

一台电脑。macOS 需要安装 python3 运行源码。Windows可直接用exe

解压我的脚本压缩包解压到一个找得到的位置

500+以上条目请做好被豆瓣暂时控制 ip 访问(1天左右)的觉悟,你可以用手机app玩豆瓣

2. 获取你的豆瓣 id

豆瓣id是标示你的唯一代号,并不是你的用户昵称。电脑端可以打开个人主页https://www.douban.com/mine/查看你的豆瓣id 

爬取图书条目需要你找到你的cookies(点击左边小三角形展开

按照下面文章流程可以找到。我们的目标是找到一串类似:“dbcl2:20042639xxxx”的字符串。当然你可以直接使用我小号的cookies:dbcl2="222850174:jS1eZuld1po"。可能很快就会失效。使用自己的cookies会有冻结账号乃至封禁的风险,我不确定豆瓣的管理办法请各位自己考虑清楚。

https://www.jianshu.com/p/5aab0a57a1d1 

恭喜,你已经完成所有手动操作

3. 把你的书影记录下载为表格

使用我开发的python脚本,你可以把你的书影记录下载为表格(csv)。以后可以用Excel、WPS打开查看,也可以导入Notion笔记,csv是一个很常用的数据保存格式。

脚本的源码可以在https://github.com/JimSunJing/douban_crawler看到,macOS用户可以直接下载源码使用。

很简单,将脚本【解压】到一个【以后找得到】的文件夹。

双击exe、根据屏幕上的要求输入你的备份类型、豆瓣 id、cookies(电影备份可不输入),指定页码(便于你分批备份)

爬取结束后将会在文件夹里出现一个csv文档:icecode-2020-09-07 12-54-09想读plus.csv可以打开看一下爬取的内容:


4. 往Notion的数据表导入

新建一个 Table,删除原有的行,将标题表头改成“电影名“OR”书名”(见展开图4-1)

图4-1

点击右上角的【···】再点击【Merge with CSV】选择csv文件

把表格的【warp-cell】关闭会美观一些

将【封面】表头属性改为【Files&Media】

【短评们】里面是豆瓣上的热门短评汇总

点击左上角【Add a view】添加一个Gallery视图

添加完打开你会发现封面无法显示,你需要点击表格上【Properties】进行封面设置,再打开选择【Fit Image】

这是将【Card Size】设置为【Small】的效果:

脚本可以在 https://www.notion.so/jimsun6428/for-Share-26945cf67a2a407cb9f381109dd438a1 下载。我已经爬取了我死去的账号的书影作为纪念。

你可能感兴趣的:(豆瓣跑路计划 - 介绍)