python 爬取抖音个人主页分享信息方法

注释:本文仅用于技术学习

操作步骤:

1、拿到分享短链接或者能直接拿到短链接对应的长连接如 

2、解决字体反爬,谷歌浏览器F12查看代码,像页面展示的数字都是框框

python 爬取抖音个人主页分享信息方法_第1张图片

3、下载字体包,找到network下的font字体包,复制访问地址到浏览器即可下载

python 爬取抖音个人主页分享信息方法_第2张图片

4、访问百度字体编辑器,打开下载的字体包查看代码,百度字体编辑器:地址请点击

python 爬取抖音个人主页分享信息方法_第3张图片

在开发者工具哪里看得到,一个数字,其实是有三个unicode编码对应的。那我们一个个保存下来这些对应关系就好了,$缓存\u大写E换成小写,意思就是三个unicode对应一个数字,保存备用

解析方式:https://mp.weixin.qq.com/s/5eJ5Q3unPgSsIBLcAuK4bA

#第一种
change = {
('\ue602','\ue60E','\ue618'):'1',
('\ue603','\ue60d','\ue616'):'0',
('\ue604','\ue611','\ue61a'):'3',
('\ue605','\ue610','\ue617'):'2',
('\ue606','\ue60c','\ue619'):'4',
('\ue607','\ue60f','\ue61b'):'5',
('\ue608','\ue612','\ue61f'):'6',
('\ue609','\ue615','\ue61e'):'9',
('\ue60a','\ue613','\ue61c'):'7',
('\ue60b','\ue614','\ue61d'):'8'
}
#第二种
change = {
    '\ue602': '1', '\ue60E': '1', '\ue618': '1',
    '\ue603': '0', '\ue60d': '0', '\ue616': '0',
    '\ue604': '3', '\ue611': '3', '\ue61a': '3',
    '\ue605': '2', '\ue610': '2', '\ue617': '2',
    '\ue606': '4', '\ue60c': '4', '\ue619': '4',
    '\ue607': '5', '\ue60f': '5', '\ue61b': '5',
    '\ue608': '6', '\ue612': '6', '\ue61f': '6',
    '\ue609': '9', '\ue615': '9', '\ue61e': '9',
    '\ue60a': '7', '\ue613': '7', '\ue61c': '7',
    '\ue60b': '8', '\ue614': '8', '\ue61d': '8'
}

原文来着:https://www.cnblogs.com/byadmin/p/11441137.html

下面一文讲述通过这个基础,结合缓存数据库等工具存储这些信息

https://blog.csdn.net/qq_24909089/article/details/102797302

你可能感兴趣的:(爬虫)