python全网表情包_Python爬虫爬取最右公众号表情包资源

某天上厕所刷手机,看到最右公众号里面有一个表情包资源合集

python全网表情包_Python爬虫爬取最右公众号表情包资源_第1张图片

点进去发现有70多期表情包,突然就想到了最近学的爬虫,立马跑回去打开电脑准备看能不能全部爬下来。

我的想法是先找到这70多期的url链接,然后再看每一期里面表情包图片的url链接,最后爬取下来。

用浏览器打开这篇文章,Ctrl + U查看源码,发现每一期表情包网址的链接都在源码里面,应该说是非常好爬取了

python全网表情包_Python爬虫爬取最右公众号表情包资源_第2张图片

我们复制一下其中一个路径,右键->检查,然后复制选择器

python全网表情包_Python爬虫爬取最右公众号表情包资源_第3张图片

用bs4的select查询一下,发现这些链接应该在 '#js_content > p' 下

python全网表情包_Python爬虫爬取最右公众号表情包资源_第4张图片

把其中的url链接和标题提取出来存入字典中,写成函数

python全网表情包_Python爬虫爬取最右公众号表情包资源_第5张图片

这样提取所有每一期表情包链接的函数就做好了,我们来看一下效果

python全网表情包_Python爬虫爬取最右公众号表情包资源_第6张图片

 还行,爬下来了,接下来我们进行下一步,提取每一个表情包的链接

python全网表情包_Python爬虫爬取最右公众号表情包资源_第7张图片 每一个表情包仍然在源码中,我们和进行和上一步一样的操作,不过这次表情包在 '#js_content > p > img' 里,并且第一个和最后一个并不是表情包(中间有一个图片也不是表情包,但我还没有想好怎么除掉。。。)

python全网表情包_Python爬虫爬取最右公众号表情包资源_第8张图片

这样我们每一个表情包的链接也提取到了,我们来试一下,

python全网表情包_Python爬虫爬取最右公众号表情包资源_第9张图片

 应该是成功了,这样我们就有了小右给我们准备的所有表情包的链接,接下来就可以下载了。可是表情包并没有标题,我们只能对它用数字命名,但我突然想到一件事,我们可以利用百度AI通用文字识别(50000次/天免费)来识别表情包中的文字对表情包命名,具体使用方法戳这里

python全网表情包_Python爬虫爬取最右公众号表情包资源_第10张图片

这个文字识别不能对https的链接进行识别,所以我们只能把图片的二进制码转换成base64编码给百度AI,这样让我们的速度慢了不少(而且还是单线程),写好之后我们试一下效果

python全网表情包_Python爬虫爬取最右公众号表情包资源_第11张图片

python全网表情包_Python爬虫爬取最右公众号表情包资源_第12张图片 效果还是不错的,把不能识别的和识别失误的我们返回数字对表情包命名接下来就是下载啦。

python全网表情包_Python爬虫爬取最右公众号表情包资源_第13张图片 我们下载到E盘的Download文件夹,我们用try except来预防程序报错不继续下载。接下来就是我们的主函数main了,

python全网表情包_Python爬虫爬取最右公众号表情包资源_第14张图片

好,到这一步我们的爬取最右公众号表情包资源合集就算是写好了,用到的库有

python全网表情包_Python爬虫爬取最右公众号表情包资源_第15张图片

写完之后run一下,结果非常的amazing啊,

python全网表情包_Python爬虫爬取最右公众号表情包资源_第16张图片

python全网表情包_Python爬虫爬取最右公众号表情包资源_第17张图片 我们爬取了一千四百多个表情包(其实算下来应该有2k个左右不知道哪出了问题),尽管速度emm很慢(划掉)不过我们仍旧爬下来了很多,并且给他们命名方便我们使用,毕竟一千多个我们不可能一个一个去看,今天的分享就到这里了,很感谢大家看我写的博客(小白第一次写博客哈哈哈哈)如果哪里有疑问请在评论区留言,我看到会回复的。谢谢大家观看。

py文件 提取码:ryql

爬取好的表情包 提取码:xtnm

原文链接:https://blog.csdn.net/m0_47458570/article/details/106557971

你可能感兴趣的:(python全网表情包)