通过Python3 爬虫抓取漫画图片

通过Python3 爬虫抓取漫画图片


引言:
最近闲来无事所以想着学习下python3,看了好长时间的文档,于是用python3写了一个漫画抓取的程序,好了 废话不多说上码!

第一步:
准备环境 和类库,我用的是python3.5 禁用 python2.x ! 禁用 python2.x ! 禁用 python2.x !
用到的类库:requests lxml bs4 fake_useragent pymysql
这里你 pip 安装也好或者用pycharm

pycharm 引包位置
通过Python3 爬虫抓取漫画图片_第1张图片

第二步:找漫画网站

                先说好本教程仅供学习交流禁止用于商务用途和其他用途
                我选了一家相对还不错的漫画网站,各位小伙伴没事可以去看看

传送门: https://www.mkzhan.com

第三步: 开始编程了 准备好小伙伴

好了先导包
通过Python3 爬虫抓取漫画图片_第2张图片

然后那编辑几个需要用到的方法

先做一个请求网页的方法
通过Python3 爬虫抓取漫画图片_第3张图片

在这里headers 需要配置一个user-agent,否则很容易就会被对方服务器发现你是爬虫那

然后创建一个图片检测方法,毕竟图片损坏了你下载下来也没用
通过Python3 爬虫抓取漫画图片_第4张图片

先抓详情 来分析下页面结构
通过Python3 爬虫抓取漫画图片_第5张图片

嗯 这是我找出一些有用的信息 ,不过今天我们只用到标题 封面 和章节,然后哪章节列表举栗子,先上码

通过Python3 爬虫抓取漫画图片_第6张图片

分析下li 特性 class 里都有一个参数 j-chapter-item 那好 find_all 把符合规则的拿出来
然后根据标题创建文件夹,同时根据封面的页面规则 抓到封面的img 放到之前写好的 get_img 方法里检测下,然后open 下载下来

通过Python3 爬虫抓取漫画图片_第7张图片

刚刚抓好的章节列表遍历下,毕竟我们要把每章节的每张有用图片下载下来

新建一个章节的抓取方法
这里要把章节里的图片抓取出来
按照上面分析下html结构,根据规则做相应的抓取 并将图片下载到相应的位置
通过Python3 爬虫抓取漫画图片_第8张图片

结果:

通过Python3 爬虫抓取漫画图片_第9张图片

通过Python3 爬虫抓取漫画图片_第10张图片
通过Python3 爬虫抓取漫画图片_第11张图片

好了大功告成,代码虽然很比较low 但毕竟一个初级学员 大神勿喷
相对于想开始尝试做一下python抓取的同学很合适哦

不多说上源码 github:传送门

你可能感兴趣的:(python3爬虫自学)