通过Python3 爬虫抓取漫画图片

   引言: 

            最近闲来无事所以想着学习下python3,看了好长时间的文档,于是用python3写了一个漫画抓取的程序,好了 废话不多说上码!

      第一步:

                准备环境 和类库,我用的是python3.5      禁用 python2.x ! 禁用 python2.x !  禁用 python2.x !

                用到的类库:requests  lxml  bs4  fake_useragent     pymysql   

                这里你 pip  安装也好或者用pycharm 

pycharm 引包位置

        


第二步:找漫画网站

                    先说好本教程仅供学习交流禁止用于商务用途和其他用途
                    我选了一家相对还不错的漫画网站,各位小伙伴没事可以去看看
                   传送门: https://www.mkzhan.com


第三步: 开始编程了 准备好小伙伴

好了先导包

然后那编辑几个需要用到的方法 

        先做一个请求网页的方法


在这里headers 需要配置一个user-agent,否则很容易就会被对方服务器发现你是爬虫那


然后创建一个图片检测方法,毕竟图片损坏了你下载下来也没用


先抓详情 来分析下页面结构


嗯 这是我找出一些有用的信息 ,不过今天我们只用到标题 封面 和章节,然后哪章节列表举栗子,先上码

分析下li 特性 class 里都有一个参数 j-chapter-item 那好 find_all 把符合规则的拿出来
然后根据标题创建文件夹,同时根据封面的页面规则 抓到封面的img 放到之前写好的 get_img 方法里检测下,然后open 下载下来

刚刚抓好的章节列表遍历下,毕竟我们要把每章节的每张有用图片下载下来

新建一个章节的抓取方法

这里要把章节里的图片抓取出来
按照上面分析下html结构,根据规则做相应的抓取 并将图片下载到相应的位置


结果:



好了大功告成,代码虽然很比较low 但毕竟一个初级学员 大神勿喷
相对于想开始尝试做一下python抓取的同学很合适哦

不多说上源码 github:传送门

你可能感兴趣的:(通过Python3 爬虫抓取漫画图片)