Python爬虫——动漫zj(manhua站)

目录

 

1,使用到的库

2,大致步骤

3,注意点

4,具体代码实现


1,使用到的库

from urllib.parse import urlencode
import requests
import re
import json
import execjs
from bs4 import BeautifulSoup
from pymongo import MongoClient
import os

2,大致步骤

  1. 根据漫画名称获取漫画url
  2. 根据漫画url获取漫画每一话的url
  3. 获取每一话所有的图片url
  4. 将url及其相关信息存入MongoDB
  5. 成功请求每个url,加载出图片再将其下载到本地

3,注意点

  • 步骤一中,漫画的url并不在返回的页面shtml中,而是存在异步加载出的search.php

​​​​​​​

 

  • 步骤三,在我们打开每一话的页面时,虽然页面上只有其中一张图片,但其实此话的每张图片url都已经存在返回shtml的某一角落被特别加密过。我们需要用正则式将它提取出来稍微修改一下,再利用execjs运行该js代码。

  • 下载图片时,发现存在防盗链

获取每一张图片的URL后,会发现请求该图片时,总会出现403的状况。只需要在headers里面加上的Referer就好了,referer表示你是从那个url跳转过来的。如果没有referer,网站则会判断你不是人 为操作。


4,具体代码实现

https://github.com/DALEKZ/my-spiders/tree/master/dongmanzhijia

你可能感兴趣的:(爬虫)