爬虫笔记(6)实战

网站分析

今天的目标是www.dy2018.com:

爬虫笔记(6)实战_第1张图片
电影天堂

可以直接从首页进行爬,实际上点击导航条中的“动作片”,可以进入一个栏目分类列表中:

爬虫笔记(6)实战_第2张图片
Paste_Image.png

打开F12,可以看到这些栏目地址形式是"/0/","/1/"..."/20/"。那么是不是可以直接从这些栏目爬到所有电影呢?有必要先试试。

测试访问

>>> import requests
>>> from bs4 import BeautifulSoup
>>> url = 'http://www.dy2018.com'
>>> url = 'http://www.dy2018.com/0/'
>>> response = requests.get(url)
>>> response.text
'\n\n\n
\n\n\n\n\n'
>>> 

发现什么问题了?显然这个网站是有反爬策略的。仔细看script中的代码,window.location是什么意思呢?

window.location="/0/?__wangan=30ddbe2642e5e6dec1bb936d53884d5121483191958_231596";

你可能感兴趣的:(爬虫笔记(6)实战)