Web Scraper

操作步骤笔记,方便查看

文章目录

  • 一、网址有规律变化进行翻页
  • 二、点击翻页器 爬取信息
  • 三、点击【加载更多】进行翻页
  • 四、动态加载 翻页(点击翻页器,URL不变)
  • 五、爬取二级页面内容
  • 六、滚动加载 Element scroll down

一、网址有规律变化进行翻页

北京人才网

第一页链接:https://jobs.51job.com/beijing/p1/
第二页链接:https://jobs.51job.com/beijing/p2/

Web Scraper_第1张图片
爬取前5页试一下

获取前n页,步长为m的页面,起始页设置为:
[1-n]或者[1-n:m]

例如:
www.0797rs.com/news/list-10–[1-5:2].html 获取前5页,步长为2 即得到 1、3、5 页

Web Scraper_第2张图片

Web Scraper_第3张图片
Web Scraper_第4张图片
Web Scraper_第5张图片
Web Scraper_第6张图片
Web Scraper_第7张图片Web Scraper_第8张图片
Web Scraper_第9张图片Web Scraper_第10张图片
Web Scraper_第11张图片Web Scraper_第12张图片

Web Scraper_第13张图片Web Scraper_第14张图片Web Scraper_第15张图片
Web Scraper_第16张图片
Web Scraper_第17张图片
Web Scraper_第18张图片
Web Scraper_第19张图片
Web Scraper_第20张图片
Web Scraper_第21张图片
Web Scraper_第22张图片

二、点击翻页器 爬取信息

网址不变 只有翻页器 或者 没有规律

以北京人才网为例

北京人才网_北京最新人才招聘信息

第一页链接:https://jobs.51job.com/beijing/p1/
第二页链接:https://jobs.51job.com/beijing/p2
Web Scraper_第23张图片
Web Scraper_第24张图片
创建一个新的 “项目”
Web Scraper_第25张图片
Web Scraper_第26张图片

Web Scraper_第27张图片
首先筛选出点击翻页器的链接
Web Scraper_第28张图片
Web Scraper_第29张图片

Web Scraper_第30张图片
Web Scraper_第31张图片
Web Scraper_第32张图片
在这里插入图片描述
选择完毕
Web Scraper_第33张图片
Web Scraper_第34张图片
Web Scraper_第35张图片
Web Scraper_第36张图片

三、点击【加载更多】进行翻页

以豆瓣电影为例
Web Scraper_第37张图片

Web Scraper_第38张图片
Web Scraper_第39张图片Web Scraper_第40张图片

Web Scraper_第41张图片
Web Scraper_第42张图片
Web Scraper_第43张图片
保存
Web Scraper_第44张图片
Web Scraper_第45张图片
Web Scraper_第46张图片

Web Scraper_第47张图片

Web Scraper_第48张图片
Web Scraper_第49张图片

四、动态加载 翻页(点击翻页器,URL不变)

动态加载 理解为打开网页时,所有数据已经加载完成的,只不过通过网页手段分割成不同的页。

以菜坝网为例
http://www.cb023.com/#/store/allGoods/e465867e6a66066f620d35e810b36bbc
Web Scraper_第50张图片
Web Scraper_第51张图片
Web Scraper_第52张图片
Web Scraper_第53张图片
Web Scraper_第54张图片
Web Scraper_第55张图片
Web Scraper_第56张图片.
Web Scraper_第57张图片
Web Scraper_第58张图片
Web Scraper_第59张图片
Web Scraper_第60张图片
Web Scraper_第61张图片
运行

Web Scraper_第62张图片

五、爬取二级页面内容

以小说网站为例

页码变化
第一页
http://search.zongheng.com/s?keyword=%E7%8E%84%E5%B9%BB&pageNo=1&sort=&isFromHuayu=
第二页
http://search.zongheng.com/s?keyword=%E7%8E%84%E5%B9%BB&pageNo=2&sort=&isFromHuayu=
第三页
http://search.zongheng.com/s?keyword=%E7%8E%84%E5%B9%BB&pageNo=3&sort=&isFromHuayu=
Web Scraper_第63张图片
Web Scraper_第64张图片
Web Scraper_第65张图片
Web Scraper_第66张图片
Web Scraper_第67张图片
Web Scraper_第68张图片
Web Scraper_第69张图片
Web Scraper_第70张图片
Web Scraper_第71张图片

Web Scraper_第72张图片
替换
Web Scraper_第73张图片
Web Scraper_第74张图片
Web Scraper_第75张图片
Web Scraper_第76张图片
Web Scraper_第77张图片

运行
Web Scraper_第78张图片

六、滚动加载 Element scroll down

你可能感兴趣的:(#,Python爬虫)