20200713-Web Scraper网页爬虫工具

Web Scraper网页爬虫工具

by / luo

时间:2020年7月13日


一、需要的软件

谷歌浏览器

插件 Web Scraper(点击下载:http://suo.im/6cCLUS)

二、步骤

以知乎热榜为例

进入知乎热榜

https://www.zhihu.com/hot

打开「开发者工具」

打开「开发者工具」

点击上下布局

点击上下布局


点击「Create Sitemap」

点击「Create Sitemap」


name 设置为「zhihu/hot」,URL为当前页面的地址:https://www.zhihu.com/hot

name 设置为「zhihu/hot」,URL为当前页面的地址:https://www.zhihu.com/hot

点击「Add new selector」

点击「Add new selector」

依次点击如图位置

依次点击如图位置

点击预览数据

点击预览数据


点击「Sitemap zhihu/hot」 - 「Scrape」开始爬虫

点击「Sitemap zhihu/hot」 - 「Scrape」开始爬虫

保持默认设置,点击「Start scraping」

保持默认设置,点击「Start scraping」

点击refresh 刷新数据

点击refresh 刷新数据


出现下图表示获取成功


获取成功


点击「Sitemap zhihu/hot」 - 「Export data as CSV」

「Sitemap zhihu/hot」 - 「Export data as CSV」


点击 Download now 下载

点击 Download now 下载

文件下载成功,在下载目录可查看

在下载目录可查看


点击文件即可查看,爬虫完毕

爬虫完毕


注:需要获取多页时,在URL中设置 需要爬取的页面即可

注:需要获取多页时,在URL中设置 需要爬取的页面即可


三、参考文章

视频教程:新媒体人必备的傻瓜式爬虫工具web scraper,不学Python也能轻松爬取数据!

https://www.bilibili.com/video/BV1BA411v75C?t=407&p=3

你可能感兴趣的:(20200713-Web Scraper网页爬虫工具)