python实现爬虫探探_爬虫，爬到一切你想要的，干货总结！

本系列将由浅入深给大家介绍网络爬虫，一步一步教大家学会怎么分析请求，抓取数据，真正意义上爬取一切你想要的！

本章介绍：爬虫简介以及如何分析网络请求

一、什么是爬虫？能做什么？

爬虫，一般互联网上叫做网络爬虫，高端点的将叫Web Spider，如果互联网是一张蜘蛛网，那Spider就是在网上爬来爬去的蜘蛛。通俗点讲，就是使用程序请求网页/接口，得到数据并做合理的处理，转换为你想要的数据格式。常见的爬虫一般使用Python来编写，但不仅限于此，各种语言都能拿来做爬虫，本系列主要以C#语言来展开对爬虫的介绍。

WebSpider

二、爬虫之数据来源分析-网络请求

不管是网页端/App端/微信端，我们所能看到的页面上的内容，其实大多都是通过网络请求获取得到的，当你看到正在加载/请稍后类似字样的时候，往往就是在进行网络请求了。

废话不多说，直接拿一个网站做个解说，直接按以下步骤监控网络请求：

1. 示例：新浪滚动新闻，大家应该都知道开发者工具，即按下键盘F12 键浏览器打开的控制台，这个东西非常强大，可以查看网页内容，网络请求，调试，Cookies，网页源等等，不懂得自行百度，或者评论里留下你的问题，咱们一起探讨。微信/App端后续介绍，需要辅助工具。

按F12打开开发者工具

2. 点击NetWork，这里面可以看得到页面上所有的请求，包括图片/视频/音频/js/css等等，可选择单独过滤异步请求，js，css等

3. 确定页面发生变化时，网络请求发生了哪些变化，一般是点击页面上的按钮或者刷新页面来监控网络请求，对于本案例来说，点击刷新按钮，可看到发生了网络请求，点击可查看请求地址，请求头信息和响应内容等信息。

查看请求详细信息

至此，网络请求我们就监控完毕了，查看返回的响应信息，我没让你可以看到正是页面上显示的新闻列表。给大家推荐一个json校验工具，"json.cn"，方便易用。得到的json看如下效果。

json数据分析

三、分析数据，获取你想要的内容

通过分析请求，不难发现，我们要请求的地址是有参数的，其中最主要的参数是num和page，分别代表一页显示多少条数据，页码；通过改变page的值，我们就能抓取到第一页到第N页的数据了。

查看请求参数

我们抓取新闻，首先要得到新闻标题，时间，新闻链接这些基本信息，而上一步得到的json数据中，很容易得到这些数据，分别是url，title，ctime字段，至此我们的新闻请求地址基本信息是拿到了，下一章节将介绍如何得到新闻的主题内容。

四、总结一下

F12打开控制台-->点击NetWork-->点击页面上的按钮-->查看请求内容和响应内容-->分析数据，得到你想要的。

编程并不难，只要你肯下功夫去钻研，一切问题迎刃而解！

好了，今天的分享就到这，如果你对Python感兴趣，欢迎加入我们【python学习交流裙】，免费领取学习资料和源码。

python实现爬虫探探_爬虫，爬到一切你想要的，干货总结！

你可能感兴趣的:(python实现爬虫探探_爬虫，爬到一切你想要的，干货总结！)