大家好,我是大志
这次介绍一个爬取动态网页的超简单的一个小demo
。
说到动态网页,你对它了解多少呢?
简单来说,要获取静态网页的网页数据只需要给服务器发送该网页url
地址就行,而动态网页的数据因为是存储在后端的数据库里。所以要获取动态网页的网页数据,我们需要向服务器发送请求文件的url
地址,而不是该网页的url
地址。
ok,下面开始进入正题。
本篇博文就以高德地图展开:https://www.amap.com/
在打开后,我们发现有一堆div标签
,但是并没有我们需要的数据,这个时候就可以判定其为动态网页,这个时候,我们就需要找接口
点击网络标签,我们可以看到网页向服务器发送了很多请求,数据很多,找起来太费时间
我们点击XHR
分类,可以减少很多不必要的文件,省下很多时间。
XHR类型即通过XMLHttpRequest方法发送的请求,它可以在后台与服务器交换数据,这意味着可以在不加载整个网页的情况下,对网页某部分的内容进行更新。也就是说,向数据库请求然后得到响应的数据是XHR类型的
然后我们就可以在XHR
类型下开始一个个找,找到了如下的数据
通过查看Headers
获得URL
打开之后,我们发现其为近两天的天气情况。
打开后我们可以看到上面的情况,这是个json
格式的文件。然后,它的数据信息是以字典的形式来保存的,而数据是都保存在“data”
这个键值里面。
ok,找到了json
数据,我们来对比下看是否是我们找的东西
通过对比,数据正好对应,那就说明咱们已经拿到数据了。
'''
ok,相关网址我们已经拿到了,下面就是具体的代码实现了。至于怎么实现,
我们知道json数据可以使用response.json()
转字典,然后操作字典。
知道了数据的位置后,我们开始来写代码。
先抓取网页,通过添加headers
来伪装成浏览器来对数据库地址进行访问,防止被识别后拦截。
url_city = "https://www.amap.com/service/cityList?version=202092419"
得到我们想要的数据之后,我们通过查找可以发现cityByLetter
里的编号和名称是我们需要的,那么我们就可以盘它了。
if "data" in content:
得到了编号和名称,下面肯定就是查询天气呀!
通过上图,可以确定最高温度,最低温度等内容。那么就以此来进行数据爬取。
url_weather = "https://www.amap.com/service/weather?adcode={}"
ok,我们的设想已经实现了。
# encoding: utf-8
对于零基础同学,如要要达到使用 Python 的需要,那都是需要从 Python 基础知识进行系统学习的。在此分享一下自己零基础学习 Python 的经验,推荐一些基础学习资料希望大家能有所收获!
爬虫技术是数据采集的利器,在大数据时代作为数据提供方,十分有用武之地。利用 Python可以提升对数据抓取的精准程度和速度。Python入门爬虫比较简单,因为不需要在一开始掌握太多基础和底层的知识就可以很快上手,而且很快可以做出成果,非常适合无编程基础的同学。
以上资料都已经整理好,对 Python 感兴趣,想要做 Python 兼职,找工作的朋友都可以扫描下方【CSDN官方认证】二维码,免费领取 Python 全套资料,欢迎加入我们一起学习Python!