Python爬虫获取页面动态数据

Python爬虫获取页面动态数据

在爬取网页数据的时候,有时候会出现获取数据为空的情况(在路径、代码没问题前提下),这种就很有可能是爬取的数据为动态加载的数据,下面提供详细的步骤(以谷歌浏览器为例子):

1、先确定所需数据是否为动态数据,在开发者工具中找到页面源码,查找是否有所需的数据,没有的话则为动态数据,步骤:网页右键 ->检查(开发者工具)-> Sources

2、获取网页访问路径Python爬虫获取页面动态数据_第1张图片Network中选择XHR,F5刷新
在这些请求路径中找是否有所需要的数据,查到所需数据后在Headers中获取请求路径

3、代码实现

headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36"
}
# get or post 看请求Headers
html = requests.post('https://www.htsc.com.cn/browser/download/getSoftwareList.do', headers=headers)
data = json.loads(html.text)
# 到这里就获取到一个数据结构为字典的所有数据,接下来获取所需的数据就好
# ......

你可能感兴趣的:(笔记,python,爬虫)