Python爬虫如何补全相对链接

问题描述

我们使用python开发爬虫采集网页的时候,网页上经常会使用相对链接,如下:

./202401/t20240102_3522266.html

获取这样的链接是无法继续请求来获取后续数据的。所以需要把他不全。

解决方法

要补全一个相对链接为一个完整的链接,你需要知道相对链接相对于哪个基础链接。在这个例子中,相对链接是 ./202401/t20240102_3522266.html,基础链接是 https://www.beijing.gov.cn/zhengce/zhengcefagui/index.html

下面是如何在 Python 中使用基础链接补全相对链接:

from urllib.parse import urljoin  
  
base_url = "https://www.beijing.gov.cn/zhengce/zhengcefagui/index.html"  
relative_url = "./202401/t20240102_3522266.html"  
  
# 使用urljoin补全链接  
full_url = urljoin(base_url, relative_url)  
  
print(full_url)

运行上述代码后,你将得到完整的链接:https://www.beijing.gov.cn/zhengce/zhengcefagui/202401/t20240102_3522266.html

你可能感兴趣的:(Python,python,爬虫,开发语言)