使用requests中的get函数来获取网页源码。
用法如下:
import requests
#设置网页url与header(用作让服务器认为网页链接请求是通过一个浏览器发出的,而不是恶意攻击)
url='xxx'
header={"User-Agent":"xxx"}
resp=requests.get(url,headers=header)
url获取:
headers获取:
按下F12打开页面控制器->点击网络->选择第一个->找到User-Agent
注:如果不设置headers则会出错。表示服务器端设置了一些反爬的措施。
import requests
#设置网页url
url="https://www.sogou.com/web?query=周杰伦"
#设置header
header={
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36 Edg/108.0.1462.76"
}
#使用get方式获取网页源代码
resp=requests.get(url,headers=header)
#将解码方式设置为网页的解码方式
resp.encoding = resp.apparent_encoding
#打印
print(resp.text)
持续更新!