requests请求douban.com获得网页源代码

import requests

url = "https://www.douban.com/"

resp = requests.get(url, headers={
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36"
})


print(resp.text)
with open("mydouban.html",mode="w",encoding="utf-8") as f:
    f.write(resp.text)
print("over!")
C:\Users\14676\PycharmProjects\pythonProject1\venv\Scripts\python.exe C:\Users\14676\PycharmProjects\pythonProject1\request1.py 













豆瓣
























豆瓣7.0

下载豆瓣 App

iOS / Android 扫码直接下载

热点内容  · · · · · ·  ( 更多 )

沈阳 · 本周热门活动  · · · · · ·  ( 更多 )

© 2005-2023 douban.com, all rights reserved 北京豆网科技有限公司
营业执照京ICP证090015号京ICP备11027288号网络视听许可证0110418号食品经营许可证
京网文[2021]2980-826号 新出发京批字第直160029号   (署)网出证(京)字第120号
违法和不良信息/涉未成年人有害信息投诉:
违法和不良信息投诉电话:4008353331-9 
网络从业者不良行为举报:
中国互联网举报中心 电话:12377 京公网安备11010502000728
关于豆瓣 · 在豆瓣工作 · 联系我们 · 法律声明 · 帮助中心 · 移动应用 · 豆瓣广告
over! Process finished with exit code 0

当你运行这段代码时,它将执行以下操作:

1. 导入了`requests`库:这个库可以用来发送HTTP请求并获得响应。

2. 定义了变量`url`:这个变量存储了要请求的URL,即豆瓣网站的首页。

3. 使用`requests.get()`函数发送GET请求:这个函数发送了一个HTTP GET请求到指定的URL(在这里是豆瓣网站的首页),并返回一个响应对象。

4. 在GET请求中设置请求头:我们设置了一个`"User-Agent"`头部字段,模拟了一个Mozilla Firefox浏览器发送的请求。这样做是为了避免被网站识别为爬虫。

5. 响应对象存储在变量`resp`中:`resp`是一个包含响应内容和各种属性的对象,用于获取从服务器返回的数据。

6. 使用`resp.text`访问响应内容:通过`resp.text`属性可以获取到响应的文本内容。

7. 将响应内容保存到文件中:使用`open()`函数创建一个名为"mydouban.html"的文件,以写入模式打开(如果文件不存在则创建),并将响应内容写入到这个文件中。

8. 打印输出响应内容:使用`print()`函数打印响应内容,可以在控制台上看到网页的HTML源码。

9. 输出"over!":打印"over!"表示程序执行完毕。

这段代码的主要目的是获取豆瓣网站首页的HTML源码,并将其保存到一个文件中。它使用了`requests`库发送HTTP请求,并且设置了请求头以模拟一个浏览器发送的请求。

你可能感兴趣的:(python,改行学it,职场和发展)