【爬取百度产品网页】-将整个html保存下来

文章目录

  • 一、页面分析
  • 二、代码
  • 三、请求结果分析

一、页面分析

目标网址:https://www.baidu.com/more/
爬取内容:将目标网址,整个html页面保存下来
实现步骤:
		导入requess模块
		发送请求,获取响应(包含了url指向)
		获取响应内容
		将响应保存到本地

整个目标网址页面所呈现的样式
【爬取百度产品网页】-将整个html保存下来_第1张图片

二、代码

# 1、导包
import requests

# 2、发送请求,获取响应
response = requests.get(url='https://www.baidu.com/more/')
# 3、获取响应内容
print(response)
# 查看状态码
print(response.status_code)
# 查看响应头
print(response.headers)
# 重点:响应正文。
# 问题:文本数据有哪两种格式?
# 字符串响应正文:
# print(response.text)
# bytes二进制的响应正文:
print(response.content)
# 解决乱码问题:
# 第一种方法:
response_str = response.content.decode(encoding='utf-8')
# 第二种方法:
# response.text是通过response.ecoding这个属性设置的值来进行编程字符串。
# response.ecoding是通过resquests模块自动识别的。(基本识别都对的。)
print(response.encoding)
response.encoding = 'utf-8'
# 4、将响应内容保存到本地。
with open('index.html', 'w', encoding='utf-8') as fp:
    fp.write(response.text)

三、请求结果分析

验证结果的时候,整个页面,输入与目标网址呈现的内容的关键词即可

请求结果:
在这里插入图片描述

与目标网址源代码一致:
【爬取百度产品网页】-将整个html保存下来_第2张图片

打开页面源代码:
【爬取百度产品网页】-将整个html保存下来_第3张图片
【爬取百度产品网页】-将整个html保存下来_第4张图片

你可能感兴趣的:(Python爬虫,python,html,ajax,数据分析)