python 爬虫 获取百度源码

# 获取百度页面源码.py
# 使用urllib来获取百度首页的源码
import urllib.request

# (1) 定义一个url    想要访问的地址
url = 'http://www.baidu.com/'  # http不要有s
# (2) 模拟浏览器向服务器发送请求  记得连网!
response = urllib.request.urlopen(url)
# 二进制-->字符串 解码 decode('编码的格式')
# (3) 获取响应中的页面的源码
# read方法 返回的是字节形式的二进制数据
content = response.read().decode('utf-8')
# (4) 打印数据
print(content)

python 爬虫 获取百度源码_第1张图片

细节:

http和https的区别在于安全性和加密方式。

HTTP是超文本传输协议,它是一种用于传输超媒体文件(如HTML文件)的协议。它不提供数据的加密和安全性保护,通信过程中的数据易被窃听和篡改。

HTTPS是基于HTTP的安全版本,它在HTTP的基础上添加了数据加密和安全认证的功能。HTTPS使用SSL或TLS协议对通信数据进行加密,确保数据在传输过程中的安全性。通过使用数字证书,HTTPS可以验证服务器的身份,防止中间人攻击。

总结来说,http和https的主要区别在于安全性。http传输的数据不加密不安全,而https通过加密和身份验证来保护通信安全。因此,对于敏感信息的传输和支付等涉及个人隐私的操作,建议使用https协议。

 AI帮助--CSDN C知道

你可能感兴趣的:(python,爬虫,开发语言)