python_学习爬虫遇到的第一个问题_urllib获取baidu首页源代码

第一天学习爬虫,学习的是urllib的基本用法,通过urllib.request获取baidu首页源代码。

# 导入urllib所需要的库
import urllib.request
# 左边自定义名称,右边是要访问的地址
url='https://www.baidu.com/Index.htm'
# 左边自定义名称可以叫做响应,右边是通过urllib.request.urlopen方法向url发出请求
response=urllib.request.urlopen(url)
# 左边自定义名称可以叫做内容,右边是通过response.read()获取访问地址的源码
# response.read()返回的是电脑才能看懂的字节形式的二进制数据
# 通过decode(编码的格式)将返回的数据转换成字符串的形式
contant=response.read().decode('utf-8')
# 打印数据
print(contant)

结果打印出来的完全不是



    


    

将打印的结果复制粘贴到html文件中打开网页是空白哒(≧﹏ ≦)

后来发现是因为HTTPS采用SSL加密,而HTTP则是明文传输。

修改URL中https为http后,问题得到解决啦

你可能感兴趣的:(python_爬虫,python,学习,爬虫)