【python 爬虫入门】一行代码爬取网页所有内容

# 导入爬取网页所需urllib包
from urllib import request,parse

# 设置要爬取的网页地址
url = 'https://www.baidu.com/'

# 写入代理(怎么来的看下面图片)
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'
}

# 配置爬取函数
req = request.Request(url,headers=headers)

# 爬
resp = request.urlopen(req)

#将爬取内容转为utf8编码后存入变量中
result = resp.read().decode('utf-8')


# 将的到的内容存起来
with open("test.txt", "w") as f:  
    f.write(result)

# 打印出来看看
print(result)

headers 中的代理从哪里找?

1、打开页面,按F12, 选中network

【python 爬虫入门】一行代码爬取网页所有内容_第1张图片

 2、随便点击其中的一个元素,选择headers,然后就可以看到里面的User-Agent【python 爬虫入门】一行代码爬取网页所有内容_第2张图片

你可能感兴趣的:(爬虫,python,爬虫)