使用Python和requests库的简单爬虫程序

这是一个使用Python和requests库的简单爬虫程序。我们将使用代理来爬取网页内容。以下是代码和解释:

import requests
from fake_useragent import UserAgent
# 每行代理信息
proxy_host = "jshk.com.cn"
# 创建一个代理器
proxy = {'http': 'http://' + proxy_host + ':' + proxy_port}

# 创建一个用户代理
ua = UserAgent()
headers = {
    'User-Agent': ua.random
}
# 发送请求
response = requests.get('http://www.example.com', headers=headers, proxies=proxy)
# 打印响应
print(response.text)

步骤解释:

  1. 引入所需的库requests和fake_useragent。
  2. 定义代理信息,包括主机名和端口号。
  3. 创建一个代理器字典,其中http为代理服务器的url。
  4. 创建一个用户代理,用于模拟浏览器。
  5. 创建一个headers字典,其中User-Agent为随机生成的用户代理。
  6. 发送GET请求到指定URL,使用headers和proxy参数。
  7. 打印响应的内容。使用Python和requests库的简单爬虫程序_第1张图片

你可能感兴趣的:(python,爬虫,开发语言)