requests库编写的爬虫程序没有那么难!

下文是用requests库编写的爬虫程序,用于爬取toutiao上的图片。程序使用了代理服务器,代理服务器的地址为duoip,端口号为8000。

requests库编写的爬虫程序没有那么难!_第1张图片

import requests
from bs4 import BeautifulSoup

# 设置代理服务器
proxy_host = 'duoip'
proxy_port = 8000
proxy = {'http': 'http://' + proxy_host + ':' + str(proxy_port),
         'https': 'http://' + proxy_host + ':' + str(proxy_port)}

# 发送GET请求
url = 'toutiao'
response = requests.get(url, proxies=proxy)

# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(response.text, 'html.parser')

# 找到所有img标签
images = soup.find_all('img')

# 打印图片的src属性
for image in images:
    print(image.get('src'))

这个程序首先设置了代理服务器,然后使用requests库发送了一个GET请求到toutiao。请求使用了设置的代理服务器。然后,使用BeautifulSoup库解析了返回的HTML内容。最后,程序找到了所有img标签,并打印出了它们的src属性,这些属性就是图片的URL。

你可能感兴趣的:(爬虫,selenium,python,scala,开发语言)