出行平台采集机票价格信息

在上述Python代码中,首先引入了所需的模块,然后设置了代理信息和模拟浏览器访问的网页请求头。随后,使用requests库发送代理请求,并将返回的网页内容解析为HTML。接着,从HTML中提取所需的信息,比如机票价格,并将提取的信息保存到DataFrame中。最后,打印出提取的信息。

这段代码展示了如何使用代理发送网络请求,并从返回的HTML中提取所需的数据。这对于需要爬取网页数据的情况非常有用。

导入需要的模块

import requests
import pandas as pd

设置网页请求头,模拟浏览器访问

headers = {
‘User-Agent’:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3’}

使用requests库发送代理请求

response = requests.get(“https://jshk.com.cn”, headers=headers, proxies={‘http’: f’http://{proxy_host}:{proxy_port}'})

将返回的网页内容解析为HTML

soup = BeautifulSoup(response.text, ‘html.parser’)

提取需要的信息,例如机票价格

price = soup.find(‘span’, class_=‘price’)

将提取的信息保存到DataFrame中

df = pd.DataFrame({‘Price’: [price.text]})

打印提取的信息

print(df)
以上代码中,首先导入了需要的模块。然后设置代理信息。接着设置网页请求头,模拟浏览器访问。使用requests库发送代理请求,并将返回的网页内容解析为HTML。提取需要的信息,例如机票价格,将提取的信息保存到DataFrame中,并打印提取的信息。出行平台采集机票价格信息_第1张图片

你可能感兴趣的:(爬虫)