pm2.5 小型爬虫

@(Python)[web scrapy|python]

抓取空气质量信息@www.pm25.in

仅做测试使用。

import requests # 引入requests获取网站内容
import re # 引入re正则表达式模块

url = 'http://www.pm25.in/api/querys/all_cities.json?token=5j1znBVAsnSf5xQyNQyq' # token是该网站的公用API。该地址获取的是所有城市的空气质量信息。

r = requests.get(url) # 获得方式为GET

print(r.text)

inputTxt = re.compile((r'{.*?}') # 分割r.text中每个城市的信息
cityTxt = re.compile(r'"area":"(.*?)"') # 设置城市字段的提取规则
pm25Value = re.compile(r'"pm2_5_24h":(\d+)') # 设置24小时内的pm2.5均值字段的提取规则

content = {}
for i in re.findall(inputTxt, r.text):
    content[re.findall(cityTxt,i)[0]]=re.findall(pm25Value,i)[0] # 创建字典,形式为 city : pm2.5    

@ All rights reserved.

你可能感兴趣的:(pm2.5 小型爬虫)