python爬取你想要的数据,近期由于业务需求,用python爬取了高德地图一些地点的数据,爬出来数据大致情况如下:
下面是基本流程:
1、注册成为高德地图API开发者,网址http://lbs.amap.com/(主要是获取自己的keywords [注册流程可以参考这个网址 https://lbs.amap.com/api/webservice/guide/create-project/get-key])。
2.安装网络爬取第三方库,主要是下面三个(pip install 安装);
from urllib.parse import quote
from urllib import request
import json
3.创建网络爬虫爬取数据,并对数据进行解析(这块就直接上代码了);
from urllib.parse import quote
from urllib import request
import json
# import xlwt
web_key = '**********' #自己高德的地图的key密钥
url = "http://restapi.amap.com/v3/place/text"
cityname = "南京" # 自己需要搜索城市
classfiled = "汽车站" # 自己需要搜索的目的地信息(比如想搜索医院,直接替换成医院即可)
i=0 # 爬取的页面信息,i=2时即爬取第2页的数据。当 result['count']=0 时即此页面已经无信息,爬取所有数据时可以用此终止循环
req_url = url + "?key=" + web_key + '&extensions=all&keywords=' + quote(classfiled) + '&city=' + quote(cityname) + '&citylimit=true' + '&offset=25' + '&page=' + str( i) + '&output=json'
data = ''
f=request.urlopen(req_url)
data = f.read()
data = data.decode('utf-8')
result=json.loads(data)
# print(result['count']) # 等于0时,即代表此页面已经无信息
result['pois'][0] #显示数据记录格式
处理过会,基本的网页信息就出来了
以上的数据是以字典的形式打印出来的,把自己需要获取的字段提出出来就可以了:
for i in range(len(result['pois'])):
print('名称:',result['pois'][i]['name']
,'\n类型:',result['pois'][i]['type']
,'\n省份:',result['pois'][i]['pname']
,'\n城市:',result['pois'][i]['cityname']
,'\n地区:',result['pois'][i]['adname']
,'\n乡镇:',result['pois'][i]['business_area']
,'\n详细地址:',result['pois'][i]['address']
,'\n经纬度:',result['pois'][i]['location']
,'\n图片链接:',result['pois'][i]['photos'][0]['url']
,'\n'
)
部分数据结果如下: