一、项目简介
上一次是任务利用高德API把经纬度坐标逆地理编码为地址,这次则是利用高德API求初一个经纬度坐标附近5KM的医院名称,并对这些检索到的医院进行筛选,求出其中三级医院的个数、二级医院的个数、新冠定点医院个数以及总床位数(这些医院的详细信息有提前做成excel表格)
二、分析高德API
周边搜索的URL为https://restapi.amap.com/v3/place/text?parameters
接下来对parameters中的几个需要着重注意的参数进行分析:
1、key值,即请求Web服务API类型需要的密匙key,点击跳转去申请key
2、keywords值,即周边搜索时的关键字,比如keywords=医院按医院为关键字进行周边搜索。还可以输入多个关键字,只需要用“|”分割,比如keywords=医院|门诊|学校。
3、types值,即要检索目标的分类(POI类型),这个值一般要按照高德API官方文档中规定的分类代码或汉字填写。
分类代码由六位数字组成,一共分为三个部分,前两个数字代表大类;中间两个数字代表中类;最后两个数字代表小类。若指定了某个大类,则所属的中类、小类都会被显示。
例如types=090000表示医疗保健服务;types=090100表示医疗保健服务中的综合医院中类,types=090200表示医疗保健服务中的专科医院中类;types=090201表示专科医院该中类之中的整形美容专科医院小类,types=090202表示专科医院该中类之中的口腔专科医院小类。
即当指定类型为090000时,则090100等中类、090101等小类都会被包含,当指定090100,则090101等小类都会被包含。
4、radius值,即查询半径,取值范围:0-50000。规则:大于50000按默认值,单位为米。例如radius=5000表示查询附近5KM的范围
5、offset值,每一页返回查询结果的个数,强烈建议不超过25,若超过25可能造成访问报错,默认是一页返回20个
6、page值,表示要请求查询结果的第几页,比如搜索一个经纬度坐标附近5KM内的医院时,可能会有123个符合要求的医院门诊,但是每页默认返回20个,因此我们需要不断变化page值从1到7来请求所有的数据
举个例子,例如搜索117.07051,36.6897(先经度,后纬度)附近5KM内的综合医院和专科医院,每页显示20个数据
则url为https://restapi.amap.com/v3/place/around?location=117.07051,36.68971&key=申请的key值&keywords=医院&types=090100|090200&radius=5000&offset=20&page=1
可以看到,默认返回的格式为JSON数据,当然还可以加上output=XML使得返回的格式为XML。
分析JSON数据可以看到,status为1,表示请求成功,若为0表示请求失败。count比较重要,表示搜索到的结果总数目,上面提到过,一页显示20个数据,则需要通过变化page值来请求所有的数据,那么page最大是多少,需要根据(count/20)+1得到。
三、程序编写
1、读入医院相关信息(excel表)
因为我需要对检索到的医院进行筛选,求出其中三级医院的个数、二级医院的个数、新冠定点医院个数以及总床位数,而这些医院的详细信息有提前做成excel表格,所以我先这些医院的详细信息读入,存到字典hospitals_info中,其中key是医院名,每一个value是一个列表,列表中包含三个数据,医院级别(二三级)、是否是新冠定点医院、床位数量
# 把医院excel里的信息转到字典中,更方便
def hos_info():
df = pd.read_excel('济南医院.xlsx', engine='openpyxl', dtype=str)
rows, cols = df.shape # 获得行数、列数
for i in range(0, rows):
hospital_info = [] # value值
name = df.iat[i, 0] # 医院名称,作为key
grade = df.iat[i, 1] # 医院级别
xinguan = df.iat[i, 3] # 是否是新冠定点医院
bed_num = df.iat[i, 5] # 床位数量
hospital_info.append(grade)
hospital_info.append(xinguan)
hospital_info.append(bed_num)
hospitals_info[name] = hospital_info # 加入字典
2、读入经纬度数据
数据格式如下
# 从文件中读取数据
def parse():
locations = []
f = open("去重后的graphic.csv", "r", encoding="utf-8")
# f = open("problem_hospitals.csv", "r", encoding="utf-8")
content = f.readlines() # 读取文件的所有数据
f.close()
for i in range(0, len(content)):
# 每行数据格式为 工作地经度,工作地纬度,居住地经度,居住地纬度,区县,街道
location = []
work_jingdu = content[i].split(',')[0] # 工作地经度
work_weidu = content[i].split(',')[1] # 工作地纬度
live_jingdu = content[i].split(',')[2] # 居住地经度
live_weidu = content[i].split(',')[3] # 居住地纬度
district = content[i].split(',')[4] # 区县
street = content[i].split(',')[5] # 街道
street = street.rstrip() # 清除换行符
location.append(work_jingdu)
location.append(work_weidu)
location.append(live_jingdu)
location.append(live_weidu)
location.append(district)
location.append(street)
locations.append(location)
return locations
3、requests请求url及JSON数据解析
def geocode(location, page):
global hospitals, sanjia_num, erjia_num, xinguan_num, bed_num, Flag
url = ('https://restapi.amap.com/v3/place/around?location='
+ location[2] + ',' + location[3] +
'&key=' + key[random.randint(0, 3)] +
'&keywords=医院&radius=5000&offset=20&'
'page='+str(page)+'&extensions=all')
try:
print(url)
response = requests.get(url=url, timeout=30)
if response.status_code == 200:
answer = response.json()
try:
if answer['status'] == '1':
for i in range(0, len(answer['pois'])):
hos_name = answer['pois'][i]['name']
# 如果这个医院在给定的医院字典中,并且该医院没被标记,则加入并统计
if hos_name in hospitals_info and hos_name not in hospitals:
# 根据医院名返回医院相关信息
value = hospitals_info[hos_name]
if value[0] == '三级':
sanjia_num += 1
if value[0] == '二级':
erjia_num += 1
if value[1] == '是':
xinguan_num += 1
hospitals.append(hos_name) # 加入医院列表
bed_num += int(value[2]) # 加入床位数
count = int(answer["count"]) # 搜索到的所有医院总数
print("查询到该地点附近有%d家医疗保健机构,每页20条信息,当前是第%d个页面" % (count, page))
# 根据高德api文档,每个页面默认显示20条信息,最多可要求显示25条
# 如果当前页面小于总的页面数,说明还有下一个页面
if page < (count//20):
geocode(location, page+1)
else: # 若status!=1
print('status!=1')
Flag = 1
except TypeError:
Flag = 1
else: # 若response.status_code != 200
Flag = 1
except requests.RequestException:
print('请求url返回错误异常')
Flag = 1
4、全局变量定义
hospitals_info = {}
hospitals = []
sanjia_num = 0
erjia_num = 0
xinguan_num = 0
bed_num = 0
# Flag=0,说明数据正常,Flag=1,说明数据异常
Flag = 0
# 使用4个高德api中需要的密匙循环爬,防止被封
key = ['key名1',
'key名2',
'key名3',
'key名4']
5、主函数
if __name__ == '__main__':
# 先得到需要检索出的医院的相关信息
hos_info()
df = pd.DataFrame(columns=['工作地经度', '工作地纬度', '居住地经度',
'居住地纬度', '区县', '街道',
'医院名称列表', '三级医院个数',
'二级医院个数', '新冠定点医院个数', '总床位数'])
# 读取文件
locations = parse()
i = 0
for location in locations:
# 运行每条数据前先初始化全局变量
hospitals, sanjia_num, erjia_num, xinguan_num, bed_num, Flag
hospitals = []
sanjia_num = 0
erjia_num = 0
xinguan_num = 0
bed_num = 0
Flag = 0
district = location[4]
if location[2] !='' and location[3] != '' and '济南市' in district:
geocode(location, page=1)
# 判断居住地经纬度是否为空,若为空,则不用请求url
# 所在区县不是济南市的也不用请求url
else:
print("居住地经纬度为空or非济南市,没必要查询,默认为None")
hospitals = ['None']
sanjia_num = 0
erjia_num = 0
xinguan_num =0
bed_num = 0
if Flag == 1:
hospitals, sanjia_num, erjia_num, xinguan_num, bed_num = ["返回异常"], 0, 0, 0, 0
print("医院名称列表为%s,三甲医院数为%d,二甲医院数为%d,新冠定点医院数为%d,总床位数为%d" % (
str(hospitals), sanjia_num, erjia_num, xinguan_num, bed_num))
df.loc[i] = [location[0], location[1], location[2], location[3], location[4], location[5], list(hospitals), sanjia_num, erjia_num, xinguan_num, bed_num]
i = i + 1
print("第%d条数据已完成" % i)
df.to_csv('part_hospitals_info.csv', index=False, sep="|")