[Python爬虫实战3]使用高德API检索用户居住地（经纬度表示）周围5千米内的医院名称

一、项目简介

上一次是任务利用高德API把经纬度坐标逆地理编码为地址，这次则是利用高德API求初一个经纬度坐标附近5KM的医院名称，并对这些检索到的医院进行筛选，求出其中三级医院的个数、二级医院的个数、新冠定点医院个数以及总床位数（这些医院的详细信息有提前做成excel表格）

二、分析高德API

周边搜索的URL为https://restapi.amap.com/v3/place/text?parameters
接下来对parameters中的几个需要着重注意的参数进行分析：
1、key值，即请求Web服务API类型需要的密匙key，点击跳转去申请key
2、keywords值，即周边搜索时的关键字，比如keywords=医院按医院为关键字进行周边搜索。还可以输入多个关键字，只需要用“|”分割，比如keywords=医院|门诊|学校。
3、types值，即要检索目标的分类（POI类型），这个值一般要按照高德API官方文档中规定的分类代码或汉字填写。
分类代码由六位数字组成，一共分为三个部分，前两个数字代表大类；中间两个数字代表中类；最后两个数字代表小类。若指定了某个大类，则所属的中类、小类都会被显示。
例如types=090000表示医疗保健服务；types=090100表示医疗保健服务中的综合医院中类，types=090200表示医疗保健服务中的专科医院中类；types=090201表示专科医院该中类之中的整形美容专科医院小类，types=090202表示专科医院该中类之中的口腔专科医院小类。
即当指定类型为090000时，则090100等中类、090101等小类都会被包含，当指定090100，则090101等小类都会被包含。
4、radius值，即查询半径，取值范围:0-50000。规则：大于50000按默认值，单位为米。例如radius=5000表示查询附近5KM的范围
5、offset值，每一页返回查询结果的个数，强烈建议不超过25，若超过25可能造成访问报错，默认是一页返回20个
6、page值，表示要请求查询结果的第几页，比如搜索一个经纬度坐标附近5KM内的医院时，可能会有123个符合要求的医院门诊，但是每页默认返回20个，因此我们需要不断变化page值从1到7来请求所有的数据

举个例子，例如搜索117.07051,36.6897（先经度，后纬度）附近5KM内的综合医院和专科医院，每页显示20个数据
则url为https://restapi.amap.com/v3/place/around?location=117.07051,36.68971&key=申请的key值&keywords=医院&types=090100|090200&radius=5000&offset=20&page=1

p1.jpg

可以看到，默认返回的格式为JSON数据，当然还可以加上output=XML使得返回的格式为XML。
分析JSON数据可以看到，status为1，表示请求成功，若为0表示请求失败。count比较重要，表示搜索到的结果总数目，上面提到过，一页显示20个数据，则需要通过变化page值来请求所有的数据，那么page最大是多少，需要根据（count/20）+1得到。

三、程序编写

1、读入医院相关信息（excel表）

因为我需要对检索到的医院进行筛选，求出其中三级医院的个数、二级医院的个数、新冠定点医院个数以及总床位数，而这些医院的详细信息有提前做成excel表格，所以我先这些医院的详细信息读入，存到字典hospitals_info中，其中key是医院名，每一个value是一个列表，列表中包含三个数据，医院级别（二三级）、是否是新冠定点医院、床位数量

p3.jpg

# 把医院excel里的信息转到字典中，更方便
def hos_info():
    df = pd.read_excel('济南医院.xlsx', engine='openpyxl', dtype=str)
    rows, cols = df.shape  # 获得行数、列数
    for i in range(0, rows):
        hospital_info = []  # value值
        name = df.iat[i, 0]  # 医院名称，作为key
        grade = df.iat[i, 1]  # 医院级别
        xinguan = df.iat[i, 3]  # 是否是新冠定点医院
        bed_num = df.iat[i, 5]  # 床位数量
        hospital_info.append(grade)
        hospital_info.append(xinguan)
        hospital_info.append(bed_num)
        hospitals_info[name] = hospital_info  # 加入字典

2、读入经纬度数据

数据格式如下

p2.jpg

# 从文件中读取数据
def parse():
    locations = []
    f = open("去重后的graphic.csv", "r", encoding="utf-8")
    # f = open("problem_hospitals.csv", "r", encoding="utf-8")
    content = f.readlines()  # 读取文件的所有数据
    f.close()
    for i in range(0, len(content)):
        # 每行数据格式为  工作地经度,工作地纬度,居住地经度,居住地纬度,区县,街道
        location = []
        work_jingdu = content[i].split(',')[0]  # 工作地经度
        work_weidu = content[i].split(',')[1]  # 工作地纬度
        live_jingdu = content[i].split(',')[2]  # 居住地经度
        live_weidu = content[i].split(',')[3]  # 居住地纬度
        district = content[i].split(',')[4]  # 区县
        street = content[i].split(',')[5]  # 街道
        street = street.rstrip()  # 清除换行符
        location.append(work_jingdu)
        location.append(work_weidu)
        location.append(live_jingdu)
        location.append(live_weidu)
        location.append(district)
        location.append(street)
        locations.append(location)
    return locations

3、requests请求url及JSON数据解析

def geocode(location, page):
    global hospitals, sanjia_num, erjia_num, xinguan_num, bed_num, Flag
    url = ('https://restapi.amap.com/v3/place/around?location='
       + location[2] + ',' + location[3] +
       '&key=' + key[random.randint(0, 3)] +
       '&keywords=医院&radius=5000&offset=20&'
       'page='+str(page)+'&extensions=all')
    try:
        print(url)
        response = requests.get(url=url, timeout=30)
        if response.status_code == 200:
            answer = response.json()
            try:
                if answer['status'] == '1':
                    for i in range(0, len(answer['pois'])):
                        hos_name = answer['pois'][i]['name']
                        # 如果这个医院在给定的医院字典中,并且该医院没被标记，则加入并统计
                        if hos_name in hospitals_info and hos_name not in hospitals:
                            # 根据医院名返回医院相关信息
                            value = hospitals_info[hos_name]
                            if value[0] == '三级':
                                sanjia_num += 1
                            if value[0] == '二级':
                                erjia_num += 1
                            if value[1] == '是':
                                xinguan_num += 1
                            hospitals.append(hos_name)  # 加入医院列表
                            bed_num += int(value[2])    # 加入床位数
                    count = int(answer["count"])    # 搜索到的所有医院总数
                    print("查询到该地点附近有%d家医疗保健机构，每页20条信息，当前是第%d个页面" % (count, page))
                    # 根据高德api文档，每个页面默认显示20条信息，最多可要求显示25条
                    # 如果当前页面小于总的页面数，说明还有下一个页面
                    if page < (count//20):
                        geocode(location, page+1)
                else:   # 若status!=1
                    print('status!=1')
                    Flag = 1
            except TypeError:
                Flag = 1
        else:  # 若response.status_code ！= 200
            Flag = 1
    except requests.RequestException:
        print('请求url返回错误异常')
        Flag = 1

4、全局变量定义

hospitals_info = {}
hospitals = []
sanjia_num = 0
erjia_num = 0
xinguan_num = 0
bed_num = 0
# Flag=0,说明数据正常，Flag=1,说明数据异常
Flag = 0
# 使用4个高德api中需要的密匙循环爬，防止被封
key = ['key名1',
   'key名2',
   'key名3',
   'key名4']

5、主函数

if __name__ == '__main__':
    # 先得到需要检索出的医院的相关信息
    hos_info()
    df = pd.DataFrame(columns=['工作地经度', '工作地纬度', '居住地经度',
                           '居住地纬度', '区县', '街道',
                           '医院名称列表', '三级医院个数',
                           '二级医院个数', '新冠定点医院个数', '总床位数'])
    # 读取文件
    locations = parse()
    i = 0
    for location in locations:
        # 运行每条数据前先初始化全局变量
        hospitals, sanjia_num, erjia_num, xinguan_num, bed_num, Flag
        hospitals = []
        sanjia_num = 0
        erjia_num = 0
        xinguan_num = 0
        bed_num = 0
        Flag = 0
        district = location[4]
        if location[2] !='' and location[3] != '' and '济南市' in district:
            geocode(location, page=1)
            # 判断居住地经纬度是否为空，若为空，则不用请求url
            # 所在区县不是济南市的也不用请求url
        else:
            print("居住地经纬度为空or非济南市，没必要查询,默认为None")
            hospitals = ['None']
            sanjia_num = 0
            erjia_num = 0
            xinguan_num =0
            bed_num = 0
        if Flag == 1:
            hospitals, sanjia_num, erjia_num, xinguan_num, bed_num = ["返回异常"], 0, 0, 0, 0
        print("医院名称列表为%s,三甲医院数为%d,二甲医院数为%d,新冠定点医院数为%d,总床位数为%d" % (
        str(hospitals), sanjia_num, erjia_num, xinguan_num, bed_num))
        df.loc[i] = [location[0], location[1], location[2], location[3], location[4], location[5], list(hospitals), sanjia_num, erjia_num, xinguan_num, bed_num]
        i = i + 1
        print("第%d条数据已完成" % i)
    df.to_csv('part_hospitals_info.csv', index=False, sep="|")

四、运行过程截图及结果截图

运行过程截图.jpg

运行结果截图.jpg