【Python爬虫】国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据爬取

需求

地址:化妆品生产许可信息管理系统服务平台
我们需要爬取到下图中企业的相应信息,以及点击该企业进去后的化妆品生产许可证信息。
【Python爬虫】国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据爬取_第1张图片
【Python爬虫】国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据爬取_第2张图片

代码

import requests
import json
if __name__ == '__main__':
    # 批量获取不同企业的id值
    url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList'
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'}
    id_list = []  # 存储企业的id
    all_data_list = []  # 存储所有的企业的详情数据
    for page in range(1, 6):
        page = str(page)
        data = {
            'on': 'true',
            'page': page,
            'pageSize': '15',
            'productName': '',
            'conditionType': '1',
            'applyname': '',
            'applysn': ''
        }

        json_ids = requests.post(url=url, headers=headers, data=data).json()
        for dic in json_ids['list']:
            id_list.append(dic['ID'])

    # 获取企业详情数据
    post_url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsById'
    for id in id_list:
        data = {'id': id}
        detail_json = requests.post(url=post_url, headers=headers, data=data).json()
        all_data_list.append(detail_json)

    fp = open('allData.json', 'w', encoding='utf-8')
    json.dump(all_data_list, fp=fp, ensure_ascii=False)
    print('over!!!')

你可能感兴趣的:(Python爬虫)