使用python爬取某药品网站药品说明

你瞅一下代码里链接就知道是啥网站了~
首先声明:代码贼乱,因为功能不复杂,就懒得改了,好使就得
如果你想改完且封装一下,或者搞个PDF的类库,更高级,欢迎下边留言
注释贼多,还有参考链接,有点编程基础都能瞅懂
–start–
之前jio得不加延时没有事;
完事就
使用python爬取某药品网站药品说明_第1张图片
估计情况不是对方的反制;
而是没有延时整岔屁辽;
遂小编加了一些sleep;
亲测没事了;
使用python爬取某药品网站药品说明_第2张图片
这个虫子就开始欻欻的跑;
废话少说,直接上码;

import re
import requests # 使用网络模块
import base64
from bs4 import BeautifulSoup  # 网页拆分,需要使用pip指令安装
import time # 导入时间模块,延时器使用
from splinter import Browser    # 操作浏览器模块,需要pip安装 
import sys
import urllib.request
# from fontTools.ttLib import TTFont, BytesIO
# 注意:py有着严格的缩进管理
    # win下安装建议使用网址:www.continuum.io/downloads/ 此版本编译器与Linux一致,错误率低
    # 安装常用套件:使用命令 pip install 
    # requests(网络模块)  BeautifulSoup4 jupyter(网页运行器)
    # 获取元素:https://blog.csdn.net/chengsw1993/article/details/92633313
    # splinter中文手册:https://splinter-docs-zh-cn.readthedocs.io/zh/latest/
    # splinter英文手册:https://splinter.readthedocs.io/en/latest/



# 药源网页面 中药 西药
url = 'https://www.yaopinnet.com'
zy_url = 'https://www.yaopinnet.com/zhongyao1'
xy_url = 'https://www.yaopinnet.com/huayao1'
# 药品字母列表
menu_list = ['a','b','c','d','e','f','g','h','j','k','l','m','n','p','q','r','s','t','w','x','y','z']
# 加载chrome
browser = Browser('chrome')
# 准备导出的文件集合
export_file_arr = []
# 药品计数器
yp_count = 0
# 定位到药源网药品查找页
browser.visit('https://www.yaopinnet.com/tools/sms.asp')
print('浏览器已经打开,请检查是否正确加载药品查询页面,继续: y')
login_yn = input()
if login_yn == 'y':
    print('请输入保存文件名:')
    save_file_name = input()
    print('开始检索中药说明书……')
    # 循环List
    for idx in range(0, len(menu_list)):
        time.sleep(3)
        # 获得当前页面地址 https://www.yaopinnet.com/zhongyao1/a1.htm
        curr_zy_url = xy_url + '/' + menu_list[idx] + str(1) + '.htm'
        # 浏览器打开第一页
        browser.visit(curr_zy_url)
        time.sleep(3)
        # 获得当前页面总的分页数(分页标记最后一个元素)
        curr_page_max_len = browser.find_by_xpath('//*[@id="sms_page"]/a[position()=last()]').value
        # 开始循环分页内容
        for idx_pg in range(0, int(curr_page_max_len)):
            # 拼接分页url
            curr_zy_pg_url = xy_url + '/' + menu_list[idx] + str(idx_pg + 1) + '.htm'
            # 打开第一个分页
            browser.visit(curr_zy_pg_url)
            time.sleep(3)
            # 开始读取页面
            page = urllib.request.urlopen(curr_zy_pg_url).read()
            soup = BeautifulSoup(page, 'html.parser')
            # 当前页面所有药品的链接地址 /zhongyao/zy4644x.htm
            link_arr = []
            for obj in soup.find_all('li'):
                links = obj.a.get("href")
                link_arr.append(links)
            # 逐个打开链接进行读取药品说明书
            for obj_idx in range(0, len(link_arr)):
                read_yp_url = url + link_arr[obj_idx]
                # browser.visit(read_yp_url)
                # time.sleep(1)
                # 正式开始读取当前药品
                time.sleep(1)
                page_yp = urllib.request.urlopen(read_yp_url).read()
                soup_yp = BeautifulSoup(page_yp, 'html.parser')
                # 获得药品名
                ypm = soup_yp.select('h1[class="yaopinming"]')[0].get_text()
                # 追加到数组
                yp_count = yp_count + 1
                export_file_arr.append(str(yp_count) + '.' + ypm)
                # 遍历药品详情
                for ypxq_item in soup_yp.select('li[class="smsli"]'):
                    export_file_arr.append(' ' + ypxq_item.get_text())
                export_file_arr.append(' ------ ')
                print_str = '正在执行检索,当前第:' + str(yp_count) + '个药品正在检索……'
                print(print_str, end = "")
                print("\b" * (len(print_str)*2), end = "", flush = True)
    # d.执行导出
    print('开始尝试导出数据到:' + save_file_name)
    with open("./" + save_file_name + ".txt", 'a', encoding='utf-8') as f:
        row = len(export_file_arr)   # 数组长度
        out_txt = ''
        for idx_f in range(row):
            out_txt += export_file_arr[idx_f] + '\n'
        f.write(out_txt)
    print('导出成功!!文件名为:' + save_file_name)
    sys.exit()

注:使用的时候,注意根据第22、23行的药品url(中西药分开)修改第44行和第53行
假如你瞅那个sleep不顺眼,你用random也行,顶上import一下,然后random。random()*3 这样显得“更自然”
有些类库是不带滴,因此,不带的类库您自己使用pip指令安装一下即可
py环境安装我想不必多说
另外,改么改么可以另做他用,因此才分享了一下~

你可能感兴趣的:(python)