人教版小学课本下册爬虫-Python

各大出版社为了应对疫情,相应教育部号召,将课本pdf电子版教材在线共享了。人教版的也放出了pdf版,可惜都只有下册,清晰度也一般。写了一个小爬虫,将小学的课本全部爬取了,初中等的都类似。
基本思路是通过正则提取所有的课本名(106个),提取所有pdf网址(106个),然后爬取pdf文件网址,并用课本名命名:

# 引入库
import requests
import re
# 爬取主页,该页面包含所有书的下载地址
r = requests.get("https://bp.pep.com.cn/jc/ywjygjkcjc/")
r.encoding = "utf-8"
vHtml = r.text
# 提取所有书名
vName = []
vName = re.findall('h6\>\

你可能感兴趣的:(人教版小学课本下册爬虫-Python)