批量爬取html网页到PDF遇到的一个大坑----文科生的python自学之路(9)

批量爬取html网页到PDF遇到的一个大坑

由于工作缘故,自己无法做到天天来敲代码、来发帖子,但我始终相信,只要不断努力,离终点的距离总在不断缩短,自己总在不断进步。

坑的由来:作为自学的的小白,在学习python过程中,肯定要不断学习python 官方的教程、指南,比如,现在官方的
Python 3.8.3rc1cvcc教程中文文档

Python 3.9.0a6 文档。
在我的自学笔记中,第(4)
、(5)
提到了爬取官方教程网页html,并且保存的到pdf的例子。

    昨天晚上执行批量爬取 Python 官方教程到PDF的实例时候,发现由于标题的问题,竟然报错了。

第一步,爬取所有教程的章节名字和地址,如下,成功无报错,前面的例子没有问题,代码见之前的博客文章即可。

Python 3.83章节是: 6. 模块
modules.html
Python 3.83章节是: 6.1. 有关模块的更多信息
modules.html#more-on-modules
Python 3.83章节是: 6.1.1. 以脚本的方式执行模块
modules.html#executing-modules-as-scripts
Python 3.83章节是: 6.1.2. 模块搜索路径
modules.html#the-module-search-path
Python 3.83章节是: 6.1.3. “编译过的”Python文件
modules.html#compiled-python-files
Python 3.83章节是: 6.2. 标准模块
modules.html#standard-modules
Python 3.83章节是: 6.3. dir() 函数
modules.html#the-dir-function
Python 3.83章节是: 6.4. 包
modules.html#packages
Python 3.83章节是: 6.4.1. 从包中导入 *
modules.html#importing-from-a-package
Python 3.83章节是: 6.4.2. 子包参考
modules.html#intra-package-references
Python 3.83章节是: 6.4.3. 多个目录中的包
modules.html#packages-in-multiple-directories
Python 3.83章节是: 7. 输入输出

第二步,批量保存、爬取html 网页到 PDF,,之前博客文章只举例一项,没有报错。
C:\Users\wxl69\AppData\Local\Programs\Python\Python38\python.exe C:/Users/wxl69/PycharmProjects/Compass/0411/下载python3.9中文版教程PDF.py
Loading pages (1/6)
Counting pages (2/6)
Resolving links (4/6)
Loading headers and footers (5/6)
Printing pages (6/6)
Done
完成
第三步,昨天爬取时候,第6.4.1章节报错了。
因为我保存的PDF 文件的文件名是自动批量采集,用的是网页原文 “6.4.1. 从包中导入 * ”
注意,

最后带了一个 * 号

导致程序代码执行报错。

批量爬取html网页到PDF遇到的一个大坑----文科生的python自学之路(9)_第1张图片

你可能感兴趣的:(批量爬取html网页到PDF遇到的一个大坑----文科生的python自学之路(9))