Markdown文件批量转PDF
Typora
提供了单文件的PDF转换功能,但没有把这个功能集成到命令行里,因此对于需要同时转换多个markdown文件时就比较麻烦了——因此这个小脚本主要支持批量转换Markdown
为
1.所需工具pandoc、wkhtmltopdf
-
wkhtmltopdf——是一个使用 Qt WebKit 引擎做渲染的,能够把html 文档转换成 pdf 文档 或 图片(image) 的命令行工具。(强调一下:是 “命令行工具” )
- 【下载请点击这里】 【http://wkhtmltopdf.org/downloads.html】
- 设置环境变量
- 通过命令行:
wkhtmltopdf -V
检验是否安装成功
-
Pandoc——是一个由 John MacFarlane 开发的通用文档转换工具,可以支持大量标记语言之间的格式转换,例如 Markdown 、Microsoft Word、PowerPoint、 Jupyter Notebook、HTML、PDF、LaTeX、Wiki、EPUB 格式之间的相互转换。官方称之为该领域中的“瑞士军刀”,并且给出了一个格式转换的示意图。
Pandoc 可以自动解析 Markdown 文件里的图片链接,所以不论是本地存储的图片,还是图床上的图片,都可以正确转换并且显示到 pdf 文件里。
- 下载:https://github.com/jgm/pandoc
- 设置环境变量
- 通过命令行:
pandoc -v
检验是否安装成功
2.文档
采用之前很火”程序员菜谱”,其项目结构为多层次的文件夹和markdown文件组成。
E:.
├─.github
│ └─workflows
├─dishes
│ ├─braised
│ │ └─红烧肉
│ ├─breakfast
│ ├─condiment
│ ├─dessert
│ │ ├─提拉米苏
│ │ └─烤蛋挞
│ ├─drink
│ │ └─百香果橙子特调
│ │ └─imgs
│ ├─home-cooking
│ │ ├─香干芹菜炒肉
│ │ ├─香菇滑鸡
│ │ ├─鸡蛋羹
│ │ └─黄油煎虾
│ ├─semi-finished
│ │ └─速冻汤圆
│ ├─soup
│ │ ├─昂刺鱼豆腐汤
│ │ └─西红柿土豆炖牛肉
│ ├─staple
│ │ ├─pizza
│ │ ├─日式咖喱饭
│ │ ├─烙饼
│ │ └─老友猪肉粉
│ └─template
│ └─示例菜
└─tips
├─advanced
└─learn
3.批量执行脚本
- 提供批量转换功能
- 文件夹嵌套处理
- 统一导出到当前目录的
./output/
下
md2pdf
直接采用Pandoc转PDF的方法不太好使,所以采取了折中的方案:先将
Markdown
用Pandoc转换为HTML
,然后再用wkhtmltopdf完成PDF转换。Pandoc转换为HTML
几乎完美,但是需要补充HTML头部以及CSS样式等。所以前端大佬可以直接修改html_head.txt
中的文件完善。
import pdfkit
import pypandoc
import os
from argparse import ArgumentParser
# 输出目录
OUTPUT_DIR = "output/"
os.makedirs(OUTPUT_DIR, exist_ok=True)
def get_file_name(mk_file_path, file_list, outlist):
"""找到mk_file_path路径下的所有.md文件"""
print(f'【{mk_file_path}】Markdown文件如下:')
for root, dirs, files in os.walk(mk_file_path):
for f in files:
each = os.path.join(root, f)
if ".md" in each:
file_list.append(each)
filename = each.replace('.md', '.pdf')
f = filename.split("\\")[-1]
outlist.append(os.path.join(OUTPUT_DIR, f))
print('检索完毕')
print(f"一共有{len(outlist)}个文件, 分别为{outlist}")
def convert(input_file, output_file):
pypandoc.convert_file(input_file, 'html', outputfile='tmp.html')
html_head_file = open("html_head.txt", "r", encoding='utf-8')
html_head = html_head_file.read()
html_head_file.close()
html_tail = "\n