利用Pandoc将markdown文件转化为pdf

如果markdown文件中不包含中文字符,那么直接使用下面的命令就可以将markdown文件无缝转换为Latex支持的pdf文件。

pandoc infile.md -o outfile.pdf

如果markdown文件中包含中文字字符,那么上段命令就无法直接转换,可能会报以下错误:

! Package inputenc Error: Unicode char \u8:鍒?not set up for use with LaTex.pandoc: Error producing PDF from Tex source. See the inputsnc package documentation for explanation. ...

为了解决中文编译的问题,需要做以下的工作:
将markdown文档的编码方式改为utf-8。比较简单的办法就是用记事本打开该文档,然后另存为时选择编码方式为utf-8。有可能当你改变编码方式后,文档中的中文全变成乱码了。为避免这种情况,可以在改变编码方式之前先复制文档的全部内容,然后在改变编码方式之后粘贴替换文档中的全木内容,这样就不会出现乱码了。
编译pandoc默认的latex引擎是pdflatex,是不支持中文的,因此需要手动设置编译时所用的引擎为xelatex,编译命令改为:pandoc infile.md -o outfile.pdf --latex-engine=xelatex

这时编译可能没有错误了,但是得到的pdf文档中可能所有的中文都没有了。这是字体的问题,因为编译时默认的字体时不支持中文的,所以我们得手动设置中文字体。显然,所设的字体应该为系统中已装的字体,且字体的名字不能写错。有一个办法可以的到系统中所安装的所有字体名(见博文),即在控制台中输入命令:fc-list >> C:\fonts.txt。这样,扫到的字体信息就全部被导入到C盘根目录下的fonts.txt文件中了。这里我们选择宋体,字体名称为“SimSun”,于是编译命令改为:pandoc infile.md -o outfile.pdf --latex-engine=xelatex -V mainfont="SimSun"
注意:命令中的``V’’是大写这里字体名也可以不加引号,但是如果字体名比较复杂(如包含空格)时,不加双引号就可能出错。
好了,中文字符应该能够显示了,但是你可能会发现很多文字已经超出了文档的边界无法显示了,这是因为pandoc对中文的支持不太好,不能自动换行。但是这并不表示pandoc就真的无法完美处理中文文档了,因为技术界那些追求完美的极客们为我们提供了无限的可能。这篇博文介绍了pandoc中文pdf转换攻略3
,解决方案是使用网友编辑好的latex模板来生成pdf,这里用到的是tzengyuxio提供的pm-template.latex4
。 下载模板后将其中的LiHei Pro
字体替换成系统中安装有的中文字体即可,然后编译命令改为:pandoc infile.md -o outfile.pdf --latex-engine=xelatex --template=pm-template.latex
注意:如果安装的MiKTeX(我用的是CTex)宏包不全,编译可能会出问题,如找不到exp13.sty
等,因此推荐安装完整版的MiKTex。
当然,你也可以使用自己定义的模板来生成tex和pdf文件。首先使用命令pandoc -D latex > my.latex
生成一个默认的模板,在对这个模板进行修改,如字体、自动换行等。

  1. Markdown写作进阶:Pandoc入门浅谈
  2. 黑魔法利器pandoc
  3. pandoc中文pdf转换攻略
  4. pm-template GitHub

你可能感兴趣的:(利用Pandoc将markdown文件转化为pdf)