Pandoc格式转换(常见word转markdown)

Pandoc 支持不同格式文件的转换:包括 Markdown, HTML, LaTeX,Word docx。

常见格式

格式 说明 说明
pptx powerpoint 输出
docx word 输入/输出
pdf pdf 输出
html html 输入/输出
json JSON version of native AST 输入/输出
markdown Pandoc’s Markdown 输入/输出
markdown_mmd MultiMarkdown 输入/输出
markdown_phpextra (PHP Markdown Extra 输入/输出
markdown_strict original unextended Markdown 输入/输出

选项

–list-input-formats 查看输入格式
–list-output-formats 查看输出格式
-f 指定输入格式
-t 指定输出格式
-o 指定输出文件

-p, --preserve-tabs
-s, --standalone 输出选项。输出单文件 (pdf, epub, epub3, fb2, docx, odt 输出格式).
–extract-media=DIR 输入选项。读取文件时,将源文件内容中的图片指定DIR目录

格式转换例子

pandoc -f markdown -t latex hello.txt
pandoc -f docx -t markdown --extract-media ./images -o test.md test.docx
pandoc -f docx -t markdown --extract-media ./images -o test.md e:\test.docx
pandoc test.txt -o test.pdf
pandoc -f html -t markdown --request-header User-Agent:“Mozilla/5.0” https://www.fsf.org

说明:
pandoc默认使用 LaTeX生成PDF,需要安装LaTeX 引擎。

字符编码

输入输出默认为UTF-8编码 。如果不是,则实用管道进行编码

iconv -t utf-8 input.txt | pandoc | iconv -f utf-8

你可能感兴趣的:(工具)