Word文档到Asciidoc转换

原文
Word文档的内容,需要背转换为Asciidoc。以下是我发现最有效的步骤:

1. 将Word文档保存为HTML
2. 编码为UTF-8
3. 使用pandoc将HTML转换为AsciiDoc
4. 使用Sublime Text 2搜索和替换(使用一些正则表达式)去除疯狂的东西
5. 使用Sublime Text 2执行任何剩余的格式

将Word文档保存为HTML

在Word中打开文档,然后另存为网页。保存时选择“仅保存显示信息到HTML”选项。从Word退出。

编码为UTF-8

在Sublime Text 2中打开html文件。重新打开UTF-8编码并保存文件:

Sublime Text 2重新打开编码
如果不重新编码为UTF-8,则下一步将失败并显示错误:

pandoc:无法解码字节’\ x6f’:Data.Text.Encoding.decodeUtf8:无效的UTF-8流

使用Pandoc将HTML转换为AsciiDoc

运行Pandoc。例如,以下命令将AsciiDoc文件file.asc转换为ConventionSheet.htm:

pandoc -f html -t asciidoc -o file.asc ConventionSheet.htm

使用Sublime Text 2搜索和替换(使用一些正则表达式)去除疯狂的东西

奇怪的单引号需要去:

Sublime Text 2用单引号替换反引号,如果在Word中进行了审核,则审阅者的评论和更改可能会出现在HTML中。使用搜索删除这些,并在搜索字段中替换以下正则表达式:

\[line-through\]\*(.+)\*

当匹配行交叉线断裂时,可以使用?s正则表达式中的单行选项()进行搜索和替换:

(?s)\[line-through\]\*.(.*?)\*

使用Sublime Text 2执行任何剩余的AsciiDoc格式

在文档中等间隔任何正则表达式或其他特殊字符(这些将导致AsciiDoc解析器的问题)。

根据需要编辑AsciiDoc文档!请注意,GitHub现在本地显示AsciiDoc文件(在幕后使用AsciiDoctor),就像Markdown一样。

你可能感兴趣的:(Word文档到Asciidoc转换)