导出 CSDN 博客至 Markdown 或 PDF 格式 (近乎完美)

导出 CSDN 博客至 Markdown 或 PDF 格式 (近乎完美)

项目地址

博客持续更新中, 代码还未 已上传… Flag 没有倒下 !

https://github.com/axzml/CSDNExporter

广而告之

可以在微信中搜索 “珍妮的算法之路” 或者 “world4458” 关注我的微信公众号;另外可以看看知乎专栏 PoorMemory-机器学习, 以后文章也会发在知乎专栏中;

效果预览

比如对于我的博客 PyGCN 源码阅读, 其转换为 markdown 以及 pdf 的效果分别如下:

(博客截图如下)
导出 CSDN 博客至 Markdown 或 PDF 格式 (近乎完美)_第1张图片
(转换为 Markdown 的效果如下, LaTeX 公式也能正常导出)
导出 CSDN 博客至 Markdown 或 PDF 格式 (近乎完美)_第2张图片

(转换为 PDF 的效果如下, 可以看到, 数学公式也能正常的转换!!!)

对于图片, 数学公式, PDF 的目录, 超链接, 代码配色都能正常的导出; 此外支持对单篇博客的导出以及整个博客类目下的文章导出; 支持将多篇博客整合成一篇博客导出; 比如我将我博客类目https://blog.csdn.net/eric_1993/category_9545994.html 下所有文章导出到一篇 PDF 中, 以便获得整体的视角:

(300 多篇博客刹那间组合成一篇, 这种感觉真的超爽 )

这样可以方便我们在所有博客中进行内容的查找, 生活从未如此轻松.

之所以说这是近乎完美支持, 是因为还有一些无关痛痒的细节未能有效解决, 比如博客中出现:

  • 这样的编码, markdown 中能正常得到结果, 但是产生 PDF 中无法得到对应的 emoji 表情
  • 暂时不支持 blockquote, 即引用的转换; (就是 markdown 中的 > 语法)
  • 暂不支持对表格的解析, 日后有精力再增加;
  • 其他一些因为 HTML 知识不了解产生的漏洞

不过总体来说, 我非常满意.

背景动机

当博客积累的越多, 发现不能全局搜索是一个硬伤, 有时突然回忆起一个知识点, 但忘记了具体写在哪篇博客中了, 想去搜索这篇博客, 一篇篇找下去实在麻烦. 比如我 LeetCode 这一目录下目前已经有 300 多篇文章, 如果要一篇篇去点开的话… 我连续点开 10 篇还没找到我要的内容就有点崩溃了. 于是在考虑将博客内容导出的工具, 但目前没有让我满意的, 于是打算自己造轮子. 将博客内容汇总为一个文件中, 全局搜索关键词, 很快就能获得自己想要的知识点.

代码逻辑

你可能感兴趣的:(Python,python)