php读取word文件并解析图片、公式与文字。仅限.docx后缀

最近项目中有又一个需求需要做word文档倒入大量数据,包含图片、文字与各种公式于是乎到网上寻找结果都没有找到使用PHP读取word文档,而大名鼎鼎的phpword又没有说明如何使用读取word的共能,网上也没有列子参考,全部都是对写入大谈特谈,对读取闭口不谈,更没有解析出公式与图片的方式,参考了众多大佬的博客,找出了一个解决方案,具体思路,因为docx后缀的word文档其实质上是一个压缩包,对其进行解压后主要内容是存在document.xml中,通过对其解析获得我们想要的内容,对于公式其内容是omml我们获取后可以通过   OMML2MML.XSL 文件将其转换为 Mathml,然后再转换为LaTex或者其他想要的类型。

mathml数据在html上显示时可以借助插件  MathJax 显示

MathJax 地址 https://github.com/mathjax/MathJax

以下具体demo代码在在git

git地址 https://gitee.com/NanBinYueLiang/PHPReadWord.git

 

你可能感兴趣的:(php,web)