Python读取.pdf/.docx/.dox文件内容存入pg数据库

转载:https://blog.csdn.net/weixin_41712499/article/details/107656792
转载:https://zhuanlan.zhihu.com/p/352197656

基本流程

后端拿到前端传来的文件后

msds pdf版储存为msds docx版, 接着把msds docx版储存为msds txt版,然后把这个msds txt版转换成标准的msds docx版。这是因为msds pdf版直接储存的msds docx版不符合要求。然后标准的msds docx改为txt,然后txt转excel,然后excel生成数据库对象。
msds doc改为标准的msds docx,然后改为txt,然后txt转excel,然后excel生成数据库对象。
标准的msds docx直接改为txt,然后txt转excel,然后excel生成数据库对象。

MSDS管理

不同公司下可以上传重复文件,上传后解析文件,存入数据库对象中,之后会将该文件改名成uuid_文件名。这样便可实现该文件与数据库对象绑定。删除数据库对象,找到uuid下属的文件删除。
同一公司下同样可以上传重复文件,上传后解析文件,存入数据库对象中,之后会将该文件改名成uuid_文件名。这样便可实现该文件与数据库对象绑定。删除数据库对象,找到uuid下属的文件删除。

为了区别公司,文件目录路径设为
/file/公司uuid/references/xxx.xxx

你可能感兴趣的:(研究生工程项目学习笔记,python后端,python)