【案例】--(非结构化)文件管理案例

目录

  • 一、前言
  • 二、问题思考思路
  • 三、主要代码实现
    • 1、小文件存储
    • 2、大文件存储
    • 3、常见文件属性获取
  • 四、基本的文件提取
    • 1、pdf文件文字提取
    • 2、docx文件文字提取
    • 3、Excel文件(xlsx、xls)文字提取
    • 4、(pptx、ppt)文字提取
  • 五、OCR识别文件提取

一、前言

由于项目需求,会存储大量的非结构化文件,因此对非结构化文件管理是值得思考的问题。结合自身参入项目的方案设计思路,针对“如何管理非结构化文件”,有如下的思考:
(1)、文件上传的方式有哪些?
(2)、完整的文件如何去存储?方便后续的下载、预览等
(3)、文件附属管理信息如何获取?如文件大小、类型、名称、总页数等等
(4)、如何定位到文件具体哪页?如由关键字搜索到属于文件哪一页并且相关数据要输出
(5)、一份文件中有文字、图片、表格等元素信息,如何提取?
(6)、现存

你可能感兴趣的:(案例,java)