【非结构化数据平台】大型集团企业非结构化数据平台建设方案WORD

非结构化数据平台建设目标

统一存储管理电子单据、财务凭证、原始凭证等非结构化数据的全生命周期管理,提供集团知识统一管理,支撑XX集团财务集中管控平台业务开展。

非结构化数据平台架构设计

内容管理是基于大容量存储设备,支撑XX集团非结构化数据的统一存储及管理,基于ECM建设实践及XX集团非结构化数据管理需求。ECM管理范围包括:

  • 文档管理,支持各类电子文档、电子凭证、电子报表和具有法律效应的文件等的管理;
  • 多媒体管理,支持各类支持多媒体信息的管理,包括:声音、视频、流媒体等;
  • 影像管理,支持各类影像数据管理;

内容采集

通过建立统一的内容接入标准和规范,为XX集团的应用系统提供统一的非结构化数据采集的快速访问通道:

  • 支持的文档内容类型可以是扫描仪、传真机、电子邮件附件、图片、电子表单、PDF等;
  • 支持多语言自动OCR字符识别,可以将图片或者PDF文件中的字母、数字、符号等抽取作为属性元数据,结合元数据定义同步至内容服务器中,从而形成文件从纸张到电子化文档管理的完全自动化处理;
  • 支持大批量扫描及自动识别功能;
  • 图像增强、修改索引、工作流功能。

内容管理

ECM提供对内容统一管理,功能包括。

文件存储和元数据存储

  • 内容属性(元数据)存储在关系数据库以便快速查询和检索;
  • 内容(影像)以文件形式存储在文件存储区;
  • 文件存储区可以是文件系统,基于文件系统的存储区可以托管在不同类型的存储环境;
  • 内容支持:一般文件、网站内容、XML、多媒体、email等,且可扩展文件类型与文件格式;

内容库管理

  • 内容嵌入,签出功能;
  • 内容版本管理 :支持授权用户对指定文件进行升版并填写升版相关的元数据,新版本文件发布前,该文件的有效版本仍是升版前的版本。在对文件进行升版后,系统自动将当前版本电子文件设置到新版本中。而各个版本信息的可追溯;支持自定义版次规则;防止跳版本和重复版本;同一文档可以保留全部版本,也可以选择仅保存每个文档的最新版本;
  • 内容检索,支持与第三方检索引擎结合,支持自动索引更新服务,并且支持增量更新的方式进行更新,确保索引的性能明显优于采用全量更新的方式;支持检索类型:文档、文本文件、XML组件、HTML;
  • 编码管理:支持自定义文件编码规则,申请编码和自动生成编码,保证编码的唯一性(消除重复,空号检查)和连续性,也支持多套编码方式同时存在;
  • 元数据管理:文档系统能灵活地管理收录进入系统的文档及档案的属性元数据,并作为分类、搜索的依据,例如:根据某特定元数据属性自动归档到特定分类;另外搜索过程也可通过透过元数据精确定位某类文档;用户可以实现的功能包括:创建、定义、删除、修改、复制、继承元数据,元数据属性数量不限;
  • 文档体系管理支持自定义文件分类及其关联属性。并建立以用户自定义层次结构的文档分类配置管理控制模板,具备让组织内的人员按授权进行新文件生成或已有文件升版并录入相关元数据的功能;
  • 文件批量导出功能:提供通用的文档导入、导出工具。

知识管理

内容管理是知识管理的基础,需要配备相应的知识组织及流程,对知识进行系统化管理,知识管理功能包括:

知识中心:

知识中心是非结构化信息的存储管理中心。非结构化信息包括各种格式的文档、各种格式的媒体文件、各种特殊格式的文件、离散数据、一次性数据等。

  • 知识流程管理
  • 知识管理流程分为知识管理申请、评估流程、知识管理权限申请流程、知识管理考核流程和知识管理归档流程。
  • 知识目录管理
  • 知识中心可被划分为多个逻辑区域,如集团知识中心、公司知识中心、各部门的知识中心和个人知识中心等。
  • 知识处理

非结构化信息需要通过一定的结构化处理后才能进行知识中心。非结构化信息的结构化处理包括:

  • 根据特定的格式定义非结构化信息的摘要
  • 填写特定的非结构化信息的扩展属性
  • 根据特定的要求定义非结构化信息的关键词
  • 知识访问与发布
  • 访问安全控制
  • 多重发布渠道,支持企业邮件、应用系统、手持设备等
  • 知识统计、分析和审计

知识地图

  • 知识的多维度导航
  • 知识地图的一个重要特征是知识的多维度导航;知识管理支持从从不同的纬度索引导航到相应的内容,常见的非结构化信息的纬度包括组织纬度、业务纬度和项目纬度。
  • 知识管理的统一搜索
  • 支持标题、摘要、属性信息和正文搜索,同时支持对于不同的用户过滤搜索结果集,确保非结构化信息的安全,如果某用户无权访问某非结构化信息,此用户通过知识管理及团队协作系统的搜索将无法搜索到该非结构化信息任何信息。
  • 知识的热点汇聚
  • 支持通过知识中心、知识地图、专家地图、知识社区和团队协作各种分类统计,根据一定的原则,选取目前访问量最大的知识进行集中展现。支持如下常用的知识热点汇聚,如集中展现10个访问量最高知识、集中展现同一搜索中最常出现的关键词;

知识社区

  • 支持知识协作空间、个人专区、知识专家

内容安全

支持加密、访问控制和访问审计。

  • 平台支持内容存储加密,有选择性的针对某些分类的内容存储进行加密和数字签名保护,提高存储数据的防偷听和防篡改攻击的能力。
  • 平台支持内容传输解密,实现端到端的数据加密传输,预防偷听和中间人攻击。
  • 提供基于访问控制列表方式的访问授权方式,系统管理员或内容所有者可为内容文件配置权限,预防未授权的访问。
  • 系统对所有针对平台和内容的访问都能提供审计日志,提高系统的安全性。
  • 系统对数据的版权保护可提供特殊的服务,例如图片水印、音频/视频水印技术,实现对非授权访问的鉴别能力。
  • 针对不同类型的内容,可提供相应的采集服务机制,例如影像的采集等。

非结构化数据平台方案设计

建设方式分析及建议

建议XX集团采用平台化ECM方式,构建企业级统一非结构化数据管理平台,在满足财务集中管控平台业务需求的同时,同时较好的支撑后续其它业务需求

一体化ECM

平台化ECM

专业影像采集ECM

实现方式描述

包含前端影像采集、后端企业级内容管理及存储一体化ECM功能

只包括企业内级内容管理及存储平台,前端影像采集需另外配置

在业务前端的影像采集系统,提供内容管理、存储功能

特性分析

  • 构建企业级统一的非结构化数据管理
  • 一体化支持内容采集、存储功能
  • 标准化程度高,集成工作量小
  • 扩展性好,能哆支撑其它业务需求
  • 实现了企业级统一的非结构化数据管理
  • 能扩展支撑其它业务应用非结构化数据管理需示
  • 影像采集功能可灵活配备,可较好满足国内不同格式文档的扫描检验要求,但集成工作量相对较大

XX

  • 部门级应用,适用于单据影像采集及内容管理,支撑特定的业务,如银行票据、财务票据影像处理
  • 功能重点关注影像采集,内容管理功能较弱,
  • 扩展能力有限,难于实现企业级非结构化数据统一管理

采用独立的影像采集管理系统满足财务集中管控平台影像采集需求,影像内容统一存储于ECM平台。

基于XX集团ECM建设方式,ECM平台由数据管理及数据存储组成。影像采集系统独立于ECM,另行建设。

数据管理提供对非结构化数据全生命周期的采集、创建、变更、使用、归档、销毁等全过程控制管理。内容分类和元数据机制支持可自定义的内容分类体系和对应的元数据模型,作为内容创建的前提。系统提供标准的元数据,例如拥有者、版本、创建日期等,系统支自定义的元数据扩展。内容的创建和变更支持签入(Check-In)及签出(Check-out)和版本管理功能,对非结构化数据提供受控的访问和更新,避免更新不一致。 系统提供常见的内容格式转换服务,例如office文件和pdf文件的转换。系统提供最终用户和管理员的用户界面支持上述过程,也提供应用程序接口供第三方应用使用。

数据存储组件支持丰富的后端存储设施,例如文件系统、分布式文件系统、关系数据库、非关系数据库、光盘库、磁带库、多级缓存等。系统支持常见的非结构化数据存取协议,例如WebDAV,FTP,CIFS、HDFS等。系统能提供对多页影像文件的存取优化机制,实现按页存取。系统提供应用访问接口,支持B/S和 C/S等应用的非结构化数据访问需求。

数据安全组件方面,支持用户身份LDAP集成,支持访问控制列表的授权,支持主流的文件存储加密方法,如加密算法使用3DES-CBC,支持安全套接层(SSL)传输加密协议。

部署方案

建议XX集采用缓存方式,支撑内容管理要求。

集中方式

缓存方式

分布不复制

分布复制

简述

集团总部统一存储

集团总部统一存储,二级公司采用缓存机制

集团统一管理,

内容二级存储,集团与二级公司之间不复制

集团统一管理,

内容分布存储,内容相互复制

优点

  • 统一管理,内容实时共享
  • 容易管理及维护,集中存储备份管理
  • 内容及时性、完整性强;统一集中管理,运维效率高
  • 本地用户可访问缓存
  • 可按计划同步内容,减少广域带宽占用
  • 无DB、内容服务器,无需在线IT人员维护
  • 本地用户高效访问本地内容
  • 降低对广域网带宽占用
  • 本地用户高效访问本地内容
  • 较好的灾备能力

不足

  • 远程用户访问,占用广域网带宽,远端用户可能存延时
  • 集团用户访问远端内容可能存在延迟
  • 需要额外许可
  • 需要额外的配置及运维管理
  • 相互复制占用较大带宽
  • 复制期间内容可用存在延迟
  • 需要额外的配置及运维管理

适合场景

  • 广域网带宽较充足
  • 全局内容搜索
  • 广域网络带宽不足
  • 二级公司运维能力较弱
  • 二级公司业务相对独立,可实现差异化的全局内容统一管理
  • 内容访问分布在二级公司
  • 实现内容灾备

ECM实现策略如下:

  1. XX集团本部、XX物资集团、XX龙源集团等广域网链路带宽较高的公司,建议集中方式内容管理:
  • 内容集中存储于集团总部,包括元数据及非结构化数据
  • 内容管理/访问,集团用户通过内网,采用Web或客户端访问内容服务;二级公司用户通广域网访问内容服务器

  1. 广域网链路带宽较有限的二级公司,建议采用内容缓冲模式
  • 内容集中存储于集团总部,包括元数据及非结构化数据
  • 二级公司内容可按需暂存于内容缓存空间
  • 集团用户:通过内网,采用Web或桌面端访问内容服务
  • 二级公司用户:基于集团内容管理元数据,重定向至内容缓存内容同步策略

需依据不同的业务特性,及业务需求,支持按计划、按类型等方式的内容同步。

依据XX集团广域网络及业务现状,建议采用二级部署策略,灵活满足业务需求。

  • 针对距离XX总部较近二级公司,广域网络链路带宽较好,部署影像采集客户端,如物资集团共享中心、龙源集团共享中心;
  • 针对广域网络链路带宽有限,距离较远的二级公司,二级公司部署影像采集客户端,同时部署企业内容管理平台缓存服务器,如XX东北公司共享中心。

业务应用及BPM调用方案

内容管理已形成统一的规范,建议ECM需要支持ODMA、WebDAV、JCR、CMIS接口协议,灵活满足业务应用及BPM调用需求。

集成调用方式:

  • 与财务共享协同平台集成:通过在财务共享协同平台内内嵌ECM查询、搜索页面,实现在财务共享协同平台内提供统一的企业内容查询、搜索、展现;
  • 业务应用系统内容调用:如物资、燃料、财务等管控系统,当存在需要访问ECM平台,查询获取取特定的影像等电子档案时,ECM提供的统一服务接口,应用系统通过ESB访问ECM服务,获取影像唯一的URI,调用影像内容
  • 档案管理系统、基于BPM平台运行的业务流程对ECM中内容的管理操作:ECM需提供业界标准的接口规范,包括CCMIS、WebDAV、JCR、DMA/ODMA,供档案管理系统、BPM调用及相互通信,如内容状态更新等信息同步。

接口规范:

  • CMIS 是一个 Web 服务标准,它允许启用内容的应用程序无缝地与任何已实现此标准的应用程序交互。通过向 CMIS 生产者提供对多个存储库的访问权限,以及通过 CMIS 使用者 Web 部件使用和呈现数据;CMIS 界面可以分层放置在现有内容管理系统 (CMS) 及其编程界面之上。它定义由 CMS 提供的一组通用功能和旨在使用这些功能的一组服务;
  • JCR(Java Content Repository API(JSR-170)),它提供了一套标准的API来访问任何数据仓库。通过JSR-170,你开发代码只需要引用 javax.jcr.* 这些类和接口。它适用于任何兼容JSR-170规范的内容仓库;
  • WebDAV (Web-based Distributed Authoring and Versioning) 一种基于 HTTP 1.1协议的通信协议。它扩展了HTTP 1.1,在GET、POST、HEAD等几个HTTP标准方法以外添加了一些新的方法,使应用程序可直接对Web Server直接读写,并支持写文件锁定(Locking)及解锁(Unlock),还可以支持文件的版本控制;
  • DMA/ODMA (Open Document Management API),提供基于客户端的文档管理。

内容采集方案

建议ECM能够支持标准JAR、CMIS、WebDAV等接口,提供开放的API,能够灵活满足前端影像采集系统的对接。影像采集系统建议支持标准JAR、CMIS标准,支持与主流ECM兼容的内容访问接口。各二级公司可灵活配置、影像捕获设备。

数据存储方案

针对内容状态(内容建立、管理、发布、归档到离退阶段)改变时,支持将内容保存在不同级别的在线存储或迁移到近线存储,进而达成符合法规规范,节约成本。

你可能感兴趣的:(数字化转型,数据治理,主数据,数据仓库,数据结构)