本文根据罗永秀先生在【DQMIS 2020第四届数据质量管理国际峰会】现场演讲内容整理而成。
演讲嘉宾介绍 - 罗永秀
中国ECM(企业内容管理)资深专家。近20年来一直专注于ECM领域,推动ECM相关技术的演进和产业化应用,是中国ECM创新技术、实践应用和理论体系的集大成者。
作为总技术负责人,他主导鸿翼参与了贵州大数据平台、中国银联非结构化数据中心等数百个国家大数据项目;打造的构建于鸿翼强大的ECM底层平台和与各行业紧密结合的内容业务中台之上的解决方案服务了招商银行、上汽、扬子江药业等逾3000家企业。他还参与了工信部《DCMM数据管理能力成熟度评估模型》等多个国家标准的建设。
演讲目录
非结构化数据现状分析
非结构化数据管理体系
ECM内容管理国内外发展史
ECM内容管理全景产品介绍
非结构化数据应用解决方案
罗总:大家好!我是上海鸿翼软件技术股份有限公司的罗永秀,非常感谢主办方的邀请,今天能有机会把鸿翼近20年专注于ECM内容管理和非结构化数据领域的内容做一个完整的整理和分享。
今天我分享的主题是“基于ECM管理的非结构化数据管理体系与最佳实践”,我们先来看一下非结构化数据与结构化数据的比较。
可以看到非结构化数据占有80%,其信息量是非常丰富多彩的,有描述性的、有情感描述的、有各种记录的,可以说数据价值的挖掘更多是要依靠这80%的非结构化数据。
比较于国际上,我们知道国内的非结构化数据的发展应该说是才刚开始。当前我们面临一系列的非结构化数据管理的问题,包括连接方面、业务融合方面、服务输出方面、获取利用方面、支撑架构方面、数据治理方面;还有,一直困扰着国内外非结构化数据的安全问题、合规问题、体系化建设问题等。
数据当下,新基建里的大数据更多是非结构化数据;人工智能依赖于数据,更是依赖于非结构化数据;工业互联网产生了海量的非结构化数据;数据成为一种生产要素,数据从资源、资产再到资本,其中数据资产更是从非结构化数据开始。
在国内,非结构化数据的重要性与其在认知、管理体系和平台建设的现状形成了一种剧烈反差。最近,与DAMA汪主席等业界同仁在沟通,大家都强烈意识到了这种反差。这种反差是:数据标准更多是从结构化视角去制定的标准,大数据建设更多是结构化大数据建设,首席数据官更是结构化数据的CDO,数据中台更多是结构化数据中台;但数据之80%是非结构化数据,每天大家80%时间在接触和处理文档、设计文件、音视频等各种类型非结构化数据,80%安全、合规事件都是因为非结构化数据造成的……
这种反差正在改变,现在国家、学术和行业层面都越来越强烈认识到非结构化数据的认知文化、体系标准和平台建设的重要性。
大家都知道我们国家有一个类似于国际数据治理DAMA的在国内最权威的数据治理标准,是2018年发布的DCMM,鸿翼因为专注深耕于非结构化数据领域近20年而有幸能成为起草单位参与其中。
在DCMM数据治理标准框架指引下,结合多年行业实践,鸿翼也整理出了非结构化数据管理体系框架。顶层是战略,左侧是体系支撑,然后又分为价值体系与管理体系。
价值体系包括协作、流转、服务与洞察。区别于结构化数据,非结构化数据具有内容的丰富和完整性等特征,其协作是非常关键的,例如在线协同文档编辑、多专业间协同设计,这些都基于单体非结构数据进行快速协作,当然协作还包括融合业务流程的体系化协作等。对于非结构化数据洞察,底层支撑是AI智能引擎与Graph知识图谱引擎,其中图谱包括实体图谱、语义主题图谱和文件关联图谱,实现了各种非结构数据的结构化以及各种类型非结构化数据间的内容关联,以满足用户自助式智能探索、智能推荐、智能安全分析、结构化内容分析等,这也是完全不同于结构化数据的洞察(更多是增强型BI分析)。
管理体系包括底层的安全、合规和上层的采集集成、数据标准、元数据管理和数据质量。其中安全合规是数据价值释放的前提,要实现有效可控的非结构化数据安全管理,要具有统一存储安全管控理念和全生命周期安全管理机制。
这是非结构化数据管理战略,我们需要从现状评估、数据文化、业务效率、安全合规和洞察创新去思考以进行顶层设计与规划。
其中现状评估很重要,要对企业组织在非结构化数据的协作、应用、管理、安全、合规、治理等方面进行全面现状评估。评估当前是处于离散数据阶段,还是通过元数据连接并形成统一存储的内容阶段,还是业务知识阶段或内容智能阶段。
在数据文化层面,当前国内非结构化数据意识是较为薄弱的,在该领域从业这么多年感慨特别多,迫切需要我们大家一起能形成更多非结构化数据管理和ECM内容管理的白皮书、标准等,以更好地指引行业进行非结构化数据管理规划与建设。
在业务效率方面,要重视非结构化数据与业务保持一致性,以及融合的深度与广度;另外,业务是快速变化地,如何让内容管理平台快速适应业务变化尤为关键。当前环境下,安全防护与合规遵循是数据价值释放的底线,安全方面须将不同环境下的非结构化数据全生命周期活动都纳入考虑以进行全面、立体式防控,合规方面不仅要遵循各种法规、行规和内审要求,而且要满足隐私数据保护和各种领域的文件体系化管理要求。
非结构化数据治理是一种跨时空、端到端的治理。从采集、传输、存储、交换到管理、归档等是从文件生命周期时间轴考虑,空间轴是要统筹协调文件在OA、ERP、PLM、SAAS等各种应用系统中的集成与流转,另外还要实现在不同群体之间、端到端地有序高效传递和交互。从而,才能实现非结构化数据从混乱、到有序,再到更高效、更智慧。
基于这个理念,整个非结构化数据治理过程与实施路径如图,从左侧上方企业信息价值链分析,到各种业务流程,到文件归入内容库。如同结构化数据中的数据模型,非结构化管理也有内容模型,而且极为重要。每种业务对应一个内容库,每个内容库具有独立而完整的内容模型。内容模型包括各种标准规范、访问权限、安全策略、活动模型等,其与实际业务一一映射,从而让内容库能适应实际业务对非结构化数据管理的各种要求。同样,非结构数据标准、数据质量、元数据和数据安全,在整个数据治理过程和实施路径中都是重要环节。
文件“从业务中来,到业务中去”,连接汇聚是非结构化数据管理的基础,支持归档型与平台型两种集成模式。基于鸿翼多年实践沉淀了广泛的兼容国内主流业务系统的适配器,包括OA类、ERP类、加密安全类、PLM类等。汇聚内容包括文件、附件、关联文件、属性、元数据和业务权限,通过连接管道各种内容数据持续灌入进内容库,其采集过程也可实时感知、可监控管理。
内容标准包括编码命名规范、来源存储规范、权限分配规则、内容分类原则、文件版本、内容规范和元数据规范。其中权限分配要遵循稳定性、大权限小范围小权限大范围等规则,内容分类原则包括MECE原则、方便性原则、稳定性原则、业务相关性和安全性原则等。
内容模型是企业组织业务价值链的实现框架与指引,其与结构化的数据模型差异比较大。根据实际业务情况从不同维度进行子域(即子文件夹)规划;通过流程驱动、主动事件等赋予原本静态文件以各种自主活动能力;设置各种OCR识别策略对非结构化数据进行结构化处理;元数据策略保障该内容域下所有文件必须赋以策略要求的各种业务元数据;对于类似制造ISO等体系化要求高的内容域要进行文件新增、修订、分发等动作流程控制;细颗粒度文档访问权限机制保证了非结构化数据的全方位访问安全等等。内容模型是内容架构的重要组成,是非结构化数据管理能否有效落地的关键。
在ECM内容管理领域,因为其管理主体是各种类型非结构化数据,因此能准确地描述非结构化数据的数据(即元数据)就更为重要了。其能帮助用户理解、获取、使用、保护和洞察非结构化数据,除了基于表单引擎的元数据设计、元数据权限、元数据应用和元数据策略外,元数据分析是对非结构化数据的内容BI分析,是非结构化资产管理的核心内容,是非结构化数据资产充分释放价值的关键能力。
这是鸿翼多年来总结的非结构化数据安全管控体系,上周与Gartner分析师沟通时,他也眼前一亮,非常认同非结构化数据安全管控需要多方面、立体式。主要有三条主线,分别是全生命周期的安全治理、基于统一存储后的全空间安全管控和企业安全管理五步骤。
接下来讲一下ECM内容管理国内外发展史,从最初无纸化为目的EDMS发展起来的ECM在国际上已有20年,其是一种专注于非结构化数据的战略、方法和工具。在2018年初Gartner重新定义了ECM,把ECM分成CCP、CSP和CSA,国内外也称之为ECM+。ECM在国外是一种软件类型,在国外各种IT软件分类站点都能看到除ERP、PLM等外还有一个ECM软件分类,其下包含文档协作类、文档业务类、文档展现类、文档合规安全类等应用软件。我觉得,我们国内也迫切需要能把ECM推到同ERP、ERP、HR等类似的专注于非结构化数据领域的一种软件类型,以让行业能方便地获取各种以非结构化数据为主的应用解决方案。
与国际上相比,国内ECM发展是非常缓慢的。我觉得,自90年代末至国内第一款完整ECM产品edoc2发布到2008年,是属于国内ECM孕育期;然后进入到长达十年有余的漫长成长期。今年2020年因数据成为一种生成要素,占80%的非结构化数据逐渐被各界高度重视;再加上国内部分网盘厂商因为遇到各种业务系统连接、元数据、文件业务化等需求而开始启动ECM产品建设;还有,据鸿翼对市场的不完全统计,这两年国内主要行业CIO都已将ECM纳为企业信息化建设的必备平台。综上三点分析,我认为今年2020是国内ECM内容管理的真正元年,也是国内非结构化管理的元年。
经过多年行业实践积累,我们鸿翼形成了ECM内容管理成熟度模型CM³,该模型也得到了标准院、人大、Gartner和行业协会等的高度认可。从第一阶的离散文件的数据阶段;到连接着企业组织各种业务系统,将业务成果文件和体系文件汇聚一起并构建起统一非结构化数据平台的内容阶段;再到类似文档档案一体化、GMP医药质量管理等融合各种垂直业务的知识体系阶段;然后到通过AI和Graph引擎对非结构化数据进行各种结构化和洞察分析的智能阶段。
这是鸿翼ECM内容管理产品全景图,以ECM Core为内核,近20年构建起了内容协作、内容管理、内容业务、内容智能和大数据服务五大基础平台,并在上层形成了非结构化数据协作、应用、安全、合规、平台、管理、业务、治理、智能等多方面的标准对于不同应用场景的业务产品。
接下来,我来分享一下国内非结构化数据的主要应用解决方案。企业网盘我相信大家都很熟悉,但可能没有完全了解到网盘之重要性。基于虚拟盘技术的真正网盘,其是完全替换了本地C盘D盘,它其实是一种基础设施,其承载着企业80%的离散过程数据的存储和服务,兼具企业效率提升与数据安全双重关键属性。
安全级别稍高的企业都设有不同安全域,比如军工领域有涉密网和非涉密网,知识密集型制造企业有红网和蓝网,银行有运营网、开发网、测试网和办公网。通过安全交换云来实现不同安全域之间的文件传递,其可对交换数据进行事前、事中和事后分析与控制,并留存完整操作日志与交换副本,从而实现即安全可控又业务创新正常开展。
非结构化数据中台是非结构化数据治理的落地平台,基于ECM底座支撑可方便连接汇聚各种类型的非结构化数据,依托于完整的内容模型架构和内容数据质量管理,实现了以元数据为中心的非结构化数据资产管理,借助于可视化平台可实时查看各种数据采集和数据服务,通过各种内容分析并调整配置和策略,让非结构化数据中台更好服务于前台各种业务场景。
自今年6月30号新档案法正式发布,国内档案迎来了千年之变,传统档案管理要进行全面信息化建设,一直困扰着我国档案管理的难题:档案收不及时、收不完整、收的没质量,必须通过文件档案一体化来解决,将档案策略延伸到前端文件业务中去,才能实时、高质量地获取有保存价值的档案电子文件及其档案元数据;同样,企事业单位最有价值的非结构化数据都在档案文件中,档案必须要被充分利用,其要借助于知识化、智能化等手段,以让用户更容易发现各种档案数据,才能让档案数据释放价值。毫无疑问,现在档案管理正在发生翻天覆地的变化,新形势下档案一定会连着文件,新形式下档案一定会被全面知识化,为企事业单位的新业务和下一轮生产活动提供全面有力地知识支撑。
前面与赛迪吴主任还在沟通,为什么今年2020市场对KM知识管理需求那么旺盛呢?我们分析,这与当前糟糕的国际环境是相关的,环境越恶劣企业越要提升竞争力,那么如何提升呢?拍脑袋去创新吗?显然不是!一定是把已经存在的各种非结构化数据进行整理、提炼和洞察发现,才能提升生产力、增强竞争力。我们也要切记,新一轮知识管理建设要更多聚焦于显形知识上,要重视非结构化数据的资产管理与价值释放,我们不能重蹈过去10年因过度重视隐形知识挖掘而导致大部分知识管理项目的失败结果。
最后,我还想讲两句,实际上这一年来我强烈地感受到:不管是国家政府、学术专业,还是各种协会,更不用说行业客户,都越来越重视非结构化数据管理,但其实我们才刚刚开始,我们要走的路还很长。我希望在座各位、在线各位,也呼吁更多的人能更加关注、更加重视非结构化数据的方方面面,一起推动让ECM内容管理尽快成为一种专注于非结构化数据领域的软件类型,从而对行业起到一定引导作用,指导大家在非结构化数据协作、流转、安全、合规、应用、管理和洞察等方面能进行更全面地战略制定和更有效地应用落地。