【华为数据之道学习笔记】10-3 摆脱传统手段的数据管理方式

智能数据管理是数据工作的未来

        在以传统方式对数据实施管理和治理的过程中,数据工作者和业务方都需要投入相当多的人力和资源,才能达成管理目标,其中的艰辛,相信各位业内人士都深有体会。而随着智能大数据时代的到来,各行各业都看到了摆脱传统工作方式的希望。在数据工作方面更是如此,因为我们的工作对象天然具有极高的数字化程度、极具规模的体量、强大的内生关联度,我们更需要应用智能化、数字化的新方法来提升工作效率和效果,借助于数据挖掘、机器学习、数据可视化等方法来更深入地了解海量、数据更加透明、可知、易用。

内容级分析能力提供资产全景图

        举个例子,初步完成数据的架构工作并构建了企业级的数据湖之后,我们就可以基于多维数据特征的可视化分析技术,对数据质量进行内容级分析,采用特征工程方法,建立数据内容的多维模型,在高维空间进行多维度聚类,利用可视化投影技术在二维平面进行渲染展示。与传统的表格式数据展示不同,这种基于内容解析的数据资产智能分析会有诸多强大的应用场景,全景展示所有已经进入企业数据湖的表字段及其关系结构只是其中最为直接和显而易见的应用。

属性特征启发主外键智能联接

         数据表之间的主外键关系是ER模型中的重要组成部分,蕴含了对后续数据加工利用有重大价值的信息。然而,出于对性能等因素的考量,很多实现场景并未将这一信息传递到数据供应链的下一阶段,造成重要信息丢失,给数据管理带来了不小的困扰。传统IT系统及其开发造成的这一困境,是否可以利用先进的数据分析技术予以弥补乃至解决呢?我们观察到,在全景图中若干个属性字段投影位置重叠,表明它们的数据指纹几乎一致,很有可能是可以做主题连接的主外键。基于这一启发,辅以对主外键关系存在诸多属性约束的条件的帮助,通过实验证实,我们可以以很高的准确率重建已经丢失的主外键关系,加速主题连接的连接发挥更大的业务价值。

质量缺陷预发现

        数据质量话题,在前面已经有专门章节论述,这里不再赘述。我们想补充的是,除了已有的基于规则对质量的方方面面进行有尺度的微观管控和宏观治理之外,我们也可以利用大数据分析方法,进行介观层面的分析管理。之所以称之为介观层面,是因为通过大数据分析与可视化方法,我们可以以极快的速度在宏观和微观之间切换,以前所未有的人机交互的方式观察数据分布和异常,从而在很大程度上提升管理水平和效率。简单来说,比如我们观察到,相似类型的数据通常呈聚集状态,远离数据群的属性节点则往往需要质量人员的更多关注。

算法助力数据管理

        另外,我们可以利用基于密码学的资产指纹技术来更好地管理数据架构。由于大量数据表中含有相同或相似的字段,且判断两张数据表是否同源比较耗时,因此我们对每张数据表的字段名进行快速编码,实现数据表快速比对判重,而不受表中各字段排列顺序影响。我们已经为物理级数据资产建立了数据架构指纹库,支持快速查询、资产去重、篡改发现、资产比对。

    随着计算能力的不断提升和智能算法的不断优化,我们越来越能够对数据的实质内容而不仅仅是元数据进行深入分析。相信在不久的将来,我们会看到越来越多的智能数据分析算法应用于企业内部的数据管理和治理任务中,让我们数据工作者从繁重的数据处理分析中解管理的本质问题,既能下沉到数据里触摸到落地的细节,又能上升到整个全景把握好宏观趋势。

数字道德抵御算法歧视

        基于数据的算法因其黑盒的特性而在某种程度上诱导人类让出了自己的决策权,我们应该如何重建数据空间里的信任关系呢?数据道德准则的建立迫在眉睫。我们需要对数据流程上的各个环节所受的影响进行分类,谨慎评估潜在的道德和伦理风险,充分测试、模拟和评估数据系统,提高算法模型的透明度,遵循最佳实践进行数据分享。采集数据之前要取得知情同意,对数据匿名化的能力和限度有充分认知,从而有效地保护数字道德不受到我们自己亲手构建的系统的伤害。

你可能感兴趣的:(#,数据中台,华为数据之道,读书笔记,数据中台)