大数据安全治理平台建设方案

近年来,随着大数据应用的普及,在新基建、智慧城市、云端应用等大背景趋势下,给我们日常生活便来了很多方便,同时也派生出更多网络安全风险。如企业数据泄露、欺诈、数据违规使用,个人隐私泄露以及企业内部各种威胁和潜在风险。数据是宝贵的资源和财富,当数据开始流转起来,数据的价值方能得到体现。

当前,越来越多的行业决策开始从业务驱动向数据驱动转变。数据作为企业内部生产要素,能够帮助企业提升最终产品或服务的性能或生产效率,比如引流、效果广告、配送优化等,帮助企业在瞬息万变的市场中做出科学决策。但在整个数据流通的过程中,数据的安全治理是基础。国家正式颁行的《数据安全法》和《个人信息保护法》,足见政府对数据安全的重视程度。

一、大数据安全面临的挑战

海量数据的管理问题是对每一个大数据运营者的最大挑战。在网络空间,大数据更是容易被“瞄准”的显著目标,大数据成为网络攻击的第一练兵场。

一方面,大量数据的集中存储增加了泄露风险,黑客的一次成功攻击就能获得比以往更多的数据量,无形中降低了其进攻成本,增加了“攻击收益”。

另一方面,大数据意味着海量数据的汇集,这里面蕴藏着更加复杂、敏感以及价值巨大的数据,这些数据会引来更多的潜在攻击者。

大数据时代的安全与传统信息安全相比,变得更加错综复杂,具体体现在:

其一,大量的数据汇集,包括大量的企业运营数据、客户信息、个人的隐私和各种行为的细节记录,这些数据的集中存储增加了数据泄露风险。

其二,因为一些敏感数据的所有权和使用权并没有被明确界定,很多基于大数据的分析都未考虑到其中涉及的个体隐私问题。

第三,大数据的安全保护对数据完整性、可用性和私密性带来挑战,在防止数据丢失、被盗取、被滥用和被破坏上存在一定的技术难度,传统的安全工具不再像以前那么管。

二、大数据治理面临的挑战

《DAMA数据管理知识体系指南》对企业的数据管理成熟度定义了6个层级,分别为:0级-无能力、1级-初始或临时级、2级-可重复级、3级-已定义级、4级-已管理级、5级-优化级,级别越高数据管理越成熟。

对于前期缺少数据管理经验的企业,在无数据专家或数据顾问公司支撑的情况下,容易导致以下的问题:

  • 数据架构规划未能长期有效支撑业务发展

对企业数据架构缺少系统性梳理与思考,没有规划未来长期有效的业务发展,只考虑当前业务提数需求急于建设,会使系统变的越来越复杂和扩展性困难。

  • 数据管理缺乏统一标准

企业内部建设的多个业务系统(如ERP、CRM、OA等系统)由不同厂商负责建设,对企业的数据实体定义、数据模型定义、字段定义等均有不同的标准,在数据治理过程当中缺少有效梳理,容易导致跨系统融合查询分析时常常遇到数据不统一的问题。

  • 海量数据带来的高时延

在海量数据的背景下,导致数据采集加工清洗存在高时延和性能障碍,无法及时出数。面向业务的BI系统OLAP查询数据仓库的数据应用层的数据时,由于数据量过大,且分析库的选型性能限制,导致数据查询时延高,无法满足快速的业务需求。

  • 海量数据的价值挖掘不足

数据是企业数字化转型的一个重要支撑点,多个业务系统沉淀的海量数据中蕴藏了巨大的价值,这些数据的背后体现了企业业务经营过程中的潜在规律。因此,做好数据挖掘,就是对企业经营的深刻复盘,就能够对企业发展起到良性的反馈与推送作用。

  • 缺少业务适应的数据分析应用

业务人员想要临时获取数据往往需要技术人员的协助,向技术人员描述业务需求,由技术人员通过一系列操作获取到所需数据。存在以下痛点无法满足:

(1)分析效率低:针对业务提出的分析都需要等待技术排期,无法满足日益增长的业务所需的时效性要求;

(2)业务人员无法自助取数:数据库的表及关联关系等相关技术问题,分析过程较技术化,对业务人员不友好,业务人员无法直接参与,需要技术人员通过多次编写SQL去取数。

三、大数据安全治理的几个方向

1、数据分类分级

企业想要推动数据的分类分级落地,就需要将数据分类分级作为制度流程工作落实到组织管理制度中,确定分类分级中涉及的部门、职责以及需要梳理的数据资产、敏感类型、分类分级方式、管控原则等,确保分类分级落地实施。

数据安全成熟度模型(DSMM)中对此也有相关的说明,组织应设立负责数据安全分类分级工作的管理岗位和人员,主要负责定义组织整体的数据分类分级的安全原则,应定期评审数据分类分级的规范和细则,考虑其内容是否完全覆盖了当前的业务,并执行持续的改进优化工作。

2、涉敏数据分析

针对企业对哪些数据是敏感数据,需要保护的数据分布在哪,敏感数据是否都得到了保护等这些问题其实并不清楚。传统做法是对企业数据进行打标签,存在职能跨部门协调难,导入数据湖的数据不全,有未知数据源,人工整理时耗长,人力成本高等显著问题和难点。

比较推荐的方式是借助敏感数据发现工具进行数据梳理,基于IP段或用户进行全流量对数据资产自动发现,其中也包括未知的暗数据资产。全方位发现数据资产,增强资产梳理效率与发现能力,减少人工整理成本。通过梳理进一步清晰各数据库类型、文件类型等数据资产的分布情况,对于企业来讲,敏感数据主要集中在商业秘密和个人隐私部分。

四、从数据安全治理模型(DSG)着眼数据保护

数据安全治理模型(DSG)是以数据的分级分类为核心,进行安全策略的设定,DSG强调针对数据使用场景,满足数据使用需求后的采取有针对性的安全措施。比如在开发测试环境、生产环境等、业务使用场景等。数据安全治理模型主要表现为以下几点:

数据风险控制决策:

  • 数据发现
  • 业务关联
  • 风险评估

数据安全核心要素:

  • 数据:对象
  • 用户账号:用户/访问者
  • 访问:行为

数据策略编排和执行:

  • 位置:云、终端
  • 数据类型:文件、数据库、大数据

根据DSG安全治理模型,需要以数据发现、分级分类开始,自动化发现各类数据资产,以数据为核心全面评估数据风险,进行持续不断的动态监测数据行为,检测存在的数据安全风险和预警潜在的风险。依据数据安全事件实时触发告警,溯源和审计,针对发现的问题和漏洞,进行防御策略和体系的更迭优化。

五、Hadoop安全治理的方向

由于Hadoop在开发之时本身的目的是为了实现数据分析的功能而非安全,因此自始至终缺乏安全的设计。主要体现在缺乏安全管控,以及缺乏身份认证上。

对于Hadoop的安全管控需求有三个大方面:集中式安全管控、平台边界安全管控以及自动化安全管控。

1、集中式安全管控

集中式安全管控是指保障集群内部的一些安全风险,主要是像身份认证、访问授权、数据静态加密和数据流转过程中的动态数据加密,操作的审计。由于业务众多,有大量不同的需求,因此自身对Hadoop需要大量不同的组件,如果对不同组件特别管控,会大大增加管控难度。

集中式安全管控是针对数据认证、服务控制、访问授权、数据加密、操作审计,所有操作都是集中在统一的服务下做安全管控的策略。从用户身份认证上,以Kerberos基础,提供基于令牌的统一身份认证。

对于静态的数据加密,可以通过透明的AES加密框架,也可以通过像AES-NI[Office2] 这种加密指令去做了优化。另外,操作审计系统可以对Hadoop进行审计补充。

2、平台边界安全管控

平台边界安全管控则是指一个集群在边界范围内,去做一些管控。核心思想是一个数据网关的概念,主要设计目标是想第一个就是管控数据的出入通道,确保可信数据的一个导入,同时防止隐私数据的流出。另一方面则是对操作人员的出入管控,确保接入人员可信、整个操作可追溯可追责。

3、自动化安全管控

在确保了集中式安全管控以及平台边界安全管控后,自动化安全管控主要是通过自动化的管控和智能化的运维技术,去控制减少运维自身人员手动干预平台的场景 ,提高了运维效率,也减少了人为操作出问题的概率。对于这方面的管控主要有三个方面:数据完整性、远程数据容灾框架以及数据的自动迁移和恢复。

对于这些管控基于社区的开源软件,并不适合对于安全的管控需求。需要深度的定制以及整合,创建出最适合于自己企业的工具,才能更好地保护数据。

六、大数据安全治理平台设计方案

1、大数据安全治理平台实现难点

当前各行各业的数字经济如火如荼,数字化能力较强的行业,如运营商、金融行业等,数据仓库已经持续建设有十多年,跟随着大数据处理及大数据平台技术的进步,技术上从关系型数据库的数据仓库逐步切换到大数据平台架构体系,数据应用能力上逐步从原有的支持决策分析看数,到进一步注智赋能到企业的生产等各个方面的数字化转型,有力的促进了数据价值的释放。

大数据平台建设已逐步成为传统企业进行数字化转型的必需品,企业通过数据能力的建设,拉通企业内的沟通壁垒,优化企业的业务流程,支撑客户的响应诉求,打造在线的客户运营能力。

企业实施数据治理需要因地制宜,不论建立什么样的数据治理体系,其目的都是实现数据治理目标,即通过有效的数据资源控制手段,进行数据的治理和管控,以提升数据质量进而提升数据的变现能力,如统一配置管理、统一运维管理、统一告警管理、数据安全风险感知平台等。

实际的大数据治理平台的建设过程中,经常会存在如下问题:

  • 数据标准难以落地,标准往往成为“纸上谈兵”,技术部门与业务部门以及不同的部门之间出现“鸡同鸭讲”,沟通效率低。
  • 大数据模型设计能力弱,未站在企业全局视角整体进行规划,无法满足业务的迅速增长需求,往往过几年又需要进行模型重构“推倒重来”。
  • 数据质量不高,无自动化的质量管理能力,陷入反复核查的质量困境。
  • 数据运维复杂度高,数据时效性差,依赖人工高强度值班,缺乏自动化智能化的手段。

而这些问题,往往成为大数据平台建设中的“绊脚石”,大数据平台能力建设看似“火热”,实际一团“乱糟糟”,人力投入越来越大,陷入持续的优化、问题核查等循环中,影响到数据能力的使用。

大数据平台整体安全建设,从数据采集到数据资产的梳理,再到平台的访问安全管控和数据存储安全,以及数据共享分发过程中的版权保护,整个安全方案如何形成数据访问和使用过程的闭环,并且能够实现安全策略的统一下发和协同配合,是摆在平台建设方面前的棘手问题。

2、大数据治理平台架构

如何解决这些问题,根据DataOps理念,需要引入敏捷交付、智能化治理等理念与方法,以数据流水线的方式进行全链路数据能力的开发与治理:采集--> 标准 --> 设计 --> 开发 --> 部署 --> 资产-->服务-->运维治理。

不同的工序,由不同的角色负责,将开发与治理流程同步化,将数据标准落地、数据模型可靠、数据开发高效、数据质量清洁、数据运维统一结合起来。

大数据安全治理平台主要架构:

大数据安全治理平台建设方案_第1张图片

模块有:数仓规划、数据集成、离线开发、实时开发、指标中心、标签中心、数据资产、数据服务、数据运维、数据质量、数据安全等模块。

  • 数据标准

面向数据架构师,提供数据架构设计、数据模型设计、数据质量规则设计和数据安全规则设计等一站式数据仓库标准规范规划设计能力,通过流程化的配置功能,实现数仓设计标准的快速落地,约束和规范数据的处理流程。 

聚焦敏捷开发管理,从数据体系架构、元数据、主数据等维度结合业务特征构建企业数据标准体系,实现规范化的数据开发和资产运营过程管控。

  • 数据集成

针对复杂的网络环境和丰富的异构数据源,提供稳定高效、弹性伸缩的数据搬迁能力及数据同步工具,实现海量数据从业务系统到数据工厂的高效快速汇聚,提升数据采集效率,降低接口运维风险。

面向数据采集和集成人员,通过数据集成工作台完成对来源系统数据同步到大数据平台的采集任务,帮助用户在数据接入环节提供有效的指引和工具的快速使用,从数据源连接的创建,源端数据质量的探查,到进行离线或实时同步任务配置与监控,最后由数据质量任务的监控和质量报告对接入的数据质量进行有效监控,为数据集成环节提供有效支撑,快速实现TB/PB级的企业全域数据的汇聚和存储管理功能,可灵活适配多种数据源,支持常见国产数据库。

  • 数据开发

通过在线化、批流一体化的数据开发工作台,以项目化方式规范管理数据开发全过程,提供智能化的数据建模、可视化的脚本开发和敏捷的脚本调试、基于云端原始数据的即席SQL查询、丰富的数据处理工具包提  升数据开发效率。

离线开发:面向数据开发人员,以项目化的方式规范管理数据开发全过程,提供标准化的数据建模能力,一站式的离线数据开发能力,可视化的脚本开发和脚本调试能力,基于云端原始数据的即席SQL查询能力,并以丰富的数据处理工具包去辅助离线数据的智能开发。

离线开发提供统一的数据开发工作区,提供批量异步离线计算脚本编写和调试的集成工作台,将大数据脚本的编写和调试从多个独立环节的原始入口整合到一套完整的可视化集成环境中,同时提供SQL自动生成器,只需要简单的勾选几个表,配置关联条件、过滤条件、输出字段,即可生成对应的SQL插入到数据开发脚本中,提升脚本编写和调试效率。

实时开发:面向数据开发人员,提供了基于组件拖拉方式编排实时任务流程的开发方式,支持使用SQL语言开发实时任务,极大程度地降低了开发人员的门槛,使普通开发人员甚至业务维护人员也可以轻松使用,降低了开发成本,减少很多重复的开发工作量。

实时开发系统支持消息系统、文件、数据库作为输入源,也可通过扩展支持定制化的接入需求。数据源经过系统的多数据源适配转换成流式数据,流式数据驱动实时计算的运行。流计算处理引擎接收任务、解析任务的执行计划、优化任务的执行计划,然后执行计划,最后输出流计算的结果。

  • 数据融合

以OneID理念为指导,通过业务对象关系的智能化识别和管理实现数据的融合贯通,构建面向数据应用过程的低代码开发能力,低门槛快速搭建起行业数据指标体系和标签体系。

指标中心:面向业务人员,以业务分析对象为中心,通过拖拽式的可视化配置界面,提供面向数据的低代码开发能力,基于指标“管”、“算”、“用”三个维度来构建统一的指标管理体系,减少了传统数据开发方式对数据开发人员的严重依赖性。从而保障数据的数出一孔,达到降本增效的效果。

指标中心主要是针对派生指标进行配置生产和管理维护,提供了派生指标的可视化配置生产能力。通过原子指标、业务限定、统计周期、统计粒度的组合,系统提供向导式配置功能,通过选择原子指标与统计粒度,定义派生指标,确定派生指标,三步即可完成派生指标无重复地快速创建,且保证概念定义、计算逻辑明确而不会重复,业务员也可自主定义生产。

标签中心:面向业务人员,提供基础、分层、组合、偏好四类标签的配置和管理能力,采用低代码向导式的配置模式,帮助业务人员方便敏捷地构建标签体系。

标签管理支持全流程的标准管理能力,支持基础标签维护,对分析对象的固有属性(比如用户的年龄,性别)进行接入管理形成基础标签;支持分层标签,根据指标统计结果值进行范围划分;支持组合标签,对多个基础标签和分层标签进行逻辑上的组合和数值上的计算形成新的标签。

  • 全程调度

新一代的全场景数据调度引擎是整个数据工厂的调度执行大脑,提供从数据汇聚、数据治理、数据服务到数据运维的全链路调度和监控能力,满足海量数据和复杂业务场景下的数据治理需求,极大提升数据处理效率。

  • 数据资产

面向资产管理员,为数据生产和管理的各级人员包括管理者、运营者和开发者提供丰富的页面视图,实现资产目录化以及资产注册、监控、盘点、评估等数据全生命周期管理可视化。

通过对数据特征进行描述,以目录形式分类管理,形成统一的目录内容和数据资产服务,并建立数据资产价值评估体系,识别系统中的数据资产价值,同时提供丰富的资产服务接口拓展能力,支撑数据资产的多渠道应用,如数据共享服务、分析决策支持等,实现数据资产价值最大化。

数据资产模块提供元数据采集、元数据管理、数据地图、数据目录、资产大屏、数据资产生命周期管理等功能,支持查看元数据的的基本信息、合规信息、血缘信息、运行信息、价值信息、质量信息、安全信息、样例数据、版本记录等,并提供资产订阅功能。

  • 数据质量

面向数据管理和使用人员,通过配置各类数据稽核规则实现对数据规范性、完整性、及时性和准确性等方面进行严格的监控,保障数据质量,形成由问题发现、问题分析、问题跟踪处理,到质量知识沉淀的全链路数据质量审计体系。

数据质量管理模块支持源端/数仓各层数据生命周期全过程的质量管控,事前、事中、事后全覆盖,嵌入数据设计开发运维过程中;采用可视化、批量配置、自动质量推荐等手段,通过质量策略的定义与管理,降低质量规则配置的复杂与繁琐;质量规则全,支持实例数据与元数据的稽核,支持规范性、及时性、完整性、一致性、准确性、逻辑性、自定义等类型的质量规则配置;低碳化质量稽核,智能化规则合并,降低质量管理的资源消耗。

通过配置各类数据稽核规则,对数据规范性、完整性、一致性、及时性、准确性、唯一性和参考完备性等方面进行严格审计,形成发现问题、分析问题、跟踪处理问题到知识沉淀的完善数据质量审计体系,监控数据资产质量。

  • 数据安全

面向数据管理和使用人员,通过对数据进行资产梳理、分级分类、数据打标,提取通用的数据安全防护策略,帮助数据运营者摸清数据家底、简化授权流程、细化数据访问粒度、建立完整数据隐私保护、实现数据访问行为审计,提供全面的数据安全事件分析报告,构建起大数据平台数据全生命周期安全防护体系。

通过数据安全模型构建全方位的企业数据安全管理体系,为平台安全管理者提供敏感数据识别、安全定级、特权用户使用监控、数据审计、数据脱敏等安全服务,支持用户自定义扩展安全规则。

  • 数据超市

从业务视角构建超市化电商化数据服务超市,结合行业特性采用企业数据黄页和数据共享交换平台两种模型满足不同行业的数据能力开放需求。

数据服务:面向数据管理和使用人员,提供数据服务查询和申请的门户页面,具备数据查询和数据申请使用等功能,以可视化视图直观展示数据资产概况、数据使用情况等指标,让数据管理人员了解企业数据服务状态情况。

数据服务模块包括资源目录管理、开放资源管理等功能,通过统一的数据共享门户,提供数据申请、数据工单审批、数据下发能力,同时调用数据安全模块的功能,对数据的下发提供加密能力。

数据服务模块提供API管理能力,实现对数据API和能力API的统一配置和管理,支持通过向导式模版配置或自定义SQL模式进行API的新增,支持API接口的流量控制、在线调试,支持API黑白名单设置等功能。

  • 数据应用

以加速数据价值释放为目标,提供便捷化数据获取、可视化数据分析、智能化数据挖掘等丰富的数据应用引擎,助力客户加速数据利用,提升数据价值,为数字化转型注智赋能。

  • 数据运维

面向数据运维人员,通过展示指标状态、任务状态、集群运行状态、质量任务状态等指标,提供任务运维、集群运维和质量运维等核心功能,为快速定位运维问题提供高效的操作门户。

数据运维模块通过构建360度调度运行视图,洞悉整个数据平台的调度运行的整体情况,包括整个数据平台的数据架构视图、周期内的库表数据生产/质量稽核调度情况、数据血缘分析信息及详细的调度流程信息,为调度运行提供实时、汇总性可视化监控工具;采用H5技术,构建清晰高效率的血缘分析视图,支持从千万级数据/节点/流程图中,通过节点检索快速定位具体数据/节点/流程,通过缩略图实现区域快速定位;支持秒级展现千/万级的血缘图。

3、数据中台体系建设

1. 咨询规划

规划咨询主要用于指导数据中台建设规划阶段现状调研和顶层设计,主要包括数据中台规划咨询方法论、以及规划咨询分阶段执行的关键动作和输入输出模板等内容。其中咨询方法论对规划咨询工作开展进行总体介绍;各执行阶段对调研对象、调研提纲和交付物模板进行定义,提供常用行业项目输出示例,整体提升数据中台规划咨询的效率和质量。

大数据安全治理平台建设方案_第2张图片

2. 技术选型

数据中台技术及组件选型方法,涵盖数据底座、数智平台和数智引擎,为数据中台售前/交付过程中涉及到的技术选型提供参考,提升技术架构标准化水平和输出效率。

大数据安全治理平台建设方案_第3张图片

3. 成熟度评估

为客户提供标准、专业的数据管理能力成熟度评估服务,从服务流程、服务标准、服务模型工具方面进行规范化约束,保障数据中台成熟度评估工作的高效和专业性。

成熟度评估服务的客户主要包括运营商、交通、能源等行业用户,侧重数据中台建设运营能力评估,不包括浩鲸科技自身及其他数据服务提供商服务能力的成熟度评估,范畴为甲方数据中台规划、数据中台能力提升、数据中台能力审计等咨询服务环节的前评估和后评价。

大数据安全治理平台建设方案_第4张图片

4. 交付规范

帮助企业建立规范的交付体系,提高企业整体的交付水平,从而达到规范员工交付行为、增强员工安全意识、提升客户交付感知,以及确保客户数据资产安全。本规范主要适用于业务合同类项目交付工作,适合项目的相关交付人员与其他对本规范感兴趣的人员阅读。

大数据安全治理平台建设方案_第5张图片

5. 需求规范

需求管理规范,需要明确需求管理流程,并对每个相关部门所应有的责任与权利进行界定,同时要建立有效的监管措施,使流程中的每个环节都能发挥有效作用。

需求管理不是项目前期的一个环节,而是贯穿整个项目的关键流程。在具体进行需求管理时,应该着重注意明确职责避免缺位、需求应分层沟通和确认、分步实施和先易后难的原则。

大数据安全治理平台建设方案_第6张图片

6. 架构设计

数据中台建设的数据架构设计,所有参与数据中台建设的数据架构师、数据建模师都需要熟悉规范约定,并落实到位。

参与运营商项目和数据智能垂直交付的数据中台项目本规范必须严格遵照执行,必须严格使用开发工具,屏蔽传统的后台命令行脚本开发方式。不带开发工具产品的数据中台项目开发工具部分可选。

大数据安全治理平台建设方案_第7张图片

7. 开发规范

数据中台建设开发的原则,对数据中台的线上开发流程和规范进行约束,规范数据开发实施团队的数据开发工作,保障程序质量、提升开发效率、保证数据开发的延续性、可读性和易维护性。

大数据安全治理平台建设方案_第8张图片

8. 数据接入

数据接入包括按照数据标准和数据模型,将分散在各个业务源系统的数据抽取、转换、加载至数据平台的过程。

数据接入方案实施是指基于数据分布关系、数据类型、数据系统等要素,结合业务对于数据格式、数据时效性等方面的需求,选择适当的数据汇聚工具,制定数据汇聚与迁移方案,将数据模型、元数据、原始数据等内容进行统一抽取、转换并存储至目标数据平台。数据汇聚方案应包括但不限于:目标系统参数,数据汇聚范围,数据传输工具,数据传输周期等内容。

大数据安全治理平台建设方案_第9张图片

9. 共享开放

规范大数据平台数据资源的发布、访问和输出管理,提高数据利用效率,保障数据输出质量和安全,特制定本规范。本规范适用于业务人员、IT用户、外部客户使用大数据平台数据的全流程业务管理和工作执行。

大数据安全治理平台建设方案_第10张图片

10. 质量规范

质量规范,通过获取、分析、评估数据仓库中的数据质量问题,保证数据质量的稳定可靠,构建数据质量内部控制的管理体系,利用数据质量监控模块进一步提升数据质量管理子系统对数据中台的支撑能力。

数据质量管理规范的总体制定思路是从标准、职责、流程、三个层面统筹规划,按照数据分层标准、数据重要性分类标准,配置各场景下的稽核规则,指导相关人员进行数据质量管理工作。

大数据安全治理平台建设方案_第11张图片

11. 数据运维

数据中台的数据架构设计、开发、治理和运营的原则,对于数据治理工作中数据运维的工作内容进行系统性的阐述,为后续数据运维实施团队提供规范性指导。

本规范主要用于数据中台在数据治理过程中的数据运维,所有参与数据中台建设的数据模型师、ETL开发工程师、数据运维人员都需要熟悉规范约定,并落实到位。

大数据安全治理平台建设方案_第12张图片

12. 安全规范

数据中台的数据架构设计、开发、治理和运营的原则,对于数据治理工作中数据安全的工作内容进行系统性的阐述,为后续数据安全实施团队提供规范性指导。

数据中台在数据治理过程中的数据安全管理,所有参与数据中台建设的安全管理员、平台运维人员都需要熟悉规范约定,并落实到位。

大数据安全治理平台建设方案_第13张图片

13. 数据运营

数据运营是指通过多维度的数据策略,最大化提升“用户价值、业务价值、产品价值”的过程,主要内容包括数据工具设计、数据策略设计、数据体系的设计等,通过提供用户与内容、用户与产品、产品与内容之间最优连接路径,形成用户体验闭环,达到整体数据价值的提升目的。

大数据安全治理平台建设方案_第14张图片

14. 资产治理

数据是资产的概念已经成为行业共识。然而现实中,对数据资产治理还处于摸索阶段,面临诸多挑战。首先,大部分企业和政府部门的数据基础还很薄弱,存在数据标准混乱、数据质量差、系统间数据孤岛化严重等现象,阻碍了数据的共享应用。其次,受限于数据规模和数据源种类的丰富程度,多数企业的数据应用刚刚起步,应用深度不够,应用空间亟待开拓。再次,由于数据的价值很难评估,企业难以对数据的成本以及其对业务的贡献进行评估,从而难以像运营有形资产一样管理数据资产。

大数据安全治理平台建设方案_第15张图片

企业构建一套数据中台体系,需要有成熟的数据中台建设方法论为指导。初涉企业根据方法论按部就班就可能完成企业的数据中台建设,成熟的企业也可以基于方法论,查漏补缺,完善数据中台建设。 

4、大数据安全治理平台建设案例

1. 信息资源梳理建设

业务需求:数据梳理

在进行安全建设之初,针对需要保护的信息资源,需要先进行状况摸底:

1)提供对部门的组织结构、业务角色、信息资源类别、信息化系统等的管理和维护功能;

2)能够对业务流程图和数据流程图进行管理,能够识别协同关系和信息共享需求,能够明确职责、挖掘、整合数据资源、规范数据表示;

3)能够对数据库的主题库、逻辑实体、实体关系图、数据映射图、数据元标准、信息分类编码进行管理。

技术实现:数据库漏扫、数据资产梳理

数据库漏扫技术:实现对数据库系统的自动化安全评估,能够有效暴露当前数据库系统的安全问题,对数据库的安全状况进行持续化监控。利用数据库漏扫产品覆盖传统数据库漏洞检测项;实现弱口令扫描、敏感数据发现、危险程序扫描、渗透测试等高端检测能力;通过预定义安全策略、自定义安全策略,实现高效、有针对性的安全状况扫描检测,和通过各种角度、各种专题、详略不一的报表直观呈现数据库系统的安全状况样貌。

数据资产梳理技术:实现数据资产的“静态+动态”梳理

静态梳理技术:实现数据库自动嗅探:自动搜索企业中的数据库,可指定IP段和端口的范围进行搜索,自动发现数据库的基本信息;按照敏感数据的特征或预定义的敏感数据特征对数据进行自动识别,持续发现敏感数据;根据不同数据特征,对常见的敏感数据进行分类,然后针对不同的数据类型指定不同的敏感级别。

动态梳理技术:对平台数据库系统中不同用户、不同对象的权限进行梳理并监控权限变化。监控数据库中用户的启用状态、权限划分、角色归属等基本信息;归纳总结用户访问情况,尤其针对敏感对象,能够着重监测其访问权限划分情况。数据流转梳理,对数据应用程序、运维工具、脚本等程序和人员对敏感数据的操作进行监控和分析,形成敏感数据内部流转路线图,展示敏感数据是如何被处理和流转的;监控异常流转情况,及时发现数据违规使用风险。

综上,通过安全风险扫描、检测和资产梳理可以明确信息资源的出口、入口,数据间关系,摸清各部门的业务需求、数据需求和集成需求,能够提供信息资源的文档的自动化生成(数据库设计文档、信息资源目录、实体关系图等),以及通过思维导图等方式展示信息资源。

2. 政务、互联网数据采集

业务需求:采集过程中的数据共享

各政府职能单位信息汇聚采集(公安、民政、人社等)、互联网入口公众信息采集(政府网站、微信、社会学术库、企业信息等场景需求下,需要共享数据,但敏感数据不能全部开放。

技术实现1:动态脱敏技术

将动态脱敏系统部署在数据的共享、交换、应用、运维区,与数据库之间;形成自动化的敏感数据匿名化边界,防止隐私数据在未经脱敏的情况下从数据区流出。

大数据安全治理平台建设方案_第16张图片

提供基于数据库访问来源IP、数据库应用系统、应用系统账户、时间等因素的策略,对需要共享的敏感数据,可根据数据的敏感级别和应用的需要,灵活的配置动态脱敏策略,从而实现外部应用能够安全可控的使用共享的敏感数据,防敏感数据泄露。根据不同数据特征,内置丰富高效的动态脱敏算法,包括屏蔽、变形、替换、随机;支持自定义脱敏算法,用户可按需定义。

技术实现2:数据脱敏(静态)技术

数据脱敏(静态)技术:利用对数据的静态脱敏技术,有效防止大数据平台内部对隐私数据的滥用,防止隐私数据在未经脱敏的情况下流出。既满足隐私数据保护,又满足开发、测试、模型训练等业务对数据的需求,同时也保持监管合规,满足企业合规性。

3. 大数据平台管控(基础、服务)

业务需求:大数据平台的统一资源管控

大数据平台的数据使用管控需要实现资源管理、安全管理、运维管理、集群部署及监控、任务调度等功能,同时配备友好的管理界面。

技术实现:数据库审计技术、数据库防火墙技术、安全运维管控技术

数据库审计技术:通过对访问数据库的所有网络流量进行采集、解析、过滤、分析和存储,全面的审计所有对数据库的处理行为,满足大数据平台对数据处理进行监控、收集和记录的需求。

数据库防火墙技术:将数据库防火墙部署在应用系统和数据库之间,能够防护由于WEB应用漏洞、应用框架漏洞等原因造成的黑客攻击数据库,窃取敏感数据;确保大数据平台核心数据资产的共享安全。

数据库安全运维技术:基于角色管理的细粒度的数据库运维控制功能,精确到SQL语句,确保核心数据资产的合规使用;针对不同的数据库用户,提供操作权限、访问控制,限制NO WHERE更新和删除,避免大规模数据泄露和篡改;提供双因素鉴别和登录控制能力,防止数据库账户泄漏和滥用;提供用户权限细粒度管理,对敏感数据的操作进行严格管控;控制和审计动作、全面精细审计分析,提供实时访问统计图。

4. 大数据存储安全加固

业务需求:存储安全

对于落地到大数据平台的数据资源,除了访问管控,需要对其中高密级数据增加存储加固手段,作为数据安全防护的底线。

技术实现:数据库加密技术

强化大数据平台数据安全,实现整体数据安全加固,防止数据外泄。加强对敏感数据的加密访问和存储,敏感数据呈现中对关键字段进行加密。国内知名安全厂商安华金和的数据库加密产品DBCoffer可以针对表空间实现表空间级加密,对表空间内的所有数据全部进行加密,增强数据安全性;支持表级加密,增强安全的同时又兼具灵活性;在不影响数据库本身权限的同时,系统增强了权限控制,分别从数据库用户,客户端IP,应用系统等不同层面对权限增强,全面防止越权访问,防止数据泄露;安全服务组件实现对密钥的管理,让用户自己掌握密钥,即使数据被盗也无法查看明文。

5. 大数据运维分析

业务需求:支撑大数据分析运算

通过从运维端进行大数据分析,实现对海量数据提供高效的分析和计算。数据分析挖掘引擎支持并行化统计算法和机器学习基础算法库,支持的并行化基础算法,能够处理大数据集。具体功能要求包括查询、关联分析、统计分析、报表展示、数据挖掘以及二次开发等。

技术实现:数据脱敏(静态)技术

针对海量数据进行分析计算,是典型的数据库脱敏系统面临的分析场景,在此场景下对将生产数据中的部分敏感数据进行脱敏处理,有效防止大数据平台内部对隐私数据的滥用,防止隐私数据在未经脱敏的情况下流出。针对数据分析这一应用场景,支持对目标数据库中部分数据进行脱敏,可根据指定的过滤条件对数据来源进行过滤筛选形成数据子集。在脱敏产品的使用过程中,面对生产环境中数据或数据结构频繁发生变化的场景,及时调整脱敏策略,防止敏感数据“漏网”现象,引发敏感数据泄露。

大数据安全治理平台建设方案_第17张图片

6. 大数据展现

业务需求:政务部门的公开下载和服务

提供政务部门可公开各类数据的下载与服务,为企业和个人开展政务信息资源的社会化开发利用提供数据支撑,推动信息资源增值服务业的发展以及相关数据分析与研究工作的开展。

技术实现:数据脱敏(动、静)技术、数据水印技术

数据脱敏:使用动态+静态数据脱敏技术,实现对外数据公开下载以及开发利用等服务过程中的数据安全。

数据水印技术:通过系统外发数据行为流程化管理,对数据外发行为事前数据发现梳理、申请审批、事中添加数据标记、自动生成水印、事后文件加密、外发行为审计、数据源追溯等功能,避免外发数据泄露无法对事件追溯,提高了数据传递的安全性和可追溯能力。系统通过智能自动发现功能辅助用户发现敏感数据完成外发数据梳理;通过对原数据添加伪行、伪列、对原始敏感数据脱敏并嵌入标记等方式进行水印处理,保证分发数据正常使用。水印数据具有高可用性、高透明无感、高隐蔽性不易被外部发现破解。一旦信息泄露第一时间从泄露的数据中提取水印标识,通过读取水印标识,追溯数据流转过程,精准定位泄露单位及责任人,实现数据溯源追责。

整个大数据平台的安全建设工作,不是简单的安全产品的堆砌,它需要基于专业的安全建设思路来建立完整的数据安全防护体系,满足业务需求的同时,兼顾安全需求。

你可能感兴趣的:(Hadoop,Hive,Spark,大数据安全,大数据,安全,运维)