淘宝大型数据仓库的治理(4)-数据安全不可控

2013-08-29 阿里技术嘉年华

文/通贯


【导读】这是共四篇的数据仓库治理系列,本文是第四篇,回复数据仓库可查看整个系列。作者从实际经验中,总结出了一些大型数据仓库治理中,可能会遇到的问题。本文谈到了“数据安全不可控”的问题,大数据时代,你值得关注。

 

    此前数据安全的攻防重点都在业务系统上,对外要防止黑客攻击,防止其获取业务系统管理员身份盗取机密数据,或者防止其进入数据库大批量导出数据;对内要防止业务人员私自下载数据,防止dba盗取数据。业务系统数据安全的防控一直受到重点关注,防控的解决方案也非常健全。


    相比业务系统稍微安稳,数据仓库数据安全形势危及,就像这几天悬在东北老百姓头上的黑龙江、松花江洪水,千里之堤随时可能崩溃。

 

 一、数据仓库安全形势凸显的原因是什么


      数据仓库与业务系统相比,安全体系非常薄弱,主要差别如下:


·            重视程度不够


    业务系统发展了数十年,骨子里就有安全、权限的基因,防控的重点是外部攻击者,开发者自始至终都会考虑安全问题,还有专门的安全团队把关,魔道尺丈斗法中,不会吃太多的亏。


    数据仓库从诞生之初就定位为一个内部辅助系统,安全团队一般不care,老板也不担心,开发人员也不重视。


·            涉及人员多



    业务系统的应用权限一般指开发给指定岗位角色的人员,开发人员是相对固定的技术团队,接触数据的人员非常明确。


    数据仓库中的数据来自于多个业务团队,数据仓库团队的工程师通常不是业务团队成员,他们对数据安全敏感度不如业务团队,通常不会考虑数据泄露会造成的后果;此外,数据仓库中的数据具有分享性,一个业务的数据旺旺会被N多个数据应用部门应用,接触数据的人员规模被放大。


·            数据规模大(风险大)


    业务系统中的数据往往是分散的,数据分散在多个应用系统和数据库,数据泄露规模会隔离在某个业务领域;数据仓库是个数据集中营,从业务覆盖面和数据时间周期两方面看数据规模都非常大,万一发生事故,损失将比较大。


·            技术方案弱


    

    业务系统的安全防控与生俱来,对外有防攻击安全体系,对内有权限体系、数据库角色权限体系,有的系统还有数据加固系统,隔离数据库管理运维与数据操作权限;针对敏感数据还有数据审计系统。极大地增加了数据盗取成本。


    

    数据仓库技术的大部分精力都集中在解决存储、计算效率问题、数据质量问题、数据商业价值体现问题.....数据安全往往依赖于数据仓库存储系统自身的权限管理功能,如数据库的角色权限、hadoop的文件权限体系。

  

二、如何保障数据仓库的数据安全

 

    如何保障数据仓库的数据安全呢?


·             组织保障

    

    首先,要多做数据安全方面的培训和宣传,树立安全意识,及时发现和修补安全漏洞,有检举和揭发数据安全违规行为的通道;同时要惩戒违反安全法规的人,警示后人,将数据泄露事件扼杀在萌芽状态。


    其次,要有数据资产意识,要有onwer。除了资金、房产、电脑是资产以外,数据已经成为最重要的生产资料之一,一定要有专门的岗位和人员,来盘点数据资产,来对数据安全问题负责,而不是只做事后惩戒。具体来说,要查明数据仓库中有多少数据资源,具有什么价值,掌握在哪些人员手里,评估泄露风险和后果。


    另外,数据安全管理要专业。管理人员要有专业的业务背景和一定的技术背景,不能听到“仓库"二字,就去雇个廉价的看门大爷。管理员要明白我们有什么、对方想要什么、用来做什么、有什么手段和途径、外部的扩散途径等等。当前,数据窃取者最感兴趣的数据就是用户的个人信息,包括家庭住址、电话、邮箱、银行卡号等等;此外是同业竞争对手的信息,例如:广告预算、推广计划、货源成本、骨干员工等。但是,管理员要与时俱进,及时发现和预测新的蛛丝马迹,比如:公司即将上市或者已经上市过后,公司会成为数据窃取者的靶子,公司的经营规模、发展趋势、决策动向都会变得非常的敏感.....


·            技术方案    


    马克思曾说过:资本如果有百分之五十的利润,它就会铤而走险;如果有百分之百的利润,它就敢践踏人间一切法律;如果有百分之三百的利润,它就敢犯下任何罪行,甚至被绞死的危险。


    

    保障随时可能溃坝的数据仓库大堤的安全,仅仅有价值观是远远不够的,还需要有技术手段来发现和堵住蚁穴。


    由于数据仓库技术架构以及数据、业务规模不同,公司发展阶段及人力物力不同会有不同的方案。总体上希望能做到事前能预知、事中能控制、事后能追溯。具体体现在系统功能上有如下诉求:


·         数据资产管理系统


    将数据资产单元化,使之能够被结构化、系统化的地管理,每个数据单元有数据价值打分,数据敏感打分,安全等级打分。


    

    用直观的方式监控数据资源的分布及其使用情况,如数据资源地图等。


·         数据权限管理系统


    能精确控制数据单元的读写权限,能及时便捷地授权或收回授权。权限系统的难点不是技术实现方案,而是如何平衡效率与安全的矛盾。如果权限控制的太死,数据曝光度不够,数据很难遇到伯乐,数据价值实现机会大打折扣。如果控制的太宽松,数据安全风险就会增大。需要结合数据价值与风险,设计一个灵活的权限模型。


·         安全审计系统   


    

    安全审计系统关键是要发现异常的数据查询、导出行为,将灾害阻止在院墙之内,例如业务无关人员的数据访问,大量的数据下载等。另外,如果有一定的智能,发现此前未出现过的数据窃取行为模式,那就更棒了。


    

    安全审计系统要有一个的异常行为报备功能,为特殊业务需要开通绿色通道,以免影响日常业务。

         

    综上所述,数据仓库的数据安全治理已经迫在眉睫,数据安全治理是个系统工程,需要从管理上、系统上多方面发力。同时,不要因为担心数据安全问题,给数据应用设置太多的障碍,这就违背了数据仓库的初衷了。

 

【嘉年华推荐】

 

    目前嘉年华订户已逾万,但这两天订户增长乏力 T^T ,明显低于此前的增长速度,虽然对数字不是太在意,但还是想玩一把好玩儿的东西。于是乎,一拍脑袋决定发起一个微信任务,请自由领取:

    

    这个微信任务就是,希望亲能吸引至少一位朋友/同学/老师来关注本账号,阿里技术嘉年华目前有好几个文章优质内容系列(回复m可以查看文章归类),绝对是微信公众账号里面最有价值的账号之一。

    

    任务验证方式:


        吸引了一位朋友来关注,请回复ok1,两位请回复ok2,依此类推,凡是吸引达三位以上的同学。会有如下礼品相送:

    

    1、在回复m返回的菜单,会显示你的微信名称的特别感谢

    2、随机赠送公仔、纪念t恤、作者签名书籍等。


    

    

    祝玩得开心:)


--

微信名称:阿里技术嘉年华

微信号:alibabatech

简介:传播原创高质量的技术内容

你可能感兴趣的:(数据仓库)