我理解的大数据安全

我理解的大数据安全_第1张图片


今天翻日志记录,翻出了2014年2月20日的一篇文章,2年多之后,文章中写的内容都逐步成了现实,我还是很有前瞻性的啊。

      我初次听说大数据,是来自一位叫做车品觉的阿里巴巴副总裁讲座,他讲了了一个有意思而生动的例子。他问了一个问题:当我们想要了解一枚1960年的1元真币到底价值多少,怎么评估。在听的人有人举手说上网查新闻,听“有专家估价”。另一些人说货币的价值不变,1元就是1元啊。车大师笑了,说如果是他,他会上淘宝搜索一下,在大数据的情况下,供需平衡,价格的总是不断地趋近于价值。我觉得这个理念蛮有意思,于是便记下来。

       我也想结合我所在的行业谈谈大数据安全领域。在此前我和一些国企、央企的技术同学聊过,在他们口中似乎大数据就是使用spark、mapReduce、noSQL;对于一些乙方公司而言,大数据就是各种复杂的解决方案和威胁情报,那是在非常偏技术领域。而在数据运用上,谈得并不多。

        车大师在分享时也提到,原先他只是跟别人谈数据,但是后来发现太普通,于是他干脆在数据前面加了一个大字称作大数据,后来这个名词竟然火了。其实大数据与传统BI的活没什么两样,大数据并不意味着一定是PB数量级别的数据在一起计算,也不一定涉及到复杂算法。在我的理解中,大数据就是全量、全景、全行业、所有情况。这里所谓的大是相对于统计学的抽样而言的。在计算机能力越来越强的大背景下,我们可以拿全量的样本来进行计算,对多维度数据进行串并,从而拿到更准确的结果。

        当计算能力不再是主要矛盾,我们改变自己原先固有的思维模式,需要对数据有一定敏感,能够了解到数据与数据之间的关系,理解黑产对于大数据的利用现状。在从前,黑产的主要困难在于如何获取数据,于是通常采用钓鱼、入侵等方式。而现在随着大数据的兴起,现在很多公司,都是为了获取他人数据而"免费"提供API服务。由于有了强烈的需求和充足的供应,对于数据的定价和流通其实在网上非常方便。譬如到农村送洗衣粉换手持身份证号都可以收缴很多老人用户敏感信息。相比于传统,并不需要复杂的技术都可以实现。

         在2011年之前,xss钓鱼、黑链SEO、垃圾广告是主要威胁。而近年我们发现黑产人们都不这么玩。从前搞xss钓鱼的那拨黑产,单点对单点地欺诈。近年开始纷纷采用CSRF实施水坑攻击。1个人,一台服务器即可影响千万人;从前全网扫弱口令的,近年开始纷纷采用撞库方式。黑客手上有全行业几十亿的社工库,把帐号输入库中,直接就能查出对应的明文密码。一个人一辈子所使用的3~4个密码,都在社工库里,不论怎么改终究逃脱不了黑客的掌控;从前发垃圾广告的,现在利用行业数据、越权漏洞行为数据进行精准营销。现在每天都有诈骗新闻发生,其实都是黑产对大数据的利用。

        在大数据攻击方面安全攻击方面已出现新的形式,也对防守方有了数据应用要求。防守方需要数据,来说明事情的重要性,以及自身优化程度。无法衡量就无法改进。如果没有数据,一个团队最基本的评估自身好坏的能力都没有,也就只能像无头苍蝇一样到处乱撞。安全团队会陷入“没有发生安全事件的时候,安全相比业务成长成为最低优先级;出现安全事件后,安全就是背黑锅的时候”的窘迫。安全团队如果不知道全量域名、全量IP、全量应用的话,受攻击面无限大,也很难做好安全防护工作。在公司中也不好衡量安全团队的价值。

       反而言之,如果数据充足,安全团队可以准确刻画价值。随着安全基础数据的完善,安全团队除了可以正确评价自身发展以外,还可以推动虚拟团队的建立,促进业务发展:我们能够知道来自全球哪一个国家的攻击向量都有多少;来自全球的流量指标监控出现异常的时候,能够第一时间知道。并在短时间内作出响应。虚拟团队本身是一个松散的组织,只有清晰的目标和定期的数据刻画,能看得到进步和进展,才能维持好虚拟团队的运营。

      更进一步,如果我们有全量的行为日志监控,我们可以利用日志重放功能还原出历史安全事件每一个细节,我们可以超越时空,身临其境地感受。我们可以穿越历史与未来,跨部门、跨事业部、跨行业地还原事实,将业务与技术深度串联,回溯。

        安全体验会成为未来三年的重点需求,能够刻画抽象的安全感。此前安全事件通常会被人理解小概率事件,黑天鹅事件。但是如果我们的数据足够全面,即使是十万分之一的概率。放眼世界全量样本,安全事件其实天天都在海量地发生,"小概率事件"即"必然事件"。

      利用全量数据,我们可以将一些人们之前认为“虚”、"不确定"、"不可控"的东西准确刻画,进而更好地改进程度与重点方向。如果数据及维度充足,我们可以以更高的维度衡量一个公司的风险率与资损率,数据从十万级到百万级的细微差别可以凸显。

你可能感兴趣的:(我理解的大数据安全)