引⼦
2018年8月28日，网传华住旗下多个连锁酒店开房信息数据遭泄露售卖。泄露的数据包含汉庭、美爵、禧玥、漫心、诺富特、美居、CitiGo、桔子等酒店用户详细信息。涉及53G华住官网注册资料，大约1.23亿条记录；22.3G酒店入住登记资料，约1.3亿人身份证信息；66.2G酒店开房记录，约2.4亿条。随后华住集团发布申明已开始核实事件真实性，并已报警处理。

数据之于大数据项目就犹如泉水之于锦鲤，其重要性不言而喻，必然是企业极力保护的核心资产之一。那大数据安全又是什么呢？是确保数据在收集、传输、处理和存储时的安全？那这个常见的数据安全又有何异同？是说通过大数据分析来提高企业安全？但这更像是大数据在安全领域的运用。

没关系，我们先不急着下定义，让我们先从几个不同的方面来感受下大数据安全的轮廓。

大数据语境下都有哪些安全问题？

（1）新工具带来新的安全风险

大数据用到多种新工具，这些新工具在诞生之初并没有把安全作为第一要素进行考虑，因此是存在安全隐患的，而工具在被大规模运用后这些安全隐患会逐步凸显出来。以MangoDB为例，它假设自己运行在企业内网环境中，且假设内网环境是安全可靠的，因此MangoDB默认情况下无需身份验证即可登录。有类似问题的还有Redis的早期版本。可想而知，如果这样毫不设防的数据库如果出现在了互联网上，势必会造成严重的安全问题。

在2016年底之后，出现了一波针对MangoDB的勒索攻击浪潮，黑客们发现互联网上有大量无需身份验证即可登录的MangoDB实例，其中一些数据库中还保存着大量高价值数据。于是黑客们把数据库中的数据进行了加密，并要求受害者支付赎金才能换回数据。美国某个医疗机构就是这么中招的，其存放了大量患者个人及医疗数据的MangoDB被黑客攻击，医院最终被迫无奈向黑客支付了赎金才换回了数据库的控制权，但谁知道在此期间攻击者有没有利用MangoDB的漏洞，以MangoDB为跳板进而已经入侵了企业内部网络呢？谁知道攻击者有没有把数据拖库，进而转卖给了第三方呢？

（2）数据污染

大数据系统收集的数据来自数量众多且类型各异的来源，并且对这些数据进行分析处理后生成更具价值的数据，或者基于对数据的分析处理来触发后续业务逻辑。这一点在运用了大数据的物联网系统中更为常见。由于物联网系统中部署了数量庞大的终端设备，各种各样的传感器、控制器都在产生数据并回传给数据平台做处理。

大数据系统中的数据流动路径就像是树根，每个根节点产生的数据都会对整棵树的生长产生影响。攻击者自然也明白这一点，破坏这些根节点就能破坏整个大数据系统的正常运行。例如，如果是大量破坏根节点使其不能生产数据，大数据系统将面临“巧妇难为无米之炊”的困境；如果是暗中替换或者篡改了某些根节点生产的数据，大数据系统的行为可能被攻击者操控；如果攻击者能够伪造根节点向大数据系统传递错误的，或者别有用心构造过的数据，那么大数据系统最终产出的数据价值可能大打折扣。

试想一下，某个养老院中实施监控老年人脉搏、心跳、血压等等数据，并基于对这些数据的分析处理而触发相应的警报、自动呼叫医护人员的系统，如果攻击者伪造数据制造出假警报，必将造成急救资源的浪费。而如果攻击者能够篡改心跳数据，当受害者心脏病突然发作时，系统可能无法监控到异常从而无法做出回应，受害者的人身安全必然受到严重威胁。

（3）个人隐私面临更多的风险

匿名化处理后的数据，在配合上其他维度的数据后，依然可以识别出用户身份。例如就算把数据记录中的姓名、身份证号等能够直接识别出某个个体的信息隐去，但如果有其他维度的带有个体标识信息的数据集合做参考，那么依然能识别出这些匿名化的数据记录多对应的个体。

现实中的例子有很多，比如Netflix对数据做了匿名化处理，但这些数据中的用户依然可以被识别出来，因为其中一些用户同时在Netflix和IMDB上给相同的电影做了评分，故而只需把这些数据关联起来就能达到识别用户的目的。

（4）存储大数据处理后的高价值数据的应用系统，其本身就是被攻击的目标

大数据所收集的原始数据往往单位价值密度低，但经过大数据处理后能够提取出这些数据中高价值的部分。这些经过处理后的数据除了可用于触发后续业务逻辑，也是辅助企业进行业务决策的重要输入。与此同时也是攻击者们天然感兴趣，千方百计想要获取到的数据。

从攻击者的角度来看，这些存储着高价值数据的系统其本质上不外乎也是个应用程序，如果能攻破这些应用程序进而拿到数据，相比于攻击者自己收集原始数据再处理而言要划算得多。

再加上大多数企业在防御攻击这件事上面主要依靠的是基于网络隔离的防御方式，意味着应用程序本身的安全质量极可能是靠不住的，一旦攻击者侵入企业内网，这些存储着高价值数据的应用程序势必会变成任攻击者宰割的“羔羊”。

（5）防火防盗防内鬼

“防火防盗防内鬼”可不是随便说说的段子。无论是大数据系统中的巨量原始数据，还是经过处理后的高价值数据，它们不仅是外部攻击者眼中的肥肉，也可能被内鬼盯上。

永远不要低估了企业内部威胁，见诸报端的企业内鬼作案不在少数，就在1个多月前，特斯拉指控一名前员工泄露了特斯拉机密数据，声称该员工定期将特斯拉的数据输出给公司以外的人。明星独角兽企业出的事情更容易被传播报道出去，相信还有更多不为人知的案例已经或者正在发生，只不过不为公众所知而言。

什么是大数据安全?

通过以上几个维度来看，大数据安全显然不是指SIEM（Security Information & Events Management）这类系统。尽管SIEM描述的景象让人非常期待，企业可以利用大数据处理和分析来自各个IT基础设施、网络设备、业务系统中的数据，从而实时感知企业当前的安全态势，使得企业迅速的有针对性的采取处理措施消灭安全隐患于萌芽阶段成为可能，但这是大数据系统在安全领域中的运用，是“安全大数据”而不是“大数据安全”。

那它和传统的数据安全又有何不同？莫非是因为数据量大到一定规模了之后，量变产生了质变，因此变成了另一个东西？这个问题的答案既可以是肯定的也可以是否定的。

说它是肯定的，原因在于大数据系统要处理的数据体量庞大，大到传统数据处理方式、处理系统无能为力，只能用新的技术架构、新的工具才能完成这一任务，而对应的安全风险和防御举措也都发生了变化，因此确实和和传统数据安全有些不一样。

但也可以说是否定的，原因在于大数据系统本质上也是IT信息系统，传统数据安全的那些实践（例如数据加密、鉴权）在大数据环境下依然适用。

那当我们说“大数据安全”的时候，我们到底在讲什么？我想，至少我们在说大数据系统中的数据的安全。

数据是值钱的，这显而易见。进入到大数据时代后尤其如此。大数据安全必然最关心的也就是数据在整个系统中，从诞生到收集、清洗、存储、分析、消费、存档以及销毁这个生命周期中，其机密性、完整性和可用性不被破坏。

大数据处理和分析系统（也有人称之为大数据平台，下文统称“大数据系统”）中最重要的当然是数据，但与此同时，和数据共生的还有组成大数据系统的各个应用。数据在应用里诞生、流转、被消费，这些应用自身的安全性如何，在很大程度上将直接影响数据的安全性。因此，大数据安全也应该包含这些应用的安全。

光有数据和应用的大数据系统并不能真正发挥它的价值，直到大数据系统将分析处理后的高价值数据反馈给人的时候，在辅助企业做出业务甚至战略决策的时候，它的价值才被最大化。这也就意味着，人也是大数据系统中的重要参与者，一个有价值的大数据系统不应该只是一堆冷冰冰的机器上运行的成千上万个实例，处理着几个T的实时数据，然而却没有任何人使用的复杂分布式系统。

与此同时，人是容易犯错的，这是人的特性（好吧，你要说它是人的Bug也行）。既然人参与了大数据系统，那么确保人在这个复杂的系统中尽可能不犯错、少犯错就显得很有必要了。

至此我们分析得出了一个极简的关于大数据安全的模型，看上去这个模型似乎也太过于简单了，但有时候事情往往就是如此简单，并没有什么神秘的地方。

我们可以做些什么？有哪些实践？

虽然没有名单妙药能够既简单又高效的一键解决大数据安全所面对的各种挑战，不过大数据安全倒是可以从传统数据安全、企业安全等等传统安全实践中借鉴经验。

那我们到底应该做些什么呢？总的来说我们还是需要从上文中梳理出来的基建大数据安全模型入手，分门别类的开展一系列安全活动。

（1）确保数据安全

不管是“大数据”还是“小数据”，数据对企业而言始终是最有价值的资产。为确保大数据安全系统中的数据安全，传统数据安全领域里的安全实践完全可以复用。

一些典型的安全实践有：文件系统加密，从而避免数据泄露后攻击者能够直接拿到明文数据；面向业务透明的敏感字段加密；用户隐私数据脱敏后存储；数据异地备份；数据完整性校验等。

（2）加强系统安全

抽象来看，大数据系统不外乎也是IT系统，它依赖虚拟机或物理服务器、网络设备和各种软件应用，因此传统企业安全中关于主机、网络、应用相关的实践在大数据安全上下文里依然适用。

一些典型的安全实践有：IT基础设施物理安全控制、操作系统安全加固、应用补丁管理、主机入侵检测、网络入侵检测等等。每个企业的大数据系统架构各不一样，企业必然需要根据自己的实际情况从传统企业安全实践中挑选最适合自己的来使用。

（3）减少人因失误

有调查称至少半数以上的安全问题源自于人为失误，因为人总是易犯错的。先抛开这个调查中的数字是否准确的讨论，至少这是一个大家都能在自己周围感受到的普遍现象。

除了因为员工粗心大意造成安全问题之外，“内鬼作案”也是需要企业警惕的一大安全风险。

在这方面，企业需要做好特权账号管理、用户身份认证、基于角色的权限控制、资源从属关系校验、日志审计、员工安全意识建设等安全实践。

（4）抗拒数据诱惑：不该收集的数据别去碰

基于对大数据的分析可以产生出一些洞见，某些洞见可能具备巨大的商业价值。因此简单来讲，多收集数据有助于多产生洞见，或者产生更精准的洞见，从而产生更大规模的经济效应。

另一方面，手握数据可以给企业带来一种虚假的安全感：虽然我现在不知道这些数据该怎么使用，但未来可能会，所以还是先收集起来吧，毕竟数据在手天下我有。

正因如此，许多企业（尤其是国内企业）争先恐后、肆无忌惮的收集用户个人信息。

然而这种做法是把双刃剑，拥有数据确实是一种优势，但如果这些数据涉及用户个人隐私，持有这些数据的风险就会升高。数据越是敏感，被攻击者“盯上”的可能性就越高，数据遭到泄露的概率也在上升。

因此，从风险控制的角度讲，企业收集一些当前阶段暂且使用不上的涉及个人隐私的数据无疑是在给自己挖坑。更为值得采取的做法是，仅仅只是收集能够满足业务开展而所需的数据即可。因为不持有敏感数据，也就没有数据泄露风险。

One more thing. 以下免费赠送关于处理大数据安全挑战的通常性概括口诀：

该加密的加密，该脱敏的脱敏；
该签名的签名，该备份的备份；
该做身份认证的做认证；该做权限控制的做鉴权；
该搞意识培训的搞培训；不该收集的数据别去碰。

揭秘⼤数据安全