互联网时代,大数据扮演着极为重要的角色;腾讯作为中国最大社交平台,具备最具权威、代表性的互联网大数据。数据平台部TDW作为公司级的海量数据存储和计算平台,集中了公司90%以上产品(近400款)的核心数据,覆盖全部BG,积累约4000个开发者,如何保障如此之多的用户安全合理地使用这么丰富珍贵的数据?本文将从数据生命周期(传输—>存储—>使用)角度揭密数平的数据安全体系如何为腾讯大数据保驾护航。
1 传输安全
所有数据通过tdbank自动采集接入,只要告诉TDBank数据在哪里,数据是什么,数据要怎么用,TDBank就会自动完成一整套的数据采集分拣和处理流程,无需人工干预, 缩短流程,降低风险。
针对敏感数据,在通道中设置加密,密钥由数据owner掌握,同时TDW支持运行加密数据的sql,数据在TDW中可用但不可见,犹如数据咖啡馆,既让数据流动碰撞发挥价值,又保护了数据安全。
2 系统安全
2.1 洋葱入侵检测
TDW所有机器在机器初始化后默认安装洋葱客户端,上报所有用户行为数据至洋葱服务端,并对行为分析、分类,针对对检测入侵行为链和对敏感操作进行有效监控、分析、告警。
2.2 铁将军管理
通过接入铁将军系统,建立帐号管理、权限管理及运维审计体系:
集中管理账户:实名制用户通过PIN+TOLKEN动态口令进行登录
帐号权限管理:Sudo权限管理
实名审计:实名审计操作行为及可回溯
3 存储安全
数据量大(volume)且类型繁多(Varity)是大数据的两大特征,这为数据应用带来了福音。同时,对于大数据存储来说,这是一项大的考验,如此大而全的数据我们如何保证数据的完整存储,不丢失,不删除?
3.1 多副本存储,防止数据丢失
热数据:3个副本存放在不同机架,任意2台机器故障不会丢数据
冷数据:采用Raid压缩(10数据块+4校验块,可容忍任意4块丢失)
自动修复:系统后台自动扫描,及时修复丢失或损坏的副本,业务无 感知
3.2 多层保护,防止数据删除
3.2.1 防 DB删除
对于database层的目录,在源码中进行保护,设置目录删除黑名单,要删除database或者目录,需要更改源码,并且重启服务
防止drop database操作:在TDW中drop database会失败
防止在文件系统中删除目录:在文件系统中,直接删除目录会失败
3.2.2 防table删除
设置回收站,延迟删除
数据并不会被立刻删除,而是移入回收站
数据会在回收站保存大于48小时,大数据需手工确认之后被真正删除
节点延迟删除
先将元数据删除,数据block块延迟一天删除
通过元数据冷备,可以恢复数据
4 使用安全
TDW中数据的产品线众多,用户也来源于各个不同的产品,自然而然,数据共享的需求日益增多,那么如何做到数据共享的同时保障数据安全可控呢?下面将从数据使用这个动作的三个要素(who, what,where)来说明如何保障数据的使用安全。
4.1 who --谁可以使用
平台秉承开放的心态,拥抱公司内部所有用户。但鉴于安全考虑,平台各子系统均对用户身份进行双重验证,通过认证的用户方可使用平台。此外,经过各系统严谨的鉴权校验后,方能真正触达目标数据。
同时,账户实行个人实名精细化管理,保证系统内所有操作记录均可追踪到个人。
4.2 what—可以使用什么数据
不同的用户对数据需求不同,用户按需申请使用权限。其中,不同级别数据权限流程不同,不同类别数据的权限类型不同。
数据分级管理:数据根据不同的敏感度分级管理,不同级别的数据权限需走不同的申请通道,部分敏感数据权限需由部门最高领导人进行审批。
数据分类管理:对于入库层数据,只开放只读权限,防止源数据被污染,保持数据源的完整性。
4.3 where –- 在哪里使用
非tdw系统的ip不能直接访问。
IP白名单控制:只有指定安全IP方可访问数据库,白名单ip都是我们自己的。
平台内流转:数据控制在TDW平台内流转,不流出;
导出申请:如有特殊导出需求,需申请,由上级确认;
4.4 how — 审计用户如何使用
平台提供用户全流程操作记录审计功能,用户拥有哪些权限,使用哪些表,什么时间,在哪个系统进行了什么操作均有迹可循。
权限开放审计:权限系统提供权限开放审计功能,供数据owner审计 名下数据权限开放情况,权限管理透明化;针对高敏感表,权限开放实时监控。
使用情况审计: 构建统一操作流水查询系统,各系统的操作流水永久保存;其中针对敏感数据,每日定期统计使用情况,供管理员每日审计。
内部人员审计: 在机器上所有操作都会上报到到审计系统; 对敏感操作实时审计,邮件上级及本人确认。