大数据已被视为国家基础性战略资源,各行各业的大数据应用正迅猛发展,但随之而来的数据安全问题也日益加剧,有时甚至限制了大数据应用的发展。基于此,无论是国家机关还是企事业单位,都在加紧数据安全体系的建设,甚至项目立项时就需要完成数据安全的设计。
2020年5月27日,腾讯安全正式发布了企业级数据安全能力图谱,图谱中将数据安全能力分为四层六大模块,为使各企事业单位能够更好的理解和运用图谱,腾讯安全专家咨询中心联合腾讯安全内部核心部门,对当今重点的数据安全问题进行梳理,对国内近年来颁布的法律法规进行收集研究,对数据安全体系建设的思路进行归纳总结,最终形成本白皮书。
关注腾讯安全(公众号:TXAQ2019)
回复数据安全白皮书获取PDF版白皮书内容
以下是《腾讯数据安全解决方案白皮书》全文:
第1章 导读
1.1 背景
近年来数据安全事件频出,尤其个人隐私信息保护是行业关注的热点话题,GDPR法案的推出进一步推动了全球数据安全相关的法规和标准的建立和完善,企业的数据安全合规压力陡增,多数企业把数据安全摆在了整个信息安全体系提升的最重要的位置。然而,数据安全牵扯信息化各个层面的问题,在企业探究构建完善的数据安全体系时发现:数据安全体系建设是一项体系化工程,而非简单的技术工具运用,它是个复杂的大工程,从信息安全部门无法推动,尤其是一些IT建设有诸多历史问题的企业,达到法规和标准的合规要求,甚至要考虑信息系统的重构。当前,摆在企业信息安全管理者面前的问题是:如何平衡合规压力和无法改造的复杂业务和信息系统。企业应该构建哪些必备的模块化的数据安全能力,数据安全体系如何分阶段建设。
本白皮书基于数据安全能力图谱,通过客观、全面的对数据安全问题进行剖析,结合腾讯安全实践经验,提出数据安全建设思路和方法,旨在帮助企事业单位了解数据安全领域现状,理清数据安全体系建设思路。
1.2 国内法律法规现状
数据保护越来越成为各国关注的焦点,目前我国法律法规的核心是监管和规范企业或个人对于数据的相关行为,以防止滥用数据,以及监管跨境数据转移等内容,重点保障国家、企业、个人的利益。
1)个人信息保护相关的法律法规
《民法典》:第四篇第六章针对隐私权和个人信息保护做出了规定。今后除了严重侵犯公民人身权利、财产权利的重大违法犯罪行为应当依照《刑法》承担刑事责任(可以附带提起民事诉讼)外,对于一般的侵害个人信息权的侵权行为,任何自然人或组织均可以从侵权法的角度进行维权,以个人信息权被侵犯为由提起民事诉讼。
《刑法》:2009年的《刑法修正案七》、2015年的《刑法修正案九》明确了任何单位、组织、个人违反有关规定,出售或向他人提供公民个人信息,情节严重的,都将构成犯罪。在2017年的《刑法修正案九司法解释》中,明确了公民个人信息的范围包括身份识别信息和活动情况信息,细化了非法获取、提供公民个人信息的认定标准,对侵犯公民个人信息犯罪的定罪量刑标准和有关法律适用问题作了全面、系统的规定,为司法实践中开展公民个人信息保护提供了强有力的支撑。
《网络安全法》第四十条至第四十五条,对个人信息保护做出有关规定,明确了我国个人信息保护的基本原则和框架,网络运营者保护用户信息的义务,要求网络运营者对其收集的用户信息严格保密,建立健全的用户信息保护制度。
此外,各行业主管单位也开始高度重视个人信息的保护工作,出台专门的个人信息保护法律法规。工业和信息化部于2013年出台了《电信和互联网用户个人信息保护规定》(《电信规定》) ,对违反规定的行为应当承担的法律责任进行说明。2014年开始实施的《消费权益保护法》也在第二十九条中对个人信息保护做了明确规定。由国家互联网信息办公室发布,于2019年10月起实施的《儿童个人信息网络保护规定》明确了儿童信息保护的原则和框架。
2)数据安全法律法规
目前针对数据安全法律法规主要是《网络安全法》,其中第十、十八、二十一、二十七、三十一、三十四、三十七、六十六条分别对网络服务中的数据安全保护做了规定,涉及数据安全原则、目标、措施、义务和责任。依据《网络安全法》,各部委也做出了一些相关的法规进行细化完善。目前有2020年的《网络安全审查办法》、2019年的《数据安全管理办法(征求意见稿)》、2018年的《网络安全等级保护条例(征求意见稿)》。
此外,已列入本届人大立法计划的《个人信息保护法》、《数据安全法》等法律将与《网络安全法》形成我国数据安全的法律体系。
1.3 腾讯持续发力数据安全领域
1)参与制定国家级、行业级规范
国内数据安全标准主要由全国信息安全标准化技术委员会(TC260)负责,围绕数据安全和个人信息保护两个方向,TC260已发布6项国家标准,在研标准10项。
在个人信息保护方向,腾讯参与了GB/T35273《个人信息安全规范》、《个人信息影响评估指南(报批稿)》、《个人信息安全工程指南(报批稿)》、《移动互联网应用(APP)收集个人信息基本规范(征求意见稿)》。同时,腾讯牵头了《个人信息告知同意指南》国家标准研究项目,目前该研究项目已转成国标,由电子四院负责。
在数据安全方向,腾讯参与了GB/T35274《大数据服务安全能力要求》、GB/T37973《大数据安全管理指南》、《电信领域大数据安全防护实现指南(草案)》。
此外,腾讯还牵头了行业标准《移动应用软件开发工具包(SDK)安全使用规范》,布局移动应用底层数据安全和个人信息保护。
2)数据安全生态建设
腾讯安全秉承“让数据遵规守序”的理念,以“协作共赢”的态度,联合生态伙伴,共同让“数据管理遵循法规,让数据流动遵守秩序”。腾讯安全会积极与各行业保持紧密的交流,不断提升生态的协作能力。
第2章 亟需解决的数据安全问题
我们收集和汇总了企业数据安全建设过程中遇到的问题,归纳下来,比较突出的有以下六个方面。
2.1 数据资产清册问题
数据资产清册问题主要体现在如下三个方面:
1)资产状况不清
到底拥有多少数据资产?数据资产的变化情况是怎么样?是否有不明资产和违规资产?实际资产与在册资产是否存在差异?差异情况如何?敏感数据有哪些?都存储在哪里?
2)访问状况不清
访问热度如何?有哪些静默资产?哪些是高频资产?敏感数据都在被谁访问?是否存在僵尸库?
3)权限状况不清
数据资产的权限变化情况是怎么样的?在某时段内是否发生了提权操作?都有哪些数据帐号?帐号都在被谁使用?帐号的权限是否与登记的有差异?是否有弱口令帐号?是否存在帐号权限过大、违规的情况?
以上三个方面的问题都是资产不清的具体问题。数据资产梳理是一个持续的过程,数据和业务是不断发生变化的,因此,需要借助自动化工具来开展数据资产管理工作。准确掌握数据资产状况,是开展数据安全体系建设的基础条件。
2.2 管理责任不清
目前国家施行的法律法规通常都会要求明确数据责任,通过加大惩罚力度,来提升数据安全防范意识,规避“数据资产无人管、数据资产随意用”的现象,数据资产责任不清主要体现在如下两个方面:
1)数据资产未认责
数据资产体量大,且使用复杂,贯穿整合业务流程,涉及多个部门和岗位的人员,数据的所有权,使用权,安全责任等无法清晰划分;同一资产涉及多个部门或团队使用,且使用频率和重要性无法量化,导致资产认责工作无法开展;
2)管理角色的职责边界模糊
数据安全管理角色包括数据资产管理员、数据库管理员、安全审计员、安全检测工程师、数据运维工程师、权限管理员等,一般情况下这些角色可能会由研发、运维、安全、运营人员来兼任,没有独立的团队或虚拟团队,导致权责不清,不利于整体提升数据安全防护能力。另外,一旦发生数据安全事件,很难开展追踪溯源工作。
2.3 制度不完善
1)制度规范未落实或难落实
制度规范是数据安全管理和安全技术落地的依据。在开展制度规范编写工作时,由于没有对现状进行充分的调研,管理制度规范与实际技术措施无法对应,导致数据安全体系无法落实。
2)缺少稽核手段
建立了一套切实可行的制度规范,进行了相关的贯彻与执行,但由于缺少稽核手段,安全管理部门无法及时掌握执行情况。数据安全管控措施无法按照管理制度体系要求严格执行。
2.4 数据交换管理混乱
随着数据应用的快速发展,企事业单位内部向外提供的功能越来越多(小程序、公众号、APP、Web等),数据会向外部、内部和合作伙伴进行交换共享,随着开放的接口越来越多,交换关系越来越复杂,若未将交换共享的方式和接口标准化,则会出现功能重复、调用复杂、多点登录等现象,运维人员和应用系统负责人的压力也会倍增,影响数据应用的发展。
2.5 安全技术措施零散
1)数据安全产品功能分散
现有的数据安全产品,大多都是单一数据安全功能,如:脱敏,加密,防泄密,企业部署了很多数据安全类产品,再加之企业数据分布也相对分散,导致各各网络区域各数据安全产品间无法形成有效联动和和整合机制,导致数据安全管控能力分散,无法形成统一数据安全管控体系。
2)安全能力孤岛
由于组织内部的应用会按照部门划分,数据安全能力的建设也会以部门为单位开展,没有形成整体的防御体系,造成安全短板,容易被不法人员利用。
另外一个维度是角色和职责不明确,IT各部门没有将安全责任进行清晰的划分,当发生数据安全事件时才考虑防护。即便是有主动建设的意愿,也是各自申请各自建设。
2.6 审计能力不足
通过对全栈日志的收集与分析,能够有效的制定安全规则,在大量的访问中自动发现违规和高危行为,降低了数据安全管理员的工作量和风险识别的难度,同时也提升了准确率。
但是,当遇到“心脏滴血”、APT这类攻击时,由于这种攻击是用真实的身份、合规的操作,做非法的事情,所以攻击的操作轨迹和规律很难被发现,加之这类攻击并没有触碰到现有的规则,导致安全攻击一直在发生,管理人员却一直不知道。
第3章 数据安全工作思路
3.1 工作目标
1)让数据流动遵守秩序
进入大数据时代后,各类数据将陆续开放,数据应用会越来越多,数据交叉共享会越来越复杂,在这种情况下一旦发生数据安全事件,影响范围是无法估量的。在复杂的数据流动情况下,更容易出现疏忽的地方,这给数据安全防护带来了具大的挑战。传统的方式是针对风险点采取管理手段或技术手段进行管控,相当于“头痛医头、脚痛医脚”的方式,但在复杂的数据流动场景下,单一的数据安全技术或产品是无法整体提升数据安全管控能力的,也无法适应数据应用场景的快速变化。因此,数据安全防护是一项体系化工程,需要联合生态的力量,在数据流动过程中建立秩序。只有数据在流动时遵守秩序,才能保证数据能够安全的使用,促进数据应用的发展。
2)防泄露、防篡改、防滥用
- 防泄露:数据被违规违法窃取,可能用于商业分析、诈骗、骚扰营销、倒卖等,造成数据主体和运营方的名誉损失或财产损失,甚至造成刑事案件的发生,因此,防止数据泄露是数据安全防护的重点。
- 防篡改:数据篡改一般发生在内部,由于利益的驱使,数据管理人员、运维人员、开发人员等具有较高权限且了解数据逻辑的人员对数据进行非正常修改,达到为他人或自己获利的目的,例如违章信息删除、摇号信息换人等等。如果没有很好的控制数据防篡改,则将会导致业务运转混乱,大大降低公信力。
- 防滥用:数据是企事业单位的核心资产,合理使用数据可以带来新的机遇。反之,如果没有严格的控制数据使用,使数据泛滥,将会降低数据价值,丧失竞争力,甚至会在生态中被淘汰。数据被滥用场景举例: a.项目的建设方或运营方在业主方不知情的情况下利用身份的便利条件分析数据; b.产品侧没有很好的做数据规划,导致数据使用场景过多、可接触到数据的节点过多。
3.2 总体思路
数据安全体系应具备数据资产管控能力、数据安全运营能力、数据业务安全管控能力、数据支撑环境安全管控能力、数据运维安全管控能力和数据安全感知能力六大能力,覆盖数据全生命周期及重要的数据场景。能力细分如下图所示:
第4章 数据安全能力建设
4.1 数据资产管理能力
数据资产梳理是提升数据资产管理能力的基础。如果在资产统计不完整、资产信息不准确的情况下开展数据安全防护,则会出现盲点,防护手段的价值不能充分发挥,甚至会影响安全方面人力、财力的决策。因此,在开展数据安全体系建设前,应先开展数据资产梳理工作。
传统的梳理方式以访谈为主,存在准确率低、人工投入大的弊端。借助静态扫描和协议解析技术,结合人工的方式,可有效提升效率和准确率。另外,在开展数据资产梳理过程中,还可以发现高频资产、静默资产、僵尸库等,使得数据资产的管理水平也得到提升。
4.2 数据安全运营能力
数据安全运营是近几年逐渐被重视起来的。传统的数据安全防护主要靠技术手段和管理制度进行约束,相对被动,很多制度也执行不起来,从业人员安全能力有限,一旦出现安全事件,响应速度和处理能力相对较弱。通过建立完善的数据安全运营体系,让专业的人做专业的事,让数据安全工作伴随业务持续进行,提供实时的安全保障,可有效提升安全管理能力和安全防护能力,应对随时可能发布和执行的法律法规。
4.3 数据业务安全管控能力
目前可用于数据安全管控的技术即成熟又全面,典型的有数据脱敏、数据加密、数据行为管控等等。由于数据安全需要与业务进行关联,甚至需要渗透到业务的流程中,数据安全类产品又相对独立,这种情况下的集成往往会对业务造成性能大幅下降、改造工作量大,还有重复建设、高运维成本、安全能力孤岛等现实问题,不利于数据安全体系的建设。因此,需要将数据安全技术进行融合,统一管理、统一调用,形成公共资源池,以服务的形式应用到数据生命周期的各个环节中去。
4.4 数据支撑环境安全管控能力
主要是对数据库本身和大数据组件进行安全加固,配合数据安全技术对数据资产进行访问控制,定期开展安全扫描和配置核查,确保数据资产的安全性和可用性。
4.5 数据运维安全管控能力
数据运维角色一般是指数据库管理员、数据运维工程师、开发人员等权限范围较为广泛的人员。目前曝出的众多数据泄露事件大多是由这类人员造成。另外,数据运维过程中不排除会出现误操作造成的数据损毁现象。因此,高权限人员应被重点关注。对于高权限人员可以从授权审批、违规识别与阻断、高危操作提示与阻断、数据遮蔽四个方面进行管控,并建立权限回收机制,支持静态授权和动态授权,管控粒度达到语句级。
4.6 数据安全感知能力
数据安全感知能力主要依靠监控与审计,核心价值是辅助决策、发现违规并调查取证、稽核制度规范和安全策略的执行情况。
监控和审计工作由数据安全管理员和工具平台组成,工具平台可以帮助数据安全管理员对大量的日志进行运算和汇总,并从中自动发现触碰规则的行为,数据安全管理员可以从日志信息中发现潜在的安全风险,不断完善和增加安全规则,使得本组织的数据安全防护能力不断提升。
监控和审计工具平台应具备日志信息采集、日志汇总与分析、规则识别、告警和可视化展现五个能力。
第5章 关键数据安全技术
5.1 敏感数据识别和脱敏技术
敏感数据识别技术可以从海量的数据中发现敏感数据,帮助组织建立系统的敏感数据分布视图,同时提供替换、位移、哈希处理、标记化以及保留格式加密等脱敏算法,有选择性地对敏感数据进行脱敏处理,以防止敏感数据在内部使用、外部共享等环节的泄露。
传统的敏感数据识别主要采取关键字、字典和正则表达式匹配等方式,自动化程度和准确率较低。随着人工智能和机器学习技术的引入,针对不同类别的敏感数据,机器学习技术可以实现大量数据的聚类分析,自动生成分类规则库,敏感数据自动化识别效率和准确率均大幅提升。
数据脱敏技术主要有三种。第一种是加密方法,通过加密算法对数据进行加密处理,起到保护的作用,但加密后数据会失去业务属性,不利于使用,这种方法适用于机密性要求高、不需要保持业务属性的场景;第二种是基于数据失真技术,例如随机干扰、乱序等不可逆算法。适用于群体信息统计或需要保持业务属性的场景;第三种是可逆的置换算法,通过位置变换、表映射、算法映射等方式,兼具可逆和保证业务属性的特征。
5.2 数据泄露防护技术
数据防泄漏技术是保障重要数据不会以违反安全策略规定的形式流出企业的一类数据安全防护手段。针对终端数据泄露和存储数据泄露风险,通常采用身份认证、进程监控、日志分析和安全审计等技术手段,监测和记录操作人员对重要数据的访问和操作情况,主动识别监控终端和存储中的敏感数据的使用和流动状况,对违规使用进行警告、阻断。针对网络数据泄露风险,通常采用网络流量分析、文档指纹、人工智能等技术,监控服务器、终端以及网络中动态传输的敏感数据,发现和阻止敏感数据通过网络泄露。
随着人工智能技术的大量应用,智能化识别、监控和阻断将会成为数据防泄漏技术发展的趋势。数据防泄露技术将实现用户行为分析与数据内容的智能识别相结合,实现数据的智能化分层、分级保护,并提供终端、网络、云端协同一体的敏感数据动态集中管控体系。
5.3 结构化数据库安全技术
结构化的数据安全技术主要是指数据库安全防护技术,可以分为事前风险评估、事中安全管控和事后分析追溯三类,其中事前风险评估主要采用数据库漏洞扫描技术,事中安全管控主要采用数据库防火墙、数据库加密、数据库脱敏技术,事后分析追溯主要是数据库审计和数据水印技术。
数据库防火墙:通过实时分析用户对数据库的访问行为,自动建立合法访问数据库的特征模型。同时,通过访问控制和虚拟补丁等防护手段,及时发现并阻断SQL注入攻击和违反安全策略的数据库访问请求。
数据库安全审计:通过监控数据库的多重状态和通信内容,评估数据库所面临的风险,并可通过日志进行事后追查取证。通过AI威胁智能识别,超越传统安全规则库的局限性,可实现对数据库未知风险的识别。
数据库加密:基于加密算法和合理的密钥管理,有选择性地加密敏感字段内容,保护数据库内敏感数据的安全。敏感数据以密文的形式存储,能保证即使在存储介质被窃取或数据文件被非法复制的情况下,敏感数据仍是安全的。并通过密码技术实现三权分立,避免数据库管理员密码泄漏带来的批量数据泄漏风险。
数据水印:数据库水印技术可为系统中的数据添加水印标记,这些水印标记与原数据格式相同,不会被察觉;在外泄过程中即便有部分数据丢失,也不会影响信息还原效果;当泄露数据被发现后,可根据数据中的水印查找泄露点,实现事后追责。
数据安全态势感知:通过与业务系统、数据资源系统、数据安全系统(数据库审计、数据库防火墙、数据加密、数据脱敏)进行日志对接,应用大数据分析技术对访问日志和管理日志进行集中分析,将多种日志信息归一化,从多个维度感知数据安全风险,集中展示数据资产安全态势。
5.4 大数据平台安全技术
目前开源大数据平台套件的安全机制不足表现为以下几个方面,一是在身份认证方面,开源大数据平台多采用简单机制和Kerberos机制。简单机制只能避免内部人员误操作。基于Kerberos的认证方式对于系统外部可以实现强安全认证,但其基于操作系统用户的认证机制无法支持各组件之间的身份认证。二是在访问控制方面,开源大数据平台各组件多采用不同的访问控制,包括基于权限、基于角色、基于标签和基于操作系统的访问控制。大数据场景下用户角色众多,用户需求复杂,在针对每个用户实现精细化、细粒度访问控制方面存在不足。三是安全审计方面,开源大数据平台组件众多,并且各自独立提供日志和审计记录,实现统一安全审计存在困难,需要借助日志审计平台从集群中各节点采集审计日志,进行集中存储、清洗和分析。四是在密钥管理方面,大数据环境下也需要实现数据在存储及传输时的加密保护,包括密钥的安全管理。
因此,应统一管理安全策略、安全审计、安全运维,解决目前开源大数据平台集中安全策略配置和管理繁杂的问题。身份认证方面,通过集中身份管理和单点登录等方式,简化认证机制;访问控制方面,通过统一管理角色和授权,降低集群管理的难度,通过基于角色或标签(结合数据分类分级标签)的访问控制策略,实现对数据访问的细粒度管控。加密和密钥管理方面,提供灵活的加密策略,实现对Hive、HBase的表或字段加密,同时要加强密钥的管理。
通过安全认证和授权机制,保障大数据平台各组件、进程、接口、节点间的安全;通过细粒度的访问控制,实现对数据访问的权限最小化管理;通过统一的安全审计,实现对平台用户所有操作行为的安全审计;通过运用数据加密技术,实现对数据在存储和传输时的安全。
通过构建统一的身份认证、访问控制、安全审计以及数据加密能力,进一步提升大数据平台整体安全性,保障平台数据可管可控。
5.5 同态加密和安全多方计算
为保障数据在合作时的机密性,可以采用同态加密和安全多方计算。
同态加密提供了一种对加密数据进行处理的功能,对经过同态加密的数据处理得到一个输出,将这一输出进行解密,其结果与未加密的原始数据得到的输出结果一致。同态加密尤其适合在大数据环境中应用,既能满足数据应用的需求,又能保护用户隐私不被泄露,是一种理想的解决方案。现有的同态加密方案由于占用资源过大且速度过慢导致无法广泛应用。
安全多方计算是解决一组互不信任的参与方之间在保护隐私的同时协同计算,确保输入的独立性,计算的正确性,保证自己的数据不会暴露给其他成员。安全多方计算的这一特点,对于大数据环境下的数据机密性保护具有独特的优势。
第6章 结束语
随着数据应用的快速发展,使数据孤岛被打破,各企事业单位都在积极寻找数据场景,谋求数据合作,一方面可以提升自身数据的价值,另一方面也可以利用合作伙伴的数据提升自身的生产力。数据应用的越广泛,数据安全工作越重要,数据一旦被泄露、篡改、滥用,影响的是整个合作生态。传统的数据安全防护以边界、旁路为主,在大数据时代,数据安全防护会向纵深、主路发展,将数据安全能力渗透到数据业务中,管控粒度不断细化。