《数据治理与数据安全》读书笔记(上)

此文是人民邮电出版社出版的《数据治理与安全》一书的读后笔记。

1、前言
首先,数据治理的定义是什么?书中选取了在《数据治理白皮书》中的定义:数据是资产,通过服务产生价值。数据治理主要是在数据产生价值的过程中,治理团队对其做出的评价、指导、控制。但是作者认为无论是在国内还是国外,在提到数据治理的问题时都基本指代的是企业行为,普遍存在一个政府和个人角色缺失的问题。但是实际上政府在数据治理中能够发挥更主动的作用。因为政府可以做许多企业无法做到的事情,比如说立法,政府也可以推动政务数据开放共享、建立完善的数据权责体系等。并且个人也应该积极参与数据治理。由于政府和企业收集的信息中有相当大的部分是个人信息和数据,而近年来泄露、滥用和非法买卖个人信息的现象十分严重,给部分民众造成了巨大的经济损失和精神伤害。所以,个人也可以通过积极保护个人信息和维护个人权益参与数据治理。综上所述,笔者给出了一个比较完善的定义,从宏观层面看,数据治理是指政府等公共机构、企业等私营机构以及个人,为了最大程度地挖掘和释放数据价值,推动数据安全、有序流动而采取政策、法律、标准、技术等一系列措施的过程,从微观层面看,数据治理是不同的机构对各种各样的元数据进行处理和分析的过程。
《数据治理与数据安全》读书笔记(上)_第1张图片

2、数据治理的缺失:
大数据时代,人们关注的焦点是如何发挥数据的价值,却鲜有人关注数据质量这个最根本的问题。实际上,大数据处理的关键是解决数据质量问题。《大数据资产:聪明的企业怎样致胜于数据治理》这本书的作者曾提到:“如果基本数据不可靠,大多数企业的大数据计划要么会失败,要么效果会低于预期。造成上述结果的关键原因在于,数据生命周期之中流入了不一致、不准确、不可靠的数据。”比如说我们大家都做过大一年度计划,我们在年度计划的时候需要用问卷的方式来收集数据,但是很有可能我们收到的300份问卷里,有一百多份都是可能没看问题随便填写的,但是确很少有人对问卷进行二次筛选,好像都默认收回来的问卷的数据都是可以用的,那基于这种数据做出来的结论也会是偏离正确的值的,企业也是这样,糟糕的数据质量常常意味着糟糕的业务决策,将直接导致数据统计分析不准确、高层领导难以决策等问题。约束河水,拓展人类的生存空间;今人做数据集成融合是为了挖掘数据价值,拓展企业的生存空间。文章提到,现在的数据集成融合就和古人筑堤坝一样:古人提出在修筑大堤前,黄河”左右游荡,宽缓而不迫”;筑堤后河道变窄,发生洪水时泄流不畅,常决口为患。如今的企业在信息化初期,各类业务系统恣意生长,这个阶段就像修筑大堤前的黄河虽然有问题,但是不明显。后来,企业业务需求增长,需要按照统一的架构和标准把各类数据集成起来,这个阶段就像筑堤束水之后的黄河,各种问题扑面而来。古人治理黄河水患,主要有两种方式,一种是“疏通”,另一种是“围堵”。数据质量治理也可以借鉴古人“疏”与“堵”的智慧和考量。“疏”就是开展顶层设计,制定统一数据架构、数据标准,设计数据质量的管理机制,建立相应的组织架构和管理制度,采用分类处理的方式持续提升数据质量。“堵”就是依赖技术手段,通过增加数据清洗处理逻辑的复杂度,使用数据质量工具来发现数据处理中的问题。

数据不同于石油等传统资源,他的价值要在流动之中才能体现出来。无论各种主体以何种方式开展数据治理,其核心都是要推动数据自由安全地流动,以便最大程度地挖掘和释放数据价值。而要实现数据流动,国内层面的抓手是推动数据开放共享,国际层面便是实现数据跨境流动。从当前的情形来看,阻碍数据顺畅流动的最主要因素是数据安全问题,目前国际社会主要聚焦于个人数据,即个人信息保护。书中接下来就分别对数据开放共享、数据跨境流通、数据安全问题来进行展开描述。

3、数据开放共享:
一般提到数据开放共享,广义上包括政府与企业之间的数据开放共享,以及企业和企业之间的数据开放共享。我国政府目前已经发布了相当多推动促进数据开放共享的文件,例如2015年9月5日,国务院就发布了《关于印发促进大数据发展行动纲要的通知》,数据开放共享适用于各个领域。在政务数据建设方面,国家正在加快推动 构建统一高效、互联互通、安全可靠的国家数据资源体系,初步建成统- -数据开放共享交换平台。政府数据开放共享交换平台的运行,使市级以下各级政府部门及其工作人员直接登录就可以获取国家、省(市)发布的政务信息资源。该平台能够支持本单位政务业务的“无孤岛化”运行,进而为行政权力“一体化”“一站式”网上运行创造了条件,使“让数据跑路,不让群众跑腿”“零距离办事”成为可能。该平台包括“网上政务服务大厅、网站集约化、三大基础环境、行政权力网络运行系统、法制监督系统、综合电子监察系统、政务数据开放、公共服务网上办理”等十大建设任务,便民利民。
政府数据开放共享不足、产业基础薄弱、缺乏顶层设计和统筹规划、法律法规建设滞后、创新应用领域不广等问题。提出应该大力推进国家人口基础信息库、法人单位信息资源库、自然资源和空间地理基础信息库等国家基础数据资源,加快各地区、各部门、各有关企事业单位及社会组织信用信息系统的互联互通和信息共享,丰富面向公众的信用信息服务等方面的建设。
数据共享的主要方式一共有三种:1.数据开放:主要是指一些非敏感、不涉及到个人隐私的政府数据面对公众开放。比如说我国首个政府数据服务网站上海市政府数据服务网,个人用户只要完成网站注册就可以从该网站上下载数据。2.数据交换:主要是政府部门之间、政府与企业之间通过签署协议或合作等方式开展的非盈利性数据开放共享,比如说早在2014年中国气象局公共气象服务中心就和阿里云达成战略合作,使用双方所拥有的数据来共同搭建“中国气象专业服务云”。3、第三种数据共享方法是数据交易。就是对数据进行明码标价的买卖。基于大数据交易所的交易模式,是目前我国大数据交易的主要方式,典型代表有贵阳大数据交易所,长江大数据交易所等。
4、阻碍数据开放共享的因素
但是数据开放共享并非易事,目前有一系列的因素正在阻碍着共享的进行,作者总结为三点:无意愿、无胆量、无本领。无意愿是指并非所有人都能认识到数据的价值在于利用、流动,在于整合分析挖掘。他们往往将数据束之高阁,不加任何开发和利用。另外有些人虽然是非常了解数据的价值,但是存在着将数据作为利益、权力或者私有财产独占的心理。数据割据的现象存在于政府部门之间。例如,我们每个公民的个体信息分别掌握在工商部门、银行、保险、公安、医院、社保、运营商等不同的机构手里,但真要打通和融合各个部门掌握的数据却是很困难的事情。这种割据还存在于企业之间,我国互联网巨头都掌握了海量的数据,像百度、腾讯、阿里巴巴三大互联网公司分别掌握了搜索、社交和消费数据。如果三方数据能汇聚在一起,就可拼凑出一个完整的互联网数据图谱,但事实往往是互联网企业之间的竞争多于合作。第二点是无胆量共享:无胆量一方面是对数据泄漏等安全事件的恐惧,很多政府部广门和大型互联网企业在数据开放共享中都心存忧虑,担心因数据泄露或遭黑客攻击而带来严重后果,不敢推动数据开放共享进程。另一方面是出于对数据伦理的考虑,个性化推荐系统的算法本身是没有什么偏见可言的,无非是根据你以前的购买记录,来预测你最可能购买的东西,然后给你推荐。我们电商网站上看到的“猜你喜欢”等推荐栏和收到的各种优惠券,都是通过个性化推荐算法得到的。如果你是一个穷人,以前买过的东西都是相应品类中单价最低的,那么,在系统画像里一个名为“价格敏感程度”的维度中,你的分数就会非常高。
于是乎,当你搜索一个关键词后,从前到后翻十页,你看到的都是为囊中羞涩的人量身定做的便宜货。如果说LV的店门上挂一个横幅,说“穷人与狗不得入内”,那肯定会被砸了——这是非常严重的偏见甚至歧视。但是在互联网上,数据和算法带来的偏见却很隐蔽。这种隐蔽的·偏见往往是被忽略的,如我们到一个陌生的城市,如何规划一条一日游的路线?再比如我们怎么在读书的时候就规划和选择自己的职业道路?我相信,高度发达的人工智能会充分考虑你的家庭、性别、民族、消费水平等等因素,给出“最适合你的选择”。

于是,穷人和富人会抵达城市中不同的角落、下载不同的课程、规划不同的人生。未来在数据的世界中,不同出身的人所获取到的信息差异,可能比现实世界的差异还大,也因此很可能形成截然不同的视野、格局和能力。这也是数据会带来的伦理问题的一部分。

第三点是无本领从技术角度看,当前数据难以开放共享的根本原因在于当前信息系统设计的理论体系有问题。当前设计各种信息系统的特点是数据及数据结构完全由设计人员自己决定,因此各信息系统中的数据完全是异构的,要实现信息系统之间的互联互通,必须通过转换数据结构的方式实现。从这个意义来说,很多数据主体不具备实现开放共享的技能,无法开放共享。
书中说到这里就结束了,没有说细化到金融数据共享的阻碍:查到的资料是除了比较常规的用户隐私权的问题,比较有特点的是:
1、银行的抵制银行的利益首当其冲。对银行来说,金融数据共享等于把自己最宝贵的资产拱手相让。在金融科技公司不断蚕食银行业务的大环境下,开放金融数据的直接后果是客户的流失和利润的减少,甚至会面临生存问题。PwC咨询公司在2016年的一个调查报告中指出,数据开放的大潮下,以居民为服务对象的银行和支付最有可能受到影响。银行业估算他们将损失24%的业务。面对可能产生的严峻后果,很多银行抵制金融数据共享。而且很多银行都有类似的疑虑,金融科技公司享受大多数据共享的好处,银行为何需要承担与之相关的费用;加上基于用户隐私安全考虑,很多银行认为不应该冒然推进金融数据共享变革。
如何通过设置合理有效的机制,平衡银行的利益 ,打消其顾虑并调动其积极性,是金融数据共享通往成功路上最大的障碍。
2、公平原则的维护:共享金融数据目的在于打破不公平的数据壁垒。可是在打破旧的不公平后,如果处理不当,有可能引发新的不公平。譬如在推进金融数据共享中,金融科技公司是受益方,而数据接口的技术开发由银行来承担,如何创造机制打破这种责任和利益不匹配的不公平;再譬如金融科技公司在使用共享金融数据给客户提供金融服务的时候,是否也和银行一样受到同样的法律法规监管?
5、基于数据开放共享的治理策略:
(1)提升各方对数据开放共享的认识:
大数据对各行各业的影响是深远的,政府、企业应该通过各种宣传方式,让我们社会的每个组织、每个机构甚至每个公民都了解大数据的价值,了解数据顺畅流动的价值以及数据开放共享的价值。比如说像腾讯云举办的“洞见数据价值之道——腾讯大数据开放日”的活动,阿里巴巴举办的阿里数据开放日活动等类似的宣传活动都可以提升大家对数据价值的认识
(2)构建安全框架,确保数据安全地开放共享
数据安全开放共享的总体目标是在数据开放共享过程中保障数据的完整性、保密性和可用性,防止数据丢失、被篡改、假冒、泄露和窃取。这需要加强政策、法律、管理制度、标准规范和技术体系的统筹协调。在此提出构建完整的数据开放共享安全框架,如图所示。框架分为四个层次,从上到下依次为法律法规、安全管理制度、标准体系以及安全技术。
《数据治理与数据安全》读书笔记(上)_第2张图片
更多 机器学习、投资管理 相关的内容,均收录在微信公众号 HI投量化俱乐部
《数据治理与数据安全》读书笔记(上)_第3张图片

你可能感兴趣的:(笔记,big,data,python,人工智能)