读《大数据白皮书》笔记

正处在疫情期间,我2.3返京,2.16有一位室友返京,2.17返京隔离满14天。
可2.16晚上收到工行新防疫要求:凡合租的员工,以所有室友中最后的返京时间算起,隔离14天才能上班。我只能继续隔离。
这几天在家看大数据相关的政策和报告,着重看了中国信息通信研究院发布2014、2016、2018、2019四版的《大数据白皮书》
从三个方面记录记录

一、发展状况

1.政策

国际:
大数据战略持续拓展
从2010年开始,欧美和日本等发达国家陆续发布一系列政策支持和引导大数据发展

国内:
自 2014 年以来,我国国家大数据战略的谋篇布局经历了四个不同阶段。
预热阶段:2014 年 3 月,“大数据”一词首次写入政府工作报告。
起步阶段:2015 年 8 月 31 日,国务院正式印发了《促进大 数据发展行动纲要》(国发〔2015〕50 号),对包括大数据产业在内的大数据整体发展作出了部署,体现出国家层面对大数据发展的 顶层设计和统筹布局。
落地阶段:2016 年 12 月,工信部发布《大数据产业发展规划(2016-2020 年)》, 为大数据产业发展奠定了重要的基础。
深化阶段:2017 年 10 月,党的十九 大报告中提出推动大数据与实体经济深度融合,为大数据产业的未来发展指明方向。
截至 2019 年 5 月, 共有 14 个省级地方成立了专门的大数据主管机构。

2.技术

大数据底层技术逐渐成熟
形成以Hadoop为基础的分布式框架,Apache Spark取代MapReduce成为批处理方面计算框架的事实标准,Apache Flink、Kafka Streams、Spark Structured Streaming 奠定了实时的流处理基础框架。
大数据技术产品不断分层细化,在开源社区形成了丰富的技术栈,覆盖存储、计算、分析、集成、管理、运维等各个方 面。目前大数据相关开源项目已达上百个。
融合成为大数据技术发展的重要特征
(一)算力融合:当前,以 CPU 为调度核心,协同 GPU、FPGA、ASIC 及各类用 于 AI 加速“xPU”的异构算力平台成为行业热点解决方案,以 GPU 为代表的计算加速单元能够极大提升新业务计算效率。今年 9 月,腾 讯云发布了两款异构计算产品,包括搭载 Xilinx 数据中心加速卡 Alveo U200 的 FPGA 实例 FX4,以及采用 NVIDIA T4 的 GPU 实例 GN7。华为公司计划在今年年底推出 Fusion Insight B160 数据智能模 型发布一体化解决方案,内置 Kunpeng920+Atlas300C 芯片,为 AI 模型发布提供强劲算力。
(二)流批融合:近年来出现的 Apache Flink,则使用了流处理 的思想来实现批处理,很好地实现了流批融合的计算,国内包括阿里、腾讯、百度、字节跳动,国外包括 Uber、Lyft、Netflix 等公司都是Flink 的使用者。
(三)TA 融合:混合事务/分析支撑即时决策
现阶段主流的实现方案主要有三种:一是基于传统的行存关系型数据库(类似 MySQL)实现事务特性,并在此基础上通过引入计算引擎来增加复杂查询的能力;二是在行存数据库(如 Postgres-XC 版 本)的基础上增加列存的功能,来实现分析类业务的需求;三是基于 列存为主的分析型数据库(如 Greenplum),增加行存等功能优化, 提供事务的支持。
(四)模块融合:一站式数据能力复用平台
“企业级数据能力复用平台”是一 个由多种工具和能力组合而成的数据应用引擎、数据价值化的加工厂, 来连接下层的数据和上层的数据应用团队,从而形成敏捷的数据驱动 精细化运营的模式。阿里巴巴提出的“中台”概念和华为公司提出的 “数据基础设施”概念都是模块融合趋势的印证。
(五)云数融合:云化趋势降低技术使用门槛
越来越多的大数据产品从设计之初就遵循了云原生的概念 进行开发,生于云长于云,更适合云上生态。
向云化解决方案演进的最大优点是用户不用再操心如何维护底 层的硬件和网络,能够更专注于数据和业务逻辑,在很大程度上降低 了大数据技术的学习成本和使用门槛。
(六)数智融合:数据与智能多方位深度整合
智能的平台:Databricks 为数据科学家提供一站式的分析平台 Data Science Workspace,Cloudera 也推出了相应的分析平台 Cloudera Data Science Workbench。2019 年底,阿里巴巴 基于 Flink 开源了机器学习算法平台 Alink,并已在阿里巴巴搜索、推 荐、广告等核心实时在线业务中有广泛实践。
智能的数据治理:AI 智能数据治理,是通过 智能化的数据治理使数据变得智能:通过智能元数据感知和敏感数据自动识别,对数据自动分级分类,形成全局统一的数据视图。通过智 能化的数据清洗和关联分析,把关数据质量,建立数据血缘关系。数据能够自动具备类型、级别、血缘等标签,在降低数据治理复杂性和成本的同时,得到智能的数据。

3.产业

国际权威机构 Statista 在 2019 年 8 月发布的报告显示,预计到 2020 年,全球大数据市场的收入规模将达到 560 亿美元,较 2018 年 的预期水平增长约 33.33%,较 2016 年(280亿美元)的市场收入规模翻一倍。在 2018-2020 年的预测期内,大数据市场整体的收入规模将保持每年约 70 亿美元的增长,复合年均增长率约为 15.33%。
大数据行业应用不断深化
大数据的应用从之前的互联网、营销、广告领域,逐步向工 业、政务、电信、交通、金融、医疗、教育等领域广泛渗透

二、存在问题

1.数据确权困难
在数据权利主体以及权力分配上存在诸多争议。
2.数据估值困难
常用的数据资产估值方法主要有成本法、收益法和市场法三类。
3.数据交易市场尚未成熟
4.数据安全管理仍然薄弱,个人信息保护面临新威胁与新风险。

三、展望

技术方面,随着 5G、工业互联网的深入发展,将带来更大的“数据洪流”,这就为大数据的存储、分析、管理带来更大的挑战,牵引大数据技术再上新的台阶。 硬件与软件的融合、数据与智能的融合将带动大数据技术向异构多模、 超大容量、超低时延等方向拓展。
应用方面,大数据行业应用正在从消费端向生产端延伸,从感知 型应用向预测型、决策型应用发展。当前,互联网行业已经全面进入 “DT 时代”。未来几年,随着各地政务大数据平台和大型企业数据 中台的建成,将促进政务、民生与实体经济领域的大数据应用再上新 的台阶。
治理方面,随着国家数据安全法律制度的不断完善,各行业的数据治理也将深入推进。

参考:
大数据白皮书(2019)

你可能感兴趣的:(读《大数据白皮书》笔记)