2022年数据与分析有哪些新趋势?
今年数据和分析主要趋势:
1.激活多样性和活力使用自适应AI系统推动增长和创新同时应对全球市场的波动;
2.增强人员能力和决策以提供由业务模块化组件创建的丰富的、情境驱动的分析;
3.将信任制度化以大规模地实现数据和分析的价值。管理AI风险并实施跨分布式系统、边缘环境和新兴生态系统的互联治理。
现在应该根据关键数据和分析技术趋势对于业务优先事项的紧迫性和匹配性来监测、尝试或积极投资于这些趋势,以此预测、调整并扩大数据和分析战略的价值。2022年需要关注的数据分析趋势:
1、自适应AI系统
随着决策变得更具关联性、情境性和连续性,再造决策的重要性日益增加。企业可以通过自适应AI系统来做到这一点,它可以更迅速地适应变化提供更加快速灵活的决策。同时,构建和管理自适应AI系统需要采用AI工程实践。AI工程能够通过编排和优化应用来适应、抵御或吸收各种干扰因素,促进自适应系统的管理。
2、以数据为中心
在不考虑AI特有的数据管理问题的情况下试图解决AI问题。Sallam表示:“如果没有正确的数据,构建AI就会产生风险并且可能带来危险。”因此,正式规定使用以数据为中心的AI和以AI为中心的数据至关重要。在企业的数据管理战略中,它们能够更加系统地解决数据偏差、多样性和标记问题,包括在自动化数据整合和主动元数据管理中使用数据编织。”
3、元数据驱动的数据编织
数据编织通过元数据侦听、学习并行动,能为人员和系统标记和推荐行动,最终提高企业机构内部对数据的信任和使用,减少包括设计、部署和操作在内70%的各类数据管理任务。
4、始终数据共享
虽然数据和分析领导者经常承认数据共享是一项关键的数字化转型能力,但他们缺少专业的知识,因此无法怀着信任大规模地共享数据。顺利推动数据共享并增加对匹配业务案例的正确数据的访问,应开展跨业务和行业领域的合作,这将加快对增加预算授权和数据共享投资的支持。此外,还应考虑采用数据编织设计来实现跨不同类型内部和外部数据来源的统一数据共享架构。
5、情境丰富的分析
情境丰富的分析建立在图形技术的基础之上。关于用户情境和需求的信息被保存在图形中,以便利用数据点之间的关系以及数据点本身实现更深入的分析。这能帮助您基于相似性、制约因素、路径和社区来识别和创建进一步的情境。为了捕获、保存和使用情境数据,企业需要建立数据流水线、X分析技术和AI云服务方面的能力和技能,以便处理不同类型的数据。到2025年情境驱动的分析和AI模型将取代60%建立在传统数据基础上的现有模型。
6、业务模块组合式数据分析
Gartner建议企业采用模块化的数据和分析方法或“组合式数据和分析”。业务模块组合式数据和分析建立在这一趋势的基础上,但重点正在从IT人员转向业务人员。业务模块组合式数据和分析使业务用户或业务技术人员应联合构建业务驱动的数据和分析能力。
7、以决策为中心的数据分析
决策智能学科(即对如何做出决策进行深思熟虑)正在使企业机构重新思考在数据和分析能力方面的投资。使用决策智能学科设计最佳决策,然后提供所需的信息和资源。到2023年,超过33%的大型企业机构将有从事决策智能工作的分析师,包括决策建模。
8、人员技能和素养的不足(Skills and literacy shortfall)
数据和分析领导者需要团队中的人才来推动可衡量的成果。但虚拟工作场所和激烈的人才竞争加剧了员工数据素养的不足。从现在起到2025年,大多数首席数据官(CDO)将无法培养实现战略数据驱动的既定业务目标所必需的员工数据素养。由于数据素养和员工技能提升方面的投资成本不断上升,应在与新员工的合同中加入“薪酬索回”或“费用偿还”条款,这样就能在员工离职时收回成本。
9、互联治理
企业机构需要在各个层面采取有效的治理来解决他们当前的运营挑战,而且这些治理措施还必须灵活、可扩展并且能够迅速响应不断变化的市场动态和具有战略意义的组织挑战。疫情进一步突出表明,企业迫切需要强有力的跨职能协作,并随时准备改变组织结构,以实现业务模型的敏捷性。应使用互联治理建立一个跨业务职能和地域的虚拟数据和分析治理层来实现所期望的跨企业业务成果。
10、AI风险管理
如果企业机构将时间和资源用于支持AI信任、风险和安全管理(TRiSM),那么他们就能改进AI在采用、业务目标实现以及内部和外部用户接受度方面的成果。专业人士预测,到2026年,开发出可信赖的目标导向型AI的企业机构将实现75%以上的AI创新成功率,而未能做到这一点的企业机构只有40%的成功率。通过加强对AI TRiSM的重视,企业机构就能可控而稳定地实现AI模型的实施与操作化。此外,Gartner还预测AI的失败会大幅减少,包括不完整的AI项目、意外或负面结果的减少等。
11、厂商和地区生态系统
随着各地区数据安全法的颁布,许多跨国企业机构正在为遵守当地法规而构建数据和分析生态系统,这一趋势将在新的多极世界中加速。您将需要考虑迁移和复制特定地区内的部分或全部数据和分析堆栈,并且将多云和多厂商战略管理纳入设计或预设。企业需要采取多项行动构建一个有凝聚力的云数据生态系统。应评估厂商解决方案的可扩展性和在整个生态系统的供应情况,并考虑与它们保持一致。应通过权衡单一厂商生态系统在成本、敏捷性和速度方面的优势,重新评估有利于最佳或最合适的云中端到端数据和分析能力战略的政策。
12、向边缘的扩展
在数据中心和公有云基础设施之外的分布式设备、服务器或网关中执行的数据和分析活动日益增加。它们越来越多地位于边缘计算环境,更加靠近数据和相关决策的创建和执行地点。有专业人士预测到2025年超过50%的企业关键数据将在数据中心以外或云以外的地点创建和处理。
数据分析趋势代表了业务、市场和技术动态,这些趋势还有助于确定推动新增长、效率、韧性和创新的投资优先事项。企业将数据和分析治理能力扩展到边缘环境,并通过主动元数据实现可见性。还可通过加入位于边缘的以IT为中心的技术以及用于存储和处理更加靠近设备边缘的数据且内存占用量少的嵌入式数据库,为边缘环境中的数据持久化提供支持。
如果想入行大数据开发,可以按照下面的学习路线图先学习一下~
1、MySQL数据库及SQL语法
MySQL可以处理拥有上千万条记录的大型数据库,使用标准的SQL数据语言形式,MySQL可以安装在不同的操作系统,并且提供多种编程语言的操作接口,这些编程语言包括C、C++、Python、Java、Ruby等等。支持多种存储引擎。
SQL就是客户端和MySQL服务器端进行通信和沟通的语言。
2、Kettle与BI工具
Kettle作为一个端对端的数据集成平台,其部分特色功能包括:无代码拖拽式构建数据管道、多数据源对接、数据管道可视化、模板化开发数据管道、可视化计划任务、深度Hadoop支持、数据任务下压Spark集群、数据挖掘与机器学习支持。
3、Python与数据库交互
实际的生产任务中,数据几乎全部存在与数据库中,因此,与数据库的交互成为一件难以避免的事情。想要在Python代码中和mysql数据库进行交互,需要借助一个第三方的模块“pymysql”
1、Linux
Linux 作为操作系统,本身是为了管理内存,调度进程,处理网络协议栈等等。而大数据的发展是基于开源软件的平台,大数据的分布式集群( Hadoop,Spark )都是搭建在多台 Linux 系统上,对集群的执行命令都是在 Linux 终端窗口输入的。据Linux基金会的研究,86%的企业已经使用Linux操作系统进行大数据平台的构建。Linux占据优势。
2、Hadoop基础
2022最新大数据Hadoop入门教程,最适合零基础自学的大数据
Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。它很擅长存储大量的半结构化的数据集。也非常擅长分布式计算——快速地跨多台机器处理大型数据集合。Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
MapReduce和Hadoop是相互独立的,实际上又能相互配合工作得很好。MapReduce是处理大量半结构化数据集合的编程模型。
3、大数据开发Hive基础
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。Hive十分适合对数据仓库进行统计分析。
企业级在线教育项目实战(Hive数仓项目完整流程)
大数据项目实战教程_大数据企业级离线数据仓库,在线教育项目实战(Hive数仓项目完整流程)
以真实项目为驱动,学习离线数仓技术。建立集团数据仓库,统一集团数据中心,把分散的业务数据集中存储和处理 ;从需求调研、设计、版本控制、研发、测试到落地上线,涵盖了项目的完整工序 ;挖掘分析海量用户行为数据,定制多维数据集合,形成数据集市,供各个场景主题使用。
1、Python编程基础+进阶
全套Python教程_Python基础入门视频教程,零基础小白自学Python必备教程
Python高级语法进阶教程_python多任务及网络编程,从零搭建网站全套教程
Python是基于ABC语言的发展来的,Python语法和动态类型,以及解释型语言的本质,使它成为多数平台上写脚本和快速开发应用的编程语言, 随着版本的不断更新和语言新功能的添加,逐渐被用于独立的、大型项目的开发。
Python 语言的语法非常简洁明了,即便是非软件专业的初学者,也很容易上手,和其它编程语言相比,实现同一个功能,Python 语言的实现代码往往是最短的。
2、Spark技术栈
Spark全套视频教程,大数据spark3.2从基础到精通,全网首套基于Python语言的spark教程
Spark是大数据体系的明星产品,是一款高性能的分布式内存迭代计算框架,可以处理海量规模的数据。本课程基于Python语言学习Spark3.2开发,课程的讲解注重理论联系实际,高效快捷,深入浅出,让初学者也能快速掌握。让有经验的工程师也能有所收获。
3、大数据Flink技术栈
Flink核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎,Flink提供了诸多更高抽象层的API以便用户编写分布式任务。Flink也可以方便地和Hadoop生态圈中其他项目集成,例如Flink可以读取存储在HDFS或HBase中的静态数据,以Kafka作为流式的数据源,直接重用MapReduce或Storm代码,或是通过YARN申请集群资源等。
4.Spark离线数仓工业项目实战
全网首次披露大数据Spark离线数仓工业项目实战,Hive+Spark构建企业级大数据平台
通过大数据技术架构,解决工业物联网制造行业的数据存储和分析、可视化、个性化推荐问题。一站制造项目主要基于Hive数仓分层来存储各个业务指标数据,基于sparkSQL做数据分析。核心业务涉及运营商、呼叫中心、工单、油站、仓储物料。