我对大数据的理解

        截至到目前,上规模的企业和政府部门,都有几套信息化系统,例如办公系统,财务系统,企业的客户关系系统、销售管理系统、政府的主营系统(工商的办理登记的系统,税务的收税系统、公安的执法办案系统)等,也积累了大量的数据。2024年有数据资产入帐的政策,大家可以积极关注一下。

        在这种大环境下,部分企业或政府建立的大数据平台,并且在此之上建立了数据湖、数据仓库、数据中台。

        相关概念或定义如下:

        大数据平台是一个以处理和存储海量结构化非结构化数据、离线计算和实时计算等场景为主的技术堆栈,包括数据采集、数据存储、数据计算和任务调度,最典型的是基于Hadoop生态构建的大数据框架,当然也不局限于某个大数据框架,可以根据实际业务需求去选择合适的技术组件进行整合,是一个物理存在的平台,为数据仓库、数据湖、数据中台的构建提供基础支撑

        数据仓库是就是一个面向主题、集成的、反映历史变化的、信息本身相对稳定的数据集合,用于支持企业的管理决策。 通俗的来说就是整合多个数据源的历史数据进行细粒度、多维的分析,帮助企业管理者做出决策或商业报表

        数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。

        数据中台就是一套方法论, 是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。 数据中台把数据统一之后,会形成标准数据,再进行存储,形成数据大数据资产层,进而为客户提供高效服务。通过数据中台把数据变成一种服务能力

        大数据平台是基础底座,提供了适用于各个场景的数据计算存储引擎,这个很清晰。实际应用中数据湖、数据仓库、数据中台比较相似。我们可以看到很多招标文件的标题是某某数据仓库升级改造项目,如果我们手里有中台,直接用中台这个活就可以完成,没有中台,写存储过程或者进行程序开发,也能完成,只是成本的高低问题。再例如某某数据湖项目,如果基础设施强大,我们直接从原始层计算结果就可以,看如果前期节点数不够,为了完成项目,我们要按照数据仓库的理论进行分层建设。

        按照金字塔的形状搭建大数据相关应用是比较稳妥了,当然依据应用触发,来进行项目建设也是可以的,毕竟目前,单独立项基础平台建设,难道不小,每个项目都是要有短期成效的。长期成效一般情况,很难被重视。        但作为甲方或者是咨询设计方,金字塔的形状是要牢记了,通过一个个项目,逐步完善或者搭建我们的金字塔(当然这是好的情况,其他情况。。。)

        举个具体的例子,例如话单查询(亿级别),你是采用hbase、还是ES,或者其他引擎,这个主要是看需求,如果查询条件比较单一,可能选择hbase;当然也要看话单目前的数据存储引擎是什么,同步的hbase的耗时是多少等等。根据这个需求,我们先要完善大数据平台,然后再进行数据湖、数据仓库、数据中台的完善,然后进行前端应用的开发。

        最后,推荐一个工具  数合建模(http://www.hbshuhe.com/),是一个开源、免费、低代码数据建模及可视化工具,属于数据中台的范畴。脱胎于税务、交警、公安,经受过大数据、大用户的洗礼,有需求的可以试试。

你可能感兴趣的:(大数据,数据分析)