大数据的处理是怎样的过程

  大数据的世界不只是一个单一的、巨大的计算机网络,而是一个由大量活动构件与多元参与者元素所构成的生态系统,终端设备提供商、基础设施提供商、网络服务提供商、网络接入服务提供商、数据服务使能者、数据服务提供商、触点服务、数据服务零售商等等一系列的参与者共同构建的生态系统。大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

  既然是通过大数据来做一些事情,必然先把数据采集到手,

  第一步:数据采集,搭建数据仓库,数据采集就是把数据通过前端埋点,接口日志调用流数据,数据库抓取,客户自己上传数据,把这些信息基础数据把各种维度保存起来,在大数据的采集过程中,其主要特点和挑战是并发数高;

  第二步:数据到手了,里边肯定会有一些不好的数据,我们需要把收集到的数据简单处理一下,比如把IP转换成地址,过滤掉脏数据等,导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别;

  第三步:数据分析,大数据分析技术主要包括已有数据的分布式统计分析技术和未知数据的分布式挖掘、深度学习技术,统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用;

  第四步:数据加工处理好了,就要可视化展现出来,做到MVP,就是快速做出来一个效果,数据可视化环节可大大提高大数据分析结果的直观性,便于用户理解与使用,故数据可视化是影响大数据可用性和易于理解性质量的关键因素。

  大数据应用是指将经过分析处理后挖掘得到的大数据结果应用于管理决策、战略规划等的过程,它是对大数据分析结果的检验与验证,大数据应用过程直接体现了大数据分析处理结果的价值性和可用性。

你可能感兴趣的:(数据分析,big,data,大数据)