大数据技术体系1(清华:大数据技术体系)

【1】采集与集成

【2】存储与管理

【3】分析与挖掘

【4】可视化

【5】计算范型

【6】隐私与安全

 

01数据质量-无法回避的挑战

传统数据质量仅通过EFL方式执行,即抽取、转换、加载,包括解析、模式分析等。

没有完全覆盖数据质量的基本性质

挑战

分布式环境中,如何保证全局数据的一致性、精确性、完整性

流体环境中,如何保证时效性(e.g 时序一致性)

在大数据中,保证绝对的数据质量并不现实

高维、异质、模糊、海量、多变

02存储的老问题、新挑战

一些转变:

Hash大于扫描

单副本转向多副本

单阶段转向多阶段

压缩不再解压

03大数据分析的特点

  传统BI 数据科学&大数据分析
焦点 发生了什么 将要发生什么
数据 小规模、干净数据,简单的统计模型 大规模、多样化、无关联数据,语义模糊、复杂的预测模型
支持 因果分析:事件及其将要发生的原因 关联分析:利用多个若关联数据源发现有潜在价值的结果

主要问题

监控动态流数据,跟踪变化趋势;而非仅仅考虑静态数据

和数据科学家一起工作,而非仅仅靠数据工程师

将大数据分析工具集成到核心业务和运营环节

04可视化的挑战

将大规模数据中蕴含的信息、知识与规律,利用计算机软件更好的揭示出来

大数据技术体系1(清华:大数据技术体系)_第1张图片

通过人来的交互和反馈,触发新一轮的知识发现过程,是大数据分析的关键。因此,可视化是人类实现数据洞察的关键的交互通道。在大数据时代起到重要的技术支撑作用。

05计算范型

数据找程序 -> 程序找数据

Scale Up -> Scale Out

传统计算 -> 云计算

Virtual Machine & Multi Tenants

CPU -> HPU(Crowdsourcing)

你可能感兴趣的:(大数据)