大数据系统基础导论

大数据系统基础导论
1、从数据到大数据
当输入数据x大到超出了 一定的计算能力c或可容忍的时间t,即成为大数据问题

amplab最火的实验室
在大数据的背景下,紧密结合 算法(Algorithms)、分布式系统(Machines)和大量用户(People)的研究
主要成员: Michael Franklin 教授 (数据库方向)、 Michael Jordan 教授(机器学习)、Ion Stoica 教授 (操作系统方向)
2、大数据典型应用

3、大数据的特点
volume/variety/velocity/veracity/value
大数据分析的生命周期:获取记录-抽取清洗-集成聚合-分析建模-解释展示
大数据挑战:异构、规模、时效、隐私、协同
大数据的质量:精确性、一致性、完整性、时效性
4、大数据技术体系
大数据技术体系现状

传统数据质量 仅通过ETL 方式执行(抽取、转换、加载,包括解析、模式分析等)
补充:1、Hash(哈希),一般翻译做“散列”,就是把任意长度的 输入 (又叫做预映射, pre-image),通过散列算法,变换成固定长度的 输出 ,该输出就是散列值。这种转换是一种压缩映射。
2、不同的输入可能会散列成相同的输出,所以不可能从散列值来唯一的确定输入值。
3、简单的说就是一种将任意长度的消息压缩到某一固定长度的 消息摘要 的函数。
5、大数据生态体系
1): GFS - Google文件系统
2): BigTable – Google大表
3): Google MapReduce
Google提出的一个用于大规模数据集的、适于低成本硬件机群的、可靠容错的、 并行运算软件框架
SEDA(Stage Event-Driven Architecture)模型:分阶段的事件驱动架构
4): Chubby – Google 胖子

5)Berkeley不需要频繁读写,比Hadoop高效。


6、大数据技术挑战

你可能感兴趣的:(大数据系统基础)