Spark基础知识点

分布式文件系统(Hadoop Distributed File System)

  • 当数据集达到一定规模,单机无法处理
  • 把数据分布到各个独立的机器上(多机器共同协作)
  • 网络

HDFS优缺点

优点:

  • 构建在廉价的机器上
  • 使用大数据处理
  • 高容错
  • 硬件错误
  • 流式数据访问
  • 大规模数据集
  • 简单的一致性模型(一次写入,多次读取)
  • 适合批处理,移动计算而不是数据

缺点

  • 不适合低延迟数据访问
  • 不适合小文件存储

数据库

Orale数据库

Orale RAC集群,一台数据库,多个实例。
Orale Exadata 硬件平台,属云服务器;能以最低成本实现最高的性能。传统的DB的瓶颈在于大量数据从存储读取到服务器内存端,突破此瓶颈有3种方法:

  1. 减少传输数据量
  2. 增加传输通道
  3. 增加管道宽度

Orale Exadata 对这三种方法都做了相应的改进。

  1. 数据筛选后才传送至内存
  2. 增加“存储单元”
  3. 传输接口是Infiniband,比传统光纤通道快10倍。

MonetDB数据库
开源的面向列的数据库管理系统,被设计用来较大规模数据提供高性能查询的支持。

NoSQL数据库

  1. 列族数据库,如Hbase
  2. 键值数据库
  3. 文档数据库
  4. 图数据库,如Neo4j
  5. 内存数据库

你可能感兴趣的:(Spark,数据库)