Hadoop 简单概念记录

Hadoop的核心,HDFS 与 MapReduce

MapReduce 适合一次写入、多次读取数据的应用关系型数据库则更适合持续更新的数据
MapReduce 的高级查询语言(如:phoenix、Pig、Hive )
MapReduce 的核心特征,数据本地化(data locality)。因此获得良好的性能,并节省网络带宽。

Apache Mahout 是一个在Hadoop上运行的机器学习类库。(例如:分类和聚类算法)
SETI@home


数据模式:
数据访问模式中包含大量的硬盘寻址,进入等待阶段。(关系型数据库
而流数据读取模式,主要取决于传输速率。(网络宽带的大小) (HBase内存数据库)


HBase表设计:
1、只允许创建少量<3 column Family,Hbase对多列族支持不好。
2、列族、列、单元格的名称尽量简短,增加HFile存储效率,较少读取的性能开销。

HBase的Rowkey设计:
1、长度越短越好 
2、确保唯一性 
3、业务访问中权重高的key放在前面,做个字段拼接,类似关系型数据库的联合主键。
4、大数据,查询条件多的时候,不使用:scan columnvaluefileter 很影响性能。
 

你可能感兴趣的:(Phoenix)