(大数据相关)2016-01-08北京海淀远大路

IBM分会场

第一部分:搭建

搭建hadoop平台的思想:

1、第一层

      物理层:多台linux power8 服务器 

2、第二层

      文件管理:GPFS-FPO

3、第三层

计算层(symphony):资源池管理,统一管理、调度、监控

4、第四层

       工具层:(1)HBase  (2)Hive

5、第五层

      应用层:application    (1)HBase管理  (2)M-R任务(多个)  (3)Hive任务


注意:由于会涉及到多台linux的安装,建议使用SK工具安装(IBM网站上下载)


第二部分:测试架构

1、具有2台服务器

TR2-2-1   node1                                        TR2-2-2  node2

HBase master                                             HBase Region

HBase Region

Hive                                                                    zoo keeper

symphony mode                                                symphony mode


                                                    GPFS-FPO


        data                                                                      data


注意:在GPFS-FPO+ OpenSource +Hadoop集群中 ,如果修改GPFS-FPO成为HDFS系统,那么他会调用HDFS,换言之,集群里配置谁,就调用谁!


第三部分:怎样给用户展示大数据平台的性能?

1、模拟现实

2、注意不能把time目录放在系统盘下,一定要放在文件系统中。否则可能导致演示时,由于空间占满而不能正常演示


第四部分:GPFS与GPFS-FPO的区别

GPFS:

 1、传统型:server与db之间不是直连

 2、命令是和GPFS-FPO不同,比较复杂


GPFS-FPO:

1、创新型:server与db之间是直连的

 2、命令简单


第五部分:redis很火的原因

1、读:能处理海量的读请求,未命中的读才会转到后台数据库中读

2、写:直接写到后台db中,异步更新到redis

3、具有可扩展性,而memcached不具备可扩展性,而且电脑宕机后,memcached中的数据会消失


第六部分:DB2的特点

1、简单应用:无索引,无调优

2、列式存储:

好处:减少I/O,直接对列运算,提高内存中的数据密度,高效的缓存

 

3、优化内存缓存管理:更高的内存命中率,数据可大于内存空间,内存使用更高级

4、卓越的压缩

5、充分利用cpu和SIMD的特性

6、内核友好并行化

7、数据查询的跳过

你可能感兴趣的:(大数据)