IBM分会场
第一部分:搭建
搭建hadoop平台的思想:
1、第一层
物理层:多台linux power8 服务器
2、第二层
文件管理:GPFS-FPO
3、第三层
计算层(symphony):资源池管理,统一管理、调度、监控
4、第四层
工具层:(1)HBase (2)Hive
5、第五层
应用层:application (1)HBase管理 (2)M-R任务(多个) (3)Hive任务
注意:由于会涉及到多台linux的安装,建议使用SK工具安装(IBM网站上下载)
第二部分:测试架构
1、具有2台服务器
TR2-2-1 node1 TR2-2-2 node2
HBase master HBase Region
HBase Region
Hive zoo keeper
symphony mode symphony mode
GPFS-FPO
data data
注意:在GPFS-FPO+ OpenSource +Hadoop集群中 ,如果修改GPFS-FPO成为HDFS系统,那么他会调用HDFS,换言之,集群里配置谁,就调用谁!
第三部分:怎样给用户展示大数据平台的性能?
1、模拟现实
2、注意不能把time目录放在系统盘下,一定要放在文件系统中。否则可能导致演示时,由于空间占满而不能正常演示
第四部分:GPFS与GPFS-FPO的区别
GPFS:
1、传统型:server与db之间不是直连
2、命令是和GPFS-FPO不同,比较复杂
GPFS-FPO:
1、创新型:server与db之间是直连的
2、命令简单
第五部分:redis很火的原因
1、读:能处理海量的读请求,未命中的读才会转到后台数据库中读
2、写:直接写到后台db中,异步更新到redis
3、具有可扩展性,而memcached不具备可扩展性,而且电脑宕机后,memcached中的数据会消失
第六部分:DB2的特点
1、简单应用:无索引,无调优
2、列式存储:
好处:减少I/O,直接对列运算,提高内存中的数据密度,高效的缓存
3、优化内存缓存管理:更高的内存命中率,数据可大于内存空间,内存使用更高级
4、卓越的压缩
5、充分利用cpu和SIMD的特性
6、内核友好并行化
7、数据查询的跳过