大数据 存储相关

大数据存储特征

1.一次写入,较少修改
2.价值不确定:虽然量多,但是价值密度低
3.容量大,增长速度快
4.需要保存时间长

对象存储技术

块存储

直接访问,开销最小,效率最高,但成本也最高且扩展困难,面向ISCSI协议,一般场景有企业数据库、oracle等

文件存储

更易于管理,易于与一个用对接,具有一定扩展性,但限制较多,面向NFS协议,一般场景有企业内部应用整合,文件共享等

对象存储

结构扁平,几乎无限的容量扩展,更加智能的自管理特性,有跨地域传输能力,但因为每个对象元数据都是150字节,所以适合存储大数据,存小的就亏了,面向HTTP协议,一般场景有面向互联网服务的存储,归档、备份等

OceanStor9000大数据解决方案

文件系统关键技术

1.文件系统:统一命名空间
2.配额管理:元数据分布式访问
3.Erasure Code
4.分级存储
5.负载均衡
6.全局缓存

Erasure Code原理

分布式raid技术
1.把文件按照4G大小切分为chunk
2.将chunk切分为默认为128k的strip(只有16、32、128、256、512几种大小类型)
3.将每N份strip组合,并且计算出M份冗余数据,由N+M份数据共同构成一个strip
注:
3.1:我们在进行配置EC时只能在部署的时候指定,之后无法更改
3.2:只能指定M的值,N由系统自动计算
3.3:N指的是源数据条带的份数,M指的是冗余数据的份数,同时M指同时最多允许损坏的节点或硬盘的数目
3.4:M值可以有两种形式:
(1)N+M:这种就是第3点说的strip然后将这N+M份数据存储到不同的设备中,所以当前的集群中只要保证有N+M台设备才能正常使用,所以第一种一般用在设备节点数量较多的情况
(2)N+M:B:当设备少的情况下就用这种,其将N+M份数据存储到不同的硬盘中,M表示最多允许损坏的硬盘,B的值一般恒为1,B的意思就是最多可以损坏几台设备,如果最终在最后一个条带,我们无法满足冗余配比的配置需求,则我们就不会强制满足,而是将最后一个条带直接写入,并且镜像M份写入,做数据保护,针对于元数据,我们直接镜像M+2份存储,做数据保护,当设备关机时,元数据被存储在节点上,当开机后会被加载到内存中,由MDS进行维护和更新

将strip存储在N+M个节点或硬盘中
分级存储

9000的分级存储和传统的SAN存储并不相同,传统的SAN存储是以RAID2.0的形式组合存储层进行数据分级存储,那么9000是通过节点来进行的,通过创建策略的形式,每个数据在写入之前首先要匹配对应的策略,根据策略选择将数据写入到什么样的节点内,策略主要涉及:存储的目录、大小、创建、修改时间、所有用户等。所以说9000存储是以设备为单位的,当某一台存储收到了按照分级存储策略分配过来的写请求时,如果该存储的容量不足,那么我们可以设置溢出标志,使该写入请求转换到其他同类型的节点

负载均衡

由于9000是集群NAS,所以当一个客户下发请求时,我们首先要确定是由哪一台存储去受理该业务,这时就用到负载均衡特性,主机通过DNS请求下发到9000或对应的DNS服务器,由9000内部进行选择,将对应存储的IP反馈给主机,主机再根据IP进行进一步的访问,9000在进行选择时,需要通过以下策略进行:按节点综合负载、按CPU使用率、按节点连接数、轮询、节点吞吐量

9000进程

NAS集群

负责接续主机发送的请求,并且交给CA做处理,还需要做数据的读取和传送

CA

系统核心进程,负责了整体系统处理读写的工作

MDS

元数据服务器进程,负责元数据的维护和更改操作

OBS

对象存储集群,负责数据的读写操作,负责维护数据、创建索引等

Monitor

负责监控系统的整体软硬件的进程,如果出现问题就会产生告警信息

CMS

负责管理和配置集群,我们所做的更改都是通过CMS集群提交的

DM集群

提供GUI界面给用户进行配置
注:
CA、MDS是运行在内存中的,其他进程部分运行在内存中

你可能感兴趣的:(大数据 存储相关)