Hive
Hbase
存储介质:
https://www.zhihu.com/question/46392643?sort=created
http://www.pp1pp.com/news/detail/1285
https://www.zhihu.com/question/56577327
1万亿条,每条10K,也就是 1T*10K = 10PB,以每秒 175MB的速度写入,大概需要 710天。
假定你搭个 100个结点的集群,每个结点就是 100TB,然后每个结点以 175MB 的速度写入,大约需要一个星期写满,这还不包括冗余。
在这个数据量下要求实时搜索性能高,建议你注明下搜索性能要高到什么程度。
作者:雷鹏
链接:https://www.zhihu.com/question/56577327/answer/226815332
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
https://www.zhihu.com/question/20004877
RAID50
RAID50是RAID5与RAID0的结合。此配置在RAID5的子磁盘组的每个磁盘上进行包括奇偶信息在内的数据的剥离。每个RAID5子磁盘组要求至少三个硬盘。RAID50具备更高的容错能力,因为它允许某个组内有一个磁盘出现故障,而不会造成数据丢失。而且因为奇偶位分部于RAID5子磁盘组上,故重建速度有很大提高。优势:更高的容错能力,具备更快数据读取速率的潜力。需要注意的是:磁盘故障会影响吞吐量。故障后重建信息的时间比镜像配置情况下要长。
存储服务器
https://blog.csdn.net/fgf00/article/details/52592651/
DAS、SAN和NAS三种服务器存储方式
https://blog.csdn.net/Celeste7777/article/details/48711169?utm_source=blogxgwz31
DAS,NAS,SAN和ISCSI存储架构介绍
https://www.csdn.net/article/2011-06-14/299663
统一存储
统一存储具体概念:
统一存储,实质上是一个可以支持基于文件的网络附加存储(NAS)以及基于数据块的SAN的网络化的存储架构。由于其支持不同的存储协议为主机系统提供数据存储,因此也被称为多协议存储。
基本简介:
统一存储(有时也称网络统一存储或者NUS)是一个能在单一设备上运行和管理文件和应用程序的存储系统。为此,统一存储系统在一个单一存储平台上整合基于文件和基于块的访问,支持基于光纤通道的SAN、基于IP的SAN(iSCSI)和NAS(网络附加存储)。
工作方式:
既然是一个集中化的磁盘阵列,那么就支持主机系统通过IP网络进行文件级别的数据访问,或通过光纤协议在SAN网络进行块级别的数据访问。同样,iSCSI亦是一种非常通用的IP协议,只是其提供块级别的数据访问。这种磁盘阵列配置多端口的存储控制器和一个管理接口,允许存储管理员按需创建存储池或空间,并将其提供给不同访问类型的主机系统。最通常的协议一般都包括了NAS和FC,或iSCSI和FC。当然,也可以同时支持上述三种协议的,不过一般的存储管理员都会选FC或iSCSI中的一种,它们都提供块级别的访问方式,和文件级别的访问方式(NAS方式)组成统一存储。
存储架构方案。
https://blog.csdn.net/cuiyaonan2000/article/details/80226556
http://www.cnblogs.com/imstudy/p/9668257.html
RAID50
RAID50是RAID5与RAID0的结合。此配置在RAID5的子磁盘组的每个磁盘上进行包括奇偶信息在内的数据的剥离。每个RAID5子磁盘组要求至少三个硬盘。RAID50具备更高的容错能力,因为它允许某个组内有一个磁盘出现故障,而不会造成数据丢失。而且因为奇偶位分部于RAID5子磁盘组上,故重建速度有很大提高。优势:更高的容错能力,具备更快数据读取速率的潜力。需要注意的是:磁盘故障会影响吞吐量。故障后重建信息的时间比镜像配置情况下要长。
存储服务器
https://blog.csdn.net/fgf00/article/details/52592651/
DAS、SAN和NAS三种服务器存储方式
https://blog.csdn.net/Celeste7777/article/details/48711169?utm_source=blogxgwz31
DAS,NAS,SAN和ISCSI存储架构介绍
https://www.csdn.net/article/2011-06-14/299663
统一存储
统一存储具体概念:
统一存储,实质上是一个可以支持基于文件的网络附加存储(NAS)以及基于数据块的SAN的网络化的存储架构。由于其支持不同的存储协议为主机系统提供数据存储,因此也被称为多协议存储。
基本简介:
统一存储(有时也称网络统一存储或者NUS)是一个能在单一设备上运行和管理文件和应用程序的存储系统。为此,统一存储系统在一个单一存储平台上整合基于文件和基于块的访问,支持基于光纤通道的SAN、基于IP的SAN(iSCSI)和NAS(网络附加存储)。
工作方式:
既然是一个集中化的磁盘阵列,那么就支持主机系统通过IP网络进行文件级别的数据访问,或通过光纤协议在SAN网络进行块级别的数据访问。同样,iSCSI亦是一种非常通用的IP协议,只是其提供块级别的数据访问。这种磁盘阵列配置多端口的存储控制器和一个管理接口,允许存储管理员按需创建存储池或空间,并将其提供给不同访问类型的主机系统。最通常的协议一般都包括了NAS和FC,或iSCSI和FC。当然,也可以同时支持上述三种协议的,不过一般的存储管理员都会选FC或iSCSI中的一种,它们都提供块级别的访问方式,和文件级别的访问方式(NAS方式)组成统一存储。
存储架构方案
分布式文件系统与服务器存储方式
分布式文件系统比较
作者:知乎用户
链接:https://www.zhihu.com/question/26993542/answer/129451667
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
既然是关于分布式文件系统的,就多说几句
***GlusterFS
1.GlusterFS 文件系统标准的posix接口支持,可以做分布式NAS,也有人HPC(高性能计算),甚至支持KVM的虚机卷;做分布式NAS最多,其他方面用的不多,很多互联网视频公司用GlusterFS来做片库;
POSIX表示可移植操作系统接口(Portable Operating System Interface of UNIX,缩写为 POSIX ),为一个POSIX兼容的操作系统编写的程序,应该可以在任何其它的POSIX操作系统(即使是来自另一个厂商)上编译执行。
ceph
2.ceph,支持块ceph RBD,对象ceph RGW,文件cephfs;ceph RBD和ceph RGW比较成熟,在openstack社区比较火,做虚机块存储用的很多,cephfs的前期bug比较多,社区目前也在解决这些问题;
3.Lustre,比较老牌的分布式文件系统,部署在多个san阵列上,不支持副本,支持分布式锁,主要做HPC高性能计算;
4.HDFS只支持追加写,设计中没有考虑修改写、截断写、稀疏写等复杂的posix语义,目的并不是通用的文件系统,一般作为hadoop ecosystem的存储引擎;
5.moosefs 比较接近GoogleFS的c++实现,通过fuse支持了标准的posix,算是通用的文件系统,可惜社区不是太活跃;
6.IBM的GPFS也是一个很老牌的分布式文件系统,非常强大,有两个分支,一个是通用文件系统,一个是兼容hadoop mapreduce,可惜没有开源,国内也没人买的起;
7.facebook Haystack是一个专有的图片存储系统的原型,适合小文件和worm场景(write once read many),本身并没有开源,github上已经有一个比较成熟的实现Terry-Mao/bfs(不是百度的BFS)
注意:
与Hadoop对比,如何看待spark技术
Hadoop解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。
HDFS:在由普通PC组成的集群上提供高可靠地文件存储,通过将块保存多个副本的办法解决服务器或硬盘坏掉的问题。
MapReduce:通过将简单的Mapper和Reducer的抽象提供一个编程模型,可以在一个由几十台上百台的PC组成的不可靠集群上并发地、分布式地处理大量的数据集,而把并发、分布式(如机器间通信)和故障恢复等计算细节隐藏起来。而Mapper和Reducer的抽象,又是各种各样的复杂数据处理都可以分解为的基本元素。这样,复杂的数据处理可以分解为由多个Job(包含一个Mapper和一个Reducer)组成的有向无环图(DAG),然后每个Mapper和Reducer放到Hadoop集群上执行,就可以得到结果。
大数据的技术基础:MapReduce、Google File System和BigTable
2003年到2004年间,Google发表了MapReduce、GFS(Google File System)和BigTable三篇技术论文,提出了一套全新的分布式计算理论。
MapReduce是分布式计算框架,GFS(Google File System)是分布式文件系统,BigTable是基于Google File System的数据存储系统,这三大组件组成了Google的分布式计算模型。
Google的分布式计算模型相比于传统的分布式计算模型有三大优势:首先,它简化了传统的分布式计算理论,降低了技术实现的难度,可以进行实际的应用。其次,它可以应用在廉价的计算设备上,只需增加计算设备的数量就可以提升整体的计算能力,应用成本十分低廉。最后,它被Google应用在Google的计算中心,取得了很好的效果,有了实际应用的证明。
后来,各家互联网公司开始利用Google的分布式计算模型搭建自己的分布式计算系统,Google的这三篇论文也就成为了大数据时代的技术核心。
主流的三大分布式计算系统:Hadoop,Spark和Storm
由于Google没有开源Google分布式计算模型的技术实现,所以其他互联网公司只能根据Google三篇技术论文中的相关原理,搭建自己的分布式计算系统。
Yahoo的工程师Doug Cutting和Mike Cafarella在2005年合作开发了分布式计算系统Hadoop。后来,Hadoop被贡献给了Apache基金会,成为了Apache基金会的开源项目。Doug Cutting也成为Apache基金会的主席,主持Hadoop的开发工作。
Hadoop采用MapReduce分布式计算框架,并根据GFS开发了HDFS分布式文件系统,根据BigTable开发了HBase数据存储系统。尽管和Google内部使用的分布式计算系统原理相同,但是Hadoop在运算速度上依然达不到Google论文中的标准。
不过,Hadoop的开源特性使其成为分布式计算系统的事实上的国际标准。Yahoo,Facebook,Amazon以及国内的百度,阿里巴巴等众多互联网公司都以Hadoop为基础搭建自己的分布式计算系统。
Spark也是Apache基金会的开源项目,它由加州大学伯克利分校的实验室开发,是另外一种重要的分布式计算系统。它在Hadoop的基础上进行了一些架构上的改良。Spark与Hadoop最大的不同点在于,Hadoop使用硬盘来存储数据,而Spark使用内存来存储数据,因此Spark可以提供超过Hadoop100倍的运算速度。但是,由于内存断电后会丢失数据,Spark不能用于处理需要长期保存的数据。
Storm是Twitter主推的分布式计算系统,它由BackType团队开发,是Apache基金会的孵化项目。它在Hadoop的基础上提供了实时运算的特性,可以实时的处理大数据流。不同于Hadoop和Spark,Storm不进行数据的收集和存储工作,它直接通过网络实时的接受数据并且实时的处理数据,然后直接通过网络实时的传回结果。
Hadoop,Spark和Storm是目前最重要的三大分布式计算系统,Hadoop常用于离线的复杂的大数据处理,Spark常用于离线的快速的大数据处理,而Storm常用于在线的实时的大数据处理。