大数据平台安装测试(1)centos7.1 docker mesos tachyon hadoop (myriad? yarn?)spark hbase speaksql 选型分析

在下大数据的新手,该系列文章会记录我所有的思考和遇到的问题,

各位看官如果有什么想法希望多多指教!我尽量快速回复。谢谢。

最近公司需要跑大数据,网上找来各种文章分析,平台结构基本定型

公司的需求大概是一个数据包是1.5-3g左右,生成大概6g以下的中间数据。初步可能需要1000-10000个数据包进行综合分析(字串系列比较),生成报告输出到外网mysql数据库。

配置大概是

至强e5 2630v3 *2

华硕z10pa

recc 32g *2(或4。先上2条,看效果)

硬盘4t*n

1.系统 centos7.1 一直再用centos ,感觉还好,用就用比较新的把 反正不是7.0,bug应该少些吧

2.docker这个是后加上去的,具体没用过,按照网上的说法这个是哥打包器,或者说是微型虚拟机,即不分隔系统的虚拟机。对系统迭代有好处。我又是新手配置和程序方面可能反复调试。

3.mesos 和 yarn一直在犹豫,没看过他们的代码,看了一些总属性的文章,感觉他们最大的区别是生态系统的兼容性(这个真没用过所以是人云亦云),mesos有更多的服务器管理功能,而yarn更倾向于hadoop2.x的数据引擎,据说mesos的问题是可能出现资源饿死,而jvm据说是内存清理有问题。其实2者功能是有交叉的,所以他们会冲突。本来打算直接mesos了,后来看到出了myriad的插件可以让2者协调工作,还在apache的孵化器中。

4.myriad 尝鲜体验一下,因为公司刚开始大数据计划,数据量小,服务器少,船小好掉头,后面我会就myriad出个测试,实际评测一下。

5.spark内存集群管理系统,tez和spark的功能类似,最后还是选择了spark,原因1.用spark的企业较多。原因2.it厂商支持spark的多一些,人气旺。

6.tachyon内存文件系统。结合spark使用的,主要用来存储无需长期保持的中间文件。据说新版本可以用ssd当次级文件系统,这样的缓存体系就更好了,内存-》内存文件-》ssd->hdfs

7.数据库方面考虑是hbase. 用spark sql或直接api调用hbase。

你可能感兴趣的:(spark,yarn,docker,mesos,Tachyon)