变而不变:我看分布式系统发展和阿里实践

大数据计算服务(MaxCompute)是一种快速、完全托管的PB/EB级数据仓库解决方案。具备万台服务器扩展能力和跨地域容灾能力,是阿里巴巴内部核心大数据平台,支撑每日百万级作业规模。

MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

相对而言,Reshuffle数据需要落盘,因为Resuffle把多个机器联系起来,出错概率大大增加。但是落盘大大降低了系统的性能,如果只是简单用network的方式来Shuffle数据,则不能容错。

而MaxCompute采用Network-Disk的可自适应性的channel来进行Data-Shuffle。

在MaxComputeAPI取舍中,二八原则体现得十分明显。流计算用户80%对latency更为看重,批处理用户80%对throughput更为看重,我们BI系统希望服务好高频的20%的数据,使得80%的访问都达到毫秒级。

系统设计中常用方法有:空间换时间、时间换空间、API层次设计、系统中层次法。MaxCompute数仓采用层次化设计方法。一致性变强,容量变小,吞吐性能变小,成本变高,问题规模变小。

变而不变:我看分布式系统发展和阿里实践_第1张图片

变而不变:我看分布式系统发展和阿里实践_第2张图片

变而不变:我看分布式系统发展和阿里实践_第3张图片

变而不变:我看分布式系统发展和阿里实践_第4张图片


变而不变:我看分布式系统发展和阿里实践_第5张图片

变而不变:我看分布式系统发展和阿里实践_第6张图片


变而不变:我看分布式系统发展和阿里实践_第7张图片

变而不变:我看分布式系统发展和阿里实践_第8张图片

变而不变:我看分布式系统发展和阿里实践_第9张图片

变而不变:我看分布式系统发展和阿里实践_第10张图片

变而不变:我看分布式系统发展和阿里实践_第11张图片

变而不变:我看分布式系统发展和阿里实践_第12张图片

变而不变:我看分布式系统发展和阿里实践_第13张图片


变而不变:我看分布式系统发展和阿里实践_第14张图片

变而不变:我看分布式系统发展和阿里实践_第15张图片

变而不变:我看分布式系统发展和阿里实践_第16张图片

变而不变:我看分布式系统发展和阿里实践_第17张图片


变而不变:我看分布式系统发展和阿里实践_第18张图片

变而不变:我看分布式系统发展和阿里实践_第19张图片

变而不变:我看分布式系统发展和阿里实践_第20张图片


变而不变:我看分布式系统发展和阿里实践_第21张图片

变而不变:我看分布式系统发展和阿里实践_第22张图片

变而不变:我看分布式系统发展和阿里实践_第23张图片

变而不变:我看分布式系统发展和阿里实践_第24张图片

变而不变:我看分布式系统发展和阿里实践_第25张图片

变而不变:我看分布式系统发展和阿里实践_第26张图片

变而不变:我看分布式系统发展和阿里实践_第27张图片

变而不变:我看分布式系统发展和阿里实践_第28张图片

变而不变:我看分布式系统发展和阿里实践_第29张图片

变而不变:我看分布式系统发展和阿里实践_第30张图片

变而不变:我看分布式系统发展和阿里实践_第31张图片

欢迎加入MaxCompute钉钉群讨论

35a12d1cfb9f44bb6eead5bf43e9e0ca60393eff

你可能感兴趣的:(变而不变:我看分布式系统发展和阿里实践)