在Gilt使用Scala、Docker和AWS演化微服务

在2015年Craft大会上,Adrian Trenaman分享了Gilt.com网站的架构演进。Gilt.com的架构从一个使用Ruby on Rails开发的大应用程序开始,现在已经演化成,由很多小应用程序构成的基于云的微服务平台,使用Scala、Docker和AWS来开发和部署。 Trenaman分享了在过去八年里,他在技术上和组织管理上学到的经验教训,此间,Gilt由一家初创公司成长为市值10亿美元的公司。

Gilt.com工程副总裁Trenaman,从介绍Gilt Groupe内部的核心业务和相应的技术部署开始谈起。Gilt.com是总部设在美国的在线购物网站,专门从事奢侈品牌和生活用品的限时抢购。限时抢购的业务特点是,网站的峰值流量大量集中在销售启动之前的15分钟内,然后在接下来的两个小时内迅速减少到一个很低的基线流量。这样的业务模式在很大程度上意味着,应用程序发生故障的成本取决于一天中发生问题的时刻。

基本上是在每天中午12点,我们的客户像野牛群一样冲向我们的网站。这是我们每天乐得接受的拒绝服务攻击……

Gilt.com网站始建于2007年,是一个Ruby on Rails开发的大应用程序,数据库用的是PostgreSQL。当流量增加后,我们加上了memcached缓存层,并将网站内特定的业务功能移植到一系列的批处理作业中。在接下来的4年中,流量的增长开始对原有的架构造成压力,而且由于大应用程序的性质是一个“整体”,任何地方发生崩溃都会导致网站及业务支撑应用都彻底瘫痪。

2011年,我们开始使用Java编程语言和Java虚拟机(JVM),对原始的大应用程序,按业务功能提取代码并提供服务。Trenaman指出,这次改进没有删除原来的单一数据库依赖,因为总是有投资回报率更高的工作要做。然而,许多的小服务维护了一份主数据库的本地只读数据副本,而且,“购物车”服务使用了Voldemort作为自己的数据存储系统。

Trenaman描述了2011年Gilt的架构,“庞大、松散类型的JSON/ HTTP服务”,数据是粗粒度的键/值对,跨服务边界交换。公司以惊人的速度不断创新,无意间,开发团队在“Swift”查看服务中,创造了一个新的基于Java的大应用,成为创新过程中的瓶颈。该架构最终导致“人们只关注代码库中的一部分”。

Trenaman说,从2011年开始,Gilt技术领导层决定以战略主动为中心(即所谓的逆康威定律策略)重组团队,此举的首要目标是使代码上线能够快速和简单。团队中并没有明确的架构师角色,一个以微服务为基础的“很多小应用程序(LOSA)”架构的出现,主要是Gilt的工程师文化和价值观驱动的。每个团队的目标和关键绩效指标(KPI)设定在一项主动性工作上,许多的主动举措就此开始,时至2015年,已经产生了大约156个微服务。

当我们将Scala(一种运行在JVM中的编程语言)引入技术栈中时,加快了微服务数量的增长。Trenaman分享了Gilt服务的现状,平均每个服务由2000行代码和5个源文件组成,运行在生产中的实例有3个。在2011年到2015年期间,Gilt还决定了将遗留的应用程序栈“提升并转移”到Amazon Web Services (AWS)云上,新的微服务也开始部署于AWS平台之上。Trenaman指出,Gilt当前运行的服务绝大多数运行在AWS EC2 t2.micro实例上,虽然t2.micro只有相对较少的计算能力,但可以提供“爆发性的性能”。

Trenaman指出,Gilt非常看好微服务架构,因为它为Gilt团队带来了如下优点:

  • 减轻了团队之间的依赖——从而使代码上线更加快速。
  • 允许多个主动举措并行进行。
  • 支持多种技术/语言/框架。
  • 支持优雅地降级服务。
  • 使用“一次性代码”推进创新——这种方式易于对创新的判定,失败或继续。

同时,Trenaman敏锐地指出,基于微服务的LOSA架构所面临的一系列挑战:

  1. 在多个团队和服务之间,维护多套环境是非常艰难的——Gilt认为最好的解决方案是在线上测试,比如使用“黑金丝雀”发布。
  2. 很难定义服务的负责人——Gilt选择了让团队和部门负责并维护他们的服务。
  3. 必须采用自动化部署——Gilt正在使用Docker和AWS开发相关的工具(其中的一些代码即将开源)。
  4. 必须定义轻量级的API——Gilt拥有标准化的REST风格API,apidoc正在开发中,它们正被标记为“REST风格的AVRO”。
  5. 保持服从,同时在生产中给予工程师充分的自主权具有挑战性——为此,Gilt在他们的“企业持续审计库(CAVE)”应用程序中,开发了“真正聪明的警报”。
  6. 需要努力管理I/O激增——一些服务内调用可能是多余的,这仍是Gilt技术团队所的关注。比如,循环(loops)目前还没有做到自动探测。
  7. 很难跨多个服务的数据库生成报告——Gilt正在使用的实时事件队列将事件提供给数据湖(data lake)。目前是使用Amazon的Kinesis和S3服务实现的。

可以访问CraftConf网站,获取更多关于Adrian Trenaman的“Gilt的可伸缩微服务”演讲的信息。可以访问Gilt技术博客,获取文中所述的Gilt技术的进一步细节。

查看英文原文:Scaling Microservices at Gilt with Scala, Docker and AWS

感谢张龙对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至[email protected]。也欢迎大家通过新浪微博(@InfoQ,@丁晓昀),微信(微信号:InfoQChina)关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入InfoQ读者交流群InfoQ好读者)。

你可能感兴趣的:(在Gilt使用Scala、Docker和AWS演化微服务)