微软:单个巨大的git repo更好?

Brain Harry 是微软 Team Services产品的掌舵人,他的头衔是 Vice President for Cloud Developer Services。Team Services是个云上的服务,但是也能够在企业内部部署,私有部署的话,名字叫做Team Foundation Services。这个产品支持了微软内部所有的研发团队的项目运作,是微软自己也在用的 ADLM 系统。和一般管理者不同的是,Harry喜欢写博客,而且其博客不是在坐而论道,是干活满满的技术内容。

5月底Harry大叔写了一篇博客《The largest Git repo on the planet》,宣布经过他们团队的努力,将Windows开发团队的代码库迁移到了 Git 上。这个单一的Git repo算是地球上最大的git仓库了。里面包含 350 万文件,总大小达到了 300GB 左右。Windows团队的4000多名工程师,现在有3500多人已经在使用 git 了。在过去4个月中,该repo:

- 有超过25万次的提交;
- 每天8421次(平均)push;
- 每个工作日(平均)有2500份pull request,有6600名代码检视人员;
- 4352个活跃的分支;
- 每天有1760个正式的build;

需要指出的是,Git 本身并不是为了管理如此大型的项目而开发的,因此微软特地开发了“Git 虚拟文件系统”(简称 GVFS)来解决大规模git仓库的性能问题。GVFS在微软的build大会上出现过。并且微软把 GVFS 开源到了github,同时也在让git for windows客户端来支持 GVFS,很快,Linux和Mac也会得到支持。

微软:单个巨大的git repo更好?_第1张图片
Microsoft love git :-)

Harry大叔还就一些技术问题和观众进行了深入的探讨:

1:从source depot 迁移到git,那库的历史记录可以一起迁移吗?Harry回答是:不会。Windows团队将以前的sd库归档,新的git库里面不包含以前的历史提交信息。如果想看以前的历史,那就到sd平台里面去查看(sd就是微软内部使用的source depot)。

2:如果使用了 GVFS,那么git还是一个真正的分布式配置管理工具吗?因为底层文件驱动做了虚拟化,git只会把所需要的文件下载到本地,那是不是说工作时必须保证网络连接到代码中心?Harry大叔暂时没有回答这个问题。

3:有人问:一个巨大的库有什么好处呢?开发者如果可以自由访问所有的代码,那么他们就不会尊重各子系统的边界,他们会搞出很多不好的代码间的依赖关系出来;他个人倾向于使用很多独立的小仓库(Nano repo),然后再通过一个工具,对外展示一个full version出来,比如repo。Harry回答:微软的Windows and Devces Group团队负责的范围很广,包括windows、xbox、phone、HoloLens等,总共有接近1000个git repo,GVFS的目标是OS repo,里面保存的是操作系统的核心代码,他们经过分析后发现,要对这个库进行分解是非常困难的,同时,公司的workflow对这种多库操作也是不兼容的。从 Hacker News 等渠道也可以看到,类似google、facebook这样的大型公司也有类似的结论,并且他们有相应的类似工具方案,来解决和微软类似的问题。

4:也有人来砸场子的。有人在博客下面说:拜托!你搞搞清楚!Google的库才是世界上最大的git repo。不过,Harry大叔耐心的给予解答:我们说的是 git repo。google确实有最大的单体代码库,它却不是 git repo。Android的库虽然用的是git,但是体体量没有达到windows的这库的级别。

5:还有人问:如此巨大的一个单体git repo,会不会影响编译构建的时间?Harry大叔回答:对Windows进行rebuild all的时间确实非常长。但是,windows团队做了很多事情,让开发人员不用编译全部代码,这里利用并行编译和缓存技术。不过,巨大的代码库对编译是有影响的,他以后会写一个博客专门来介绍相关内容。

微软越来越开放了,除了雄踞github企业贡献排行榜首位之外,对自己在工具方面的前沿研究也不再藏着掖着,这里有一篇微软的文章:《Git at scale: Technical Scale Challenges》,介绍了微软在大规模的git repo上的一些考虑和方案,有兴趣的同志们去详细研究一下吧。

你可能感兴趣的:(微软:单个巨大的git repo更好?)