浅谈大型网站架构演化发展历程

最近读了关于网站技术架构的相关书籍，今天就根据书中所讲内容和大家分享一下网站的架构大致演化过程。

在网站刚刚开始的时候，并没有很多的访问量，所以只需要一台服务器就足够了，这时候的网站架构如下图所示：所有的应用服务器，数据库和文件都在同一台服务器上。

初始阶段的网站架构

随着网站的业务发展，增加的访问导致性能降低，增加的数据导致存储空间不足，这时候就需要进行数据和应用的分离，分离后整个网站分为了三台：应用服务器，文件服务器，数据库服务器；三台服务器对硬件的要求各有不同，应用服务器因为需要处理大量的业务逻辑，所以需要更强大的CPU；文件服务器因为要存储更多的静态文件，所以需要更大的硬盘；数据库服务器因为需要快速磁盘检索和数据缓存，所以需要更快的硬盘和更大的内存。应用和数据的分离，提高了网站的并发处理能力和数据存储空间，使网站的性能得以改善。

应用服务和数据服务的分离

但随着用户的逐渐增多，频繁的数据库读写操作导致访问延迟，影响了整个网站的性能，这时候就需要继续优化。这里有一个二八定律：80%的业务访问集中在20%的数据上，例如：在逛淘宝买东西的时候，经常浏览的就是那些成交数多，评价好的商品上。既然大部分业务访问集中在少部分数据上，那么就可以将这一小部分数据进行缓存，从而降低数据库的访问压力（而且数据库的读写太慢了），从而提高网站性能。

网站使用的缓存可以分为两种：1.缓存在应用服务器上的本地缓存，2.缓存在分布式缓存服务器上的远程缓存。本地缓存的访问速度更快，但因为内存限制，存储量有限。远程分布式缓存可以使用集群的方式，部署大内存的服务器作为专门的缓存服务器，网站的架构就演变到如下图所示：

网站使用缓存

在使用缓存后，数据库的访问得到有效缓解，但是单一应用服务器能够处理的请求连接有限，在网站访问并发很高的时候，应用服务器就成为了整个网站的瓶颈。

于是开始考虑使用集群方式去解决高并发，海量数据问题。简单的来说，就是一个不够了就上两个，两个不够了就上一群。应用服务器实现集群是网站可伸缩集群架构设计中较为简单成熟的一种。在访问到达应用服务器之前，使用负载均衡调度服务器将访问平均的发送至各应用服务器。

应用服务器集群部署

在使用缓存之后，绝大部分数据的操作访问都可以不通过数据库就能完成，但是仍有一部分读操作（缓存访问不命中、缓存过期）和全部的写操作需要访问数据库，在网站用户达到一定规模后，数据库因为负载压力过高而成为网站的瓶颈。目前大部分的主流数据库都提供主从热备功能，通过配置两台数据库主从关系，可以将一台数据库服务器和数据同步到另一台服务器上。网站在利用数据库的这一功能，实现数据库的读写分离，从而改善数据库负载压力。

应用服务器在写数据的时候，访问主数据库，主数据库通过主从复制机制将数据更新同步到从数据库，这样当应用服务器读数据的时候，就可以通过从数据库获得数据。为了便于应用程序访问读写分离后的数据库，通常在应用服务器端使用专门的数据访问模块，使数据库读写分离对应用透明。

数据库的读写分离

随着用户规模的变大，加之国内复杂的网络环境，不同地区的用户访问网站，速度的差异也是很大的。为了提供更好的用户体验，留住用户，网站需要加速网站访问速度，主要的手段有使用CDN和反向代理。如下图所示。CDN和反向代理的基本原理都是缓存，区别在于CDN部署在网络提供商的机房里，而反向代理部署在网站的中心机房，当用户请求到达中心机房后，首先访问的服务器是反向代理服务器，如果反向代理服务器中有缓存着用户所请求的数据，就将数据直接返回。使用CDN和反向代理的目的都是尽早返回数据给用户，一方面加快用户访问速度，另一方面也减轻后端服务器的负载压力。

使用反向代理和CDN加速访问

任何强大的单一服务器都满足不了大型网站持续增长的业务需求，数据库经过读写分离后，从一台服务器拆分为两台服务器，但是随着网站业务的发展依旧不能满足需求，这时候就需要使用分布式数据库。文件系统也是一样，需要使用分布式文件系统。

分布式数据库是网站数据库拆分的最后手段，只有在单表数据规模非常庞大的时候在使用，不到不得已时，网站更常用的数据库拆分手段是业务分库，将不同业务的数据库部署在不同的物理服务器上。

使用分布式文件和分布式数据库系统

随着网站业务越来越复杂，对数据存储和检索的需求也越来越复杂，网站需要采用一些非关系数据库技术，如NoSQL和非数据库查询技术，如搜索引擎。NoSQL和搜索引擎都是源自互联网的技术手段，对可伸缩的分布式特性具有更好的支持。应用服务器则通过一个统一数据访问模块访问各种数据，减轻应用程序管理诸多数据源的麻烦。

使用NoSQL系统和搜索引擎

大型网站为了应对日益复杂的业务场景，就对整个网站的业务进行了不同产品线的拆分，如大型购物交易网站就会将首页、商铺、订单、卖家、买家等拆分成不同的产品线，分归不同的业务团队负责。

具体到技术上，也会根据产品线划分，将一个网站拆分成许多不同的应用，每个应用独立部署维护。应用之间可以通过一个超链接建立联系，也可以通过消息队列进行数据分发，当然最多的还是通过访问同一数据存储系统来构成一个关联的完整系统。

应用拆分

随着业务拆分越来越小，存储系统越来越庞大，应用系统的整体复杂度呈指数级增加，部署维护越来越困难。由于所有应用要和数据库系统连接，在数万台服务器规模的网站中，这些链接的数据是服务器规模的平方，导致数据库存储连接资源不足，拒绝服务。

既然每一个应用系统都需要执行许多相同的业务操作，比如用户管理，商品管理等，那么可以将这些共用的业务提取出来，独立部署。由这些可复用的业务连接数据库，提供共用业务服务，而应用系统只需要管理用户界面，通过分布式服务调用共用业务服务完成具体业务操作。

分布式服务

大型网站的架构演化到这里，基本上大多数的技术问题都得以解决，诸如跨数据中心的实时数据同步和具体网站业务相关的问题也都可以通过组合改进现有技术框架来解决。

但事物发展到一定阶段，就会拥有自身的发展冲动，摆脱初衷，向着使自己更轻大的方向发展。既然大型网站架构解决了海量数据的管理和高并发事务的处理，那么就可以把这些解决方案应用到网站自身以外的业务上去。我们看到目前许多大型网站都开始建设云计算平台，将计算作为一种基础资源出售，中小网站不需要再关心技术架构问题，只需要按需付费，就可以使网站随着业务的增长逐渐获得更大的存储空间和更多的计算资源。

以上就是网站架构演化的大致历程了，只是讲述了下发展的流程，具体实现根据实际要求不同也会有所差异。希望本文能够对大家理解网站架构上有所帮助。

浅谈大型网站架构演化发展历程

你可能感兴趣的:(浅谈大型网站架构演化发展历程)