《大型网站技术核心原理与案例分析》之大型网站架构模式

《大型网站技术核心原理与案例分析》之大型网站架构模式_第1张图片
大型网站架构模式

何为模式?

    模式来自建筑学,建筑学的词汇这样定义模式:“每一个模式描述了一个在我们周围不断重复发生的问题及该问题的解决方案的核心。这样,你就可以一次又一次地使用该方案而不必做重复工作。”模式的关键在意模式的可重复性,问题与场景的可重复性带来解决方案的可重复性。

    网站架构面临高并发访问、海量数据存储、高可靠运行等一系列问题,在实现网站高可用、易伸缩、可扩展、安全等各项技术架构目标的过程中,逐渐形成了大型网站架构模式。

几个概念

CDN是个什么东东?

    CDN是构建在网络之上的内容分发网络,依靠部署在各地的边缘服务器,通过中心平台的负载均衡、内容分发、调度等功能模块,使用户就近获取所需内容,降低网络拥塞,提高用户访问响应速度和命中率。CDN的关键技术主要有内容存储和分发技术。

    CDN的基本原理是广泛采用各种缓存服务器,将这些缓存服务器分布到用户访问相对集中的地区或网络中,在用户访问网站时,利用全局负载技术将用户的访问指向距离最近的工作正常的缓存服务器上,由缓存服务器直接响应用户请求。

反向代理又是什么?

    反向代理(Reverse Proxy)方式是指以代理服务器来接受internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从服务器上得到的结果返回给internet上请求连接的客户端,此时代理服务器对外就表现为一个反向代理服务器。


《大型网站技术核心原理与案例分析》之大型网站架构模式_第2张图片
反向代理服务器原理图

普通代理服务器和反向代理服务器的区别:

    通常的代理服务器,只用于代理内部网络对Internet的连接请求,客户机必须指定代理服务器,并将本来要直接发送到Web服务器上的http请求发送到代理服务器中。由于外部网络上的主机并不会配置并使用这个代理服务器,普通代理服务器也被设计为在Internet上搜寻多个不确定的服务器,而不是针对Internet上多个客户机的请求访问某一个固定的服务器,因此普通的Web代理服务器不支持外部对内部网络的访问请求。当一个代理服务器能够代理外部网络上的主机,访问内部网络时,这种代理服务的方式称为反向代理服务。

负载均衡是什么?

    负载均衡 建立在现有网络结构之上,它提供了一种廉价有效透明的方法扩展网络设备和服务器的带宽、增加吞吐量、加强网络数据处理能力、提高网络的灵活性和可用性。

    负载均衡,英文名称为Load Balance,其意思就是分摊到多个操作单元上进行执行,例如Web服务器、FTP服务器、企业关键应用服务器和其它关键任务服务器等,从而共同完成工作任务。

网站架构模式

分层

    分层是将企业应用系统在横向维度上进行一个切分,每个部分负责一部分相对比较单一的自这,通过上层对下层的依赖和调用组成一个完整的系统。应用系统中的分层类似通信协议的分层结构,层层依赖。一般将软件系统将架构分为三层:

    应用层:负责具体业务和视图展示,例如网站首页以及搜索输入和结果展示。

    服务层:为应用层提供服务,如用户管理服务,发送短信服务,订单服务等。

    数据层:提供数据存储访问服务,应用层的数据存储到数据层,应用层查询数据时从数据层查询。例如:数据库、缓存、文件等。

    通过分层,应用系统实现了解耦合,分层架构需要合理规划层级边界和接口,在开发过程中禁止跨层调用,和逆向调用(数据层调用服务层,或者服务层调用应用层)。

分割

    分层是一种横向的切分,那么分割就是一种纵向的切分。网站越大功能模块越多,服务和数据处理的种类也越多。可以根据不同的功能将服务分割开,包装成高内聚低耦合的模块单元。比如将购物,论坛,搜索分割成不同的应用,由不同的图案吨进行开发。

分布式

    分层和分割的主要目的是为了切分后的模块便于分布式部署,将不同的模块部署在不同的服务器上,通过远程调用协同工作。分布式又有几种不同的分布式方案:

    分布式应用和服务:将分层和分割后的应用和服务模块分布式部署,可以是不同的应用复用相同的服务,便于业务功能扩展。

    分布式静态资源:可以将网站的静态资源如JS、CSS、JS、图片等资源独立分布式部署,这样可以直接访问静态资源,减少了其他应用服务器的负载压力,同时也加快了静态资源的访问和浏览器的加载速度。

    分布式数据和存储:大型网站的数据量往往比较大,单台计算机往往没有这么大的存储空间存储数据。此时就需要采用分布式存储,除了对传统的关系型数据库进行分布式部署之外,各种NoSQL产品也都支持分布式。

    分布式计算:严格来说,应用、服务、实时数据处理都是计算,后台数据的处理往往是用户看不到的,这些业务计算规模非常庞大。

   此外还有分布式配置,控制并发的分布式锁,以及支持云存储的分布式文件系统等。

缓存

    缓存就是将数据存放在距离计算最近的位置以加速处理速度,缓存是改善软件性能的第一手段。缓存设计往往从以下几个方面入手:CDN、反向代理、本地缓存和分布式缓存。使用缓存有两个前提条件:

    1、数据访问热点不均衡,某些数据会被更频繁地访问,这些数据应该放在缓存中;

    2、数据在某个时间段内有效,不会很快过期,否则缓存的数据就会因失效而产生脏读。

异步

    系统解耦合除了分层、分割和分布式之外还有一个重要的手段就是异步,业务之间传递消息是不同步调用,而是将一个业务操作分成多个阶段,每个阶段通过共享数据的方式执行操作。实现异步操作的主要方式是通过消息队列,消息队列的架构是典型的生产者消费者模式,两者不存在直接调用,只要保证数据结构不变,彼此功能实现可以任意变化而不受影响。

    使用异步架构,可以提高系统可用性,当生产者或者消费者其中任意一个服务器发生故障的时候,数据会在消息队列中存储,不会因为服务器的故障而产生数据的丢失;可以加快网站响应速度,当生产者处理完业务请求后,可以将数据存放到消息队列立即返回响应,而不需要等消费者处理完数据之后再返回处理结果;可以消除并发访问高峰,当用户访问比较集中的时候,服务器负载比较重,往往会造成服务器响应延迟,严重时会出现服务器宕机的情况。使用消息队列,当消息队列中突然增加访问请求数据放入队列时,并不会对整个网站负载造成很大压力。

冗余

    网站要保证7X24小时连续运行,但是服务器可能会出现故障,要保证服务器在宕机的情况下服务能够正常运行,就需要一定程度的服务器冗余运行,数据冗余备份,这样当这台服务器宕机是可以切换到其他服务器上。

自动化

    目前大型网站的自动化架构设计主要集中在发布运维方面,主要有以下几个方面:

    发布过程自动化,较少人为干预,减少故障。

    自动化代码管理,代码版本控制,代码分支创建合并等过程自动化,开发人员只需要提交自己开发的代码。

    自动化测试,开发完成提交测试后,系统自动将代码部署到测试环境。    

    自动化安全检测,安全检测工具对代码进行静态扫描,及测试环境的安全攻击测试。    

    自动化部署,将工程代码自动化部署到线上生产环境。

本节思维导图下载地址:大型网站架构模式思维导图

你可能感兴趣的:(《大型网站技术核心原理与案例分析》之大型网站架构模式)