读《大型网站技术架构》

0. 前

之前就读过《大型网站技术架构》一书,现拾起览读一遍,还是颇有收获。读书后总是容易就遗忘,故梳理下书中要点,加深印象,也补充自己的一些见解和心得。
该书全面提及目前网站架构的技术,适合架构入门,也可以以书中提到的知识和技术点做为纲要和主线,深入扩展学习。

1. 大型网站架构演化

  • 服务器:单台服务器 --> 应用、数据、文件服务器fastdfs
  • 应用:单应用 --> 业务拆分 --> 分布式服务 --> 微服务
  • DB:单DB --> 读写分离 --> 引入缓存 -- 本地缓存 -- 分布式缓存
  • 负载均衡:lvs,f5,nginx
  • 反向代理nginx,CDN缓存,CDN就近发送
  • NoSQL MongoDB、搜索引擎elasticsearch,solr

架构不是设计出来的,而是演变而来,大型网站架构也是一个演化的过程,可以参考《淘宝技术这十年》提到淘宝技术演化过程。

与业务的需求匹配才是最佳的选择,不要一味追求大公司方案,毕竟架构是为了落地,需要考虑人力、物力成本,所以满足当前业务和未来的发展才是王道,不过再小的应用,也要有灾备,最次也要支持手工快速换掉不可用的服务;而DB为了数据安全,也要支持主从,应用还是DB都必须物理隔离部署。


2. 网站架构模式

  • 分层,一般可以将系统横向分为三层

应用层、服务层、数据层

在架构中,分层最大的挑战是合理规划层次边界和接口;实践中,做到禁止跨层次调用和逆向调用。
即使最初发展阶段网站,及时多层架构同部署一台物理机,但代码组织上也要做好业务逻辑区分,便于代码维护还是部署,但网站有大量流出涌入时,分层为支持高并发的分布式部署至关重要。

  • 分隔
    业务上的纵向分隔,比如将购物、搜索、广告分隔为不同的应用,由独立团队负责,分开部署。
  • 分布式
    分层和分隔的主要目的也是分布式部署,但分布式部署也带来了很多问题和挑战,如:服务间通信(rpc)、调用链路太长性能、服务调用链监控、运维。

一些部署方案:应用和服务模块分部署部署,以改善网站性能和支持高并发,功能复用。
静态资源分布式部署
大数据分布式部署和存储
分部署计算
zookeeper、spark、hadoop、mapreduce

  • 集群
    分布式部署后需要将各个服务集群化,统一向外提供服务

负载均衡、无状态化

-缓存

CDN、反向代理、本地缓存、分布式缓存

  • 异步

生产者消费者、mq

  • 冗余

服务部署冗余、数据部署冗余

  • 自动化

自动化过程代码管理、测试、安全检查、发布、报警、故障转移、服务降级、分配资源

  • 安全

验证码登录、xss、爬虫、sql注入


大型完整核心要素

  • 性能

索引、优化、算法

  • 可用性,7x24,99.99%
  • 伸缩性,横向扩展-加服务器
  • 扩展性
  • 安全性

高性能网站

  • 网站性能视角

用户体验、开发人员、运维

  • 性能指标

相应时间
并发性
吞吐量
性能技术器

  • 性能测试方法

性能测试、负载测试、压力测试、稳定性测试

  • web前端性能优化

减少http请求次数,合并css,合并javascript,使用浏览器缓存,压缩,减少cookie
CDN加速,反向代理

  • 应用服务器性能优化

分部署缓存:命中率、一致性、可用性、预热、穿通
异步
代码级:多线程、资源复用

可用于架构

  • 负载均衡转移故障,应用无状态
  • 核心服务隔离
  • 超时设置、异步调用、
  • 服务降级

可以展示关闭低等级服务,保障核心服务;出错时忽略次要服务

  • 幂等性设计

同一个操作多次调同返回结果一致,如重复下单、数据更新

  • CAP

数据持久性、数据可用性、数据一致性
强一致、用户一致、最终一致

  • 数据安全:备份、恢复

高可用质量保障

  • 不停机(不停服务)发布、自动化测试、预发布验证、灰度发布、自动化发布、快速回滚
  • 监控数据采集:用户行为日志、服务端日志、终端日志、服务端终端性能监控
  • 监控管理:系统报警、失效转移、自动系统降级

网站伸缩

  • 业务集物理隔离、垂直服务集群化隔离
  • 负载均衡:轮询、加权轮询、随机、最少连接、hash映射
  • 分布式一致性hash
  • 数据:cobar-mysql,noSQL-hbase

网站扩展

  • 分布式解耦:事务驱动架构-发布/订阅、分布式消息队列-MQ

网站安全

  • XSS、SQL注入、CSRF-跨域攻击
  • 防火墙、敏感数据加密或者脱敏、黑名单-布隆算法

案例

你可能感兴趣的:(读《大型网站技术架构》)