As always,福利置顶,pdf下载链接:http://pan.baidu.com/s/1boE2xBp 密码:iu6o
书籍还算不错,把分布式系统各种可能的问题都细致地分析一遍,并给出几种解决方法和最佳的方案,这一点值得肯定。分布式系统最怕的问题就是一致性问题,很多章节都是围绕这个问题去阐述的,给出各种环节/节点可能出现不一致的原因,并给出解决方法。
初识分布式系统
分布式系统的基础知识
Socket 网络通信开发时用到的三种方式:BIO、NIO和AIO
BIO:Blocking IO,采用阻塞的方式实现,一个线程处理一个Socket,发生建立连接、读数据、写数据的操作时,都可能会阻塞。
NIO:Nonblocking IO,基于时间驱动思想,采用Reactor模式,可以在一个线程中处理多个Socket套接字
AIO:AsynchronousIO,异步IO,采用Proactor模式,与NIO的差别是,AIO在进行读写操作时,只需要调用响应的read/write方法,并且需要传入CompletionHandler,在动作完成后会调用。
什么是大型网站:
海量数据、高并发访问量、本身业务的系统的复杂度;
大型网站的架构演进
增加应用服务器后需要解决的问题:
终端用户对多个应用服务器访问的选择问题;解决方法:DNS、负载均衡
Session问题;解决方法:Session sticky,Session replication,Session数据集中存储(引入网络操作),cookie based(问题:cookie长度限制、安全性、带宽消耗、性能影响,不推荐);
读写分离带来的问题:数据复制、应用对数据源的选择问题;
搜索引擎实际上是一个读库,构建搜索用的索引就是一个数据复制的过程。搜索系统构建索引的两个维度:全量/增量;实时/非实时;实时构建索引对数据源服务器有性能影响;
缓存:数据缓存和页面缓存;Apache ESI模块;
Java中间件的定义
构建Java中间件的基础知识
Java并发编程的类、接口和方法
线程池、synchronized、ReentrantLock(公平锁和非公平锁,公平锁的好处是等待锁的线程不会饿死)、volatile、Atomics、wait/notify/notifyAll(对这个三个方法的调用都必须是在对象的synchronized块中)、CountDownLatch、CyclicBarrier、Semaphore、Exchanger、Future/FutureTask、并发容器(copyOnWrite & Concurrent);
分布式系统中的Java中间件
目录结构:
1、网站功能持续丰富后的困境与应对
2、服务框架的设计与实现
3、实战中的优化
4、为服务化护航的服务治理
5、服务框架与ESB的对比
服务调用端的设计与实现
流程:调用发起=>寻址路由=>协议适配和序列化=>网络传输=>反序列化以及协议解析=>得到结果返回给调用方
1、确定服务框架的使用方式
2、服务调用者与服务提供者之间通信方式的选择
3、引入基于接口、方法、参数的路由
4、多机房场景,避免跨机房调用,一是在服务注册中心甄别,二是地址过滤
5、服务调用端的流控处理
6、序列化与反序列化处理,Java本身的序列化性能问题、跨语言问题、序列化后语言长度等
7、网络通信实现选择:BIO、NIO、AIO
8、支持多种异步服务调用方式:Oneway,Callback,Future,可靠异步
服务提供端的设计与实现
1、如何暴露远程服务
2、服务端对请求处理的流程
3、执行不同服务的线程池隔离
4、服务提供端的流控处理
数据库从单机到分布式的挑战和应对
数据访问层的设计与实现
水平拆分和垂直拆分
垂直拆分把一个数据库中不同业务单元的数据分到不同的数据库里,水平拆分是根据一定的规则把同一个业务单元的数据拆分到多个数据库中;
垂直拆分带来的影响:
水平拆分带来的影响:
分布式事务
多机自增主键问题
考虑唯一性和连续性,UUID生成方式(IP、MAC、时间等)连续性不好;
实现方案1:把ID集中放在一个地方进行管理,对每个Id序列独立管理,每台机器使用Id时都从这个Id生成器上取。
缺点:
性能问题:每次都去远程取Id会有资源损耗
生成器的稳定性问题,作为一个无状态的集群,保证可用性
存储的问题
实现方案2:舍掉Id生成器,把相关的逻辑放到需要生成Id的应用本身。每个生成器读取可用的Id,然后给应用使用,但是数据的Id并不是严格按照进入数据库顺序而增大的。
应对多机的数据查询
跨库Join
外键约束:比较难解决,不能完全依赖数据库本身来完成之前的功能了。
跨库查询:一张逻辑表,对应多个数据库的多张数据表,在一些场景下比较复杂,如排序、最大最小求和等函数处理、求平均值、非排序分页、排序后分页。
如何对外提供数据访问层的功能
1、为用户提供专有API
2、通用的方式,数据层JDBC
3、基于ORM或类ORM接口的方式
直接基于JDBC驱动方式较好~
数据层的整体流程
SQL解析=>规则处理=>SQL改写=>数据源选择=>SQL执行=>结果集返回合并处理
1、SQL解析阶段
2、规则处理阶段
3、改写SQL
分库分表后,查询就要跨库。分布的不同数据库中的表的结构虽然一样,但是表的名字、索引名字未必一样,所以要修改SQL。
还有需要修改SQL的地方,如跨库计算平均值,必须修改SQL获取数量、总数后再进行计算。
4、如何选择数据源,读写分析
5、执行SQL和结果处理阶段,异常处理和判断
消息中间件的价值
互联网时代的消息中间件
消息中间件的核心特点功能:应用之间的解耦以及操作的异步,其实是:消息的顺序保证、扩展性、可靠性、业务操作与消息发送一致性,以 及多集群订阅者等;
如何解决消息发送一致性
消息发送一致性是指产生消息的业务动作与消息发送一致,即如果业务操作成功了,那么由这个操作产生的消息一定要发送出去。
1、发送消息给消息中间件
2、消息中间件入库消息
3、消息中间件返回结果
4、业务操作
5、发送业务操作结果给消息中间件
6、更改存储中消息状态
初识软负载中心
两个最基础的职责:聚合地址信息;生命周期感知;
软负载中心的结构
两部分:服务端和客户端;
内部三类重要数据:聚合数据,订阅关系,连接信息;
内容聚合功能的设计
主要工作:保证数据正确性,高效聚合数据;
注意问题:并发下的数据正确性保证;数据更新、删除的顺序保证;大量数据同时插入/更新时的性能保证;
解决服务上下线的感知
软负载中心的数据分发的特点和设计
针对服务化的特性支持
从单机到集群
集中配置管理中心