《大型网站技术架构》和《大型网站系统与java中间件》读书笔记

最近读到了两本很棒的书，一本是《大型网站技术架构》，另一本是《大型网站系统与java中间件》。这两本书都是阿里的工程师写的，主要介绍了一个网站如何从一个小型网站（一台pc充当应用程序服务器+数据库+文件服务器），随着访问的用户越来越多，存储的数据越来越多，一个小型网站如何应对，以及解决这些问题。这两本书大概讲的就是这个问题。

这篇文章主要是记录一下自己看这两本书的收获和读书笔记，用来备忘。

写到后面发现要写的东西可能会多，也比较散碎。所以，我打算以思维导图的方式去写，这样可能比较易于阅读和理解。

image.png

每个点，我会写上备注和解释。点击这个标签，就可以查看备注。

image.png

这是思维导图的链接（可能陆续还在补充和完善）：http://naotu.baidu.com/file/ce3b7d3b65670969b254579d8bca1ad2?token=d3efba7757745e10

关于数据库的部分

（ps：这是刚开始写得第一部分，后面的都放到思维导图上面了）

关于数据库应对高并发的办法：
1.分库分表
2.读写分离，主从复制

1. 分库分表
分库，有两种方式，一个是水平拆分，一个是垂直拆分。垂直拆分指的是将相同的业务逻辑放到一个数据库上面，水平拆分指的是将不同的业务逻辑放到一个数据库上面。

win+w 键可以方便的画图.png

分表，是对一张表的切分。

这两个概念其实是比较好理解的，但是用多机做数据库需要应对一些新的问题：

如何实现跨库join
如果一张逻辑上的表，被切分成几个子表，那么如何
2.1排序
2.2函数处理，即使用max，min，sum，count等对多个数据源的值进行函数处理
2.3求平均值
2.4排序后分页（这个很interesting）

答：
Q1：对于跨库join

基本上有两个解决办法，方法一：在应用层进行多次查询，现在a库的a-1表上查询，然后将查询的结果放到b库的b-1表上再进行查询。
数据冗余的思想，如果这些信息是常用的信息，可以将join过的信息保存一下，这样后面的查询，就相当于是再一张表上操作。

Q2：排序
A：将多个来源的数据查询出来之后，在应用层进行多路归并排序。

Q3：函数处理，求最大值，最小值，求和，计数
A：分别对多个数据源的数据进行操作，然后再将各个数据源统计出来的数据进行一个汇总。

Q4：求平均值
将多个数据源的数据求和，并计数。然后汇总各个数据源的和，和计数。再用各个数据源的和除以计数的和，得到平均值。

Q5：排序后分页（这个有点意思）
这个的实际意义是，当我们在谷歌或百度搜索一个关键字的时候，返回的结果很根据权重排序，然后分页显示出来。这个查询的结果可能是来自很多数据库，那么如果将它们按照一定的顺序显示出来呢？
假如，我要看的是第10页的查询结果（假设每页显示五条），那么应该怎么办？

Q6:在分库分表的情况下，如何保持某一张表的id的自增长和连续？
搞一个独立的服务，在生成id。

A:
（假设有两个数据源，每页显示五条）

首先，在各个数据源上面进行各自的排序。
那么第一页应该是从每个数据源里面取五条数据，然后把这个10条数据进行归并，然后将前五条返回。
那么对于第二页，应该是将每隔数据源的前10（52=10）条数据拿出来，然后归并，取第五条到第十条记录。也就是说，如果要取第100页的数据，那么就要从各个数据源里面取1005=500条数据，然后进行归并，也就是说，越往后代价越大.

后面的写到思维导图上面了，这是思维导图的链接（可能陆续还在补充和完善）：http://naotu.baidu.com/file/ce3b7d3b65670969b254579d8bca1ad2?token=d3efba7757745e10

《大型网站技术架构》和《大型网站系统与java中间件》读书笔记

关于数据库的部分

你可能感兴趣的:(《大型网站技术架构》和《大型网站系统与java中间件》读书笔记)