丸丸丸子w

HHU云计算期末复习（上）Google、Amazon AWS、Azure

文章目录

第一章概论
第二章 Google 云计算
- 2.1 Google文件系统（GFS）
- 2.2 MapReduce和Hadoop
- 2.3 分布式锁服务Chubby
- 2.4 分布式结构化数据表Bigtable
- - 存储形式
  - 主服务器
  - 子表
  - Bigtable 相关优化技术
- 2.5 分布式存储系统Megastore
- - Megastore
  - ACID语义
  - 基本架构
  - 核心技术-复制
第三章 Amazon AWS
- 3.1 Dynamo
- - 一致性哈希算法
  - 冗余备份
  - 成员资格和错误检测
- 3.2 弹性计算云EC2
- 3.3简单存储服务S3
- 3.4 非关系型数据库
- 3.5 关系数据库服务RDS
- 3.6 内容推送服务CloudFront
第四章微软的云计算服务Azure
- 4.1 五个部分
- 4.2 三个实例
- 4.3 数据结构
- 4.4 轮幅备份思想

河海大学商学院的云计算课程期末复习笔记上半部分
只针对考点所以不太全面，留给未来需要的学弟学妹
本文主要讲了Google云计算、Amazon AWS、微软Azure这三套云计算体系的重要知识点

第一章概论

云计算是一种提供计算服务的模式，包括服务器、存储、数据库、网络、软件、分析等服务，都通过互联网（“云”）提供给全世界的用户。根据服务类型，云计算通常可以分为三类：基础设施即服务（IaaS）、平台即服务（PaaS）和软件即服务（SaaS）。

以下是这三种服务类型的详细介绍和典型例子：

基础设施即服务（Infrastructure as a Service，简称IaaS）：提供计算资源，包括服务器、存储和网络硬件等基础设施服务。用户可以根据需求随时购买或释放资源，以应对业务的变化。这种服务允许用户全面控制基础设施的所有细节，但同时也需要用户自行负责系统的运维和管理。典型的IaaS服务提供商有阿里云（Alibaba Cloud）和腾讯云（Tencent Cloud）。
平台即服务（Platform as a Service，简称PaaS）：提供一套完整的开发和部署环境，让开发者能够专注于编写代码，而无需管理底层的基础设施。PaaS通常包括操作系统、数据库、中间件等服务，用户只需关注应用程序的开发，不需要管理底层的基础设施。华为云（Huawei Cloud）提供了一系列PaaS服务，阿里云和腾讯云也提供了类似的服务。
软件即服务（Software as a Service，简称SaaS）：通过网络提供软件应用。用户无需购买和安装软件，只需要通过网络即可使用。SaaS通常采用订阅制，用户只需要支付使用软件的费用，无需购买和维护软件和硬件。阿里巴巴的钉钉（DingTalk）和腾讯的企业微信（WeChat Work）就是典型的SaaS服务例子。

以上就是云计算的三种主要服务类型。需要注意的是，这三种服务类型并非互斥，很多云服务提供商会同时提供这三种服务。

第二章 Google 云计算

2.1 Google文件系统（GFS）

GFS设计初衷是满足Google大数据存储和处理的需求。系统由一个主服务器（Master Server）和多个分块服务器（Chunk Server）组成，以及一系列客户端库（Client）。

Client是GFS提供给应用程序的访问接口
主服务器Master负责元数据（metadata）的管理，包括命名空间、访问控制信息以及文件分块信息。主服务器并不直接参与文件的读写，从而避免了成为瓶颈。
分块服务器Chunk Server将文件存储为固定大小的块（默认64MB），并在主服务器的指示下进行复制以提供容错能力。

GFS文件写入流程大致为：

客户端询问主服务器该文件哪些分块服务器存有。
主服务器返回分块服务器信息后，客户端向分块服务器发出写入请求。
分块服务器接受写入数据，并在成功后通知主服务器更新元数据。

升级原理？

2.2 MapReduce和Hadoop

分布数据处理

MapReduce是Google设计的一种大数据处理编程模型，Apache Hadoop是该模型的一个著名开源实现。

MapReduce主要包括三个阶段：Map阶段、Shuffle阶段和Reduce阶段。在Map阶段，输入数据被分割成多个块，并在集群的各节点上并行处理，生成一系列的键值对。接下来的Shuffle阶段会把这些键值对按照键进行排序和分组，这样就可以将具有相同键的值集中到一起。然后在Reduce阶段，根据键值对的键来对相应的值进行聚合操作。

以下是这个过程的一个示例：

假设我们需要处理一个大型文本文件，目标是计算每个单词出现的次数。我们可以使用MapReduce来完成这个任务。

Map阶段：每个Map任务处理文件的一部分，它会读取文本并将每个单词输出为一个键值对，其中键是单词本身，值是这个单词的计数（初始为1）。例如，如果输入是"apple banana apple"，那么Map阶段的输出就是 [(“apple”, 1), (“banana”, 1), (“apple”, 1)]。
Shuffle阶段：在这个阶段，系统会自动把所有的键值对按照键进行排序和分组，使得所有相同的键都会被集中到一起。在我们的例子中，Shuffle阶段会把所有的(“apple”, 1)和(“banana”, 1)收集到一起。
Reduce阶段：在这个阶段，每个Reduce任务会接收到Shuffle阶段的结果，然后对同一个键的所有值进行聚合。例如，对于"apple"，Reduce阶段的输入是 [(“apple”, 1), (“apple”, 1)]，它会把这些计数加起来，输出的结果就是 [(“apple”, 2)]。

这样，通过MapReduce，我们就可以在一个大规模的集群上，高效地处理大量的数据。

具体执行过程：

MapReduce 的大致执行过程如下图所示：

图中的6个步骤对应如下：

先将输入文件分成 M个数据片段，每个数据片段的大小一般从 16MB 到 64MB。然后用户程序在集群中创建大量程序副本。

副本程序中除了一个 master，其他都是 worker 程序，并由 master 分配 M个 map 任务和 R个 reduce 任务。master 将一个 map 任务或 reduce 任务分配给一个空闲的 worker。

被分配了 map 任务的 worker 程序读取对应的输入数据片段，解析并处理键值对，生成并输出中间键值对结果，并缓存在内存缓冲区中。

周期性地，缓冲区中的中间结果会被用户指定的切分（partition）函数（例如hash(key) mod R）切分为 R 个部分，并存入到本地磁盘中。任务完成时，缓存在本地磁盘上的存储位置将被回传给 master，由 master 负责把这些存储位置再传送给 reduce worker。

Reduce worker 程序接收到 master 程序发来的数据存储位置信息后，使用 RPC 从 map worker 所在主机的磁盘上读取这些缓存数据，然后通过对 key 进行排序后使得具有相同 key 值的数据聚合在一起。如果中间数据太大无法在内存中完成排序，那么就要在外部进行排序。

Reduce worker 程序遍历排序后的中间数据，对于每一个唯一的中间 key 值，reduce worker 将这个 key 值和它相关的 value 值的集合传递给用户自定义的 reduce 函数进行处理，处理输出被追加到所属分区的输出文件。由于是按顺序对排序后的中间数据进行处理，所以每个输出文件分片内部是有序的。

2.3 分布式锁服务Chubby

Chubby是Google的分布式锁服务。它通过提供粗粒度的锁以及存储小量数据的能力，为Google的其他系统提供协同服务。

Chubby通信协议(阅读课本P30)

主服务器出错
- 在Chubby的通信过程中，客户端通过发送RPC请求与Chubby服务器进行交互。当主服务器出错时，会进行故障转移，由备份服务器接替其角色，保证系统的可用性。
租约机制
- 租约（Lease）机制是Chubby保证服务可用性的重要手段。当一个客户端获得一个锁时，它同时也会获得一个租约，有效期通常是几十秒。只要客户端的租约没有过期，它就可以认为自己持有那个锁。如果客户端在租约期限内向Chubby服务器续租，那么租约可以继续有效。如果服务器没有收到续租请求，就会认为客户端已经崩溃，从而释放锁，允许其他客户端获取。

举个例子，假设你正在用Google Docs编写文档，这时你的同事也想同时编辑这份文档。Chubby锁可以在这个过程中防止你们同时修改同一部分文档，造成冲突。当你编辑一个段落时，你的客户端会获取一个Chubby锁，保证在你编辑这个段落时，其他人无法修改。如果你的租约到期没有续租，Chubby就会认为你已经停止编辑，释放锁，允许其他人编辑这个段落。

2.4 分布式结构化数据表Bigtable

视频：https://www.bilibili.com/video/BV1bj41137BY/

Bigtable是Google的分布式存储系统，主要用于存储结构化数据。Bigtable主要由三个部分组成：客户端程序库（Client Library）、一个主服务器（Master Server）和多个子表服务器（Tablet Server）。

Bigtable中的数据按照行和列进行组织，每一行由行键（row key）进行唯一标识。

存储形式

<行关键字，列关键字，时间戳> -> 内容
行标签如何存储
- 行键在Bigtable中存储的方式是**按字典序排序的（应该是字母顺序的意思），这使得读取相邻的行键的操作变得非常高效。**这种特性使得Bigtable非常适合处理那些需要按照某种范围进行读取的操作。

行标签的倒排的优点
- 同一地址域的网页会被存储在表中的连续位置，有利于用户查找和分析
- 倒排便于数据压缩，可以大幅提高压缩率
- 解释一下：
  - 域名：
    - “www.example.com/news” 中，“example.com” 是主域名，“www” 是这个主域名下的一个子域名，而 “/news” 是这个子域名下的一个路径或者页面。
    - “news.example.com” 中，“example.com” 仍然是主域名，但是这次 “news” 是这个主域名下的一个子域名。
    子域名是主域名的一个分支，通常用来表示主域名下的不同功能或服务。比如，很多网站会有 “blog.example.com” 来托管他们的博客，或者 “shop.example.com” 来托管他们的在线商店。
  - Bigtable 的设计者选择使用倒序的 URL 主要是为了更好地优化对“域名”的查询效率，尤其是当 URL 的子域名层级较多时，例如：
    1. news.example.com
    2. sports.example.com
    3. finance.example2.com
    如果按照正序 URL 排序，上述三个 URL 中，相同主域名（example.com 或example2.com）的页面不一定会被放在一起，而按照倒序排序则可以做到这一点：
    1. com.example.news
    2. com.example.sports
    3. com.example2.finance

主服务器

主服务器的主要作用

子表

tablet
- Bigtable中的表由许多组成，这些小块在Bigtable中被称为“tablet”。每个tablet代表了行关键字的一部分范围，这样整个表可以分割成许多并行处理的小块，也就是所谓的“子表”。子表（tablet）有助于实现表的分布式存储和并行处理。
- 从概念上讲子表就是一系列行的集合
子表服务器（tablet server）是Bigtable中负责处理一个或多个子表（tablet）的服务器。它处理子表的读取和写入请求，并在必要时将子表分割成更小的单元。
SSTable
- SSTable 格式的基本示意
  - SSTable 是Google为Bigtable设计的内部数据存储格式。所有的SSTable文件都存储在GFS上，用户可以通过键来查询相应的值。
  - 每个SSTable包含了一系列的块（block）和一个块索引（block index），用于高效地查找和读取数据。
子表实际组成
- 一个子表由多个SSTable以及日志文件组成
- 不同子表的SSTable可以共享
- 每个子表服务器上仅保存一个日志文件
- Bigtable规定将日志的内容按照键值进行排序
- 每个子表服务器上保存的子表数量可以从几十到上千不等，通常情况下是100个左右
子表地址组成
- 一个子表（tablet）的数据存储在一个或多个SSTable中。每个SSTable存储的都是已经排序的键值对，这种排序特性使得范围查询和顺序读取等操作非常高效。
- 在子表和SSTable之间有一个重要的映射关系：每个子表知道它的数据被存储在哪些SSTable中。当一个子表服务器需要读取或写入一个子表的数据时，它会使用这个映射关系找到相应的SSTable，然后在SSTable中进行操作。
三种形式的数据压缩
- 次压缩、合并压缩、主压缩

子表的数据最终还是写到GFS里的，子表在GFS里的物理形态就是若干个SSTable文件

集群包括主服务器和子服务器，主服务器负责将片分配给子服务器，而具体的数据服务则全权由子服务器负责。

但是不要误以为子服务器真的存储了数据（除了内存中memtable的数据），数据的真实位置只有GFS才知道，主服务器将子表分配给子服务器的意思应该是，子服务器获取了子表的所有SSTable文件名，子服务器通过一些索引机制可以知道所需要的数据在哪个SSTable文件，然后从GFS中读取SSTable文件的数据，这个SSTable文件可能分布在好几台chunkserver上。

Bigtable 相关优化技术

Bigtable 使用了一些性能优化的技术：BWT（Burrows-Wheeler Transform）和布隆过滤器。

BWT (Burrows-Wheeler Transform)：它是一种用于数据压缩的算法，主要用于对字符串数据进行变换。在 BWT 中，字符串的字符会按照某种顺序进行排列，然后选择一个新的字符串，这个新的字符串中的字符顺序会提高后续压缩算法（如 move-to-front transform, run-length encoding）的效率。换句话说，BWT 通过改变字符串中字符的顺序，将原本随机分布的字符变得更加集中，从而增加了压缩的效率。值得注意的是，这种变换是可逆的，也就是说经过 BWT 变换和压缩的数据，可以被完整地恢复出来。???
布隆过滤器 (Bloom Filter)：布隆过滤器是一种空间效率极高的概率数据结构，用于检测一个元素是不是集合中的成员。它的主要特点是存在一定的误报率，但绝对不会漏报。误报率是指查询一个不存在于集合中的元素，布隆过滤器可能会错误地认为它在集合中；漏报则是指查询一个存在于集合中的元素，布隆过滤器不会错误地认为它不在集合中。在 Bigtable 中，布隆过滤器用于减少不必要的磁盘读取操作：当我们查询一个元素时，先用布隆过滤器判断一下，如果判断结果为“不在”，则可以避免进行磁盘读取；如果判断结果为“在”，则需要进一步从磁盘读取数据来确定。
- 假设我们有一份电话簿，我们需要判断一个电话号码是否在电话簿中。如果我们直接查询电话簿，那么可能需要翻阅整本电话簿，这需要很长的时间。而如果我们使用布隆过滤器，那么我们可以在很短的时间内得到答案。我们首先将电话簿中的所有电话号码添加到布隆过滤器中，这个过程会生成一个位数组。然后，当我们需要查询一个电话号码是否在电话簿中时，我们只需要查询这个位数组即可。如果布隆过滤器判断结果为“不在”，那么我们就可以确定这个电话号码肯定不在电话簿中，从而避免了不必要的查询。如果布隆过滤器判断结果为“在”，那么我们还需要进一步查询电话簿来确定。这样，大多数情况下，我们可以在很短的时间内得到答案，从而大大提高了查询效率。

总的来说，BWT 是用于提高数据压缩效率的算法，而布隆过滤器是用于减少不必要的磁盘读取，从而提高查询效率的数据结构。两者在 Bigtable 中都发挥了重要的作用。

2.5 分布式存储系统Megastore

https://www.jianshu.com/p/7c4d0ab911f6

Megastore

Megastore是Google的一个分布式存储系统，它是在Bigtable基础之上构建的，为用户提供了包括ACID事务在内的一些关系数据库特性。

Megastore的基本架构包括以下几个部分：

Entity Group: Megastore将数据组织为实体组（Entity Group），每个实体组内部都是按照Bigtable的方式存储的，每个实体组都可以提供ACID语义的事务（就像一个小的数据库）。实体组之间则无法提供ACID事务。
Replicas: 为了提高数据的可用性和容错能力，Megastore会将每个实体组的数据复制到多个物理位置。
Paxos: Megastore使用Paxos算法来保证每个实体组的多个副本之间的一致性。Megastore的每个写操作都需要经过Paxos的多数派同意才能提交。
Catch-up: 为了保证不同地域之间数据的一致性，Megastore提供了Catch-up机制，即当某个副本落后于其他副本时，它可以通过Catch-up过程来获取丢失的更新。
Product: Megastore被广泛应用在Google的许多产品中，例如Google App Engine的数据存储就是基于Megastore实现的。

ACID语义

ACID是指数据库事务正确执行的四个基本特性：原子性（Atomicity）、一致性（Consistency）、隔离性（Isolation）和持久性（Durability）。

A(Atomicity）原子性：这是指整个事务是不可分割的单位，事务中的所有操作要么全部提交成功，要么全部失败回滚，对于一个事务的操作，系统保证所有操作要么全部完成，要么全部不做，不可能停滞在中间环节。事务的原子性是通过Undo和Redo来实现的。
C (Consistency)一致性：事务必须使数据库从一个一致性状态变换到另一个一致性状态。一致性与业务有关，如A账户给B账户转账，不管转账是否成功，A账户的出账金额与B账户的进账金额必须一致，这就是业务一致性。
I (lsolation)- 隔离性：当多个用户并发访问数据库时，数据库为每一个用户开启的事务，不能被其他事务的操作所干扰，多个并发事务之间要相互隔离。即要达到这么一种效果：对于任意两个并发的事务T1和T2，在事务T1看来，T2要么在T1开始之前就已经结束，要么在T1结束之后才开始，这使得每个事务都感觉不到系统中有其他事务并行执行。
D (Durability) 持久性：一旦事务提交，则其所做的修改就会永久保存在数据库中。即使在事务提交后，系统出现崩溃，重新启动后也能保证事务的持久性。

基本架构

完整副本：Bigtable中存储完整的日志和数据。
见证者副本：在Paxos算法执行过程中无法产生一个决议时参与投票，因此对于这个副本，Bigtable只存储其日志而不存储具体数据。
只读副本：无法参与投票，作用只是读取到最近过去某一个时间点的一致性数据。如果读操作能容忍这些过期数据，只读副本能够在不加剧写延迟的情况下将数据在较大的地理空间上进行传输。
Megastore的部署需要通过一个客户端函数库和若干个的服务器。应用程序连接到这个客户端函数库，这个函数库执行Paxos算法，还有一个称为协调者（Fast Reads）的服务，要理解这个服务的作用，首先需要了解快速读和快速写机制
你可以把 Megastore 想象成一个超大的图书馆，这个图书馆在全球有很多分馆，也就是服务器。在这些分馆中，有些图书馆（完整副本）储存了全部的书籍和详细的借阅记录。还有一些图书馆（见证者副本）并没有储存书籍，但他们记录了所有的借阅行为。另外，还有一些图书馆（只读副本）只允许读者阅读书籍，但并不记录借阅信息。当读者想借书时，就需要连接到客户端函数库（即借阅台），借阅台会执行一套流程（类似Paxos算法）来保证借书的流程正确无误。协调者服务就像一个快速查询服务，能快速告诉你想找的书在哪里，这就是快速读的机制。

核心技术-复制

数据读取：
在一次Current读之前，**要保证至少有一个副本上的数据是最新的，也就是说所有之前提交到日志中的更新必须到该副本上并确保在该副本上生效。**这个过程称为追赶（Catchup）

把这个过程想象成你去超市购物。你手上有一个购物清单，这个清单在你进超市之前需要保证是最新的，也就是说你在家里做的所有的改动（比如添加或删除某个商品）都已经更新到这个清单上，这个过程就是Catchup。然后你按照清单在超市进行购物，这就是数据读取的过程。如果在购物过程中，你突然发现清单上少了某个商品，那么你就需要回家再次更新清单，这就是保证清单（也就是副本）是最新的。

第三章 Amazon AWS

3.1 Dynamo

云计算 | AWS | Dynamo

Dynamo
- 底层存储架构，只支持简单的键值对存储
- 无中心的模式
- 中心思想：Dynamo是通过在数据中心进行分布式存储来实现高可用性和扩展性。
- 架构形式：Dynamo采用了一致性哈希算法进行数据分布，使得系统可以在节点动态变化时，平衡负载并最小化数据迁移
Windows Azure是一个基于云的应用程序执行环境，提供了计算服务、存储服务以及与应用程序通信的各种服务。在Azure中，存储层使用了多副本复制机制，通过复制数据到不同的物理节点来实现数据的持久性和可靠性。

两者的主要区别在于其设计目标和实现方法。Dynamo注重高可用性和扩展性，适合非结构化数据，使用了最终一致性模型；而Azure是一个更通用的平台，提供了计算、存储和通信等服务，适合存储结构化数据，并使用了强一致性模型。

一致性哈希算法

一致性哈希算法:好刚: 7分钟视频详解一致性hash 算法
- 一致性哈希算法中，虚拟节点和物理节点的关系可以简单理解为：每个物理节点对应多个虚拟节点，每个虚拟节点存放一部分物理节点的数据。通过增加虚拟节点，我们可以在物理节点数量变化时，平均分布负载，并且最小化需要迁移的数据量。
- 使用越多的虚拟节点有以下几个好处：
  - 1）能够更平均地分布数据，减少数据倾斜问题。这是因为在现实中每一个物理节点的性能不一定相同，引入虚拟节点可以使得不同性能的节点承受不同的负载；
  - 2）当增加或删除物理节点时，只需要迁移少量的数据，减少了数据迁移的开销；
  - 3）提高了系统的可扩展性和稳定性。
- 在一致性哈希算法中，查找特定键（key）的复杂度通常是 $O (l o g (n))$ ，其中 $n$ 是哈希环中节点（服务器）的数量。
- 一致性哈希算法可以进一步改进，例如通过引入复制和数据分片机制，可以进一步提高系统的可用性和数据安全性。

冗余备份

参数可调的弱Quorum机制
- $R + W > N$ 可以保证当存在故障的节点数量不超过1台时，用户至少可以获得一份最新的数据副本。其中 $W$ 表示一次成功的写操作至少需要写入的副本数， $R$ 表示一次成功读操作须由服务器返回给用户的最小副本数， $N$ 表示每个数据存储的副本数。
为什么冗余备份可以提升数据安全性
- 冗余备份是一种常见的保护数据安全和可用性的手段。冗余备份的原理是在多个地方存储数据的副本。如果某个存储地方发生故障，数据丢失或损坏，那么可以从其他地方获取该数据的副本。例如，DynamoDB通过在多个可用区中存储数据副本来提供高可用性和数据持久性。
- 实际上，冗余备份不仅可以提高数据的安全性，同时也能增加数据的可用性。当某个存储节点故障时，系统可以快速地从其他存储节点中获取数据，避免因为单点故障而导致的系统不可用。

成员资格和错误检测

P96

Dynamo是无中心的架构，每个成员节点需要保存其他节点的路由信息
在分布式系统中，成员资格和错误检测是非常重要的问题。成员资格是指确定系统中有哪些节点正在参与运行。错误检测是指确定系统中哪些节点可能发生了故障。
成员资格（Membership） 是指在一个分布式系统中，确定哪些节点是活跃的，也就是当前正在参与运行的节点。由于在一个分布式系统中，节点可能会因为故障或者其他原因离线，所以需要一个机制来跟踪和识别出哪些节点是在线的。
- 假设你正在参与一个多人在线游戏，这个游戏的服务器是分布式的。每个玩家都会连接到一个服务器节点。这个时候，成员资格就是要识别出哪些玩家（节点）当前在线，参与了这个游戏。
错误检测（Failure Detection）：是指在分布式系统中，识别出哪些节点发生了故障。这是因为在一个大规模的分布式系统中，故障是常态。可能由于硬件故障、网络问题等各种原因导致某些节点无法工作。
- 继续以上面的游戏为例，假设在你的队伍中，有一名玩家突然离线了（可能是因为网络故障、电脑死机等原因）。错误检测的任务，就是尽快发现这个玩家已经离线，以便游戏可以采取相应的措施（例如让AI接管，或者寻找新的玩家加入等）。

成员资格和错误检测通常是通过一种名为"Gossip（闲聊）"的协议来实现的。在这个机制中，每个节点周期性地向其他节点发送消息，表示它还“活着”。如果某个节点在一段时间内没有收到另一个节点的消息，那么它就会认为那个节点已经离线或发生了故障。

假如一个新节点加入节点总数为N的系统，并以最优的方式进行传播（即每次通信的两个节点都是第一次交换节点信息），那么将新节点传遍整个系统需要的时间复杂度为 $O (l o g n)$

3.2 弹性计算云EC2

地理区域和可用区域
EC2是Amazon的Elastic Compute Cloud的简称，提供了可伸缩的计算能力。用户可以在Amazon的计算环境中虚拟机器上启动应用程序。各种各样的服务，比如提供GPU
AWS全球基础设施是分布在世界各地的云基础设施。这些基础设施包括地理区域和可用区域。
- 地理区域是AWS云在全球的物理位置，每个区域都包含至少两个可用区域。
- 可用区域是指代表在地理上分离的数据中心，但在网络延迟低的同一地理区域内。通常根据是否有独立的供电系统和冷却系统等进行划分。
- EC2包含多个地理区域，每个地理区域又包含多个可用区域。
在应用架构中融入这种思想，就可以提高应用的可用性和容灾能力。例如，通过在多个可用区域部署应用，即使某个可用区域出现问题，应用也可以在其他可用区域正常运行。

3.3简单存储服务S3

S3即Simple Storage Service，是Amazon提供的一种对象存储服务，它以对象为单位，提供了在互联网上存储和检索任意数量的数据的能力。

桶（Bucket）：桶在Amazon S3中就像是文件夹或目录，它用来存储对象（数据）。每个桶在S3中都有一个全局唯一的名称，并且所有存储在S3中的对象都必须包含在某个桶中。用户可以设置桶的访问权限，控制哪些用户可以访问桶中的对象。桶也可以配置为在特定的地理区域存储数据。
对象（Object）：对象主要由数据和元数据组成，是桶中的基本元素，类似于文件。每个对象都包含了文件本身的数据和一些元数据（比如文件的类型，创建日期等）。在S3中，对象被唯一地识别通过其在桶中的键（key），这类似于在文件系统中，一个文件被其路径和文件名唯一识别。

我们可以把桶和对象的关系，类比为现实生活中的一个大仓库（Bucket）和仓库里的各种商品（Object）。仓库是用来存放各种商品的地方，而商品则是仓库中的基本单位。每个商品都有自己的标签（例如商品的名称，生产日期等等），这就像是对象的元数据。而在仓库中，每个商品都有其固定的位置，这就像是对象在S3桶中的键。

在这个例子中，如果我们想找到特定的商品，我们首先需要知道它在哪个仓库（桶），然后根据商品的标签（元数据）或者位置（键），就可以找到这个商品（对象）。

3.4 非关系型数据库

其与关系型数据库的区别

课本P108

关系型数据库：如MySQL, PostgreSQL等，是基于关系模型的数据库，其中数据以表格的形式存储。关系型数据库强调数据的一致性和事务性，并遵循ACID原则（原子性，一致性，隔离性，持久性）。这类数据库适合有复杂查询需求的应用，例如联接、分组和聚合等。
非关系型数据库（如SimpleDB, DynamoDB）：非关系型数据库，也称为NoSQL数据库，它们主要设计用于处理大规模数据，可以提供高吞吐量、低延迟数据访问和存储。这类数据库通常不支持或只提供有限的事务功能，并且可能不遵循ACID原则，而是遵循BASE原则（基本可用性，软状态，最终一致性）。例如，DynamoDB是一个键值存储系统，它以其弹性伸缩性和可预测的性能著名。

3.5 关系数据库服务RDS

AWS为MySQL提供了一种称为Amazon RDS的托管服务。它处理数据库的许多日常管理任务，如备份、打补丁和故障转移等。用户可以选择在单个可用区内运行RDS实例，或者为了更高的可用性和容错能力，可以在多个可用区之间进行复制。

RDS（Relational Database Service）是Amazon Web Services (AWS) 提供的一种关系型数据库服务。MySQL则是一种开源的关系型数据库管理系统（RDBMS）。因此，你可以将MySQL看作是一种"产品"，而RDS是一个"服务"。

在RDS服务中，你可以选择不同类型的数据库引擎，包括MySQL、PostgreSQL、MariaDB、Oracle、SQL Server等。因此，MySQL是RDS支持的数据库之一。使用AWS的RDS服务，用户可以很方便地部署、扩展和管理数据库。RDS会为用户处理很多数据库运维的工作，如备份、软件补丁更新、故障转移等。

简单地说，你可以直接下载并在自己的服务器上安装运行MySQL，这需要你自己处理所有的维护和管理工作。而如果你选择使用AWS的RDS服务并选择MySQL作为数据库引擎，那么AWS会帮你处理许多运维任务，你只需要专注于使用数据库。

3.6 内容推送服务CloudFront

CDN，也就是内容分发网络，是一种在不同地理位置的服务器上复制内容，以便用户能更快地访问到它的服务。通过使用CDN，你可以将你的内容更靠近你的用户，这样他们获取内容的速度就会更快。

区别：

Amazon CloudFront和Azure CDN都是这种服务的例子。他们都可以把你的内容（例如网站的静态和动态内容，视频流，API调用等）缓存在全球范围内的边缘位置，以便更快地将内容提供给用户。

？？？这俩的区别是啥，Azure应该是有缓存的

举个例子，假设你在美国东部有一个网站，你的用户遍布全球。如果没有使用CDN，来自澳大利亚的用户需要将请求发送到美国东部的服务器，然后再将结果返回。这会增加延迟。但是，如果你使用了CDN，你的网站内容将被复制到全球各地的服务器，包括澳大利亚。因此，来自澳大利亚的用户现在可以从他们附近的服务器获取内容，从而显著减少延迟。

第四章微软的云计算服务Azure

4.1 五个部分

先来一个类比

计算服务：你可以把 Azure 中的计算服务看作是租赁的电脑。就像你在网吧租用一台电脑，你可以在上面做任何你想做的事情，比如浏览网页，编写代码，甚至运行服务器。Azure 提供的计算服务就是让你租用一台云上的电脑，你可以在上面运行你的应用程序
存储服务：Azure 中的存储服务就像是你租用的仓库，你可以在里面存储任何你想保存的东西。Azure 提供了 Blob（类似于一个大箱子，可以放任何东西），表存储（像一个巨大的Excel表格，用来存储结构化数据），队列存储（就像是一个排队系统，用来存储待处理的消息），还有磁盘存储（就像你电脑的硬盘，用来存储各种文件和数据）。
Fabric 控制器：Fabric 控制器就像是一个智能的建筑管理员或者是楼宇经理。它负责协调和管理云服务中的资源，如服务器、网络和存储。就像楼宇经理决定哪个公司租用哪个办公室，电力如何分配，网络连接如何配置一样，Fabric 控制器负责配置和管理 Azure 服务实例的生命周期，分配和管理网络和存储资源。
内容分发网络（CDN）：Azure 的 CDN 就像是全球范围的连锁便利店。假设你在纽约有一个面包店，你的面包非常受欢迎，全世界的人都想吃。但是，让一个在澳大利亚的人来纽约买面包不现实。所以，你决定在全世界各地开设分店，这样每个人都可以在他们附近的店铺买到新鲜的面包。这就是 Azure CDN 做的事情，它将你的内容（网站、视频、软件等）缓存到全球各地的节点上，当用户请求这些内容时，可以从最近的节点获取，提高访问速度。
Windows Azure Connect：Azure Connect 就像是一座桥，它可以把你的本地网络和 Azure 的虚拟网络连接在一起。假设你有两个岛屿，一个在本地（你的本地网络），另一个在云端（Azure 的虚拟网络）。你需要一个桥梁来把两个岛屿连接起来，这样你就可以方便地在两个岛屿之间通行。Azure Connect 就是这座桥梁，它让你可以在本地网络和云网络之间安全、方便地传输数据。

具体定义

计算服务（Compute）: 提供用于运行应用程序的虚拟机（VM），支持不同的操作系统，和多种编程语言，可以按需扩展。
存储服务（Storage）: 提供大规模、高可用、持久的云存储，包括 Blob（对象）存储，文件存储，队列存储，表存储和磁盘存储。
Fabric 控制器：主要用于部署、管理和监控应用。
CDN (Content Delivery Network): 提供全球性内容分发网络服务，通过缓存内容到全球范围内的边缘节点，来优化用户获取数据的速度。
网络服务（Networking）: 提供虚拟网络，负载均衡，VPN，流量管理等网络功能，帮助您在云和本地环境之间建立安全和私有的连接。

4.2 三个实例

Azure 服务平台为应用程序提供了三种类型的角色（Role）来运行代码：Web Role、Worker Role 和 VM Role。这些角色定义了运行在 Azure 服务平台上的应用程序实例的运行环境。

Web Role: 提供了一个自动管理的、托管的IIS环境。开发者可以发布ASP.NET、WCF服务或其他IIS兼容的应用到Web Role中，用于处理用户的HTTP/HTTPS请求。
Worker Role: 提供了一个通用的Windows环境，开发者可以在其中运行任何类型的程序。Worker Role常常作为后台处理任务的角色，比如处理来自Web Role的数据，运行脚本或者其他长时间运行的任务。
VM Role: 提供了更高自由度的虚拟机环境，用户可以按需自定义VM Role的Windows环境，安装所需的应用程序，以运行特定的任务或服务。

Web Role: Web Role就像是一家提供餐饮服务的餐厅。它可以接受和处理客户端（用户）的请求，类似于餐厅为饿了的人提供食物。在Azure中，Web Role是一种运行在微软公共云环境中的服务，专门处理外部HTTP或HTTPS请求，就像在餐厅中处理订单一样。

Worker Role: Worker Role就像是餐厅后厨的厨师，负责烹饪食物。在Azure中，Worker Role则是执行在后台运行的任务，如处理来自Web Role的数据，运行脚本或者其他长时间运行的任务。它们就像厨师，把原材料（数据）加工成美食（有用的信息）。

VM Role: VM Role就像是租用的公寓，你可以按照自己的需求装修，放置家具。在Azure中，VM Role提供的是一种虚拟机环境，用户可以按照自己的需求来配置这个环境，安装所需要的软件。这种角色让用户有更大的自由度来定义他们的云服务环境，就像你可以在租用的公寓中自由布置一样。

4.3 数据结构

Blob：用于存储大量的非结构化数据，如图片、音频、视频或日志文件等。
Table：提供了可扩展的非关系型结构化数据存储，适用于存储大量的非关系型数据。
Queue：提供了可扩展的消息队列服务，用于在应用程序之间异步传递消息。

4.4 轮幅备份思想

不同的SQL Azure数据库之间的同步是使用“轮幅式（hub-and-spoke）”模型

在这个模型中，中心节点（Hub）负责接收和分发数据，边缘节点（Spokes）则负责存储数据。

这里Hub是SQL Azure数据库，其他的Hub可以是SQL Azure数据库、也可以是SQL Server数据库

我们可以将这个模型比喻为航空公司的路线网络。在这个例子中，航空公司的大型中枢机场（例如亚特兰大机场或者阿姆斯特丹机场）就像是中心节点，其他较小的机场就像是边缘节点。所有的航班（数据）都会经过中枢机场（Hub）然后被分发到不同的目的地（Spokes）。

在Azure的数据中心网络中，也采用了类似的模型。其中的主数据中心（Hub）负责接收所有的用户数据，并将数据同步到各个边缘数据中心（Spokes）。这样，无论用户在哪里访问数据，都可以得到最快的响应时间，因为他们总是从最近的数据中心获取数据。

而且，如果某个边缘数据中心发生故障，用户的数据仍然可以从主数据中心或者其他边缘数据中心获取，这样确保了数据的可用性和一致性。

你可能感兴趣的:(大数据,云计算,azure,阿里云)

2024年第五届MathorCup数学应用挑战赛--大数据竞赛思路、代码更新中..... 宇哥预测优化代码学习 1024程序员节
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️研赛及概况一、竞赛背景与目的二、组织机构与参赛对象三、竞赛时间与流程四、竞赛要求与规则五、奖项设置与奖励六、研究文档撰写建议七、参考资料与资源1找程序网站推荐2公式编辑器、流程图、论文排版324年研赛资源下载4思路、Python、Matlab代码分享......⛳
OpenStack 云平台的深度定制与性能优化算法探索者 openstack
引言OpenStack作为一款领先的开源云平台，以其高度的灵活性和可扩展性，为企业构建云计算基础设施提供了强大的支持。然而，不同企业的业务场景和技术需求千差万别，原生的OpenStack部署往往无法完全满足企业特定的要求。因此，对OpenStack云平台进行深度定制，并在此基础上进行性能优化，成为了企业充分发挥OpenStack优势、提升云服务质量的关键。本文将深入探讨如何针对企业特定需求对Ope
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
云计算习题「已注销」
云计算一、单选题二、多选题三、实操题单选题多选题实操题一、单选题下面哪个是软件代码版本控制软件？（B）A.projectB.SVNC.notepad++D.Xshell为满足金融业务的监管和安全要求，平台不需要考虑下列哪个应用?（A）A.文档版本管理B.防火墙策略C.安全漏洞扫描D.多租户安全隔离以下哪一个是项目收尾过程的正确顺序？（C）A.得到正式验收、解散团队、写出经验教训、结束合同B.写出经
华为云计算产品系列 | 云上迁移工具RainBow实战详解降世神童云计算技术专栏华为华为云云计算
华为云计算产品系列|云上迁移工具RainBow实战详解1.迁移方案2.迁移流程3.迁移实验3.1.Windows系统迁移3.2.Linux系统迁移3.3.存储层迁移1.迁移方案 RainBow可以将物理机或者虚拟机上的业务迁移到华为的虚拟化平台和私有云平台（6.5.1以上支持），还可以实现低版本私有云迁移到高版本私有云。 Rainbow是华为自研迁移工具，支持X86架构下主流的Linux、Wi
阿里云在使用 Docker 过程中踩过的坑 weixin_34293059 运维
昨天下午朋友在微信上丢给我一条新闻，看看，我们阿里云支持Docker企业版了。我打开一看，果然，阿里云发布了飞天敏捷版，开始支持企业级的Docker容器。美国中部时间4月19日，阿里云在容器技术大会DockerCon2017上正式推出了ApsaraStackAgility，也就是飞天的敏捷版。Docker公司首席执行官BenGolub在大会上宣布了ApsaraStackAgility的正式发布，这
Angular中`trackBy`函数的独特性与性能优化 t0_54program 编程问题解决手册 angular.js 前端 javascript 个人开发
在Angular项目中，优化性能是每一个开发者都需要考虑的问题。特别是在处理大数据量或动态变化的列表时，Angular的trackBy函数成为了我们手中的利器。然而，当我们面对多个列表使用相同trackBy函数时，可能会产生一些疑问：如果这些列表中的项有相同的ID，是否会影响Angular的变更检测？本文将详细探讨trackBy函数在这种情境下的表现及其带来的性能优化。trackBy函数简介tra
石油储运生产 2D 可视化，组态应用赋能工业智慧发展智慧园区智慧城市 big data 人工智能大数据物联网网络
当前，国际油价低位徘徊导致各国石油化工行业投资大幅缩减，石油化工建设行业竞争环境日趋严峻，施工企业的利润空间也被不断压缩。内外交困的环境下，促使企业采取更有效的管理手段来提高效率和降低成本。石油工业大数据具有无限潜力与价值，将大数据与数据挖掘技术应用其中，不仅可以提升石油行业工业化水平，而且对其智慧化发展起到强有力的推动作用。图扑软件-构建先进2D和3D可视化所需要的一切图扑软件采用自主研发的HT
人民日报报道，华为云赋能智能制造助力图扑软件构造数字孪生场景智慧园区华为人工智能物联网
2021年12月22日，《人民日报》头版头条刊登了《华为云赋能智能制造，助力图扑软件构造数字孪生场景》一文，聚焦数据可视化建设发展。报道指出，数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神;高效便捷管控的背后，是云端平台各大企业的互助共赢;高质精准2D、3D数据可视图的背后，是专注于数据可视化Web组态开发的厦门图扑软件科技有限公司。并对厦门图扑软件科技有限公司进
华为云赋能智能制造，助力图扑软件构造数字孪生场景 36Kr网科技华为云制造 big data
出行手机查看交通方案、物业管理的智能可视勘察管控、疫情地图提前预知危害……这些曾经存在于科幻片中的高科技场景一一在现代生活得到了应用与普及，其背后的数据可视化应用，正贯穿于当今大数据时代的各行各业，成为人们洞察数据内涵的有力工具，推动数字经济发展驶入“快车道”。数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神；高效便捷管控的背后，是云端平台各大企业的互助共赢；高质精
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【Spark】查询优化中分区（Partitioning）和分桶（Bucketing）是什么关系？什么时候应当分区，什么时候应当分桶？ petrel2015 spark 大数据分布式数据库
在学习Spark的过程中，分区和分桶乍一看很像，都能为了计算加速，但是仔细一想，一查还是有些差异的，甚至说差异很大。那么具体有什么差异点，有什么相同点。我做出了如下的整理，供大家参考，欢迎指正。相同点分区（Partitioning）和分桶（Bucketing）在很多方面具有相似性，它们都是用于优化大数据查询性能的技术数据划分的目的：优化查询性能分区和分桶的核心目标是通过将数据分割成更小的逻辑单元来
国内 npm 镜像源推荐 PyAIGCMaster 我的学习笔记 npm 前端 node.js
国内npm镜像源推荐除了常用的淘宝镜像（https://registry.npmmirror.com），还有以下国内npm镜像源可供选择：1.CNPM（阿里云）地址：https://r.cnpmjs.org/特点：由cnpm提供，支持同步npm官方仓库。提供更快的下载速度和稳定性。使用方法：npmconfigsetregistryhttps://r.cnpmjs.org/2.京东镜像（JFrogA
基于 MySQL 和 Spring Boot 的在线论坛管理系统设计与实现城南|阿洋-计算机从小白到大神 mysql spring boot 数据库
markdownCopy✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、pyhton、机器学习技术领域和毕业项目实战✌哈喽兄弟们，好久不见哦～最近整理了一下之前写过的一些小项目/毕业设计。发现还是有很多存货的，想一想既然放在电脑里面也吃灰，那么还不如分享出去，没准还可以帮助到
【最低2万搞定！】10万双枪充电桩平台神级配置：服务器成本直降80%+日志/数据库存储全拆解！慧知开源充电桩平台！！！必看攻略文慧的科技江湖更新日志 -(慧哥)慧知充电桩平台服务器数据库开源直流充电桩充电桩 spring cloud 架构
10万台充电桩设备双枪，需要最小的服务器配置？服务器费用控制2-3万，服务器日志产生多少g,数据库订单数据产生多少g!-慧知开源充电桩平台一、服务器配置方案及逻辑（阿里云）1.需求分析设备规模：10万台双枪充电桩，理论最大并发连接数为20万（每个枪独立通信）。请求类型：心跳包（高频）、充电启停、支付、状态上报等，假设平均每秒请求量约5,000QPS。费用目标：总成本控制在2-3万元/月（按包年包月
OCR识别常见开源库 yxfamyself 计算机视觉 opencv
OCR（OpticalCharacterRecognition，光学字符识别）技术是一种将印刷体或手写文字转化为可编辑文本的技术。亦即将图像中的文字进行识别，并以文本的形式返回。做OCR有很多库可以使用。免费开源库有：Tesseract，PaddleOCR。商业付费OCR有：腾讯云OCR，阿里云OCR。下面分别介绍。准确识别的前提是找到正确的字体进行训练，字体很重要，要覆盖所有识别的场景。Tess
大数据技术实战---项目中遇到的问题及项目经验一个“不专业”的阿凡大数据
问题导读：1、项目中遇到过哪些问题？2、Kafka消息数据积压，Kafka消费能力不足怎么处理？3、Sqoop数据导出一致性问题？4、整体项目框架如何设计？项目中遇到过哪些问题7.1Hadoop宕机（1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存
springBoot 和springCloud 版本对应关系 m0_74824894 面试学习路线阿里巴巴 spring boot spring cloud 后端
请求下面链接：拿到的json数据，格式化https://start.spring.io/actuator/info[这里是图片001]https://start.spring.io/actuator/info云原生脚手架CloudNativeAppInitializer(aliyun.com)[这里是图片002]https://start.aliyun.com/idea阿里云脚手架插件：Aliba
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
Java后端开发技术详解小二爱编程· java 开发语言
Java作为一门成熟的编程语言，已广泛应用于后端开发领域。其强大的生态系统和广泛的支持库使得Java成为许多企业和开发者的首选后端开发语言。随着云计算、微服务架构和大数据技术的兴起，Java后端开发的技术栈也不断演进。本文将详细介绍Java后端开发的核心技术，包括Java基础、常见框架、数据库操作、缓存技术、异步编程等。1.Java基础：理解面向对象的编程Java是一种面向对象的编程语言，面向对象
IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔永洪科技科技人工智能 BI 大数据数据分析
大数据市场正在稳步前进，生成式AI已成为厂商服务的重点方向，其发展离不开数据底座建设和数据工程管理，反过来AI也会帮助开发运维人员、业务人员和管理层更好地使用、查询数据。IDC调研数据显示，在生成式AI的驱动下，未来5年企业在数据管理和数据分析基础设施建设的投资增长率将分别达到8.7%和9.2%。近日，国际咨询机构IDC发布了《中国数据智能市场生态图谱V5.0》，在这一领域，永洪科技以其创新前沿的
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
读书笔记五 ---大数据之路--数仓分层 qq_38215991 big data 大数据
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据（进行了数据清洗）,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。（原始数据
从零开始学习 Go 语言九班长 Golang 学习 golang 后端开发语言 gin
Go语言（又称Golang）是由Google开发的一种静态强类型、编译型、并发型编程语言。它以其简洁的语法、高效的并发支持和强大的标准库而闻名，非常适合开发高性能的服务器端应用、分布式系统和云计算工具。本文将从零开始，详细介绍如何学习Go语言，涵盖基础语法、核心概念、并发编程、工具链和实战项目等内容。1.Go语言简介1.1Go语言的特点简洁易学：语法简洁，学习曲线平缓。高效编译：编译速度快，生成的
MySQL的多租户和多云部署架构设计 vipfanxu mysql 数据库
引言MySQL是一种流行的关系型数据库管理系统，被广泛应用于大型企业和云计算环境中。随着云计算的兴起，多租户和多云部署的需求逐渐增加。本文将探讨MySQL在多租户和多云部署架构设计方面的考虑和实践。一、多租户部署架构设计多租户是指在一个系统中，通过虚拟化技术将多个租户隔离开来，每个租户都拥有自己的独立环境和资源。在MySQL的多租户部署架构设计中，需要考虑以下几个方面：数据库隔离、数据安全和性能优
阿里云+华为云双活架构：头部企业的云端生存法则云上的阿七阿里云华为云架构
如何在云端构建高可用、高可靠的业务架构，依然是企业IT决策者面临的挑战。面对单一云厂商可能带来的故障风险，越来越多的头部企业开始采用“阿里云+华为云”双活架构，以提升业务连续性，实现跨云容灾，打造更稳健的云端生存法则。什么是双活架构？双活架构（Active-ActiveArchitecture）指的是企业在两个云平台（如阿里云和华为云）上同时运行核心业务，实现数据同步和业务负载均衡。一旦某一云平台
python pip及常用国内镜像源 sunny05296 python python pip 开发语言
pip常用国内镜像源pip默认从国外的python下载会很慢，建议使用一些国内的镜像源，常用的国内镜像源如下：#清华镜像源https://pypi.tuna.tsinghua.edu.cn/simple#中科大镜像源https://pypi.mirrors.ustc.edu.cn/simple#阿里云镜像源https://mirrors.aliyun.com/pypi/simplepip安装组件时
使用LangGraph迁移MapReduceDocumentsChain进行长文档的摘要 dgay_hua python
在大数据处理和文本分析领域，MapReduce是一种非常重要的策略，用于处理和分析大型数据集。具体到文本处理方面，MapReduceDocumentsChain구현了一种map-reduce策略，可以有效地处理长文本。本文将介绍如何从MapReduceDocumentsChain迁移到LangGraph，并探讨LangGraph在流处理、检查点恢复等方面的优势。技术背景介绍MapReduceDoc
Deepseek API 调用哦豁灬 LLM 深度学习生产工具 deepseek LLM API 大模型
1获取APIKey目前比较知名的提供了DeepSeek的推理服务商包括硅基流动、阿里云、腾讯云等等。这些推理服务商一般是提供API接口，需要安装大模型客户端并配置API。获取API密钥，以硅基流动为例：前往硅基流动官方网站（https://cloud.siliconflow.cn）注册账号。在账户管理的API密钥中点击新建API密钥并复制。安装一个本地的第三方大模型客户并配置，常见的包括Chatb
Python用Bokeh处理大规模数据可视化的最佳实践一键难忘 Bokeh python 开发语言
用Bokeh处理大规模数据可视化的最佳实践在大规模数据处理和分析中，数据可视化是一个至关重要的环节。Bokeh是一个在Python生态中广泛使用的交互式数据可视化库，它具有强大的可扩展性和灵活性。本文将介绍如何使用Bokeh处理大规模数据可视化，并提供一些最佳实践和代码实例，帮助你高效地展示大数据集中的重要信息。1.为什么选择Bokeh？Bokeh是一个专为浏览器呈现而设计的可视化库，它支持高效渲
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源