iteye_18139

Cassandra 分布式数据库详解，第 2 部分：数据结构与数据读写

原文 http://www.ibm.com/developerworks/cn/opensource/os-cn-cassandraxu2/

Cassandra 的数据存储结构

Cassandra 中的数据主要分为三种：

CommitLog：主要记录下客户端提交过来的数据以及操作。这个数据将被持久化到磁盘中，以便数据没有被持久化到磁盘时可以用来恢复。
Memtable：用户写的数据在内存中的形式，它的对象结构在后面详细介绍。其实还有另外一种形式是 BinaryMemtable 这个格式目前 Cassandra 并没有使用，这里不再介绍了。
SSTable：数据被持久化到磁盘，这又分为 Data、Index 和 Filter 三种数据格式。

CommitLog 数据格式

CommitLog 的数据只有一种，那就是按照一定格式组成 byte 组数，写到 IO 缓冲区中定时的被刷到磁盘中持久化，在上一篇的配置文件详解中已经有说到 CommitLog 的持久化方式有两种，一个是 Periodic 一个是 Batch，它们的数据格式都是一样的，只是前者是异步的，后者是同步的，数据被刷到磁盘的频繁度不一样。关于 CommitLog 的相关的类结构图如下：

图 1. CommitLog 的相关的类结构图

它持久化的策略也很简单，就是首先将用户提交的数据所在的对象 RowMutation 序列化成 byte 数组，然后把这个对象和 byte 数组传给 LogRecordAdder 对象，由 LogRecordAdder 对象调用 CommitLogSegment 的 write 方法去完成写操作，这个 write 方法的代码如下：

清单 1. CommitLogSegment. write

				
public CommitLogSegment.CommitLogContext write(RowMutation rowMutation, 
 Object serializedRow){ 
        long currentPosition = -1L; 
 ... 
            Checksum checkum = new CRC32(); 
            if (serializedRow instanceof DataOutputBuffer){ 
                DataOutputBuffer buffer = (DataOutputBuffer) serializedRow; 
                logWriter.writeLong(buffer.getLength()); 
                logWriter.write(buffer.getData(), 0, buffer.getLength()); 
                checkum.update(buffer.getData(), 0, buffer.getLength()); 
            } 
            else{ 
                assert serializedRow instanceof byte[]; 
                byte[] bytes = (byte[]) serializedRow; 
                logWriter.writeLong(bytes.length); 
                logWriter.write(bytes); 
                checkum.update(bytes, 0, bytes.length); 
            } 
            logWriter.writeLong(checkum.getValue()); 
 ... 
 }

这个代码的主要作用就是如果当前这个根据 columnFamily 的 id 还没有被序列化过，将会根据这个 id 生成一个 CommitLogHeader 对象，记录下在当前的 CommitLog 文件中的位置，并将这个 header 序列化，覆盖以前的 header。这个 header 中可能包含多个没有被序列化到磁盘中的 RowMutation 对应的 columnFamily 的 id。如果已经存在，直接把 RowMutation 对象的序列化结果写到 CommitLog 的文件缓存区中后面再加一个 CRC32 校验码。Byte 数组的格式如下：

图 2. CommitLog 文件数组结构

上图中每个不同的 columnFamily 的 id 都包含在 header 中，这样做的目的是更容易的判断那些数据没有被序列化。

CommitLog 的作用是为恢复没有被写到磁盘中的数据，那如何根据 CommitLog 文件中存储的数据恢复呢？这段代码在 recover 方法中：

清单 2. CommitLog.recover

				
 public static void recover(File[] clogs) throws IOException{ 
 ... 
         final CommitLogHeader clHeader = CommitLogHeader.readCommitLogHeader(reader); 
         int lowPos = CommitLogHeader.getLowestPosition(clHeader); 
            if (lowPos == 0) break; 
            reader.seek(lowPos); 
            while (!reader.isEOF()){ 
                try{ 
                    bytes = new byte[(int) reader.readLong()]; 
                    reader.readFully(bytes); 
                    claimedCRC32 = reader.readLong(); 
                } 
 ... 
                ByteArrayInputStream bufIn = new ByteArrayInputStream(bytes); 
                Checksum checksum = new CRC32(); 
                checksum.update(bytes, 0, bytes.length); 
                if (claimedCRC32 != checksum.getValue()){continue;} 
            final RowMutation rm = 
              RowMutation.serializer().deserialize(new DataInputStream(bufIn));
            } 
 ... 
 }

这段代码的思路是：反序列化 CommitLog 文件的 header 为 CommitLogHeader 对象，寻找 header 对象中没有被回写的最小 RowMutation 位置，然后根据这个位置取出这个 RowMutation 对象的序列化数据，然后反序列化为 RowMutation 对象，然后取出 RowMutation 对象中的数据重新保存到 Memtable 中，而不是直接写到磁盘中。CommitLog 的操作过程可以用下图来清楚的表示：

图 3. CommitLog 数据格式的变化过程

Memtable 内存中数据结构

Memtable 内存中数据结构比较简单，一个 ColumnFamily 对应一个唯一的 Memtable 对象，所以 Memtable 主要就是维护一个 ConcurrentSkipListMap 类型的数据结构，当一个新的 RowMutation 对象加进来时，Memtable 只要看看这个结构是否集合已经存在，没有的话就加进来，有的话取出这个 Key 对应的 ColumnFamily，再把它们的 Column 合并。Memtable 相关的类结构图如下：

图 4. Memtable 相关的类结构图

Memtable 中的数据会根据配置文件中的相应配置参数刷到本地磁盘中。这些参数在上一篇中已经做了详细说明。

前面已经多处提到了 Cassandra 的写的性能很好，好的原因就是因为 Cassandra 写到数据首先被写到 Memtable 中，而 Memtable 是内存中的数据结构，所以 Cassandra 的写是写内存的，下图基本上描述了一个 key/value 数据是怎么样写到 Cassandra 中的 Memtable 数据结构中的。

图 5. 数据被写到 Memtable

SSTable 数据格式

每添加一条数据到 Memtable 中，程序都会检查一下这个 Memtable 是否已经满足被写到磁盘的条件，如果条件满足这个 Memtable 就会写到磁盘中。先看一下这个过程涉及到的类。相关类图如图 6 所示：

图 6. SSTable 持久化类结构图

Memtable 的条件满足后，它会创建一个 SSTableWriter 对象，然后取出 Memtable 中所有的集合，将 ColumnFamily 对象的序列化结构写到 DataOutputBuffer 中。接下去 SSTableWriter 根据 DecoratedKey 和 DataOutputBuffer 分别写到 Date、Index 和 Filter 三个文件中。

Data 文件格式如下：

图 7. SSTable 的 Data 文件结构

Data 文件就是按照上述 byte 数组来组织文件的，数据被写到 Data 文件中是接着就会往 Index 文件中写，Index 中到底写什么数据呢？

其实 Index 文件就是记录下所有 Key 和这个 Key 对应在 Data 文件中的启示地址，如图 8 所示：

图 8. Index 文件结构

Index 文件实际上就是 Key 的一个索引文件，目前只对 Key 做索引，对 super column 和 column 都没有建索引，所以要匹配 column 相对来说要比 Key 更慢。

Index 文件写完后接着写 Filter 文件，Filter 文件存的内容就是 BloomFilter 对象的序列化结果。它的文件结构如图 9 所示：

图 9. Filter 文件结构

BloomFilter 对象实际上对应一个 Hash 算法，这个算法能够快速的判断给定的某个 Key 在不在当前这个 SSTable 中，而且每个 SSTable 对应的 BloomFilter 对象都在内存中，Filter 文件指示 BloomFilter 持久化的一个副本。三个文件对应的数据格式可以用下图来清楚的表示：

图 10. SSTable 数据格式转化

查看大图

这个三个文件写完后，还要做的一件事件就是更新前面提到的 CommitLog 文件，告诉 CommitLog 的 header 所存的当前 ColumnFamily 的没有写到磁盘的最小位置。

在 Memtable 往磁盘中写的过程中，这个 Memtable 被放到 memtablesPendingFlush 容器中，以保证在读时候它里面存的数据能被正确读到，这个在后面数据读取时还会介绍。

回页首

数据的写入

数据要写到 Cassandra 中有两个步骤：

1. 找到应该保存这个数据的节点
2. 往这个节点写数据。客户端写一条数据必须指定 Keyspace、ColumnFamily、Key、Column Name 和 Value，还可以指定 Timestamp，以及数据的安全等级。

数据写入涉及的主要相关类如下图所示：

图 11. Insert 相关类图

大慨的写入逻辑是这样的：

CassandraServer 接收到要写入的数据时，首先创建一个 RowMutation 对象，再创建一个 QueryPath 对象，这个对象中保存了 ColumnFamily、Column Name 或者 Super Column Name。接着把用户提交的所有数据保存在 RowMutation 对象的 Map 结构中。接下去就是根据提交的 Key 计算集群中那个节点应该保存这条数据。这个计算的规则是：将 Key 转化成 Token，然后在整个集群的 Token 环中根据二分查找算法找到与给定的 Token 最接近的一个节点。如果用户指定了数据要保存多个备份，那么将会顺序在 Token 环中返回与备份数相等的节点。这是一个基本的节点列表，后面 Cassandra 会判断这些节点是否正常工作，如果不正常寻找替换节点。还有还要检查是否有节点正在启动，这种节点也是要在考虑的范围内，最终会形成一个目标节点列表。最后把数据发送到这些节点。

接下去就是将数据保存到 Memtable 中和 CommitLog 中，关于结果的返回根据用户指定的安全等级不同，可以是异步的，也可以是同步的。如果某个节点返回失败，将会再次发送数据。下图是当 Cassandra 接收到一条数据时到将数据写到 Memtable 中的时序图。

图 12. Insert 操作的时序图

查看大图

回页首

数据的读取

Cassandra 的写的性能要好于读的性能，为何写的性能要比读好很多呢？原因是，Cassandra 的设计原则就是充分让写的速度更快、更方便而牺牲了读的性能。事实也的确如此，仅仅看 Cassandra 的数据的存储形式就能发现，首先是写到 Memtable 中，然后将 Memtable 中数据刷到磁盘中，而且都是顺序保存的不检查数据的唯一性，而且是只写不删（删除规则在后面介绍），最后才将顺序结构的多个 SSTable 文件合并。这每一步难道不是让 Cassandra 写的更快。这个设计想想对读会有什么影响。首先，数据结构的复杂性，Memtable 中和 SSTable 中数据结构肯定不同，但是返回给用户的肯定是一样的，这必然会要转化。其次，数据在多个文件中，要找的数据可能在 Memtable 中，也可能在某个 SSTable 中，如果有 10 个 SSTable，那么就要在到 10 个 SSTable 中每个找一遍，虽然使用了 BloomFilter 算法可以很快判断到底哪个 SSTable 中含有指定的 key。还有可能在 Memtable 到 SSTable 的转化过程中，这也是要检查一遍的，也就是数据有可能存在什么地方，就要到哪里去找一遍。还有找出来的数据可能是已经被删除的，但也没办法还是要取。

下面是读取数据的相关类图：

图 13. 读取相关类图

根据上面的类图读取的逻辑是，CassandraServer 创建 ReadCommand 对象，这个对象保存了用户要获取记录的所有必须指定的条件。然后交给 weakReadLocalCallable 这个线程去到 ColumnFamilyStore 对象中去搜索数据，包括 Memtable 和 SSTable。将找到的数据组装成 Row 返回，这样一个查询过程就结束了。这个查询逻辑可以用下面的时序图来表示：

图 14. 查询数据时序图

查看大图

在上图中还一个地方要说明的是，取得 key 对应的 ColumnFamily 要至少在三个地方查询，第一个就是 Memtable 中，第二个是 MemtablesPendingFlush，这个是将 Memtable 转化为 SSTable 之前的一个临时 Memtable。第三个是 SSTable。在 SSTable 中查询最为复杂，它首先将要查询的 key 与每个 SSTable 所对应的 Filter 做比较，这个 Filter 保存了所有这个 SSTable 文件中含有的所有 key 的 Hash 值，这个 Hsah 算法能快速判断指定的 key 在不在这个 SSTable 中，这个 Filter 的值在全部保存在内存中，这样能快速判断要查询的 key 在那个 SSTable 中。接下去就要在 SSTable 所对应的 Index 中查询 key 所对应的位置，从前面的 Index 文件的存储结构知道，Index 中保存了具体数据在 Data 文件中的 Offset。，拿到这个 Offset 后就可以直接到 Data 文件中取出相应的长度的字节数据，反序列化就可以达到目标的 ColumnFamily。由于 Cassandra 的存储方式，同一个 key 所对应的值可能存在于多个 SSTable 中，所以直到查找完所有的 SSTable 文件后再与前面的两个 Memtable 查找出来的结果合并，最终才是要查询的值。

另外，前面所描述的是最坏的情况，也就是查询在完全没有缓存的情况下，当然 Cassandra 在对查询操作也提供了多级缓存。第一级直接针对查询结果做缓存，这个缓存的设置的配置项是 Keyspace 下面的 RowsCached。查询的时候首先会在这个 Cache 中找。第二级 Cache 对应 SSTable 的 Index 文件，它可以直接缓存要查询 key 所对应的索引。这个配置项同样在 Keyspace 下面的 KeysCached 中，如果这个 Cache 能命中，将会省去 Index 文件的一次 IO 查询。最后一级 Cache 是做磁盘文件与内存文件的 mmap，这种方式可以提高磁盘 IO 的操作效率，鉴于索引大小的限制，如果 Data 文件太大只能在 64 位机器上使用这个技术。

回页首

数据的删除

从前面的数据写入规则可以想象，Cassandra 要想删除数据是一件麻烦的事，为何这样说？理由如下：

数据有多处同时还可能在多个节点都有保存。
数据的结构有多种数据会写在 CommitLog 中、Memtable 中、SSTable 中，它们的数据结构都不一样。
数据时效性不一致由于是集群，所以数据在节点之间传输必然有延时。

除了这三点之外还有其它一些难点如 SSTable 持久化数据是顺序存储的，如果删除中间一段，那数据有如何移动，这些问题都非常棘手，如果设计不合理，性能将会非常之差。

本部分将讨论 Cassandra 是如何解决这些问题的。

CassandraServer 中删除数据的接口只有一个 remove，下面是 remove 方法的源码：

清单 3. CassandraServer.remove

public void remove(String table, String key, ColumnPath column_path, 
          long timestamp, ConsistencyLevel consistency_level){
        checkLoginDone();
        ThriftValidation.validateKey(key);
        ThriftValidation.validateColumnPathOrParent(table, column_path);
        RowMutation rm = new RowMutation(table, key);
        rm.delete(new QueryPath(column_path), timestamp);
        doInsert(consistency_level, rm);
    }

仔细和 insert 方法比较，发现只有一行不同：insert 方法调用的是 rm.add 而这里是 rm.delete。那么这个 rm.delete 又做了什么事情呢？下面是 delete 方法的源码：

清单 4. RowMutation. Delete

public void delete(QueryPath path, long timestamp){
...
        if (columnFamily == null)
            columnFamily = ColumnFamily.create(table_, cfName);
        if (path.superColumnName == null && path.columnName == null){
            columnFamily.delete(localDeleteTime, timestamp);
        }else if (path.columnName == null){
            SuperColumn sc = new SuperColumn(path.superColumnName, 
              DatabaseDescriptor.getSubComparator(table_, cfName));
            sc.markForDeleteAt(localDeleteTime, timestamp);
            columnFamily.addColumn(sc);
        }else{
            ByteBuffer bytes = ByteBuffer.allocate(4);
            bytes.putInt(localDeleteTime);
            columnFamily.addColumn(path, bytes.array(), timestamp, true);
        }
    }

这段代码的主要逻辑就是，如果是删除指定 Key 下的某个 Column，那么将这个 Key 所对应的 Column 的 vlaue 设置为当前系统时间，并将 Column 的 isMarkedForDelete 属性设置为 TRUE，如果是要删除这个 Key 下的所有 Column 则设置这个 ColumnFamily 的删除时间期限属性。然后将这个新增的一条数据按照 Insert 方法执行下去。

这个思路现在已经很明显了，它就是通过设置同一个 Key 下对应不同的数据来更新已经在 ConcurrentSkipListMap 集合中存在的数据。这种方法的确很好，它能够达到如下目的：

简化了数据的操作逻辑。将添加、修改和删除逻辑都统一起来。
解决了前面提到的三个难点。因为它就是按照数据产生的方式，来修改数据。有点以其人之道还治其人之身的意思。

但是这仍然有两个问题：这个只是修改了指定的数据，它并没有删除这条数据；还有就是 SSTable 是根据 Memtable 中的数据保存的，很可能会出现不同的 SSTable 中保存相同的数据，这个又怎么解决？的确如此，Cassandra 并没有删除你要删除的数据，Cassandra 只是在你查询数据返回之前，过滤掉 isMarkedForDelete 为 TRUE 的记录。它能够保证你删除的数据你不能再查到，至于什么时候真正删除，你就不需要关心了。Cassandra 删除数据的过程很复杂，真正删除数据是在 SSTable 被压缩的过程中，SSTable 压缩的目的就是把同一个 Key 下对应的数据都统一到一个 SSTable 文件中，这样就解决了同一条数据在多处的问题。压缩的过程中 Cassandra 会根据判断规则判定哪些数据应该被删除。

回页首

SSTable 的压缩

数据的压缩实际上是数据写入 Cassandra 的一个延伸，前面描述的数据写入和数据的读取都有一些限制，如：在写的过程中，数据会不停的将一定大小的 Memtable 刷到磁盘中，这样不停的刷，势必会产生很多的同样大小的 SSTable 文件，不可能这样无限下去。同样在读的过程中，如果太多的 SSTable 文件必然会影响读的效率，SSTable 越多就会越影响查询。还有一个 Key 对应的 Column 分散在多个 SSTable 同样也会是问题。还有我们知道 Cassandra 的删除同样也是一个写操作，同样要处理这些无效的数据。

鉴于以上问题，必然要对 SSTable 文件进行合并，合并的最终目的就是要将一个 Key 对应的所有 value 合并在一起。该组合的组合、该修改的修改，该删除的删除。然后将这个 Key 所对应的数据写在 SSTable 所对应的 Data 文件的一段连续的空间上。

何时压缩 SSTable 文件由 Cassandra 来控制，理想的 SSTable 文件个数在 4~32 个。当新增一个 SSTable 文件后 Cassandra 会计算当期的平均 SSTable 文件的大小当新增的 SSTable 大小在平均 SSTable 大小的 0.5~1.5 倍时 Cassandra 就会调用压缩程序压缩 SSTable 文件，导致的结果就是重新建立 Key 的索引。这个过程可以用下图描述：

图 15 数据压缩

回页首

总结

本文首先描述了 Cassandra 中数据的主要的存储格式，包括内存中和磁盘中数据的格式，接下去介绍了 Cassandra 处理这些数据的方式，包括数据的添加、删除和修改，本质上修改和删除是一个操作。最后介绍了数据的压缩。

接下去两篇将向软件开发人员介绍 Cassandra 中使用的设计模式、巧妙的设计方法和 Cassandra 的高级使用方法——利用 Cassandra 搭建存储与检索一体化的实时检索系统

无人值守人工智能智慧系统数据分析：深度洞察与未来展望呆码科技人工智能数据分析数据挖掘
无人值守人工智能智慧系统数据分析：深度洞察与未来展望随着科技的飞速发展，人工智能（AI）技术已逐渐渗透到社会经济的各个领域，其中无人值守人工智能智慧系统作为AI技术应用的前沿阵地，正引领着一场深刻的行业变革。这类系统通过集成高级算法、大数据分析、物联网（IoT）及云计算等先进技术，实现了对复杂环境的自主监控、智能决策与高效管理，极大地提升了运营效率，降低了人力成本，并开启了数据驱动决策的新纪元。本
计算机网络详解：发展史、TCP/IP协议、网络通信与应用开发全流程三玖诶网络计算机网络 tcp/ip php
文章目录1.计算机网络的发展史1.1初期阶段：网络的萌芽（1960年代）1.2第二阶段：TCP/IP协议的引入（1970-1980年代）1.3第三阶段：互联网的普及与商业化（1990年代）1.4现代网络：云计算、物联网和5G（2000年代至今）2.TCP/IP协议详解（重点）2.1TCP/IP协议的分层模型2.2TCP协议详解2.3IP协议详解3.网络通信中的关键概念3.1IP地址3.2MAC地址
操作系统精髓与设计原理第六版习题全解莱财一哥
本文还有配套的精品资源，点击获取简介：操作系统作为计算机科学的基础，其核心功能包括管理硬件资源和提供用户服务。《操作系统精髓与设计原理》第六版详细阐述了操作系统的各种核心概念、设计策略和实现技术，并提供了课后习题答案，以帮助读者深入理解并掌握这些知识点。本资料覆盖了进程管理、内存管理、文件系统、设备管理、死锁、安全与保护、分布式系统、实时系统、虚拟化技术和云计算与容器等关键领域。1.操作系统基础知
2025年华为认证之HCIE-云计算方向的报考流程
一、先搞明白：HCIE-云计算认证到底是啥？HCIE-云计算（华为认证ICT专家-云计算）是华为体系里云计算领域的顶级认证，说白了，就是证明你有能力搞定大型企业的云平台设计、部署和运维。现在政企、金融这些行业上云需求猛增，招人的时候，这证书经常是“加分项”甚至“硬门槛”。但这证不好拿，得闯两关：笔试和实验考试。从报名到拿证，流程说复杂也复杂，说简单也简单，关键是每个环节都得踩对节奏，不然容易走弯路
etcd：从应用场景到实现原理的全方位解读
转自：http://www.infoq.com/cn/articles/etcd-interpretation-application-scenario-implement-principleetcd：从应用场景到实现原理的全方位解读随着CoreOS和Kubernetes等项目在开源社区日益火热，它们项目中都用到的etcd组件作为一个高可用强一致性的服务发现存储仓库，渐渐为开发人员所关注。在云计算
2025年计算机领域年度主题：融合创新与技术突破 Гений.大天才量子计算 2025年度主题
2025年计算机领域年度主题：融合创新与技术突破一、引言2025年，计算机领域迎来了诸多重大技术突破和行业动态。这些进展不仅推动了技术的边界，也为开发者和企业带来了新的机遇和挑战。2025年的年度主题是“融合创新与技术突破”，这一主题反映了当前计算机领域技术融合的趋势，以及在各个子领域中取得的重大突破。本文将从量子计算、AI芯片、云计算、区块链等多个方面，详细介绍2025年计算机领域的技术进展和应
谷歌云(GCP)入门指南：从零开始搭建你的第一个云应用 AI云原生与云计算技术学院 AI云原生与云计算 perl 服务器网络 ai
谷歌云(GCP)入门指南：从零开始搭建你的第一个云应用关键词：谷歌云、GCP、云应用搭建、入门指南、云计算摘要：本文旨在为初学者提供一份全面的谷歌云（GCP）入门指南，详细介绍如何从零开始搭建第一个云应用。通过逐步分析推理，我们将涵盖背景知识、核心概念、算法原理、数学模型、项目实战、实际应用场景、工具资源推荐等多个方面，帮助读者深入理解GCP的使用方法和搭建云应用的流程，为后续的云计算实践打下坚实
网安学习NO.12
下一代防火墙（Next-GenerationFirewall，简称NGFW）是在传统防火墙基础上发展而来的新一代网络安全防护设备，其核心目标是解决传统防火墙在复杂网络环境（如云计算、移动办公、加密流量激增等）中“防护维度不足、威胁识别滞后、功能单一”等痛点，通过融合多元安全能力，实现对网络流量更精准、更智能、更全面的管控与防御。一、下一代防火墙与传统防火墙的核心差异传统防火墙主要依赖“端口-协议”
揭秘华为欧拉：不只是操作系统，更是云时代的技能认证体系
揭秘华为欧拉：不只是操作系统，更是云时代的技能认证体系作为一名深耕IT培训领域的博主，今天带大家客观认识“华为欧拉”——这个在云计算领域频频出现的名词。一、华为欧拉究竟是什么？严格来说，“华为欧拉”核心包含两部分1.openEuler操作系统：一个由华为支持的企业级开源Linux操作系统发行版，专为云计算、云原生平台等场景设计优化。2.华为openEuler认证体系(HCIA/HCIP/HCIE-
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
国产开源高性能对象存储RustFS保姆级上手指南光爷不秃对象存储 rust 国产开源软件 rust 云计算开源软件 github 开源数据仓库 database
在云计算与大数据爆发的时代，企业和开发者对存储方案的要求愈发严苛——不仅要能扛住海量数据的读写压力，还得兼顾安全性、可扩展性和兼容性。今天给大家介绍一款基于Rust语言开发的开源分布式对象存储系统——RustFS，它不仅是MinIO的国产化优秀替代方案，更是AI、大数据和云原生场景的理想之选。本文将从基础介绍到实战操作，带大家快速上手这款"优雅的存储解决方案"。一、RustFS核心特性解析Rust
上海夏致云计算数字科技公司 Java 实习面经
上海夏致云计算数字科技公司Java实习面经本文作者：程序员小白条本站地址：https://xbt.xiaobaitiao.top1）面试官：先自我介绍一下我：大家先写个文档记录一下，然后按流程进行背诵就好了，如果有新的获奖和实习，直接按时间顺序进行增加即可，面的多了基本就麻木了…2）面试官：你的项目是为了什么而做的？我：反复介绍API，自圆其说即可，我主要做了拓展，最近考虑加点东西和参数优化，别说
云原生：数字化转型的核心引擎
在数字经济蓬勃发展的今天，云原生技术正成为企业数字化转型的核心驱动力。它不仅改变了传统IT架构的运行方式，更重塑了整个软件开发和交付的生命周期。本文将深入探讨云原生系统的核心价值、关键技术以及实施路径。一、云原生：数字化转型的必由之路云原生是一套充分利用云计算优势来构建和运行应用程序的方法论。根据CNCF最新调查，全球已有超过75%的企业在生产环境中使用云原生技术，这一数字还在持续增长。云原生的核
用XDR的思路保护API安全 Akamai中国云计算安全人工智能云计算分布式云原生架构 Akamai
云计算飞速发展的今天，越来越多应用程序已经转为选择云原生架构，这就少不了Serverless、微服务、API等技术的协助。但同时也有越来越多的企业认识到，一定程度的“API安全”在整体安全与合规态势中发挥着至关重要的作用。然而，对很多企业来说，可能并不太明确API安全技术投资在其更广泛安全栈中的位置。两个关键问题随着时间推移，许多安全孤岛已经逐步发展，开始包含更统一的扩展检测和响应（XDR，Ext
运维工程师发展路线 SZHCI 运维
一、运维工程师发展路线1.传统运维侧重点是解决具体的问题。要求具备扎实的底层的知识储备，如网络、linux、数据库、硬件设备调试、服务部署等。以及一定的故障处理能力和经验，能够快速解决问题，实施变更。能够处理突发故障，顺利完成服务的部署，变更的实施。2.云计算运维侧重点是开源技术方案的使用，为云服务的稳定提供保证。随着业务不断发展，服务器规模扩大，就需要具备大规模服务器的批量管理能力。要求对开源技
探秘阿里云消息队列：解锁分布式系统的异步通信奥秘云资源服务商阿里云云计算中间件
阿里云消息队列：分布式架构的基石在当今数字化快速发展的时代，分布式系统已成为企业构建高可用、高性能应用的关键架构。而消息队列，作为分布式系统中的重要组件，犹如基石一般，支撑着整个架构的稳定运行。它能够有效地解决分布式系统中的异步通信、解耦、削峰填谷等问题，为系统的可靠性和扩展性提供了强大的保障。阿里云作为云计算领域的领军者，其推出的阿里云消息队列凭借着卓越的性能、高可靠性以及丰富的功能，成为了众多
边缘人工智能与医疗AI融合发展路径：技术融合与应用前景（上） Allen_Lyb 数智化医院2025 人工智能健康医疗算法
引言人工智能技术正以前所未有的速度改变着医疗保健领域，从辅助诊断到个性化治疗，AI应用的广度和深度不断拓展。在这一浪潮中，边缘人工智能（EdgeAI）作为一种新兴技术范式，正成为推动医疗AI创新的关键力量。边缘AI区别于传统的云计算模式，它将数据处理和AI模型部署在数据源头附近，实现快速响应和隐私保护。这种特性使其在医疗保健领域具有独特优势，特别是在实时监测、紧急响应和患者隐私保护等方面。边缘AI
智慧城市大脑：城市治理的新引擎 Fulima_cloud 智慧城市人工智能
在科技日新月异的今天，智慧城市的概念已经深入人心。而智慧城市大脑，作为智慧城市的中枢神经系统，运用大数据、云计算、物联网、人工智能等先进技术，构建的城市级智能化管理体系，正逐步成为提升城市治理能力、优化城市服务、推动城市可持续发展的重要力量。智慧城市大脑是什么，简而言之，是运用大数据、云计算、物联网、人工智能等先进技术，构建的城市级智能化管理体系。它如同城市的“智慧中枢”，通过对城市全域运行数据的
Docker容器如何实现分布式微服务：从0到1的深度解析 cda2024 docker 分布式微服务
在当今云计算和大数据时代，企业面临的最大挑战之一是如何快速、稳定地部署和管理复杂的软件应用。传统的单体架构已难以满足现代互联网应用的需求，而分布式微服务架构成为了解决这一难题的关键。但问题随之而来：如何高效地构建和管理分布式微服务？Docker容器技术的出现为这个问题带来了新的曙光。它不仅简化了应用程序的打包和部署过程，还为微服务架构提供了强大的支持。本文将深入探讨Docker容器如何实现分布式微
【云计算解决方案面试整理】3-7主流云计算平台、云计算架构、安全防护不太灵光的程序员阿里云云计算工程师ACP认证云计算云计算面试架构
准备面云计算解决方案的岗位，整理了一些，也请大佬们指点。文档分为云计算基础概念、云计算技术原理、主流云计算平台（以天翼云为例）、云计算架构（弹性设计、高可用设计、高性能设计）、安全防护几个方面。三、主流云计算平台1.阿里云云计算平台强大的计算能力：拥有自主研发的飞天操作系统，可提供高效、稳定的计算服务，能够满足大规模数据处理和高并发业务的需求。例如，在应对双11这样的高并发场景时，飞天系统可以快速
[创业之路-474]：企业经营层 - 小米与华为多维对比分析（2025年视角），以后不要把这两家公司放在同一个维度上进行比较了文火冰糖的硅基工坊创业之路华为跨学科融合架构经营科技重构
一、行业定位与市场角色不同华为：用技术手段解决行业的难题，顺便赚钱技术驱动型硬科技企业：以通信设备起家，延伸至智能手机、芯片、操作系统（鸿蒙）、云计算、智能汽车等领域，构建“云-管-端”全栈技术生态。高端市场主导者：在600美元以上高端手机市场占比29%，PuraX折叠屏系列定位“科技奢侈品”，问界M9成为50万以上车型销冠。政企市场深耕者：通过“华为中国政企业务”独立运营，2023年政企收入占比
Fortinet Security Fabric 解决方案：构建智能化、一体化的网络安全防御体系江苏思维驱动智能研究院有限公司安全 fabric web安全
一、方案背景与核心价值：应对数字化时代的安全挑战在云计算、物联网、远程办公等技术普及的背景下，企业网络边界逐渐模糊，攻击面呈指数级扩展。传统单点安全产品难以应对多维度威胁渗透，而FortinetSecurityFabric（安全架构）以“集成化、自动化、智能化”为核心，通过安全能力的协同联动与威胁情报共享，构建覆盖全网络环境的动态防御体系。其核心价值在于：打破安全孤岛：整合分散的安全组件，避免多产
116、掌握Docker Compose与Kubernetes：Rust应用部署实操多多的编程笔记 Rust之Web开发 docker kubernetes rust
Rust部署与运维：掌握使用DockerCompose、Kubernetes等工具进行应用部署和管理1.引言Rust是一种注重性能、安全和并发的系统编程语言。近年来，随着云计算和微服务架构的普及，如何将Rust应用部署到生产环境中，成为越来越多开发者关注的问题。本文将介绍如何使用DockerCompose和Kubernetes等工具进行Rust应用的部署和管理。2.DockerCompose简介D
云存储的应用场景都包含哪些？
云存储是一种网上在线存储的模式，可以将重要的数据信息存放在由第三方托管的虚拟服务器当中，云存储是在云计算概念上所延伸和衍生出的一个新的概念，保证企业中数据的安全性，同时还帮助企业节省了一定的存储空间，让用户可以更加便捷的存取所需的数据资源，实现文件共享和协作功能。本文将来具有了解一下云存储的应用场景都有哪些吧！云存储所应用的场景也较为广泛，其高度的灵活性和可扩展性成为了各个企业的首要选择，尤其是对
技术支持工程师
OS与云桌面一、核心概念解析操作系统（OS）定义：管理硬件资源（CPU、内存、存储等）并为应用程序提供运行环境的系统软件，如Windows、Linux、UOS、银河麒麟等。作用：承担进程调度、文件管理、设备驱动等基础功能，是任何计算设备的“大脑”。云桌面定义：基于云计算技术的虚拟桌面服务，将传统PC的桌面环境（操作系统、应用、数据）集中部署在远端服务器，用户通过终端设备（如瘦客户机、PC、手机）远
Nifi 模板
Acqusition_and_Processing.xmlMovingtemplatestoowndirectorytomakerepocleanerCADF_Parser.xmlMovingtemplatestoowndirectorytomakerepocleaner6monthsagoCassandraProcessors.xmlAddingtemplatesforprocessorsrel
【运维项目经历|005】：云端智慧运维服务升级上云项目小鹏linux 运维
博主简介：云计算领域优质创作者2022年CSDN新星计划python赛道第一名2022年CSDN原力计划优质作者阿里云ACE认证高级工程师阿里云开发者社区专家博主交流社区：CSDN云计算交流社区欢迎您的加入！目录项目名称项目背景项目目标项目成果我的角色与职责我主要完成的工作内容本次项目涉及的技术本次项目遇到的问题与解决方法本次项目中可能被面试官问到的问题及答案经验教训与自我提升
云计算服务架构与运维：CSDN精选实用技巧分享喜欢编程就关注我云计算架构运维云计算服务架构与运维 CSDN精选实用技巧分享代码
云计算服务架构与运维：CSDN精选实用技巧分享摘要在云计算服务架构与运维领域，合理的架构设计和有效的运维手段对于保障云平台的性能、可用性和安全性至关重要。本文从CSDN网站精选了一系列实用技巧，涵盖了架构设计原则、关键组件、运维工具及实践案例，旨在为读者提供一套系统化的云计算服务架构与运维解决方案。关键词：云计算服务架构；运维技巧；自动化部署；监控与告警；故障恢复一、引言随着云计算技术的飞速发展，
贪心算法应用：MEC任务卸载问题详解纪元A梦贪心算法贪心算法算法
Java中的贪心算法应用：MEC任务卸载问题详解1.问题背景与定义1.1移动边缘计算(MEC)概述移动边缘计算(MobileEdgeComputing,MEC)是一种将云计算能力下沉到网络边缘的技术架构。在MEC环境中，计算任务可以在终端设备、边缘服务器和云端之间进行卸载和分配，以实现更低的延迟、更高的效率和更好的用户体验。1.2任务卸载问题定义MEC任务卸载问题是指如何将移动设备上的计算任务合理
【人工智能】Maas（模型即服务）（Model as a Service）是一种基于云计算的商业模式，通过API将预训练的人工智能模型作为服务提供给用户，使其无需自行管理底层基础设施即可调用AI能力。本本本添哥 A -AIGC 人工智能大模型人工智能云计算
ModelasaService（模型即服务，MaaS）是一种基于云计算的商业模式，通过API将预训练的人工智能模型作为服务提供给用户，使其无需自行管理底层基础设施即可调用AI能力。MaaS通过云原生架构和标准化服务，正在重塑AI技术的开发和消费方式，推动人工智能从“技术专有”向“普惠工具”转变。以下是其核心要点：1.定义与核心理念MaaS将大模型（如GPT-3、多模态模型等）封装为标准化服务，用户
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi

Cassandra 分布式数据库详解，第 2 部分：数据结构与数据读写

你可能感兴趣的:(Cassandra,云计算)