NetEaseResearch

Curve技术解析之MDS元数据管理

curve简介

curve是今年7月份开源的一个⾼性能、⾼可⽤、⾼可靠的分布式存储系统，主打⾼性能、低延迟。

Curve设计可以作为多种存储场景的底层存储：例如块存储，对象存储，云原⽣数据库，EC等。

当前Curve已实现⾼性能块存储，并且基于这⼀场景对接了openstack 和 k8s。openstack上主要是⽤作云主机的系统盘和云盘，⽬前已经在线上稳定一年多了。k8s上主要是想作为计算节点的数据⽬录，这个场景⽬前在灰度环境中测试验证中。

当前curve的整个项目已经完全开源到github，感兴趣的小伙伴可以去star&&fork围观一下。

github主页：https://opencurve.github.io/
github代码仓库：https://github.com/opencurve/curve

Curve存储系统的基础设计框架与经典的GFS基本类似，采⽤有中⼼节点的架构，核⼼服务由三个部分组成：

元数据节点MDS，主要有两个职责，⼀⽅⾯管理和存储元数据信息，另⼀⽅⾯感知集群状态并进⾏调度。元数据存储在etcd中。
数据节点chunkserver，⼀⽅⾯负责数据的存储，另⼀⽅⾯负责数据⼀致性（如果底层是多副本，需要负责副本间的数据⼀致性）。
客⼾端client，向上层应⽤提供对⽂件的操作接⼝(open、read、write等)，会和mds以及chunkserver交互，与mds交互实现对元数据的增删改查；与chunkserver交互实现对数据的增删改查。

还有一个快照克隆服务器：

快照克隆服务器独⽴于核⼼服务，对外提供了http接⼝，⽤于处理和管理快照克隆任务。

这篇文章会介绍一下curve的元数据的管理，主要是mds的元数据的管理。

mds是curve的元数据管理服务，负责整个集群的元数据管理。mds的所有元数据信息都会持久化到kv存储中，curve选择了etcd作为元数据的存储。

为了加快元数据的访问，mds还在内存维护了一个元数据的cache。cache采用LRU(Least Recently Used)淘汰策略，cache最多缓存的记录条目数量，通过mds的配置文件进行配置。

mds存储的元数据包含拓扑信息的元数据，namespace的元数据。所有的信息都是经过一定的编码，以kv的方式保存在元数据中。不同类型的元数据的编码方式不同，所有保存在mds的元数据的key都是以 “prefix + 其他字段”的方式进行编码。value则是对应的元数据序列化为字符串。

不同类型的元数据的前缀不同，这些前缀比如：

const char FILEINFOKEYPREFIX[] = "01";
const char SEGMENTINFOKEYPREFIX[] = "02";
const char SNAPSHOTFILEINFOKEYPREFIX[] = "03";
const char CHUNKSTOREKEY[] = "05";
const char TOPOLOGYITEMPRIFIX[] = "10";

拓扑元数据信息

curve的拓扑信息由mds的topology模块管理，topology管理集群的 topo元数据信息。用于管理和组织机器，利用底层机器的放置、网络的规划以面向业务提供如下功能和非功能需求。

故障域的隔离：比如副本的放置分布在不同机器，不同机架，或是不同的交换机下面。
隔离和共享：不同用户的数据可以实现固定物理资源的隔离和共享。

下图是一个topology的层级关系图。一个集群可以支持1到多个Pool，每个Pool下有多个zone，每个zone由多个server组成，每个server上有多个chunkserver。

介绍一下各个组件的概念。

pool: 用于实现对机器资源进行物理隔离，server不能跨Pool交互。运维上，建议以pool为单元进行物理资源的扩容。
zone: 故障隔离的基本单元，一般来说属于不同zone的机器至少是部署在不同的机架，一个server必须归属于一个zone。
server: 用于抽象描述一台物理服务器，chunkserver必须归属一个于server。
Chunkserver: 用于抽象描述物理服务器上的一块物理磁盘(SSD)，chunkserver以一块磁盘作为最小的服务单元。

curve在上物理pool之上又引入了逻辑pool的概念，以实现统一存储系统的需求，即在单个存储系统中可以同时支持块存储、对象存储、进行对象存储。

Curve底层通过不同的⽂件类型⽀撑不同上层应⽤， curve的数据组织形式是⽂件。Curve提供三种⽂件类型，PageFile、AppendFile、AppendECFile

PageFile支持块设备。
AppendFile支持在线对象存储（规划中）。
AppendECFile支持近线对象存储可以共存（规划中）。

目前我们只实现了对块存储的支持。

如下图所示LogicalPool与物理pool为多对一的关系，一个物理pool可以存放各种类型的file。当然由于curve支持多个pool，可以选择一个logicalPool独享一个pool。

topo的元数据信息的来源有两种：

一部分是curve集群上线时确定的；还有一部分是集群在运行的过程中，通过心跳上报的信息。

集群上线的topo信息，这个是集群上线时，在配置文件中指定。比如下面是一个新集群上线的例子，一个简单的配置文件如下。在这个集群中，有一个物理pool pool1，这个物理pool由3个zone组成，分别为zone1, zone2, zone3。每个zone有一台server。在物理pool上，还创建了一个逻辑pool，逻辑pool使用3个zone，采用3副本。

cluster_map:
  servers:
    - name: server1
      internalip: 192.168.0.1
      internalport: 8200
      externalip:  192.168.0.1
      externalport: 8200
      zone: zone1
      physicalpool: pool1
    - name: server2
      internalip:  192.168.0.2
      internalport: 8200
      externalip:  192.168.0.2
      externalport: 8200
      zone: zone2
      physicalpool: pool1
    - name: server3
      internalip:  192.168.0.3
      internalport: 8200
      externalip:  192.168.0.3
      externalport: 8200
      zone: zone3
      physicalpool: pool1
  logicalpools:
    - name: logicalPool1
      physicalpool: pool1
      type: 0
      replicasnum: 3
      copysetnum: 100
      zonenum: 3
      scatterwidth: 0

心跳上报的topo信息，主要是chunkserver和mds之间的心跳信息。chunkserver会定期向mds发行心跳信息，在心跳信息中其实带有chunkserver的状态信息，比如chunkserver上的负载、容量、副本状态、是否可用等信息。mds根据收到上报的信息，更新拓扑元数据。如果mds一段时间没有收到chunkserver心跳，还会修改chunkserver的状态。

Online: chunk server在线，正常服务。
Unstable: chunk server一段时间没收到心跳（默认30s），但是还没有到达offline的时间（默认30min），chunkserver状态改为unstable状态，打印一条warning日志。
Offline :chunk server超过offline的时间没有收到心跳（默认30min）， chunkserver状态改为offline，打印一条error日志。调度模块感知到offline状态，触发chunk server的recover修复。

namespace元数据信息

curve目前仅支持块存储，每个块设备在mds都有一个对应的文件。为了方便管理，curve还引入类似于文件系统那种层次结构。一个curve集群在curvefs中有且仅有一个根目录“/”，根目录在系统初始化的时候自动创建。目录可以嵌套，目录下可以存放子目录或者文件。

curve的namespace信息一方面保存着文件和目录的元数据信息，一方面还保存着文件和目录的层次关系。

无论是目录，还是文件，统一都用FileInfo表示，区别在于他们的类型不一样。

FileInfo的编码方式：

key：prefix(2Byte)+parentId(8Byte)+fileName；
Value：FileInfo序列化后的字符串。

FileInfo的各个字段含义如下：

如下图所示的一个curvefs的目录层次结构，根目录下有目录home和文件tmp，home下有目录dir1，目录dir2，文件filez，dir1下有文件filex，dir2下有文件filey。

如上所示。这些文件和目录经过编码，以kv的方式保存在etcd中。文件和目录的key的前缀都相同，这里省略了prefix，在KV中，Key是ParentID + "/"+ BaseName，Value是自身的文件ID；这种方式可以很好地平衡几个需求：

文件列目录：列出目录下的所有文件和目录
文件查找：查找一个具体的文件
目录重命名：对一个目录/文件进行重命名

地址空间的映射元数据信息：

curve的空间采用瘦分配（thin provisioning）的方式进行空间分配，也就是说一开始卷在创建的时候，是没有实际分配空间的，仅仅是在元数据中记录了文件的长度和空间分配的粒度，真正的空间分配只有在地址真正第一次真正访问到的时候才会触发。

curve的底层按照chunk进行空间管理，但是chunk的切分粒度比较小，如果按照chunk进行分配，大量chunk分配会对元数据造成一定的压力，而且对性能也有影响。所有chunk的分配按照批量分配的原则，也就是一次性分配一批chunk。在chunk之上引入了一个segment的概念。Segment是⼀个逻辑概念，也是空间分配的基本单元。在curve中，一个curve文件会按照segment为粒度去进行空间分配。chunk外⾯包⼀层segment的好处是减少元数据量。

如下图所示，一个curve的文件由若干个segment组成，segment的大小由配置文件指定，目前curve的默认的segment的粒度为1GB，所以curve的文件大小必须是1GB的整数倍。一个segment由若干个chunk组成。

client在对空间进行读写请求之前，会先去mds查询指定offset和length的空间所在的segment的元数据信息。并把这个元数据信息缓存在client本地，以后client就可以使用缓存在本地的元数据信息对数据进行访问。segment元数据信息包含了以下的字段。

所有的⽂件在curve中都是由多个Segment组成的。每个segment的元数据记录着改segment是从哪个logicalpool分配出来，这个segment的size，组成这个segment的chunk的size，这个segment在文件中的偏移，以及这个组成这个segment的每一个chunk的信息。

Segment的持久化，Segment的编码方式：

key：prefix(2Byte)+文件的inodeid(8Byte)+offset(8Byte)；
Value：PageFileSegment序列化后的字符串。

Segment是由多个chunk组成的，这⾥的chunk是实际的物理存储单元，对应着chunk server上的⼀个物理⽂件。chunk的元数据，包含了chunk所属的copyset id和chunkid。

每个chunk实际上由多个副本的组成的，chunk的实际的存储位置，由copyset确定。copy保存着chunk的复制组的成员关系，在copyset中，记录着chunk的3个副本实际上分布在哪些chunkserver节点上。copyeset类似于ceph中的pg。为什么不直接记录chunk的3个副本，而是通过chunk→copyset，copyset→三个副本的方式存储元数据呢？

这里简要介绍下引入copyset的好处，后期curve团队还会对copyset进行更加详细的介绍。

减少元数据量：⼀般来说实际物理⽂件chunk不会设置的太⼤，⼀般都是M级别的。如果直接去记录这些chunk的信息，元数据量会很⼤。引⼊copyset可以⼈为就是分组，对于chunk的信息记录就是组信息+组内信息，数据量会少很多。如果为每个Chunk去保存复制组成员关系，需要至少 ChunkID+3×NodeID=20 个byte，而如果在Chunk到复制组之间引入一个CopySet，每个Chunk可以用ChunkID+CopySetID=12个byte。
减少复制组数量：如果一个数据节点存在 256K个复制组，复制组的内存资源占用将会非常恐怖；复制组之间的通信将会非常复杂，例如复制组内Primary给Secondary定期发送心跳进行探活，在256K个复制组的情况下，心跳的流量将会非常大；而引入CopySet的概念之后，可以以CopySet的粒度进行探活、配置变更，降低开销。
提高数据可靠性：在数据复制组过度打散的情况下，在发生多个节点同时故障的情况下，数据的可靠性会受到影响。引入CopySet，可提高分布式存储系统中的数据持久性，降低数据丢失的概率。

小结

至此，这篇文章分别从拓扑信息的元数据、namespace元数据、地址空间映射元数据三个方面，介绍了curve的mds的元数据的管理，介绍了拓扑信息的组成，元数据的持久化，空间的分配等。后续curve团队还会陆续对curve其他部分进行介绍，欢迎大家持续关注。

欢迎大家来curve逛逛，https://github.com/opencurve/curve。如果大家对curve有疑问或者想参加curve的开发，欢迎给我们提issue或者pr。

curve还有一个微信群，7*24h为大家答疑解惑，可以搜索opencurve加好友，拉大家进群。

作者：陈威，网易数帆存储团队资深开发工程师，有多年存储阵列、分布式存储研发运维经验。

如有理解和描述上有疏漏或者错误的地方，欢迎共同交流；参考已经在参考文献中注明，但仍有可能有疏漏的地方，有任何侵权或者不明确的地方，欢迎指出，必定及时更正或者删除；文章供于学习交流，转载注明出处

Curve MDS技术解读视频

Curve核心组件之MDS元数据节点

技术分享预告：网易数帆 Curve 核心开发团队将带来精心准备的 新一代开源分布式存储 - Curve 技术系列公开课（直播+回放），每周五晚19:00为大家揭开 Curve 技术的奥妙及 Curve 社区的规划，本周五为 Curve Client 的主题，敬请点击左下角“阅读原文”或识别下图二维码收看！

分布式存储的技术选型之HDFS、Ceph、MinIO对比 Linux运维老纪勇敢向前迎接运维开发之挑战分布式 hdfs ceph 云原生运维开发大数据云计算
分布式存储的技术选型比：HDFS、Ceph、MinIO对比一文读懂分布式存储在当今数字化时代，数据呈爆炸式增长，分布式存储技术应运而生，成为大数据存储与管理的得力助手。它将数据分散存于多台独立设备，构建起一个庞大而可靠的虚拟存储体系，有效突破了传统集中式存储的性能瓶颈，大幅提升了可靠性、可用性及存取效率，轻松应对海量数据的存储挑战。分布式存储的应用场景极为广泛。在大数据处理领域，如互联网公司应对海
异常检测的评价指标：ROCAUC等【tips】太简单了 tips 计算机视觉深度学习 pytorch
准确率Precision&召回率Recallfromsklearn.metricsimportprecision_recall_curveprecision,recall,thresholds=precision_recall_curve(gt_mask.flatten(),scores.flatten())混淆矩阵：实际预测正负正TP（真正类）FN（假负类）负FP（假正类）TN（真负类）prec
prometheus持久化到mysql_Prometheus的架构及持久化 CHM单
原文：https://my.oschina.net/go4it/blog/855598Prometheus是什么Prometheus是一个开源的系统监控和报警工具，特点是多维数据模型(时序列数据由metric名和一组key/value组成)在多维度上灵活的查询语言(PromQl)不依赖分布式存储，单主节点工作.通过基于HTTP的pull方式采集时序数据可以通过pushgateway进行时序列数据推
深入理解 Redis：高性能缓存与分布式存储架构全栈探索者chen redis 缓存 redis 分布式数据库开发语言服务器运维
深入理解Redis：高性能缓存与分布式存储架构Redis，作为现代互联网架构中广泛使用的高性能内存数据存储系统，其高效性、丰富的数据结构和分布式能力，使得它成为了分布式缓存和存储解决方案的首选。在本篇文章中，我们将深入探讨Redis的核心特性，工作原理，使用场景，并通过实际案例来帮助你掌握如何在项目中高效地使用Redis。目录Redis基础概念与核心特性Redis的工作原理Redis的数据持久化机
国产海光CPU平台兼容性指南-基础软件分册-20231013（附各系统下载链接）技术瘾君子1573 服务器&存储服务器兼容列表海光 CPU 云计算大数据操作系统
目录声明一、操作系统二、虚拟化和云2.1虚拟化和云2.2虚拟机上的操作系统2.2.1VMwarevSphere上的虚拟机操作系统2.2.2KVM上的虚拟机操作系统2.2.3WindowsHyper-V上的虚拟机操作系统2.2.4VirtualBox上的虚拟机操作系统三、分布式存储四、数据库五、中间件六、大数据七、平台组件7.1云平台7.2大数据平台7.3人工智能平台7.4科学与工程计算平台八、其它
分布式系统理论基础二-CAP 王知无(import_bigdata)
GitHub：https://github.com/wangzhiwubigdata/God-Of-BigData关注公众号,内推,面试,资源下载,关注更多大数据技术~大数据成神之路~预计更新500+篇文章，已经更新50+篇~引言CAP是分布式系统、特别是分布式存储领域中被讨论最多的理论，“什么是CAP定理？”在Quora分布式系统分类下排名FAQ的No.1。CAP在程序员中也有较广的普及，它不仅
nfs-ganesha(用户态NFS)编译、安装和使用沙拉OK Ceph分布式存储运维 ceph nfs 经验分享
前面的文章介绍了基于社区或自己项目编译rpm包搭建Ceph分布式存储集群的方法。本篇介绍使用nfs-ganesha源码编译、安装，客户端使用用户态nfs协议挂载使用Ceph文件存储和对象存储的方法。编译与安装nfs-ganesha一、获取源码源码可直接从github上gitclone，也可以使用自己库维护的代码：github：[email protected]:nfs-ganesha/n
KVM+GFS分布式存储系统构建KVM高可用 henan程序媛分布式 GFS 高可用 KVM
一、案列分析1.1案列概述本章案例主要使用之前章节所学的KVM及GlusterFs技术,结合起来从而实现KVM高可用。利用GlusterFs分布式复制卷，对KVM虚拟机文件进行分布存储和冗余。分布式复制卷主要用于需要冗余的情况下把一个文件存放在两个或两个以上的节点,当其中一个节点数据丢失或者损坏之后，KVM仍然能够通过卷组找到另一节点上存储的虚拟机文件，以保证虚拟机正常运行。当节点修复之后，Glu
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Web3入门指南：从基础概念到实际应用 dingzd95 去中心化 web3 区块链人工智能智能合约
Web3，即“去中心化的第三代互联网”，正在逐步改变我们对互联网的传统认知。从最初的静态网页（Web1.0）到互动平台和社交媒体为主的互联网（Web2.0），Web3的目标是让用户重新掌握对数据和数字资产的控制权。什么是Web3？Web3被视为互联网的下一代发展阶段，其核心是去中心化。与以往依赖中心化服务器和大公司控制的数据模式不同，Web3通过区块链技术实现了数据的分布式存储和处理。这一去中心化
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
KVM+GFS分布式存储系统构建 KVM 高可用 wkysdhr 分布式
一、案例分析本案例主要使用KVM及GlusterFS技术,结合起来从而实现KVM高可用。利用GlusterFs分布式复制卷，对KVM虚拟机文件进行分布存储和冗余。分布式复制卷主要用于需要冗余的情况下把一个文件存放在两个或两个以上的节点,当其中一个节点数据丢失或者损坏之后，KVM仍然能够通过卷组找到另一节点上存储的虚拟机文件，以保证虚拟机正常运行。当节点修复之后，GlusterFS会自动同步同一组卷
ELK架构介绍星河漫漫l elk elasticsearch 运维服务器
一、ELK简介ELK是由三个开源软件组成的，分别是：Elasticsearch、Logstash和Kibana，这三个软件各自在日志管理和数据分析领域发挥着重要作用。Elasticsearch提供分布式存储和搜索能力；Logstash负责数据收集和处理，而Kibana则提供数据可视化和分析界面。他们共同构成了一个完整的日志管理解决方案，帮助企业高效利用日志数据进行监控、分析和安全审计。1.Elas
Hbase、hive以及ClickHouse的介绍和区别？ damokelisijian866 hbase hive clickhouse
一、Hbase介绍：HBase是一个分布式的、面向列的开源数据库，由ApacheSoftwareFoundation开发，是Hadoop生态系统中的一个重要组件。HBase的设计灵感来源于Google的Bigtable论文，它通过提供类似于Bigtable的能力，在Hadoop之上构建了一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。HBase主要用于存储大量结构化数据，并支持随机读写访问，
java 实现前后端分离_详解前后端分离之Java后端 bfecoder java 实现前后端分离
前后端分离的思想由来已久，不妨尝试一下，从上手开始，先把代码写出来再究细节。前言以前服务端为什么能识别用户呢？对，是session，每个session都存在服务端，浏览器每次请求都带着sessionId(就是一个字符串)，于是服务器根据这个sessionId就知道是哪个用户了。那么问题来了，用户很多时，服务器压力很大，如果采用分布式存储session，又可能会出现不同步问题，那么前后端分离就很好的
先进制造业数字化转型：典型场景存储需求及实践解析 XSKY星辰天合云计算
在上一篇《先进制造业数字化转型，为什么基于传统存储无法完成？》中，我们分析了先进制造企业在数字化转型过程中所面临的存储架构挑战，企业需要更高性价比的存储系统，更需要实现全局数据的秒级查询，这些是传统存储无法满足的。本文将从先进制造企业数字化转型中典型场景的存储需求出发，结合XSKY分布式存储的实际案例，看分布式存储如何帮助企业进行存储转型，满足相关的数据使用需求。01 本地硬盘存储方案的
PYTHON：Scipy的曲线适合NxM阵列？潮易 python scipy 开发语言
在Python中，`scipy.optimize`模块中的`curve_fit`函数可以用来拟合一维曲线到数据点，而它并不直接适用于处理二维数组（NxM矩阵）的数据。但是，我们可以将二维矩阵视为N个一维数据集，然后对每个一维数据集应用`curve_fit`来找到对应的一维曲线拟合参数。以下是一个示例代码，展示了如何处理NxM矩阵中的每一行作为一维数据进行曲线拟合：```pythonimportnu
【初出江湖】分布式之什么是分布式存储？无休居士微服务与分布式分布式分布式存储分布式存储的应用场景集中式存储分布式数据库分布式文件系统
目录标题分布式存储分布式存储系统特点分布式存储原理分布式存储的应用场景分布式存储和集中式存储的区别分布式存储分布式存储是一种将数据分散存储在多个节点上的存储方式。与传统的集中式存储相比，分布式存储将数据分布在多个节点上，每个节点都可以独立地存储和访问数据。这种分布式的存储方式可以提供更高的可靠性、可扩展性和性能。在分布式存储系统中，数据通常被分割成多个块或对象，并分布在多个存储节点上。每个节点都可
缓存读写策略 Cache Aside Pattern，开发必备架构师修炼缓存缓存 java 读写策略分布式
我们在前面讲到了当我们业务面临大量写并发的时候，将数据库开发成分布式存储系统，然后又介绍了NoSql数据库与关系型数据库互相配合，以用来更好的服务与我们的业务发展。但随着并发的持续增加，存储数据量的增多，数据库的磁盘IO逐渐成了系统的瓶颈，我们需要一种访问更快的组件来降低请求响应时间，提升整体系统性能，这时我们就会使用到缓存。至于缓存这个概念，这里就不去多说了，我相信大家都懂，也知道它的作用是为了
经验笔记：Hadoop 漆黑的莫莫随手笔记笔记 hadoop 大数据
Hadoop经验笔记一、Hadoop概述Hadoop是一个开源软件框架，用于分布式存储和处理大规模数据集。其设计目的是为了在商用硬件上运行，具备高容错性和可扩展性。Hadoop的核心是HadoopDistributedFileSystem(HDFS)和YARN(YetAnotherResourceNegotiator)，这两个组件加上MapReduce编程模型，构成了Hadoop的基本架构。二、H
京存分布式存储强势助力自动驾驶行业！京存高性能存储分布式自动驾驶人工智能服务器科技
随着自动驾驶技术的快速发展，数据存储已成为该领域的关键技术之一。自动驾驶系统涉及的数据类型繁多，包括车辆状态信息、环境感知数据、高精度地图数据、道路基础设施数据等，其规模庞大，需要高效、稳定的数据存储解决方案来满足不断增长的数据存储需求。在需求方面，自动驾驶行业要求存储系统具备高性能、高可靠性和高可用性，以支持实时数据处理和快速决策。例如，自动驾驶汽车需要实时访问大量的传感器数据、地图数据和其他相
极客天成签署 CCLA，携手openEuler社区共拓信创AI新天地极客天成ScaleFlash 人工智能
近日，北京极客天成科技有限公司（以下简称“极客天成”）签署CCLA（CorporateContributorLicenseAgreement企业贡献者许可协议），正式加入openEuler开源社区。极客天成以高通量分布式集群存储为先锋，围绕软件定义、智能化、安全可靠，全链RDMA构建了完全自主可控的分布式存储产品线和解决方案，主要解决用户海量数据下的高性能低时延数据读写难题，可为用户的数据中心提供
中标 | 极客天成分布式存储软件成功中标华泰证券并行文件系统软件项目极客天成ScaleFlash 分布式
2023年9月21日，北京极客天成科技有限公司分布式存储软件V3.0通过代理商成功中标华泰证券并行文件系统软件项目。华泰证券并行文件系统软件项目是服务于华泰证券量化投研的重点项目,是华泰证券能否取得可持续性竞争优势的关键所在,华泰证券多年深耕信用量化投研领域，基于大数据、人工智能、NLP等技术自主研发。汇聚各类市场数据，研发量化模型，能够高效全面地进行信用风险分析和研究。北京极客天成科技有限公司分
如何在Web3.0应用中实现数据的安全存储？ alankuo 生成式人工智能AIGC 人工智能
在Web3.0应用中，可以通过以下几种方式实现数据的安全存储：一、分布式存储技术1.IPFS（InterPlanetaryFileSystem，星际文件系统）：-IPFS是一种去中心化的分布式文件存储系统。它将文件分割成小块，并通过哈希算法为每个块生成唯一的标识符。这些块被存储在全球各地的节点上，提高了数据的冗余性和可用性。-数据在IPFS上存储时，会被加密并分布在多个节点上，降低了单点故障的风险
单机安装 ELK 日志分析系统 TheFlsah Linux
一、ELK介绍ELKStack是软件集合Elasticsearch、Logstash、Kibana的简称，它们都是开源软件。新增了一个FileBeat，它是一个轻量级的日志收集处理工具(Agent)，Filebeat占用资源少，适合于在各个服务器上搜集日志后传输给Logstash，官方也推荐此工具。Elasticsearch是一个基于Lucene的、支持全文索引的分布式存储和索引引擎，主要负责将日
Python知识点：如何使用HBase与HappyBase进行分布式存储杰哥在此 Python系列分布式 python hbase 编程面试
使用HBase与HappyBase进行分布式存储是处理大规模数据的有效方式。HBase是一个基于Hadoop的开源分布式数据库，可以处理非常大的表。HappyBase是一个Python库，它提供了一个友好的接口来与HBase交互。以下是详细的步骤：1.安装HBase和HappyBase安装HBase首先，确保你已经安装并配置好HBase。你可以通过以下步骤安装HBase：下载HBase：Apach
学习笔记六：ceph介绍以及初始化配置风车带走过往 K8S相关应用学习笔记 ceph
k8s对接cephceph是一种开源的分布式的存储系统，包含以下几种存储类型：块存储（rbd）文件系统cephfs对象存储分布式存储的优点：Ceph核心组件介绍安装Ceph集群初始化配置Ceph安装源安装基础软件包安装ceph集群安装ceph-deploy创建monitor节点修改ceph配置文件配置初始monitor、收集所有的密钥部署osd服务创建ceph文件系统ceph是一种开源的分布式的存
秋招Java后端开发——非关系型数据库篇（Redis）番茄炒西红柿炒蛋秋招Java后端数据库数据库 nosql redis
一、非关系型数据库1.主要针对的是键值、文档以及图形类型数据存储。2.特点：特点说明灵活的数据模型支持多种数据模型（文档、键值、列族、图），无需预定义固定的表结构，能够处理各种类型的数据。高扩展性设计为水平扩展，能够轻松地通过增加更多节点来处理大量的数据和高并发请求。高性能通过优化特定类型的查询和数据操作，通常比关系型数据库在大规模数据处理时表现更好。分布式架构天生支持分布式存储和计算，能够跨多个
基于Hadoop的海量图像检索 usp1994 hadoop eclipse 大数据
基于Hadoop的海量图像检索“MassiveImageRetrievalBasedonHadoop:AStudyinSoftwareEngineering”完整下载链接:基于Hadoop的海量图像检索文章目录基于Hadoop的海量图像检索摘要第一章引言1.1研究背景1.2研究意义1.3国内外研究现状1.4研究内容与方法1.5论文结构第二章相关技术介绍2.1Hadoop框架2.2分布式存储与计算2
从零到一建设数据中台 - 关键技术汇总我码玄黄数据中台数据挖掘数据分析大数据
一、数据中台关键技术汇总语言框架：Java、Maven、SpringBoot数据分布式采集：Flume、Sqoop、kettle数据分布式存储：HadoopHDFS离线批处理计算：MapReduce、Spark、Flink实时流式计算：Storm/SparkStreaming、Flink批处理消息队列：Kafka查询分析：Hbase、Hive、ClickHouse、Presto搜索引擎：Elast
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round