云计算与数据库

MongoDB分片迁移原理与源码（2）

MongoDB分片迁移原理与源码

源码

下面将从源码角度分析与迁移相关的若干过程，源码基于MongoDB-4.0.3版本。

split chunk

split chunks 一般是在插入、更新、删除数据时，由 mongos 发出到分片的 splitVector 命令，此时分片才会判断是否需要 split。

_runAutosplit()函数

//默认的chunk最大字节数。该大小可以调整，范围为[1,1024]M
const uint64_t ChunkSizeSettingsType::kDefaultMaxChunkSizeBytes{64 * 1024 * 1024};
/*系统会调度一个自动split的任务，而任务会调用下述接口。该接口会确定是否应该分割指定的块，然后执行任何必要的分割。它还可以执行“top chunk”优化，其中包含MaxKey或MinKey的结果块将被移到另一个碎片上，以减轻原始所有者的负载*/
void _runAutosplit(const NamespaceString& nss,
                       const BSONObj& min,
                       const BSONObj& max,
                       long dataWritten) {
    //......
    
    //经过一些参数判断，比如判断根据min获取的chunk包含的range是否与要split的range相同；是否打开了自动split等；

    //调用splitVector来判断是否需要split
    auto splitPoints = uassertStatusOK(splitVector(opCtx.get(),
                                                       nss,
                                                       cm->getShardKeyPattern().toBSON(),
                                                       chunk.getMin(),
                                                       chunk.getMax(),
                                                       false,
                                                       boost::none,
                                                       boost::none,
                                                       boost::none,
                                                       maxChunkSizeBytes));

    if (splitPoints.size() <= 1) {
        /*没有分割点意味着没有足够的数据可供分割;一个分割点意味着我们有一半的块大小到完整的块大小，所以还没有必要分割*/
        return;
    }
    
    //......
    //进行实际的split操作
    uassertStatusOK(splitChunkAtMultiplePoints(opCtx.get(),
                                               chunk.getShardId(),
                                               nss,
                                               cm->getShardKeyPattern(),
                                               cm->getVersion(),
                                               chunkRange,
                                               splitPoints));
                                                   
    //判断是否需要进行balance；包括判断支持的balance设定为kAutoSplitOnly，即只支持在自动split后balance；以及发生split的nss支持balance；
    const bool shouldBalance = isAutoBalanceEnabled(opCtx.get(), nss, balancerConfig);
                           
    //如果启用了autobalance选项，并且作为顶部块优化的一部分在集合的第一个块或最后一个块进行分割，则平衡结果块。
    if (!shouldBalance || topChunkMinKey.isEmpty()) {
        return;
    }
    
    //尝试将顶部块移出shard，以防止热点停留在单个shard上。这是基于以下假设:后续插入将落在顶部块上。这是因为split触发的一次move。
    moveChunk(opCtx.get(), nss, topChunkMinKey);
}

splitVector()函数

/*给定一个块，确定它是否可以分割，如果可以，则返回分割点。这个函数的功能相当于splitVector命令。如果指定了maxSplitPoints，并且有多个“maxSplitPoints”拆分点，则只返回第一个“maxSplitPoints”拆分点。
如果指定了maxChunkObjects，那么它指示拆分每个“maxChunkObjects”的th键。
默认情况下，我们将数据块分割，这样每个新数据块大约有maxChunkSize数据块一半的键。我们只分割“maxChunkObjects”的第一个键，如果它将分割的键数低于默认值。maxChunkSize是块的最大大小(以兆字节为单位)。如果数据块超过这个大小，我们应该分块。虽然maxChunkSize和maxChunkSizeBytes是boost::optional，但至少必须指定一个。如果设置了force，则在块的中点处进行分割。这也有效地使maxChunkSize等于块的大小。
*/
StatusWith> splitVector(OperationContext* opCtx,
                                             const NamespaceString& nss,
                                             const BSONObj& keyPattern,
                                             const BSONObj& min,
                                             const BSONObj& max,
                                             bool force,
                                             boost::optional maxSplitPoints,
                                             boost::optional maxChunkObjects,
                                             boost::optional maxChunkSize,
                                             boost::optional maxChunkSizeBytes) {
    // maxChunkObjects一直有默认值。kMaxObjectPerChunk=25000
    if (!maxChunkObjects) {
        maxChunkObjects = kMaxObjectPerChunk;
    }
    //......
    
    //获取集合相关信息
    const long long recCount = collection->numRecords(opCtx);
    const long long dataSize = collection->dataSize(opCtx);

    /*现在我们已经有了大小估计，检查一下其余的参数，并应用这里指定的最大大小限制。强制分割相当于让maxChunkSize等于当前块的大小，下面的逻辑将把这一大块分成两半*/

    if (force) {
        maxChunkSize = dataSize;
    } else if (!maxChunkSize) {
        if (maxChunkSizeBytes) {
            maxChunkSize = maxChunkSizeBytes.get();
        }
    } else {
        maxChunkSize = maxChunkSize.get() * 1 << 20;
    }

    //我们需要一个最大的块大小，除非我们实际上不能找到任何分裂点。
    if ((!maxChunkSize || maxChunkSize.get() <= 0) && recCount != 0) {
        return {ErrorCodes::InvalidOptions, "need to specify the desired max chunk size"};
    }

    //如果没有足够的数据来处理多个块，就没有必要继续了。
    if (dataSize < maxChunkSize.get() || recCount == 0) {
        std::vector emptyVector;
        return emptyVector;
    }

    //我们将使用平均对象大小和对象数量来找到每个块应该拥有的键数。如果提供了maxChunkSize或maxChunkObjects，我们将按其一半进行拆分。
    const long long avgRecSize = dataSize / recCount;

    long long keyCount = maxChunkSize.get() / (2 * avgRecSize);

    if (maxChunkObjects.get() && (maxChunkObjects.get() < keyCount)) {
        log() << "limiting split vector to " << maxChunkObjects.get() << " (from " << keyCount
              << ") objects ";
        keyCount = maxChunkObjects.get();
    }

    /*遍历索引并将第keyCount个键添加到结果中。如果这个键之前出现在结果中，我们就忽略它。这里的不变式是，给定键值的所有实例都位于同一块中。*/
    
    //......
    
    /*使用每个第keyCount个键作为一个分裂点。我们添加初始键作为标记，在结束时移除。如果一个键出现的次数超过块上允许的条目数，我们将发出警告并对下面的键进行拆分。*/
    
    //......
    
    //返回所有分裂点
}

***splitChunkAtMultiplePoints()函数***会调用***splitChunk()函数***进行分裂操作

StatusWith> splitChunk(OperationContext* opCtx,
                                                   const NamespaceString& nss,
                                                   const BSONObj& keyPatternObj,
                                                   const ChunkRange& chunkRange,
                                                   const std::vector& splitKeys,
                                                   const std::string& shardName,
                                                   const OID& expectedCollectionEpoch) {
    //......
    
    //将split信息提交到config服务器，使用的“_configsvrCommitChunkSplit”命令
    auto request =
        SplitChunkRequest(nss, shardName, expectedCollectionEpoch, chunkRange, splitKeys);

    auto configCmdObj =
        request.toConfigCommandBSON(ShardingCatalogClient::kMajorityWriteConcern.toBSON());

    auto cmdResponseStatus =
        Grid::get(opCtx)->shardRegistry()->getConfigShard()->runCommandWithFixedRetryAttempts(
            opCtx,
            kPrimaryOnlyReadPreference,
            "admin",
            configCmdObj,
            Shard::RetryPolicy::kIdempotent);
    
    //......
}

balance

MongoDB balancer 是一个后台进程，它监视每个分片上的块的数量。当给定分片上的块数量达到特定的迁移阈值时，平衡器尝试在分片之间自动迁移块，并在每个分片上达到相同数量的块。

切分集群的平衡过程对用户和应用程序层是完全透明的，尽管在此过程中可能会有一些性能影响。

从MongoDB 3.4开始，balancer在config服务器副本集(CSRS)的主节点上运行.

balancer 基本过程大致相同：

config.shards 读取分片信息;
config.collections 读取所有集合信息，并且随机排序保存到一个数组中；
对每个集合从 config.chunks 读取 chunks 的信息；
含有最多 chunks 数量（maxChunksNum）的分片为源分片，含有最少 chunks 数量(minChunksNum)的分片为目的分片; 如果 maxChunksNum - idealNumberOfChunksPerShardForTag(每个碎片的最优块数的上限) 大于迁移的阈值（threshold），那么就是不均衡状态，需要迁移，源分片的 chunks 第一个 chunk 为待迁移的 chunk ，构造一个迁移任务（源分片，目的分片，chunk）。

构造迁移任务时，如果某个集合含有最多数量的分片或者最少数量 chunks 的分片，已经属于某一个迁移任务，那么此集合本轮 balancer 不会发生迁移，即，一个分片不能同时参与多个块的迁移。要从一个分片迁移多个块，平衡器一次迁移一个块。。最后，本次检测出的迁移任务完成以后才开始下次 balancer 过程。

balancer 过程中，会对集合做一次随机排序，当有多个集合的数据需要均衡时，迁移时也是随机的，并不是迁移完一个集合开始下一个集合。

void Balancer::_mainThread() {
    //......
    // balancer主循环
    while (!_stopRequested()) {
        BalanceRoundDetails roundDetails;

        _beginRound(opCtx.get());

        try {
            shardingContext->shardRegistry()->reload(opCtx.get());

            //判断balance是否打开，如果没有打开，_endRound会sleep 10s(kBalanceRoundDefaultInterval)；没有打开包括：balance为off、或者是只在split后进行的balance、或者balance只支持在某个窗口时间；
            if (!balancerConfig->shouldBalance()) {
                _endRound(opCtx.get(), kBalanceRoundDefaultInterval);
                continue;
            }

            {
                //对分片的集合进行splitChunk操作
                Status status = _enforceTagRanges(opCtx.get());
                if (!status.isOK()) {
                    warning() << "Failed to enforce tag ranges" << causedBy(status);
                } else {
                    LOG(1) << "Done enforcing tag range boundaries.";
                }

                //选择需要迁移的chunk
                const auto candidateChunks = uassertStatusOK(
                    _chunkSelectionPolicy->selectChunksToMove(opCtx.get(), _balancedLastTime));

                if (candidateChunks.empty()) {
                    LOG(1) << "no need to move any chunk";
                    _balancedLastTime = false;
                } else {
                    //为指定的块集合安排迁移，并返回成功处理了多少块。
                    _balancedLastTime = _moveChunks(opCtx.get(), candidateChunks);

                    roundDetails.setSucceeded(static_cast(candidateChunks.size()),
                                              _balancedLastTime);
                }
            }

            //默认的检测周期为 10s, 如果发生了moveChunk, 检测周期为 1s
            //const Seconds kBalanceRoundDefaultInterval(10);
            //const Seconds kShortBalanceRoundInterval(1);
            _endRound(opCtx.get(),
                      _balancedLastTime ? kShortBalanceRoundInterval
                                        : kBalanceRoundDefaultInterval);
        } catch (const std::exception& e) {
            //......
            _endRound(opCtx.get(), kBalanceRoundDefaultInterval);
        }
    }
}

***selectChunksToMove()函数***最终返回所有需要迁移的chunk信息

StatusWith BalancerChunkSelectionPolicyImpl::selectChunksToMove(
    OperationContext* opCtx, bool aggressiveBalanceHint) {
    //......
    //读取分片信息
    const auto shardStats = std::move(shardStatsStatus.getValue());
    if (shardStats.size() < 2) {
        return MigrateInfoVector{};
    }
    //usedShards保存那些已经涉及到某一个块迁移的(from shard, to shard)信息，同一次balance，一个shard只参与一个块的迁移，不管是from shard还是to shard。
    std::set usedShards;
    
    //读取所有集合信息，并且随机排序保存到一个数组中
    std::shuffle(collections.begin(), collections.end(), _random);
    
    for (const auto& coll : collections) {
        //如果集合已经被删了，跳过
        if (coll.getDropped()) {
            continue;
        }

        const NamespaceString nss(coll.getNs());
        //如果集合不允许balance，掉过
        if (!coll.getAllowBalance()) {
            LOG(1) << "Not balancing collection " << nss << "; explicitly disabled.";
            continue;
        }
        //获取当前集合需要迁移的chunk信息
        auto candidatesStatus = _getMigrateCandidatesForCollection(
                opCtx, nss, shardStats, aggressiveBalanceHint, &usedShards);
        //此处会判断candidatesStatus结果，如果集合被删了，跳过；如果其他错误，打印日志后跳过
        candidateChunks.insert(candidateChunks.end(),
                               std::make_move_iterator(candidatesStatus.getValue().begin()),
                               std::make_move_iterator(candidatesStatus.getValue().end()));
    }

***_getMigrateCandidatesForCollection()函数***获取当前集合需要迁移的chunk信息

StatusWith BalancerChunkSelectionPolicyImpl::_getMigrateCandidatesForCollection(
    OperationContext* opCtx,
    const NamespaceString& nss,
    const ShardStatisticsVector& shardStats,
    bool aggressiveBalanceHint,
    std::set* usedShards) {
    //......
    
    //读取集合的所有chunk信息
    
    //返回该集合建议在shard之间迁移的chunk集合
    return BalancerPolicy::balance(shardStats, distribution, aggressiveBalanceHint, usedShards);
}

***balance()函数***计算集合内各shard上chunk的个数，确定迁移变化的情况。

在4.0中（其实是从3.4）开始，迁移阈值与官方文档中的介绍不符迁移阈值不符；官方文档的描述是3.2版本中的设计。

3.2 版本, chunks 数量小于 20 的时候为 2，小于 80 的时候为 4，大于 80 的时候为 8 。也就是说假设两分片集群，某个表有 100 个chunk , 每个分片分别有 47 和 53 个chunk 。那么此时 balance 认为是均衡的，不会发生迁移。

int threshold = 8;

if (balancedLastTime || distribution.totalChunks() < 20) threshold = 2;

else if (distribution.totalChunks() < 80)
threshold = 4;

4.0 版本，chunks 数量差距大于 2 的时候就会发生迁移。

/*返回一组建议的块，根据碎片的指定状态(耗尽、达到最大大小等)和该集合的块的数量移动碎片。如果策略不建议移动任何内容，则返回一个空向量。vector do中的条目都是针对单独的源/目标碎片的，因此不需要串行执行，可以并行调度。
平衡逻辑为每个区域计算每个碎片的最佳块数，如果任何碎片的块数足够高，建议将块移动到低于这个数字shard。
shouldAggressivelyBalance参数导致块的阈值可能会降低碎片之间的差异。
usedShards参数是in/out，它包含一组已经用于迁移的shards。这样我们就不会为同一个碎片返回多个冲突迁移。*/
vector BalancerPolicy::balance(const ShardStatisticsVector& shardStats,
                                            const DistributionStatus& distribution,
                                            bool shouldAggressivelyBalance,
                                            std::set* usedShards) {
    vector migrations;
    
    // 1) Check for shards, which are in draining mode
    // 这一部分是将处于draining模式的shard中的chunk移到其他shard，从该被删除的shard上拿一个chunk，找一个chunk最少的非from shard作为to shard（即即将被移除的shard）
    
    // 2) Check for chunks, which are on the wrong shard and must be moved off of it
    // 调整因为Tag设定不匹配引起的chunk内的数据分布shard转换
    
    // 3) for each tag balance
    //shouldAggressivelyBalance由最上层的Balancer::_mainThread()中_balancedLastTime赋值，表明上一次迁移round中迁移个数，0为false
    //即如果已经在一次迁移中了或集合的块总数少于20，则迁移阈值为1；否则为2
    const size_t imbalanceThreshold = (shouldAggressivelyBalance || distribution.totalChunks() < 20)
        ? kAggressiveImbalanceThreshold
        : kDefaultImbalanceThreshold;
    
    vector tagsPlusEmpty(distribution.tags().begin(), distribution.tags().end());
    tagsPlusEmpty.push_back("");

    for (const auto& tag : tagsPlusEmpty) {
        const size_t totalNumberOfChunksWithTag =
            (tag.empty() ? distribution.totalChunks() : distribution.totalChunksWithTag(tag));

        size_t totalNumberOfShardsWithTag = 0;

        for (const auto& stat : shardStats) {
            if (tag.empty() || stat.shardTags.count(tag)) {
                totalNumberOfShardsWithTag++;
            }
        }
        
        //计算每个碎片的最优块数的上限
        const size_t idealNumberOfChunksPerShardForTag =
            (totalNumberOfChunksWithTag / totalNumberOfShardsWithTag) +
            (totalNumberOfChunksWithTag % totalNumberOfShardsWithTag ? 1 : 0);

        while (_singleZoneBalance(shardStats,
                                  distribution,
                                  tag,
                                  idealNumberOfChunksPerShardForTag,
                                  imbalanceThreshold,
                                  &migrations,
                                  usedShards))
            ;
    }
    return migrations;
}

***_singleZoneBalance()函数***去寻找满足迁移阈值限制的from shard和to shard以及chunk

bool BalancerPolicy::_singleZoneBalance(const ShardStatisticsVector& shardStats,
                                        const DistributionStatus& distribution,
                                        const string& tag,
                                        size_t idealNumberOfChunksPerShardForTag,
                                        size_t imbalanceThreshold,
                                        vector* migrations,
                                        set* usedShards) {
    //获取含有最多chunk数量的分片为源分片，from shard
    const ShardId from = _getMostOverloadedShard(shardStats, distribution, tag, *usedShards);
    if (!from.isValid())
        return false;
    
    //最大的chunk量
    const size_t max = distribution.numberOfChunksInShardWithTag(from, tag);

    // Do not use a shard if it already has less entries than the optimal per-shard chunk count
    if (max <= idealNumberOfChunksPerShardForTag)
        return false;

    //获取含有最少chunk数量的分片为源分片，to shard
    const ShardId to = _getLeastLoadedReceiverShard(shardStats, distribution, tag, *usedShards);
    if (!to.isValid()) {
        if (migrations->empty()) {
            log() << "No available shards to take chunks for zone [" << tag << "]";
        }
        return false;
    }

    //最小的chunk量
    const size_t min = distribution.numberOfChunksInShardWithTag(to, tag);

    // Do not use a shard if it already has more entries than the optimal per-shard chunk count
    if (min >= idealNumberOfChunksPerShardForTag)
        return false;

    //最大的chunk数与每个碎片的最优块数的上限之间的差值
    const size_t imbalance = max - idealNumberOfChunksPerShardForTag;    
    
    //这个差值超过了迁移阈值，之前算出来的2，则迁移
    if (imbalance < imbalanceThreshold)
        return false;                
    
    //把需要迁移的chunk，构造一个迁移任务
    const vector& chunks = distribution.getChunks(from);

    unsigned numJumboChunks = 0;
    
    for (const auto& chunk : chunks) {
        if (distribution.getTagForChunk(chunk) != tag)
            continue;

        if (chunk.getJumbo()) {
            numJumboChunks++;
            continue;
        }

        migrations->emplace_back(to, chunk);
        invariant(usedShards->insert(chunk.getShard()).second);
        invariant(usedShards->insert(to).second);
        return true;
    }
}

在完成迁移块的选择之后，Balancer::_mainThread()会调用Balancer::_moveChunks()，_moveChunks调用MigrationManager::executeMigrationsForAutoBalance()执行moveChunk。

未完，待续

参考文档

MongoDB官方文档

孤儿文档是怎样产生的(MongoDB orphaned document)

MongoDB疑难解析：为什么升级之后负载升高了？

由数据迁移至MongoDB导致的数据不一致问题及解决方案

MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
springboot整合MongoDB时碰到的问题生产队队长 Database Spring All mongodb spring
1.账号总是不对，导致查不出数据，报错Auth…权鉴错误这次，我也是第一次接触MongoDB，非常的生疏springboot整合MongoDB，要在properties文件中配置账号mongodb基本语法：useDATABASE_NAME;--创建数据库showdbs;--查看我们所有的库，注意，我们刚创建的库，如果没有数据，是不会被显示的showusers;--查看当前库所有拥有的账号db.cr
java mongodb group分组使用 yank1225 mongodb java mongodb group
mongodb的关键字及介绍.mongodb的查询是有一定规则的,刚开始接触老是各种错误,参照以下内容有很多帮助https://docs.mongodb.com/manual/reference/sql-aggregation-comparison/另外出现这种错误时Apipelinestagespecificationobjectmustcontainexactlyonefield是因为条件不对
MongoDB Atlas与LangChain集成指南 afTFODguAKBF mongodb langchain 数据库 python
引言MongoDBAtlas是一款全托管的云数据库解决方案,可在AWS、Azure和GCP上使用。最新版本支持在MongoDB文档数据上进行原生向量搜索。本文将介绍如何使用LangChain将MongoDBAtlas与语言模型集成,以实现高效的向量搜索和语义缓存。安装和设置1.安装langchain-mongodb包pipinstalllangchain-mongodb向量存储LangChain提
数据库管理的利器Navicat —— 全面测评与热门产品推荐界面开发小八哥数据库 Navicat 数据库开发 sql mysql
在数据库管理领域，Navicat无疑是一款深受欢迎的软件。作为一个强大的数据库管理和开发工具，它支持多种数据库类型，包括MySQL、MariaDB、MongoDB、SQLServer、Oracle、PostgreSQL等。本文将全面测评Navicat的核心功能，同时推荐几款热门的Navicat产品。Navicat的主要特点1.跨平台支持：Navicat支持Windows、Mac和Linux平台，可
MongoDB C++库编译，windows平台+VS2015（QT中也可以用） hp_cpp C++
编译准备工作：（1）mongo-c-driver下载地址：https://github.com/mongodb/mongo-c-driver/releases下载最新版：mongo-c-driver1.12.0的Soucecode版（2）mongodb/mongo-cxx-driver下载地址：https://github.com/mongodb/mongo-cxx-driver/releases
使用docker部署MongoDB数据库数据小白的进阶之路数据库 docker mongodb
最近由于工作需要搭建MongoDB数据库：将解析的车端采集的数据写入到数据库，由于MongoDB高可用、海量扩展、灵活数据的模型，因此选用MongoDB数据库；由于现公司只有服务器，因此考虑容器化部署MongoDB数据，特此记录一下~一、镜像拉取使用如下命令拉取最新MongoDB镜像dockerpullmongo二、创建MongoDB容器2.1创建宿主机目录执行如下代码：mkdir-p/home/
MongoDB数据库 weixin_34104341 数据库 json shell
一简介MongoDB是一款强大、灵活、且易于扩展的通用型数据库1.易用性MongoDB是一个面向文档（document-oriented）的数据库，而不是关系型数据库。不采用关系型主要是为了获得更好得扩展性。当然还有一些其他好处，与关系数据库相比，面向文档的数据库不再有“行“（row）的概念取而代之的是更为灵活的“文档”（document）模型。通过在文档中嵌入文档和数组，面向文档的方法能够仅使用
【Docker】MongoDB 容器化部署轻云UC 运维部署 mongodb docker 数据库
MongoDBdocker容器化部署MongoDB标准软件基于BitnamiMongoDB构建。当前版本未7.0.5你可以通过轻云UC部署工具直接安装部署，也可以手动按如下文档操作配置文件地址:https://gitee.com/qingplus/qingcloud-platformQinghubStudio在线体验初始化一个新实例使用Docker容器网络，应用程序容器可以轻松访问容器内运行的Mo
MongoDB ：第五章：MongoDB 插入更新删除查询文档 2401_84558091 作者\/mongodb 数据库
“_id”:ObjectId(“56064f89ade2f21f36b03136”),“title”:“MongoDB”,“description”:“MongoDB是一个Nosql数据库”,“by”:“菜鸟教程”,“url”:“http://www.runoob.com”,“tags”:[“mongodb”,“database”,“NoSQL”],“likes”:100}可以看到标题(title
数据库有关c语言 h海棠溪数据库学习 c语言 linux
数据库的概念SQL（StructuredQueryLanguage）是一种专门用来与数据库进行交互的编程语言，它允许用户查询、更新和管理关系型数据库中的数据。关系型数据库是基于表（Table）的数据库，其中表由行（Row）和列（Column）组成，每一行代表一个记录（Record），每一列代表一个字段（Field）。非关系型数据库MongoDB1、分类：大型中型小型ORACLEMYSQL/MSSQ
使用 MongoDB 构建 AI：Patronus 如何自动进行大语言模型评估来增强对生成式 AI 的信心 MongoDB 数据平台 AI应用客户案例人工智能 mongodb
大语言模型可能不可靠，这几乎算不上头条新闻。对于某些用例，这可能会带来不便。而对于其他行业，尤其是受监管行业，后果则要严重得多。于是，业内首个大语言模型自动评估平台PatronusAI应运而生。PatronusAI由MetaAI和MetaRealityLabs的机器学习专家创立，旨在增强企业对生成式AI应用程序的信心，在塑造值得信赖的AI生态方面处于领先地位。Patronus联合创始人兼首席技术官
MongoDB-副本集PSA架构搭建配置手册玩亚索的小孔 MongoDB MongoDB 副本集 PSA
1安装配置------------------------------------------------------------------------------------机器准备：•系统：RedHatEnterpriseLinuxServerrelease7.3(Maipo)•MongoDB版本：mongodb-linux-x86_64-rhel70-3.4.16•下载地址:http://
解决方案| MongoDB PSA 架构痛点以及如何应对？ MongoDB中文社区 MongoDB mongodb 架构数据库
一.背景最近MongoDB群里面有群友遇到2次重启MongoDB后一直处于实例恢复状态(应用OPLOG)，多达几天甚至更长才完成重启，通常MongoDB副本集三个实例作为标准，重启主库会发生重新选出新主节点(通常在12s内完成)重新对外服务，通常不符合官方标准化或者内部发生异常导致的。经过了解副本集采用PSA架构且存在一个数据从节点不可达的情况(甚至有的从节点宕机几个月没有发现)，来分析这些情况以
MongoDB之写关注及PSA架构相关问题吃饭端住碗 MongoDB mongodb 架构数据库
MongoDB的写关注主要指定了写入操作的确认级别。具体来讲就是客户端在向MongoDB执行比如delete、insert、update等相关写入操作时，MongoDB的写入行为，比如是否立刻刷盘、是否需要等待Secondary节点确认等。写关注说明写关注配置主要包含以下3个字段：{w:,j:,wtimeout:}w选项指定了写入操作需要等待确认的副本集成员个数。取值如下：“majority”：写
mongoDB 对一个做了索引的字段，要不要给默认值？ hongkid mongodb 数据库
引言在设计数据库模式时，如何处理字段的默认值是一个值得深入探讨的话题。对于MongoDB这样的NoSQL数据库来说，灵活性是其一大特点，但这同时也意味着开发者需要更加谨慎地考虑数据的一致性和完整性。本文将探讨在一个已创建索引的字段上，在插入文档时是否应该显式设置默认值的问题，并给出具体的建议。MongoDB中的索引与字段设置在MongoDB中，索引可以帮助提高查询性能，特别是在处理大规模数据集时。
MongoDB-聚合查询操作介绍侯晓阳丶 MongoDB mongodb 数据库 linux dba 经验分享
目录前言db.collection.aggregate()db.collection.aggregate()示例一db.collection.aggregate()示例二复杂的聚合操作通过mongoimport导入测试数据复杂的聚合操作示例聚合操作的偏好设置-project函数聚合操作的偏好设置-unwind函数前言MongoDB聚合操作相当于关系型数据库SQL语句的"groupby"、“orde
Docker搭建MongoDB Replica Set高可用集群+数据丢失&被黑解决+自动备份与恢复脚本+持久化慢查询记录秋风お亦冷运维企业实战笔录运维 docker mongodb 数据库
文章目录引节点规划配置文件创建持久化目录创建并推送证书启动临时容器修改配置文件单节点参考mongod.confdocker-compose.ymlReplicaSet参考mongod.confdocker-compose.yml部署与配置部署集群配置集群验证集群增删节点增加节点删除节点查看节点常用命令重置集群备份数据关闭服务删除持久化数据启动集群配置集群验证集群创建用户验证集群用户管理权限说明创建
vue+jsonrpc+mongoDB文件传输解决方案（任意格式文件） weideng_san 前端 java 文件传输 jsonrpc mongoDB vue
环境及需求：前端采用vue；后端采用spring，但是只用到了spring的对象注入功能，未使用springweb相关功能。前后端通信采用jsonrpc，现需要在前端选中文件（格式未知，上传到后端，后端将其存储在mongoDB中）。背景：springweb可以直接使用controller接受MultipartFile对象；但是jsonrpc不能直接传输文件类型，jsonrpc是轻量级通信框架，擅长
mongodb 在 Windows 环境下迁移数据库的问题 Eagsen CEO 数据库 mongodb
mongodb是一款非常优秀的文档数据库，它的社区版本是免费的。但是mongodb的迁移和其他传统的关系数据库不太一样，通过官方提供的图形化的客户端工具无法备份和迁移，需要下载命令行工具进行。首先下载命令行工具：DownloadMongoDBCommandLineDatabaseTools|MongoDBWindows安装后，使用管理员身份打开cmd命令窗口，导航到安装目录的bin目录下，如果是默
python网络爬虫（五）——爬取天气预报光电的一只菜鸡 python python 爬虫开发语言
1.注册高德天气key 点击高德天气，然后按照开发者文档完成key注册；作为爬虫练习项目之一。从高德地图json数据接口获取天气，可以获取某省的所有城市天气，高德地图的这个接口还能获取县城的天气。其天气查询API服务地址为https://restapi.amap.com/v3/weather/weatherInfo?parameters，若要获取某城市的天气推荐2.安装MongoDB Mong
Spring常用中间件贺仙姑 spring 中间件 java
1.数据库中间件（1）MySQL:常用的关系型数据库，支持JDBC和JPA。（2）PostgreSQL:功能强大的开源关系型数据库，支持复杂查询。（3）MongoDB:NoSQL数据库，适合存储非结构化数据。（4）Redis:内存数据结构存储，常用于缓存和消息队列。2.消息队列（1）RabbitMQ:开源消息代理，支持多种消息协议，适合异步处理。（2）Kafka:分布式流处理平台，适合处理大规模数
Node.js 数据库操作详解：构建高效的数据持久化层 Switch616 前端 node.js 数据库运维服务器系统架构前端框架前端
Node.js数据库操作详解：构建高效的数据持久化层目录MongoDB使用mongoose连接MongoDB定义模型和数据验证实现CRUD操作️MySQL使用mysql或mysql2模块连接MySQL执行SQL查询处理结果和错误SQLite使用sqlite3模块连接SQLite执行SQL查询处理事务MongoDB使用mongoose连接MongoDBmongoose是一个为MongoDB提供对象数
MongoDB的WiredTiger存储引擎云掣YUNCHE mongodb 数据库
作者：太阳从MongoDB3.2开始，MongoDB实例默认的存储引擎为WiredTiger，WiredTiger存储引擎具体以下几大优点：文档级并发将数据持久化到磁盘快照和checkpoint数据压缩本地数据加密一、文档级别并发1、WiredTiger使用文档级别并发，意味着在同一时间，MongoDB实例允许多个对不同文档间的写操作并发执行（复制应用oplog时同样可以做到文档级并发应用）。2、
mongodb中常用的运算符和正则表达式手搓二十四种设计模式 mongodb
在mongodb中不能>=，----$gt=----$gte<=----$lte!==----$ne例如：查询id比三大的所有记录db.students.find({id:{$gt:3}});2.逻辑运算符：$or逻辑或例如：查询年龄为十岁或九岁的数据db.students.find({$or:[{age:10},{age:9}]});$and逻辑与：例如：查询年龄大于十一岁且小于二十四的db.s
SpringCloud 结合 MongoTemplate 打印执行语句log kikiki1
在调度MongoTemplate的时候，我们无法确定我们写的方法是否能发出正确的语句,这时候我们需要将语句给打印出来。springcloud使用方法在application.yml文件中增加如下配置即可logging:level:org.springframework.data.mongodb.core.MongoTemplate:DEBUG
2024年Python最新Python爬虫教程-新浪微博分布式爬虫分享(2) 2401_84584682 程序员 python 爬虫新浪微博
开发语言：Python2.7开发环境：64位Windows8系统，4G内存，i7-3612QM处理器。数据库：MongoDB3.2.0、Redis3.0.501（Python编辑器：Pycharm；MongoDB管理工具：MongoBooster；Redis管理工具：RedisStudio）爬虫框架使用Scrapy，使用scrapy_redis和Redis实现分布式。分布式中有一台机充当Maste
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

MongoDB分片迁移原理与源码（2）

MongoDB分片迁移原理与源码

源码

split chunk

balance

参考文档

你可能感兴趣的:(MongoDB)