帮我起个网名

ceph pg peering和恢复（1）

pg是ceph中比较抽象的一个概念，且起到了一个承上启下的作用，客户端的对象映射到pg，而pg映射到具体的osd，pg的peering和恢复是ceph中比较复杂的一部分了。因为pg的创建过程会经历pg peering和恢复的所有过程，因此我们可以从创建pg的流程来分析pg的peering和恢复。

pg的创建请求类型是MSG_OSD_PG_CREATE，到达osd后，osd中的_dispatch会继续调用dispatch_op来处理这个请求，最终会到达handle_pg_create函数

const MOSDPGCreate *m = static_cast(op->get_req()); //get_req()获取Message *request;
require_same_or_newer_map(op, m->epoch, false)//检查osd保存的osdmap是否小于m->epoch，如果小于则需要重新获取
if (epoch > osdmap->get_epoch())
	wait_for_new_map(op);
		if (waiting_for_osdmap.empty()) 
			osdmap_subscribe(osdmap->get_epoch() + 1, false);  
	waiting_for_osdmap.push_back(op);
	op->mark_delayed("wait for new map");
op->mark_started();
    mark_flag_point(flag_started, "started");
for (map::const_iterator p = m->mkpg.begin(); != m->mkpg.end()    //由osdmoniror.cc中插入  map mkpg
    epoch_t created = p->second.created;    //monitor创建pg时所在的版本
    pg_t on = p->first;  //要创建的pg 
    osdmap->pg_to_up_acting_osds(on, &up, &up_primary, &acting, &acting_primary);
	
    int role = osdmap->calc_pg_role(whoami, acting, acting.size()); //第一个为主osd,其他为副本	
    if (acting_primary != whoami)  //本osd不是act primary就跳过  ？？？？？？？？？？？？
        continue;
    build_initial_pg_history(pgid, created, ci->second, &history, &pi);//建立从pg create到现在epoch的interval

    enqueue_peering_evt( pgid, PGPeeringEventRef( std::make_shared(osdmap->get_epoch(), osdmap->get_epoch(), NullEvt(), true, new PGCreateInfo(pgid, osdmap->get_epoch(), history, pi, true))));

handle_pg_create实现如下：
（1）利用mark_started标记该op时间点到达“started”。
（2）对于每个要创建的pg，调用pg_to_up_acting_osds函数来计算当前版本osdmap中属于该pg的acting和up集合，其中up集合保存了由crush算法得到osd集合，acting保存了由于原来up集合的主osd暂时不能充当主osd而选择的另一个osd集合。
（3）对于每个要创建的pg，调用build_initial_pg_history来初始化pg create时到现在这段期间的past_interval。
（4）调用enqueue_peering_evt，将pg相关的信息enqueue到op_shardedwq，op_shardedwq是一个osd中的线程池，负责处理osd中的事务。

pg_to_up_acting_osds函数如下:

_pg_to_up_acting_osds(pg, up, up_primary, acting, acting_primary);  //raw_pg_to_pg默认为True
    const pg_pool_t *pool = get_pg_pool(pg.pool()); //从OSDMap中获取pool的数据结构
    _get_temp_osds(*pool, pg, &_acting, &_acting_primary);  //获取pg对应的temp pg和temp pg集合中的主osd
        pg = pool.raw_pg_to_pg(pg);
            pg.set_ps(ceph_stable_mod(pg.ps(), pg_num, pg_num_mask));
            /*
                struct pg_t {
                uint64_t m_pool;
                uint32_t m_seed;
                ps()函数返回return m_seed;
                
                ceph_stable_mod：map a raw pg (with full precision ps) into an actual pg, for storage
            */
        const auto p = pg_temp->find(pg);  //ceph::shared_ptr pg_temp;  // temp pg mapping (e.g. while we rebuild),pg_temp保存了pg对应的临时osd
        /*
        假设一个PG通过crush算法映射到的三个osd是[0,1,2]，此时，如果osd0出现故障，
        导致crush算法重新分配该PG的三个osd是[3,1,2],此时，osd3为该PG的主osd，但是osd3为新加入的osd，
        并不能负担该PG上的读写操作。所以PG此时向monitor申请一个该pg的临时的能负责io的osd列表,比如这个临时列表为[1,3,2]
        */                                
        temp_pg->clear();
        if (p != pg_temp->end())
            for (unsigned i=0; isecond.size(); i++)
                temp_pg->push_back(p->second[i]);
        
        const auto &pp = primary_temp->find(pg); //ceph::shared_ptr< mempool::osdmap::map > primary_temp;  // temp primary mapping (e.g. while we rebuild)
        if (pp != primary_temp->end())
            *temp_primary = pp->second;
    
    if (_acting.empty() || up || up_primary)
        _pg_to_raw_osds(*pool, pg, &raw, &pps);////通过Crush算法，得到该PG从属的一组osds raw保存了通过crush算出的osd集合
            ps_t pps = pool.raw_pg_to_pps(pg);  // placement ps
            unsigned size = pool.get_size(); //副本大小
            int ruleno = crush->find_rule(pool.get_crush_rule(), pool.get_type(), size);
            crush->do_rule(ruleno, pps, *osds, size, osd_weight, pg.pool());
            _remove_nonexistent_osds(pool, *osds);
            *ppps = pps;
        _apply_upmap(*pool, pg, &raw);
        _raw_to_up_osds(*pool, raw, &_up); //获得raw中所有处于up状态的osds列表
            if (pool.can_shift_osds()) //如果时replicated pool返回True，Ec pool返回false
                up->clear();
                up->reserve(raw.size());
                for (unsigned i=0; i= 0 && osd < max_osd && (osd_state[osd] & CEPH_OSD_EXISTS);
                    bool is_down(int osd)
                        return !exists(osd) || get_weight(osd) == CEPH_OSD_OUT;
                    */
                        continue;
                    up->push_back(raw[i]); //将存在且up的osd加入到up中
        _up_primary = _pick_primary(_up); //选择up集合中第一个为主osd
        _apply_primary_affinity(pps, *pool, &_up, &_up_primary);//重新选择主osd，并将主osd放在_up[0]的位置
            ...
            ...
            ...
        if (_acting.empty())  //如果pg temp未空，则acting集合保存up中的osd集合
            _acting = _up;
            if (_acting_primary == -1)
                _acting_primary = _up_primary;
        if (up)
            up->swap(_up);
        if (up_primary)
            *up_primary = _up_primary;
        if (acting)
            acting->swap(_acting);
        if (acting_primary)
            *acting_primary = _acting_primary;

（1）调用_get_temp_osds来获取该pg的临时osd，并放入acting集合，acting_primary保存了acting集合的主osd。
（2）调用_pg_to_raw_osds函数来获取通过crush计算得到属于pg的osd集合，然后通过_raw_to_up_osds函数将集合中处于up状态的osd加入到up集合中，up_primary保存了up集合中的主osd。
（3）如果pg没有临时osd，则up和acting集合是一样的。

build_initial_pg_history函数的实现如下

h->epoch_created = created;  
h->epoch_pool_created = created;
h->same_interval_since = created;
h->same_up_since = created;
h->same_primary_since = created;
h->last_scrub_stamp = created_stamp;
h->last_deep_scrub_stamp = created_stamp;
h->last_clean_scrub_stamp = created_stamp;	
OSDMapRef lastmap = service.get_map(created);
lastmap->pg_to_up_acting_osds(pgid.pgid, &up, &up_primary, &acting, &acting_primary);	 //获取pg create时对应版本osdmap的up act集合
for (epoch_t e = created + 1; e <= osdmap->get_epoch(); ++e)
    OSDMapRef osdmap = service.get_map(e);
    osdmap->pg_to_up_acting_osds(pgid.pgid, &new_up, &new_up_primary, &new_acting, &new_acting_primary);//获取这个版本osdmap的up acting set
    bool new_interval = PastIntervals::check_new_interval(acting_primary, new_acting_primary, acting, new_acting, up_primary, new_up_primary, up, new_up, h->same_interval_since, h->last_epoch_clean, osdmap, lastmap, pgid.pgid, &min_size_predicate, pi, &debug);						
    /*
        if (is_new_interval( old_acting_primary, new_acting_primary, old_acting, new_acting, old_up_primary, new_up_primary, old_up, new_up, osdmap, lastmap, pgid))			
        //  判断new和last中的acting up ， pool的size, min_size，pgnum等是否相等，如果相等则是同一个interval
            pg_interval_t i;
            i.first = same_interval_since; //这个interval开始的epoch
            i.last = osdmap->get_epoch() - 1; //这个interval结束的epoch
            assert(i.first <= i.last);
            i.acting = old_acting;
            i.up = old_up;
            i.primary = old_acting_primary;
            i.up_primary = old_up_primary;	
            for (vector::const_iterator p = i.acting.begin(); p != i.acting.end();++p)
                if (*p != CRUSH_ITEM_NONE)
                    ++num_acting;  
            const pg_pool_t& old_pg_pool = lastmap->get_pools().find(pgid.pool())->second;
            old_pg_pool.convert_to_pg_shards(old_acting, &old_acting_shards);  //将old_acting转换为Pg_shart_t的set		
            
            if (num_acting && i.primary != -1 && num_acting >= old_pg_pool.min_size && (*could_have_gone_active)(old_acting_shards))
                if (lastmap->get_up_thru(i.primary) >= i.first && lastmap->get_up_from(i.primary) <= i.first)  
                    i.maybe_went_rw = true;
                } else if (last_epoch_clean >= i.first && last_epoch_clean <= i.last) { //在这个past interval中完成了recovery
                    i.maybe_went_rw = true;
                else
                    i.maybe_went_rw = false;
            i.maybe_went_rw = true; //判断maybe_went_rw是不是true
            past_intervals->past_intervals->add_interval(old_pg_pool.is_erasure(), i);  //加入到pi中  pi要仔细看一看, 最终变为会将该interval参与的act插入到all_participants， interval插入到intervals
                if (first == 0)
                    first = interval.first; //该段interval的开始
                last = interval.last; //该段interval的结束
                for (unsigned i = 0; i < interval.acting.size(); ++i)
                    acting.insert(pg_shard_t(interval.acting[i],ec_pool ? shard_id_t(i) : shard_id_t::NO_SHARD));
                all_participants.insert(acting.begin(), acting.end());  //set all_participants;
                if (!interval.maybe_went_rw)    
                    return;
                intervals.push_back(compact_interval_t{interval.first, interval.last, acting});
    */
    if (new_interval)
        h->same_interval_since = e;
        if (up != new_up)
            h->same_up_since = e;
        if (acting_primary != new_acting_primary)
            h->same_primary_since = e;
        up = new_up;
        acting = new_acting;
        up_primary = new_up_primary;
        acting_primary = new_acting_primary;

build_initial_pg_history函数负责构造从pg create到当前时期的past_interval信息
（1）获取期间每个版本osdmap中pg所对应的up acting集合，如果和上一版本的不一样，则说明这个epoch是一个新的interval的开始epoch。
（2）如果是一个新的interval，则将上一个interval的信息加入到past_intervals中，具体是将acting集合加入到all_participants和intervals中。

pg创建相关操作加入到线程池后，最终会调用handle_pg_create_info来处理具体的pg创建，如下

if (maybe_wait_for_max_pg(osdmap, pgid, info->by_mon))
    return nullptr;
PG::RecoveryCtx rctx = create_context();
PG::_create(*rctx.transaction, pgid, pgid.get_split_bits(pp->get_pg_num()));  //创建一个op，这个op就是创建pg
PG::_init(*rctx.transaction, pgid, pp); //创建三个op，
PGRef pg = _make_pg(startmap, pgid);
pg->ch = store->create_new_collection(pg->coll);
pg->lock(true);  //pg加锁
//initialize a newly instantiated pg
//Initialize PG state, as when a PG is initially created, or when it is first instantiated on the current node.
//即init是将前面计算的一系列东西赋值到PG中的属性中
pg->init(role, up, up_primary, acting, acting_primary, info->history, info->past_intervals, false, rctx.transaction);
pg->handle_initialize(&rctx);
pg->handle_activate_map(&rctx);
dispatch_context(rctx, pg.get(), osdmap, nullptr);

（1）如果该osd的pg个数大于最大pg个数就返回。
（2）调用PG::_create和PG::_init创建OP_MKCOLL、OP_COLL_HINT、OP_TOUCH、OP_OMAP_SETKEYS四个op。
（3）调用handle_initialize来抛出Initialize事件，此时PG的状态机处于Initial状态，收到Initialize事件后转移到Reset状态。
（4）调用handle_activate_map来抛出ActMap事件，这个函数的调用栈比较重要，如下：

ActMap evt;
//Reset状态接受到ActMap事件后
recovery_state.handle_event(evt, rctx); //过程同上，最终会调用PG::RecoveryState::Reset::react(const ActMap&)  
    PG *pg = context< RecoveryMachine >().pg; //如果不是primary osd 则应该发送notify给primary osd，即should_send_notify()返回True
    context< RecoveryMachine >().send_notify(pg->get_primary(), pg_notify_t(pg->get_primary().shard, pg->pg_whoami.shard, pg->get_osdmap()->get_epoch(), pg->get_osdmap()->get_epoch(), pg->info), pg->past_intervals);	
        (*state->rctx->notify_list)[to.osd].push_back(make_pair(info, pi));   //指向的是RecoveryCtx结构体中的notify_list,类型为 map > >
    pg->update_heartbeat_peers();
    pg->take_waiters();
    return transit< Started >(); //进入Started状态, 运行Started的构造函数,同时Start是Started的子状态，再进入Start的构造函数
        context< RecoveryMachine >().log_enter(state_name);
        if(pg->is_primary())
            post_event(MakePrimary()); //Start接受MakePrimary事件进入Primary状态， Primary的默认子状态为Peering， Peering的子状态为GetInfo
        else
            post_event(MakeStray());  //start状态接受到MakeStray事件后进入Stray事件， 进入Stray构造函数
                context< RecoveryMachine >().log_enter(state_name); //"Started/Stray"

（1）如果该osd不是主osd，则应该发送notify给主osd。
（2）进入Started状态，因为Start是Started的默认子状态，因此会进入Start状态。
（3）如果是主osd，就抛出MakePrimary事件，否则就抛出MakeStray事件。

处于Start状态的状态机接受MakePrimary事件进入Primary状态， Primary的默认子状态为Peering， Peering的子状态为GetInfo，GetInfo实现如下：

context< RecoveryMachine >().log_enter(state_name); //"Started/Primary/Peering/GetInfo"
pg->check_past_interval_bounds();  //?????????????????????????????
PastIntervals::PriorSet &prior_set = context< Peering >().prior_set;
prior_set = pg->build_prior(); // 将up和act集合中的osd加入到probe
    PastIntervals::PriorSet::PriorSet  
        for (unsigned i = 0; i < acting.size(); i++)  //将当前的acting up set中的OSD加入到probe列表中
            probe.insert(pg_shard_t(acting[i], ec_pool ? shard_id_t(i) : shard_id_t::NO_SHARD));
        for (unsigned i = 0; i < up.size(); i++)
            probe.insert(pg_shard_t(up[i], ec_pool ? shard_id_t(i) : shard_id_t::NO_SHARD));
        set all_probe = past_intervals.get_all_probe(ec_pool);
            past_intervals->get_all_participants(ec_pool);
                return all_participants;  //过去所有interval的osd都会加入到all_participants里，  同时在build_initial_history中，还会将acting集合中的osd加入到all_participants
        for (auto &&i: all_probe)  //只有现在为up状态的osd才会加入到probe集合里
            switch (f(0, i.osd, nullptr))
                case UP:
                    probe.insert(i);
                case DOWN，DNE，LOST:
                    down.insert(i.osd);  //DNE状态是获取不到pinfo时标记的，LOST状态时判断lost_at
        past_intervals.iterate_mayberw_back_to	 //判断不小于last_epoch_started的interval是否可以用来修复
            for (auto i = intervals.rbegin(); i != intervals.rend(); ++i)
                if (i->last < les)
                    break;
                f(i->first, i->acting);  
                /*
                    具体判断准则：
                    （1）如果这个interval的osd依然up，则加入up_now集合
                    （2）如果是LOST，依然加入到up_now集合
                    （3）如果是DOWN的，则 candidate_blocked_by[so.osd] = lost_at;且any_down_now = true;
                    然后调用if (!(*pcontdec)(up_now) && any_down_now)判断存活的osd是否足够用，如果不足够有且any_down_now == true;
                    则pg_down = true;且blocked_by.insert( candidate_blocked_by.begin(),  还么明白这个做什么用. 如果pg_down 
                    被设置为True，（blocked_by.insert(candidate_blocked_by.begin(),candidate_blocked_by.end()); ），则即使peer_info_requested为空，则依然不能抛出GotInfo事件，而是只有在peer_info_requested.empty() && !prior_set.pg_down
                    才会抛出GotInfo事件
                */
            set_probe_targets(prior.probe);
                probe_targets.clear();
                for (set::iterator i = probe_set.begin();i != probe_set.end(); ++i)
                    probe_targets.insert(i->osd);
        
get_infos();  //将要query的信息插入到query_map中
    pg->blocked_by.clear();
    for (set::const_iterator it = prior_set.probe.begin(); it != prior_set.probe.end();
        context< RecoveryMachine >().send_query(peer, pg_query_t(pg_query_t::INFO, it->shard, pg->pg_whoami.shard, pg->info.history, pg->get_osdmap()->get_epoch()));
                (*state->rctx->query_map)[to.osd][spg_t(pg->info.pgid.pgid, to.shard)] = query;  
    peer_info_requested.insert(peer);
    pg->blocked_by.insert(peer.osd);  //这几行貌似是发送query消息到pg中其他osd,但没看懂是怎么发的，可能是在其他地方发的	
if(prior_set.pg_down)  //up的osd不够
    post_event(IsDown());
else if (peer_info_requested.empty()) //此时很大可能不为空
    post_event(GotInfo());
//对于pg创建，以上两个都不满足，因此程序到这里就返回。

（1）调用build_prior函数去构建probe，probe包含了要获取日志信息的osd集合，其包括当前up、acting中的osd，还包括past_interval中的acting集合中且在当前依然up的osd。
（2）如果某个过去某个interval阶段中的acting集合在当前状态为up和lost的osd数量不足以恢复（默认最小值为1）并且或者该interval阶段acting集合中有osd在当前状态为down，则设置pg_down为true，并将down的osd加入到blocked_by集合。
（3）调用get_infos向probe中的osd发送pg_query_t::INFO消息（这里并没有发送，只是将消息插入到query_map）。
（4）如果pg_down为true，即过去某个interval中acting集合中存活的osd数量不够，并且acting集合中有down的osd，就抛出IsDown事件，进入Down状态。
（5）如果peer_info_requested为空（peer_info_requested中保存了要获取日志信息的osd集合），说明不需要向其他osd获取日志信息，或者其他osd日志信息都已经获取到了，就抛出GotInfo事件。但对于pg创建，这个条件一般不满足，因此函数返回，程序的调用栈返回到handle_pg_create_info函数中。

紧接着运行dispatch_contexth函数

dispatch_context(rctx, pg.get(), osdmap, nullptr);
    do_notifies(*ctx.notify_list, curmap);   //在Reset::react(const ActMap&)处理函数中添加
        MOSDPGNotify *m = new MOSDPGNotify(curmap->get_epoch(), it->second);
        con->send_message(m);
    do_queries(*ctx.query_map, curmap);  //get_infos 插入
        MOSDPGQuery *m = new MOSDPGQuery(curmap->get_epoch(), pit->second);
        con->send_message(m);
    do_infos(*ctx.info_map, curmap);	  //在pg创建过程中还没用到info_map
        MOSDPGInfo *m = new MOSDPGInfo(curmap->get_epoch());
        m->pg_list = p->second;
        con->send_message(m);

该函数负责将消息发送给对应的OSD，其中notify_list是从osd发送给主osd的通知消息，query_map是主osd发送给其他osd的获取日志信息消息。

紧接着程序调用栈返回ShardedOpWQ::_process函数，在此函数中handle_pg_create_infof返回后会调用qi.run(osd, sdata, pg, tp_handle)，其调用栈如下：

qi.run(osd, sdata, pg, tp_handle); //qi为OpQueueItem
    qitem->run(osd, sdata, pg, handle);  //PGPeeringItem::run
        osd->dequeue_peering_evt(sdata, pg.get(), evt, handle);
            advance_pg(curmap->get_epoch(), pg, handle, &rctx);
                rctx->transaction->register_on_applied(new C_FinishSplits(this, new_pgs));
            dispatch_context_transaction(rctx, pg, &handle);
                store->queue_transaction(pg->ch, std::move(*ctx.transaction), TrackedOpRef(), handle)
                    ObjectStore::Transaction::collect_contexts(tls, &on_applied, &on_commit, &on_applied_sync);
                    TransContext *txc = _txc_create(static_cast(ch.get()), osr);
                    txc->oncommits.swap(on_commit);
                    for (vector::iterator p = tls.begin(); p != tls.end(); ++p)
                        txc->bytes += (*p).get_num_bytes();
                        _txc_add_transaction(txc, &(*p));
                            Transaction::iterator i = t->begin(); //return iterator(this);  创建一个iterator
                                return iterator(this);
                            vector ovec(i.objects.size())
                            for (int pos = 0; i.have_op(); ++pos)  //have_op判断ops是否大于0，如果仍然大于0，就有op存在，  op在PG::_create创建， 依次有  OP_MKCOLL，OP_COLL_HINT，OP_TOUCH OP_OMAP_SETKEYS
                                switch (op->op) {
                                    case Transaction::OP_MKCOLL:
                                        const coll_t &cid = i.get_cid(op->cid);
                                        r = _create_collection(txc, cid, op->split_bits, &c);
                                            auto p = new_coll_map.find(cid);
                                            assert(p != new_coll_map.end());
                                            *c = p->second;
                                            (*c)->cnode.bits = bits;
                                            coll_map[cid] = *c;
                                            new_coll_map.erase(p);
                                            txc->t->set(PREFIX_COLL, stringify(cid), bl);//roscksdb
                                    case Transaction::OP_COLL_HINT:
                                        ...
                                OnodeRef &o = ovec[op->oid];
                                if (op->op == Transaction::OP_TOUCH)
                                    create = true;
                                switch (op->op)
                                    case Transaction::OP_TOUCH:		
                                        r = _touch(txc, c, o);
                                            _assign_nid(txc, o);
                                                uint64_t nid = ++nid_last;
                                                o->onode.nid = nid;
                                                txc->last_nid = nid;
                                                o->exists = true;
                                            txc->write_onode(o);
                                                onodes.insert(o);
                                case Transaction::OP_SETATTRS: 
                                    i.decode_attrset(aset)
                                    r = _setattrs(txc, c, o, aset);
                        
                    _txc_calc_cost(txc);	
                        // one "io" for the kv commit
                        auto ios = 1 + txc->ioc.get_num_ios(); 
                        auto cost = throttle_cost_per_io.load(); 
                        txc->cost = ios * cost + txc->bytes
                    _txc_write_nodes(txc, txc->t);	
                        for (auto o : txc->onodes)
                            _record_onode(o, t);
                                txn->set(PREFIX_OBJ, o->key.c_str(), o->key.size(), bl);
                            o->flushing_count++;
                    _txc_state_proc(txc); 
                    // we're immediately readable (unlike FileStore)
                    for (auto c : on_applied_sync) {
                      c->complete(0);
                    }
                    for (auto c : on_applied) {
                      finishers[osr->shard]->queue(c);
                    }
            need_up_thru = pg->get_need_up_thru();
            same_interval_since = pg->get_same_interval_since();

其就是将pg创建对应的几个操作下发到磁盘，分别为OP_MKCOLL，OP_COLL_HINT，OP_TOUCH OP_OMAP_SETKEYS

Ceph存储阈值调整：优化nearfull_ratio参数 mixboot Ceph ceph
Ceph存储阈值调整：优化nearfull_ratio参数前言在Ceph存储系统的管理中，合理设置存储阈值参数对于确保系统稳定运行至关重要。如何调整nearfull_ratio参数，以及这一参数对Ceph集群的影响。Ceph存储阈值概述Ceph存储系统主要有三个与容量相关的重要阈值参数：近满阈值(nearfull_ratio)：默认为0.85或85%，当集群使用空间达到此比例时，Ceph会发出警告
Ceph OSD.419 故障分析
CephOSD.419故障分析1.问题描述在Ceph存储集群中，OSD.419无法正常启动，系统日志显示服务反复重启失败。2.初始状态分析观察到OSD.419服务启动失败的系统状态：systemctlstatusceph-osd@419●[email protected]:loaded(/usr/lib/systemd
【ceph】坏盘更换，osd的具体操作向往风的男子 ceph ceph
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》暂未更新《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》运维日常《l
ceph报错整理时空无限 Kubernetes ceph linux 运维 kubernetes
xxdaemonshaverecentlycrashedceph-scluster:id:d82dfc33-6a35-4fa4-b5f0-c32979b714cdhealth:HEALTH_WARN74daemonshaverecentlycrashedcephcrashlsIDENTITYNEW2024-07-26T06:17:34.480675Z_bd4c30b7-2347-4307-a9e6
使用ceph-ansible部署分布式存储Ceph-octopus版本降世神童云计算技术专栏分布式 ceph ansible
使用ceph-ansible部署分布式存储Ceph-octopus版本1.Ceph基础概念及部署方式1.1.Ceph基本概念1.2.Ceph部署方式2.系统初始化配置3.Ceph集群部署3.1.Ansible安装与配置3.2.ceph-ansible安装与配置3.2.1.下载ceph-ansible3.2.2.安装ceph-ansible依赖3.2.3.修改ceph配置文件3.3.开始部署ceph
2024年运维最新分布式存储ceph osd 常用操作_ceph查看osd对应硬盘(1)，2024年最新Linux运维编程基础教程 2401_83944328 程序员运维分布式 ceph
最全的Linux教程，Linux从入门到精通======================linux从入门到精通(第2版)Linux系统移植Linux驱动开发入门与实战LINUX系统移植第2版Linux开源网络全栈详解从DPDK到OpenFlow第一份《Linux从入门到精通》466页====================内容简介====本书是获得了很多读者好评的Linux经典畅销书**《Linu
【ceph】ceph集群更换osd时，找不到坏盘位置，怎么查找坏盘对应的序列号---业内称“点灯”
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
Ceph集群管理实战 wespten OpenStack vSphere 虚拟化云平台 SDN 数据库存储块存储文件存储对象存储分布式网络存储 linux 运维服务器
配置完Ceph集群后，我们即可对Ceph集群进行数据存储。在后续使用过程中，Ceph提供了常用的命令对Ceph集群进行必要的运维。常见的集群状态查看、磁盘使用率查看、添加磁盘、删除坏盘等操作。详情可参考：WelcometoCeph—CephDocumentation1、Ceph的常用命令本节给出的Ceph常用命令可以作为最基本的集群运维命令。1）查看集群状态命令。[root@installer~]
深度剖析：Ceph分布式存储系统架构 TechVision大咖圈 ceph 分布式架构分布式存储
一文带你彻底搞懂Ceph的架构奥秘，从小白到架构师的进阶之路！文章目录1.Ceph简介：存储界的"多面手"什么是Ceph？为什么选择Ceph？2.核心组件架构：四大金刚的分工合作Monitor（MON）：集群的"大脑"ObjectStorageDevice（OSD）：数据的"家园"MetadataServer（MDS）：文件系统的"管家"Manager（MGR）：集群的"助手"3.三大存储接口：一
【无标题】 KellenKellenHao tomcat java
一、tomcat安装 #关闭防火墙与SELinux [root@proxy_host~]#rz rzwaitingtoreceive.**[root@proxy_host~]#ls anaconda-ks.cfg ceph-release-1-1.el7.noarch.rpm apache-tomcat-8.5.40.tar.gznginx-1.27.3.tar.gz #解压到指定路径
【mongodb】mongodb数据备份与恢复向往风的男子运维日常 DBA mongodb 数据库
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》暂未更新《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》运维日常《l
rook-ceph配置dashboard代理无法访问
在ceph-tools的pod中看看dashboard是否开启kubectl-nrook-cephexec-itrook-ceph-tools-7b75b967db-jn68d–bashcephmgrservices查看集群内地址使用curl测试能否访问cephmgrmoduledisabledashboard关闭cephmgrmoduleenabledashboard开启rook中关于ceph部
速通Ceph分布式存储（含超详细图解）来自于狂人云计算
前言云计算存储架构图示例存储节点集群RAID控制层物理存储层分布式存储管理层存储接口层接入层OSD主机1OSD主机2OSD主机N磁盘1磁盘2磁盘3磁盘4磁盘5磁盘6RAID0/10/5RAID控制器1RAID0/10/5RAID控制器2RAID0/10/5RAID控制器NMonitor集群大脑OSD数据守护进程MDS元数据服务对象存储块存储文件存储对象网关RBDMDS客户端接入层存储接口层分布式存
使用kolla安装OPENSTACK qhqh310 openstack
安装centos7一、根据这个做一个模板1、编辑host文件10.103.129.146control-110.103.129.147node-110.103.129.148node-210.103.129.149network-110.103.129.150ceph-110.103.129.151ceph-210.103.129.152control-210.103.129.153network
ceph计算PG
计算公式：pg_num={(TargetPGsperOSD)x(OSD#)x(%Data)}/Size注释：TargetPGsperOSD：预估每个OSD的PG数，一般取100计算。当预估以后集群OSD数不会增加时，一般取100计算OSD#：集群OSD数量。%Data：预估该pool占该OSD集群总容量的近似百分比。Size：该pool的副本数。
分布式存储Ceph之PG状态详解 jiangxi_ ceph 运维 ceph pgp 分布式 linux
1.PG介绍一，PG的复杂如下：在架构层次上，PG位于RADOS层的中间。a.往上负责接收和处理来自客户端的请求。b.往下负责将这些数据请求翻译为能够被本地对象存储所能理解的事务。是组成存储池的基本单位，存储池中的很多特性，都是直接依托于PG实现的。面向容灾域的备份策略使得一般而言的PG需要执行跨节点的分布式写，因此数据在不同节点之间的同步、恢复时的数据修复也都是依赖PG完成。2.PG状态表正常的
ceph创建pool时pg_num的配置 lvbibir 数据库
pg_num用此命令创建存储池时：cephosdpoolcreate{pool-name}pg_num确定pg_num取值是强制性的，因为不能自动计算。常用的较为通用的取值：少于5个osd，pg_num设置为128osd数量在5到10个时，pg_num设置为512osd数量在10到50个时，pg_num=4096osd数量大于50是，需要理解ceph的权衡算法，自己计算pg_num取值自行计算pg
ceph 通过 crush rule 修改故障域时空无限 ceph ceph
创建故障域为osd的crushrulecephosdcrushrulecreate-replicatedreplicated_osd_leveldefaultosd设置pool使用新创建的crushrulecephosdpoolsetceph-filesystem-data0crush_rulereplicated_osd_level查看有哪些crushrulecephosdcrushruleli
Rsync实操 KellenKellenHao excel
Rsync实操一.rsync命令 #类似于cp [root@user2~]#[email protected]:/root [email protected]'spassword: [root@user1~]#ls anaconda-ks.cfgceph-release-1-1.el7.noarch.rpminfo.sh二、使用rsync备份push方式服务器：
离线部署openstack 2024.1需求说明、初始化及实例创建过程分析查士丁尼·绵 openstack openstack
背景在ubuntu22.04离线部署openstack2024.1集群，外置存储为cephreef，提供：1、计算虚拟化；2、网络虚拟化，支持协议flat、vlan、vxlan；3、存储对接ceph；4、webUI；5、management网络为bond0，对应vlan10；6、self-service网络为bond0，对应vlan15；7、external网络对应bond1，对应vlan20、2
安装ceph时,出现Some monitors have still not reached quorum
现象：安装ceph时，在获取节点的证书时，也即下面这条语句时遇到问题ceph-deployadminceph1ceph2ceph3报错如下：[ceph3][INFO]Runningcommand:sudoceph--cluster=ceph--admin-daemon/var/run/ceph/ceph-mon.ceph3.asokmon_status[ceph3][ERROR]admin_soc
OpenStack私有云实战答案：Heat编排+KVM优化+Ceph存储对接与排障全解行家说竞赛 #云计算应用赛项 openstack ceph
【题目1】1.2.1Heat编排-创建用户[1分]编写Heat模板create_user.yaml，创建名为heat-user的用户。使用自己搭建的OpenStack私有云平台，使用heat编写摸板(heat_template_version:2016-04-08)创建名为”chinaskills”的domain，在此domain下创建名为beijing_group的租户，在此租户下创建名为clo
【k8s安装redis】k8s环境无pvc的情况下安装redis哨兵集群汪碧康 kubernetes docker redis kubernetes redis docker 容器哨兵 pvc
文章目录简介一.条件及环境说明：二.需求说明：三.实现原理及说明四.详细步骤4.1.规划节点标签4.2.创建configmap配置4.3.创建三个statefulset和serviceheadless配置4.4.创建哨兵deployment配置和service配置五.安装说明简介k8s集群中搭建有状态的服务会相对较麻烦，像搭建redis目前比较主流的做法主要是采用共享存储ceph、nas来实现数据
springboot2.6+awssdk2访问ceph bucket
版本信息：SpringBoot2.6.6awssdk2.17.100Ceph：Quincyv17.2.01、添加cephmaven依赖：父pom文件：。。。。。。2.17.100。。。。。。software.amazon.awssdkbom${awssdk.version}pomimport子pom文件：
【SCI论文写作】机器学习与时间序列医疗健康预测——（EEG）的获取与预处理：Python 实现 LIUDAN'S WORLD 医学 AI python 人工智能前端
当前时间：2025-05-29脑电图（Electroencephalography,EEG）作为一种非侵入性的神经生理监测技术，在医疗健康领域，尤其是在神经科学研究、疾病诊断（如癫痫、睡眠障碍）、脑机接口（BCI）等方面扮演着至关重要的角色。原始EEG信号通常包含复杂的生理信息，但也极易受到各种噪声和伪迹的污染，这为后续的数据分析和解读带来了巨大挑战。因此，对EEG数据进行系统有效的预处理是确保分
ES将快照仓库创建到ceph Nobe_yt es6 elasticsearch
这是在ES6.8.7环境进行的，测试7.6.2也是可以的。注意：所有的ES节点都需要安装对应版本的repository-s3插件。步骤一：提前准备好对象存储，和bukect"access_key":"xxxxxx""secret_key":"xxxxxx""bucket"："xxxxxx"步骤二：设置访问s3账号密码,根据步骤一中准备好的bukect的access_key,secret_key。#
Ceph---ceph 12.2.12 full ratio(s) out of order yysalad ceph
实际使用ceph12.2.12的过程中遇到fullratio(s)outoforder原因：osd_failsafe_full_ratio小于full_ratio解决方法：设置full_ratio小于等于osd_failsafe_full_ratiocephosdset-full-ratio0.97
ceph recovery 相关参数时空无限 ceph ceph
RECOVERY恢复/回填选项修改mClock最大回填/恢复限制的步骤可以修改的最大回填/恢复选项列在“恢复/回填选项”部分。mClock的修改默认回填/恢复限制由osd_mclock_override_recovery_settings选项，设置为默认为false。尝试修改任何默认恢复/回填限制而不设置门控选项，会将该选项重置为mClock默认值，并在集群日志中记录一条警告消息。请注意，默认值可
ceph性能调优时空无限 ceph ceph
硬件方面CPUceph的进程对cpu的依赖强弱MDS>OSD>MON一个MDS进程给4核cpu一个OSD进程给2核cpu一个MON进程给1核cpu内存ceph的进程对cpu的依赖强弱MON>OSD一个MON进程给2G内存一个OSD进程给1G内存（osd使用一个物理磁盘）如果使用多个物理磁盘作为一个OSD，每个OSD进程就需要分配大于1G的内存，另外集群处于recovery状态时，内存消耗会明显增加
017 Ceph的集群管理_3 weixin_30614587 shell 开发工具运维
一、验证OSD1.1osd状态运行状态有：up，in，out，down正常状态的OSD为up且in当OSD故障时，守护进程offline，在5分钟内，集群仍会将其标记为up和in，这是为了防止网络抖动如果5分钟内仍未恢复，则会标记为down和out。此时该OSD上的PG开始迁移。这个5分钟的时间间隔可以通过mon_osd_down_out_interval配置项修改当故障的OSD重新上线以后，会触
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb

ceph pg peering和恢复 （1）

你可能感兴趣的:(ceph)

ceph pg peering和恢复（1）