J.Kuchiki

【 OpenGauss源码学习 —— 列存储（CStore）（三）】

列存储（CStore）（三）

概述
CStore::GetCUDesc函数
- systable_beginscan_ordered 函数
- heap_deform_tuple 函数
CStore::GetCUDeleteMaskIfNeed 函数
CStore::GetCURowCount 函数
CStore::GetLivedRowNumbers 函数
CStore::GetCUData 函数

声明：本文的部分内容参考了他人的文章。在编写过程中，我们尊重他人的知识产权和学术成果，力求遵循合理使用原则，并在适用的情况下注明引用来源。
本文主要参考了 OpenGauss1.1.0 的开源代码和《OpenGauss数据库源码解析》一书以及OpenGauss社区学习文档和一些学习资料

概述

本章我们继续在【 OpenGauss源码学习 —— 列存储（CStore）（二）】基础上进行进一步学习，我们将继续介绍 CStore 类中的部分公有成员函数。

CStore::GetCUDesc函数

CStore::GetCUDesc 函数用于从数据库中获取与给定列（col）和 CUID（cuid）相关的 CUDesc（Column Update Description）信息。以下是代码的一些关键部分和功能：

打开关系和索引：代码首先打开了 CUDesc 关系和相应的索引，以便后续的数据检索。

设置扫描键：代码为扫描操作设置了两个扫描键，一个是CUDescColIDAttr（列标识）的等于条件，另一个是 CUDescCUIDAttr（CUID标识）的等于条件。这些条件用于从索引中检索符合条件的数据。

执行系统扫描：代码使用 systable_beginscan_ordered 函数执行系统扫描操作，以获取符合指定条件的 CUDesc 数据。

处理检索到的数据：代码在循环中处理检索到的 CUDesc 数据，包括获取 CUID、xmin、最小值、最大值、行数、CUMode、CU大小、CU指针、magic 等信息，并将这些信息存储在 cuDescPtr 结构中。

关闭关系和索引：最后，代码在完成数据检索后关闭了关系和索引，释放相应的资源。

需要注意的是，这段代码是在数据库管理系统的上下文中编写的，特定于数据库的数据结构和函数被使用，如 Relation、HeapTuple、systable_beginscan_ordered 等。这段代码的目的是根据给定的列和 CUID 来获取与之相关的 CUDesc 信息，以便在数据库操作中使用。函数源码如下所示：（路径：src/gausskernel/storage/cstore/cstore_am.cpp）

/*
 * Get CUDesc of column according to cuid.
 * 根据cuid获取列的CUDesc（Column Update Description）。
 */
bool CStore::GetCUDesc(_in_ int col, _in_ uint32 cuid, _out_ CUDesc* cuDescPtr, _in_ Snapshot snapShot)
{
    ScanKeyData key[2];
    HeapTuple tup;
    bool found = false;
    errno_t rc = EOK;
    Assert(col >= 0);

    // 当切换到下一批CUDesc数据时，我们将重置m_perScanMemCnxt。
    // 因此，只用于此批次的空间应由m_perScanMemCnxt管理。
    AutoContextSwitch newMemCnxt(m_perScanMemCnxt);

    /*
     * 打开CUDesc关系和其索引
     */
    Relation cudesc_rel = heap_open(m_relation->rd_rel->relcudescrelid, AccessShareLock);
    TupleDesc cudesc_tupdesc = cudesc_rel->rd_att;
    Relation idx_rel = index_open(cudesc_rel->rd_rel->relcudescidx, AccessShareLock);
    bool isFixedLen = m_relation->rd_att->attrs[col]->attlen > 0 ? true : false;
    // 将逻辑id转换为属性的物理id
    int attid = m_relation->rd_att->attrs[col]->attnum;

    /*
     * 设置扫描键以从索引中按attid检索。
     */
    ScanKeyInit(&key[0], (AttrNumber)CUDescColIDAttr, BTEqualStrategyNumber, F_INT4EQ, Int32GetDatum(attid));

    ScanKeyInit(&key[1], (AttrNumber)CUDescCUIDAttr, BTEqualStrategyNumber, F_OIDEQ, UInt32GetDatum(cuid));

    snapShot = (snapShot == NULL) ? GetActiveSnapshot() : snapShot;
    Assert(snapShot != NULL);

	// 执行系统扫描操作，以获取符合指定条件的 CUDesc 数据
    SysScanDesc cudesc_scan = systable_beginscan_ordered(cudesc_rel, idx_rel, snapShot, 2, key);
    // 只循环一次
    while ((tup = systable_getnext_ordered(cudesc_scan, ForwardScanDirection)) != NULL) {
        Datum values[CUDescCUExtraAttr] = {0};
        bool isnull[CUDescCUExtraAttr] = {0};
        char* valPtr = NULL;

        heap_deform_tuple(tup, cudesc_tupdesc, values, isnull);

        uint32 cu_id = DatumGetUInt32(values[CUDescCUIDAttr - 1]);
        Assert(!isnull[CUDescCUIDAttr - 1] && cu_id == cuid && found == false);

        cuDescPtr->xmin = HeapTupleGetRawXmin(tup);

        cuDescPtr->cu_id = cu_id;

        // 将最小值放入cudesc->cu_min
        if (!isnull[CUDescMinAttr - 1]) {
            char* minPtr = cuDescPtr->cu_min;
            char len_1 = MIN_MAX_LEN;
            valPtr = DatumGetPointer(values[CUDescMinAttr - 1]);
            if (!isFixedLen) {
                *minPtr = (char)VARSIZE_ANY_EXHDR(valPtr);
                minPtr = minPtr + 1;
                len_1 -= 1;
            }
            rc = memcpy_s(minPtr, len_1, VARDATA_ANY(valPtr), VARSIZE_ANY_EXHDR(valPtr));
            securec_check(rc, "", "");
        }
        // 将最大值放入cudesc->max
        if (!isnull[CUDescMaxAttr - 1]) {
            char* maxPtr = cuDescPtr->cu_max;
            char len_2 = MIN_MAX_LEN;
            valPtr = DatumGetPointer(values[CUDescMaxAttr - 1]);
            if (!isFixedLen) {
                *maxPtr = VARSIZE_ANY_EXHDR(valPtr);
                maxPtr = maxPtr + 1;
                len_2 -= 1;
            }
            rc = memcpy_s(maxPtr, len_2, VARDATA_ANY(valPtr), VARSIZE_ANY_EXHDR(valPtr));
            securec_check(rc, "", "");
        }

        cuDescPtr->row_count = DatumGetInt32(values[CUDescRowCountAttr - 1]);
        Assert(!isnull[CUDescRowCountAttr - 1]);

        // 将CUMode放入cudesc->cumode
        cuDescPtr->cu_mode = DatumGetInt32(values[CUDescCUModeAttr - 1]);
        Assert(!isnull[CUDescCUModeAttr - 1]);

        // 将cusize放入cudesc->cu_size
        cuDescPtr->cu_size = DatumGetInt32(values[CUDescSizeAttr - 1]);
        Assert(!isnull[CUDescSizeAttr - 1]);

        // 将CUPointer放入cudesc->cuPointer
        char* cu_ptr = DatumGetPointer(values[CUDescCUPointerAttr - 1]);
        Assert(!isnull[CUDescCUPointerAttr - 1] && cu_ptr);
        rc = memcpy_s(&cuDescPtr->cu_pointer, sizeof(CUPointer), VARDATA_ANY(cu_ptr), sizeof(CUPointer));
        securec_check(rc, "", "");
        Assert(VARSIZE_ANY_EXHDR(cu_ptr) == sizeof(CUPointer));

        cuDescPtr->magic = DatumGetUInt32(values[CUDescCUMagicAttr - 1]);
        Assert(!isnull[CUDescCUMagicAttr - 1]);
        found = true;
    }
    systable_endscan_ordered(cudesc_scan);
    index_close(idx_rel, AccessShareLock);
    heap_close(cudesc_rel, AccessShareLock);

    return found;
}

systable_beginscan_ordered 函数

该函数的作用是用于在数据库中设置有序的系统目录扫描，以确保按照索引的顺序返回匹配的元组。该函数会对输入参数进行一些检查，然后设置扫描所需的数据结构，并调用适当的函数来初始化和执行有序的索引扫描。函数源码如下所示：（路径：src\gausskernel\storage\access\index\genam.cpp）

函数入参解释：

Relation heap_relation：这是一个指向要进行扫描的表的关系对象的指针。这是扫描的目标表。

Relation index_relation：这是一个指向要进行扫描的索引的关系对象的指针。这是扫描目标索引。

Snapshot snapshot：这是一个数据库快照对象，用于确定扫描的数据版本。这是扫描的数据一致性的一部分。

int nkeys：这是整数，表示搜索键的数量。搜索键是用于限定扫描结果的条件。

ScanKey key：这是一个指向扫描键的数组的指针。扫描键是用于确定匹配的条件，每个键包括列号、操作符和要匹配的值。

// 函数目的：设置有序系统目录扫描，确保按照索引顺序返回匹配的元组
SysScanDesc systable_beginscan_ordered(Relation heap_relation, Relation index_relation, Snapshot snapshot, int nkeys,
                                       ScanKey key)
{
    SysScanDesc sysscan;
    int i;

    // 检查索引是否正在重新构建，如果是，抛出错误
    if (ReindexIsProcessingIndex(RelationGetRelid(index_relation)))
        ereport(ERROR, (errcode(ERRCODE_INVALID_OPERATION),
                        errmsg("无法对索引 \"%s\" 执行有序扫描，因为正在重新构建",
                               RelationGetRelationName(index_relation))));
    
    // 检查是否启用了 IgnoreSystemIndexes 配置，如果是，发出警告
    if (u_sess->attr.attr_common.IgnoreSystemIndexes) {
        elog(WARNING, "尽管 IgnoreSystemIndexes 设置为真，仍在使用索引 \"%s\"", RelationGetRelationName(index_relation));
    }

    // 分配内存以存储 SysScanDesc 结构
    sysscan = (SysScanDesc)palloc(sizeof(SysScanDescData));

    // 设置 SysScanDesc 结构的 heap_rel 字段为表引用
    sysscan->heap_rel = heap_relation;
    
    // 设置 SysScanDesc 结构的 irel 字段为索引引用
    sysscan->irel = index_relation;

    // 调整搜索键中的属性号以匹配索引列号
    for (i = 0; i < nkeys; i++) {
        int j;

        for (j = 0; j < IndexRelationGetNumberOfAttributes(index_relation); j++) {
            if (key[i].sk_attno == index_relation->rd_index->indkey.values[j]) {
                key[i].sk_attno = j + 1;
                break;
            }
        }
        if (j == IndexRelationGetNumberOfAttributes(index_relation))
            ereport(ERROR, (errcode(ERRCODE_INDEX_CORRUPTED), errmsg("列不在索引中")));
    }

    // 调用 index_beginscan 设置索引扫描
    sysscan->iscan = (IndexScanDesc)index_beginscan(heap_relation, index_relation, snapshot, nkeys, 0);
    index_rescan(sysscan->iscan, key, nkeys, NULL, 0);
    sysscan->scan = NULL;

    return sysscan;
}

heap_deform_tuple 函数

heap_deform_tuple 函数用于从堆元组（HeapTuple）中提取数据，并将数据存储到值（values）和空值标志（isnull）数组中。函数的主要功能是根据元组描述（tupleDesc）和堆元组（tuple）中的数据提取相应的值和空值标志。它会遍历元组的各个字段，并根据字段的数据类型和长度，将数据复制到 values 数组中，并相应地设置 isnull 数组的标志。函数源码路径如下：（路径：src\gausskernel\storage\access\common\heaptuple.cpp）

/*
 * heap_deform_tuple
 * 从元组中提取数据，并将数据放入值数组和空值标志数组中；这是 heap_form_tuple 的逆过程。
 *
 * 值数组和空值标志数组的存储由调用者提供；其大小应根据 tupleDesc->natts 和
 * HeapTupleHeaderGetNatts(tuple->t_data, tupleDesc) 来确定。
 *
 * 需要注意，对于传引用数据类型（pass-by-reference datatypes），放入 Datum 中的指针将指向给定元组中的数据。
 *
 * 当需要提取元组的所有或大多数字段时，这个函数将比循环使用 heap_getattr 快得多；
 * 一旦涉及到任何不可缓存属性偏移时，循环将变成 O(N^2)。
 */
void heap_deform_tuple(HeapTuple tuple, TupleDesc tupleDesc, Datum *values, bool *isnull)
{
    // 获取堆元组的头部信息
    HeapTupleHeader tup = tuple->t_data;

    // 检查堆元组是否包含空值标志
    bool hasnulls = HeapTupleHasNulls(tuple);

    // 获取元组描述中的属性数组
    Form_pg_attribute *att = tupleDesc->attrs;

    // 元组描述中的属性数量
    uint32 tdesc_natts = tupleDesc->natts;

    // 要提取的属性数量
    uint32 natts;

    // 属性编号
    uint32 attnum;

    // 指向元组数据的指针
    char *tp = NULL;

    // 数据偏移
    long off;

    // 指向元组中的空值位图的指针
    bits8 *bp = tup->t_bits;

    // 是否需要慢速路径（无法使用 attcacheoff）
    bool slow = false;

    // 确保堆元组没有被压缩
    Assert(!HEAP_TUPLE_IS_COMPRESSED(tup));

    // 获取元组的属性数量
    natts = HeapTupleHeaderGetNatts(tup, tupleDesc);

    /*
     * 在继承情况下，给定的元组可能实际上具有比调用者期望的更多字段。
     * 不要超出调用者的数组边界。
     */
    natts = Min(natts, tdesc_natts);

    // 检查属性数量是否超过限制
    if (natts > MaxTupleAttributeNumber) {
        ereport(ERROR, (errcode(ERRCODE_TOO_MANY_COLUMNS),
                        errmsg("列数 (%u) 超过限制 (%d)", natts, MaxTupleAttributeNumber)));
    }

    // 初始化元组数据指针
    tp = (char *)tup + tup->t_hoff;

    // 初始化数据偏移
    off = 0;

    // 遍历属性
    for (attnum = 0; attnum < natts; attnum++) {
        // 获取当前属性
        Form_pg_attribute thisatt = att[attnum];

        // 如果包含空值，检查并设置相应的标志
        if (hasnulls && att_isnull(attnum, bp)) {
            values[attnum] = (Datum)0;
            isnull[attnum] = true;
            slow = true; /* 无法再使用 attcacheoff */
            continue;
        }

        // 标记属性不为空
        isnull[attnum] = false;

        // 如果不需要慢速路径且属性具有缓存偏移（attcacheoff），使用缓存偏移
        if (!slow && thisatt->attcacheoff >= 0) {
            off = thisatt->attcacheoff;
        } else if (thisatt->attlen == -1) {
            /*
             * 只有在偏移已经适当对齐的情况下，我们才能缓存 varlena 属性的偏移，
             * 这样无论偏移适合还是不适合，偏移都对齐。然后，偏移将适用于已对齐或未对齐的值。
             */
            if (!slow && (uintptr_t)(off) == att_align_nominal(off, thisatt->attalign)) {
                thisatt->attcacheoff = off;
            } else {
                off = att_align_pointer(off, thisatt->attalign, -1, tp + off);
                slow = true;
            }
        } else {
            /* 非 varlena 类型，可以安全使用 att_align_nominal */
            off = att_align_nominal(off, thisatt->attalign);

            if (!slow)
                thisatt->attcacheoff = off;
        }

        // 提取属性的值
        values[attnum] = fetchatt(thisatt, tp + off);

        // 更新偏移以跳过当前属性的数据
        off = att_addlength_pointer(off, thisatt->attlen, tp + off);

        // 如果属性长度小于等于0，不能再使用 attcacheoff
        if (thisatt->attlen <= 0) {
            slow = true;
        }
    }

    // 如果元组不包含元组描述中的所有属性，将其余属性读取为空值
    for (; attnum < tdesc_natts; attnum++) {
        // 从元组描述中获取初始默认值
        values[attnum] = heapGetInitDefVal(attnum + 1, tupleDesc, &isnull[attnum]);
    }
}

CStore::GetCUDeleteMaskIfNeed 函数

CStore::GetCUDeleteMaskIfNeed 函数这段代码用于从数据库中提取删除掩码信息，以便后续的操作可以正确地处理已删除的行。它还包括了一些错误处理逻辑，以确保数据的一致性和完整性。这段代码执行以下操作：

首先，它检查是否已经加载了特定 cuid 的删除掩码。如果已经加载，它直接返回。

然后，它创建一个新的内存上下文，用于管理批次数据的内存空间。

打开了与 CUDesc 表和相关索引相关的数据库关系。

配置扫描键，以从索引中提取数据。

开始有序扫描 CUDesc 表，尝试查找匹配给定 cuid 的记录。

如果找到匹配记录，它会提取 CUPointer 并存储在 CStore 对象中。

如果没有找到匹配记录，它会根据快照的时间戳和其他条件，决定如何处理。

函数源码如下所示：（路径：src/gausskernel/storage/cstore/cstore_am.cpp）

void CStore::GetCUDeleteMaskIfNeed(_in_ uint32 cuid, _in_ Snapshot snapShot)
{
    // 定义扫描键数组
    ScanKeyData key[2];

    // 堆元组和相关变量
    HeapTuple tup;
    bool isnull = false;
    errno_t rc = EOK;
    bool found = false;

    // 如果删除掩码已加载，则直接返回
    if (m_delMaskCUId == cuid)
        return;

    // 切换到新的内存上下文，用于管理批次数据的内存空间
    AutoContextSwitch newMemCnxt(m_perScanMemCnxt);

    // 打开 CUDesc 表及其索引
    Relation cudesc_rel = heap_open(m_relation->rd_rel->relcudescrelid, AccessShareLock);
    TupleDesc cudesc_tupdesc = cudesc_rel->rd_att;
    Relation idx_rel = index_open(cudesc_rel->rd_rel->relcudescidx, AccessShareLock);

    // 设置用于从索引中提取数据的扫描键
    ScanKeyInit(&key[0], (AttrNumber)CUDescColIDAttr, BTEqualStrategyNumber, F_INT4EQ, Int32GetDatum(VitrualDelColID));

    ScanKeyInit(&key[1], (AttrNumber)CUDescCUIDAttr, BTEqualStrategyNumber, F_OIDEQ, UInt32GetDatum(cuid));

    // 如果快照为空，获取活动快照
    snapShot = (snapShot == NULL) ? GetActiveSnapshot() : snapShot;
    Assert(snapShot != NULL);

    // 开始有序扫描 CUDesc 表
    SysScanDesc cudesc_scan = systable_beginscan_ordered(cudesc_rel, idx_rel, snapShot, 2, key);

    // 从扫描中获取下一个元组
    if ((tup = systable_getnext_ordered(cudesc_scan, ForwardScanDirection)) != NULL) {
        // 获取 CUPointer 并存储在 CStore 对象中
        Datum v = fastgetattr(tup, CUDescCUPointerAttr, cudesc_tupdesc, &isnull);
        if (isnull)
            m_hasDeadRow = false;
        else {
            m_hasDeadRow = true;
            int8* bitmap = (int8*)PG_DETOAST_DATUM(DatumGetPointer(v));
            rc = memcpy_s(m_cuDelMask, MaxDelBitmapSize, VARDATA_ANY(bitmap), VARSIZE_ANY_EXHDR(bitmap));
            securec_check(rc, "", "");

            // 由于可能创建了新内存，因此需要检查并及时释放
            if ((Pointer)bitmap != DatumGetPointer(v)) {
                pfree_ext(bitmap);
            }
        }

        found = true;
    }

    // 结束扫描
    systable_endscan_ordered(cudesc_scan);

    // 关闭索引
    index_close(idx_rel, AccessShareLock);

    // 关闭 CUDesc 表
    heap_close(cudesc_rel, AccessShareLock);

    // 如果没有找到匹配的记录
    if (!found) {
        TransactionId currGlobalXmin = pg_atomic_read_u64(&t_thrd.xact_cxt.ShmemVariableCache->recentGlobalXmin);
        Assert(snapShot->xmin > 0);

        // 如果快照太旧，抛出错误
        if (TransactionIdPrecedes(snapShot->xmin, currGlobalXmin))
            ereport(ERROR,
                    (errcode(ERRCODE_SNAPSHOT_INVALID),
                     (errmsg("快照过旧。"),
                      errdetail("无法获取旧版本的 CUDeleteBitmap，RecentGlobalXmin: %lu，snapShot->xmin: %lu，snapShot->xmax: %lu",
                                currGlobalXmin,
                                snapShot->xmin,
                                snapShot->xmax),
                      errhint("这是一个安全的错误报告，不会影响数据一致性，如果需要，请重试您的查询。"))));
        else {
            if (m_useBtreeIndex)
                m_delMaskCUId = InValidCUID;
            else {
                ereport(PANIC,
                        (errmsg("CU 删除位图丢失。"),
                         errdetail("可能存在有关 cu %u 删除位图的问题，请联系 HW 工程师获取支持。",
                                   cuid)));
            }
        }
    } else {
        m_delMaskCUId = cuid;
    }

    return;
}

CStore::GetCURowCount 函数

CStore::GetCURowCount 函数用于扫描虚拟的 CUDesc（Column Unit Description）表，以计算特定列的行数。它遵循以下步骤：

首先，它检查输入参数的有效性，并创建新的内存上下文以管理内存空间。

然后，它初始化加载信息并获取与特定列相关的属性标识和关系信息。

之后，它配置用于索引扫描的扫描键，以查找列单元的描述信息。

使用有序扫描的方式遍历 CUDesc 表，获取匹配的行数据，并将它们存储在加载信息中。

最后，它返回 true 表示需要重新加载更多数据，或者返回 false 表示加载完成。

总的来说，这段代码用于在列存储数据库中获取特定列的行数信息，以支持后续查询和分析操作。函数源码如下所示：（路径：src/gausskernel/storage/cstore/cstore_am.cpp）

/*
 * @Description: 扫描虚拟的 CUDesc 表以计算行数
 * @Param[IN] col: 列标识
 * @Param[IN/OUT] loadCUDescInfoPtr: CUDesc 加载信息指针
 * @Param[IN] snapShot: 扫描快照
 * @Return: true -- 需要重新加载; false -- 加载完成
 * @See also: 仅由 GetLivedRowNumbers 调用
 */
bool CStore::GetCURowCount(_in_ int col, __inout LoadCUDescCtl* loadCUDescInfoPtr, _in_ Snapshot snapShot)
{
    // 定义扫描键数组
    ScanKeyData key[2];

    // 堆元组和相关变量
    HeapTuple tup;
    bool isnull = false;
    bool found = false;

    // 断言列编号大于等于0
    Assert(col >= 0);

    // 断言加载信息指针有效
    Assert(loadCUDescInfoPtr);

    // 创建新的内存上下文，用于管理批次数据的内存空间
    AutoContextSwitch newMemCnxt(m_perScanMemCnxt);

    // 重置加载信息中的计数值
    loadCUDescInfoPtr->lastLoadNum = 0;
    loadCUDescInfoPtr->curLoadNum = 0;

    // 获取 CUDesc 数组
    CUDesc* cuDescArray = loadCUDescInfoPtr->cuDescArray;

    // 获取列属性标识
    int attid = m_relation->rd_att->attrs[col]->attnum;

    // 打开 CUDesc 表及其索引
    Relation cudesc_rel = heap_open(m_relation->rd_rel->relcudescrelid, AccessShareLock);
    TupleDesc cudesc_tupdesc = cudesc_rel->rd_att;
    Relation idx_rel = index_open(cudesc_rel->rd_rel->relcudescidx, AccessShareLock);

    // 初始化用于索引扫描的扫描键
    ScanKeyInit(&key[0], (AttrNumber)CUDescColIDAttr, BTEqualStrategyNumber, F_INT4EQ, Int32GetDatum(attid));
    ScanKeyInit(&key[1],
                (AttrNumber)CUDescCUIDAttr,
                BTGreaterEqualStrategyNumber,
                F_OIDGE,
                UInt32GetDatum(loadCUDescInfoPtr->nextCUID));

    // 如果快照为空，获取活动快照
    snapShot = (snapShot == NULL) ? GetActiveSnapshot() : snapShot;

    // 开始有序扫描 CUDesc 表
    SysScanDesc cudesc_scan = systable_beginscan_ordered(cudesc_rel, idx_rel, snapShot, 2, key);

    // 遍历扫描结果
    while ((tup = systable_getnext_ordered(cudesc_scan, ForwardScanDirection)) != NULL) {
        uint32 cu_id = DatumGetUInt32(fastgetattr(tup, CUDescCUIDAttr, cudesc_tupdesc, &isnull));
        Assert(!isnull);

        // 如果是 Dictionary-based VCU（值编码单元），则跳过
        if (IsDicVCU(cu_id))
            continue;

        // 如果加载信息中没有空闲槽位，退出循环
        if (!loadCUDescInfoPtr->HasFreeSlot())
            break;

        // 存储 CU ID 到加载信息中
        cuDescArray[loadCUDescInfoPtr->curLoadNum].cu_id = cu_id;
        loadCUDescInfoPtr->nextCUID = cu_id;

        // 获取行数并存储到加载信息中
        cuDescArray[loadCUDescInfoPtr->curLoadNum].row_count =
            DatumGetInt32(fastgetattr(tup, CUDescRowCountAttr, cudesc_tupdesc, &isnull));
        Assert(!isnull);

        // 增加当前加载数量
        loadCUDescInfoPtr->curLoadNum++;
        found = true;
    }

    // 结束扫描
    systable_endscan_ordered(cudesc_scan);

    // 关闭索引
    index_close(idx_rel, AccessShareLock);

    // 关闭 CUDesc 表
    heap_close(cudesc_rel, AccessShareLock);

    // 如果找到匹配记录
    if (found) {
        // 下一个 CUID 必须大于已加载的 CUID
        loadCUDescInfoPtr->nextCUID++;
        return true;
    }
    
    // 加载完成，返回 false
    return false;
}

CStore::GetLivedRowNumbers 函数

CStore::GetLivedRowNumbers 函数的主要功能是遍历列存储关系的 CUDesc 表，获取存活行数和死亡行数的统计信息。它通过循环加载 CUDesc 数据，检查每个 CU 的存活和死亡行数，最终计算出总的存活行数和死亡行数。这对于数据库的存储管理和查询优化非常重要，因为它提供了有关表中数据的重要统计信息。函数源码如下所示：（路径：src/gausskernel/storage/cstore/cstore_am.cpp）

/*
 * 获取关系的存活行数。
 */
int64 CStore::GetLivedRowNumbers(int64* totaldeadrows)
{
    int64 rowNumbers = 0; // 存储存活行数
    LoadCUDescCtl loadInfo(m_startCUID); // 创建 CUDesc 加载信息对象，从指定 CUID 开始加载

    *totaldeadrows = 0; // 初始化总死亡行数为0

    // 循环获取列的行数信息
    while (GetCURowCount(m_firstColIdx, &loadInfo, m_snapshot)) {
        // 获取加载信息中的 CUDesc 数组
        CUDesc* cuDescArray = loadInfo.cuDescArray;

        // 遍历加载信息中的当前加载数量
        for (uint32 i = 0; i < loadInfo.curLoadNum; ++i) {
            // 获取 CUDeleteBitmap（如果需要）以检查死亡行
            GetCUDeleteMaskIfNeed(cuDescArray[i].cu_id, m_snapshot);

            // 增加存活行数
            rowNumbers += cuDescArray[i].row_count;

            // 如果存在死亡行
            if (m_hasDeadRow) {
                int nBytes = (cuDescArray[i].row_count + 7) / 8;

                // 遍历 CUDeleteBitmap 的字节，计算死亡行数
                for (int j = 0; j < nBytes; ++j) {
                    *totaldeadrows += NumberOfBit1Set[m_cuDelMask[j]];
                    rowNumbers -= NumberOfBit1Set[m_cuDelMask[j]];
                }
            }
        }
    }
    loadInfo.Destroy(); // 销毁加载信息对象

    return rowNumbers; // 返回存活行数
}

注：(cuDescArray[i].row_count + 7) / 8 是一种常见的计算方式，用于确定位图所需的字节数，以便有效地表示一组布尔值。

CStore::GetCUData 函数

CStore::GetCUData 函数用于从 CU 缓存中获取列存储数据，以提高查询性能。它通过缓存 CU 数据来避免多次从磁盘读取相同的数据，并在需要时进行解压缩。如果数据未在缓存中找到，它将尝试从磁盘加载并解压缩数据，并将数据存储在缓存中以供以后使用。这可以减少 I/O 开销并提高查询性能。以下是代码的主要步骤和作用：

代码首先检查列是否已经被删除，如果已删除则会抛出错误。

切换到专门用于扫描内存的内存上下文（m_perScanMemCnxt）。

初始化一些变量，包括用于记录是否找到 CU 的标志（hasFound）以及一个用于标识 CU 的数据槽标签（dataSlotTag）。

记录一个 CU 的获取操作。

尝试在 CU 缓存中查找 CU（使用 CUCache->FindDataBlock 方法），如果能够找到，直接返回。

如果在 CU 缓存中找不到 CU，尝试在缓存中为其保留一个槽位（使用 CUCache->ReserveDataBlock 方法）。

获取 CU 的缓冲区，将其标记为在 CU 缓存中，并设置其属性信息。

如果 CU 已经在缓存中，返回 CU 数据。否则，继续下面的步骤。

如果 CU 不在缓存中，需要从磁盘上加载 CU 数据。加载前会等待 I/O 操作完成。

如果 CU 在缓存中，返回已加载的 CU 数据。如果没有在缓存中，继续下面的步骤。

如果 CU 需要解压缩，使用 CUCache->StartUncompressCU 方法进行解压缩。如果在解压缩过程中发生错误，会进行错误处理。

校验加载的 CU 数据的 CRC 校验值。

如果 CU 没有在缓存中，并且加载成功，将 CU 数据返回。

校验 CU 数据的一致性。

函数源码如下所示：（路径：src/gausskernel/storage/cstore/cstore_am.cpp）

// 将CU放入缓存并返回CU数据的指针。
// 返回的CU被固定，调用者在使用完后必须取消固定。
// 1. 记录一个获取（读取）操作。
// 2. 首先通过FindDataBlock()在缓存中查找CU。
//    这通常会成功，而且速度很快。
// 3. 如果FindDataBlock()无法获取CU，则使用InsertCU()。
// 4. 如果FindDataBlock()或InsertCU()发现CU已经在缓存中，
//    则记录缓存命中，返回CU缓冲区和缓存条目。
// 5. 如果InsertCU()没有找到条目，它会保留内存，
//    一个CU描述符槽和一个CU数据槽。
// 6. 从磁盘加载CU并设置CU数据槽，然后检查CRC。
// 7. 解压缩CU数据缓冲区（如果需要）。
// 8. 释放压缩的缓冲区。
// 9. 更新内存保留情况。
// 10. 恢复繁忙的CU缓冲区，唤醒等待缓存条目的线程。
CU* CStore::GetCUData(CUDesc* cuDescPtr, int colIdx, int valSize, int& slotId)
{
    /*
     * 当切换到下一批cudesc数据时，我们将重置m_PerScanMemCnxt。
     * 因此，仅应由m_PerScanMemCnxt管理为该批次使用的内存空间，
     * 包括解压缩中使用的内存空间片段。
     */
    if (m_relation->rd_att->attrs[colIdx]->attisdropped) {
        ereport(ERROR,
                (errcode(ERRCODE_INVALID_OPERATION),
                 (errmsg("Cannot get CUData for a dropped column \"%s\" of table \"%s\"",
                         NameStr(m_relation->rd_att->attrs[colIdx]->attname),
                         RelationGetRelationName(m_relation)))));
    }

    AutoContextSwitch newMemCnxt(this->m_perScanMemCnxt);

    CU* cuPtr = NULL;
    Form_pg_attribute* attrs = m_relation->rd_att->attrs;
    CUUncompressedRetCode retCode = CU_OK;
    bool hasFound = false;
    DataSlotTag dataSlotTag =
        CUCache->InitCUSlotTag((RelFileNodeOld *)&m_relation->rd_node, colIdx, cuDescPtr->cu_id, cuDescPtr->cu_pointer);

    // 记录一个获取（读取）操作。
    // 获取计数是命中和读取次数的总和。
    if (m_rowCursorInCU == 0) {
        pgstat_count_buffer_read(m_relation);
    }

RETRY_LOAD_CU:

    // 首先查找缓存中的CU，这是快速且通常会成功的。
    slotId = CUCache->FindDataBlock(&dataSlotTag, (m_rowCursorInCU == 0));

    // 如果CU不在缓存中，则进行预留。
    // 获取一个缓存槽，预留内存，并将其放入哈希表中。
    // ReserveDataBlock()可能会因等待空间或CU缓存槽而阻塞。
    if (IsValidCacheSlotID(slotId)) {
        hasFound = true;
    } else {
        hasFound = false;
        slotId = CUCache->ReserveDataBlock(&dataSlotTag, cuDescPtr->cu_size, hasFound);
    }

    // 使用缓存中的CU
    cuPtr = CUCache->GetCUBuf(slotId);
    cuPtr->m_inCUCache = true;
    cuPtr->SetAttInfo(valSize, attrs[colIdx]->atttypmod, attrs[colIdx]->atttypid);

    // 如果CU已经在缓存中，直接返回它。
    if (hasFound) {
        // 如果仍在进行中，则等待读取完成。
        if (CUCache->DataBlockWaitIO(slotId)) {
            CUCache->UnPinDataBlock(slotId);
            ereport(LOG,
                    (errmodule(MOD_CACHE),
                     errmsg("CU wait IO find an error, need to reload! table(%s), column(%s), relfilenode(%u/%u/%u), "
                            "cuid(%u)",
                            RelationGetRelationName(m_relation),
                            NameStr(m_relation->rd_att->attrs[colIdx]->attname),
                            m_relation->rd_node.spcNode,
                            m_relation->rd_node.dbNode,
                            m_relation->rd_node.relNode,
                            cuDescPtr->cu_id)));
            goto RETRY_LOAD_CU;
        }

        // 当CStore扫描首次访问CU时，计算内存命中。
        if (m_rowCursorInCU == 0) {
            // 记录缓存命中。
            pgstat_count_buffer_hit(m_relation);
            // 统计CU SSD命中。
            pgstatCountCUMemHit4SessionLevel();
            pgstat_count_cu_mem_hit(m_relation);
        }

        if (!cuPtr->m_cache_compressed) {
            CheckConsistenceOfCUData(cuDescPtr, cuPtr, (AttrNumber)(colIdx + 1));
            return cuPtr;
        }
        if (cuPtr->m_cache_compressed) {
            retCode = CUCache->StartUncompressCU(cuDescPtr, slotId, this->m_plan_node_id, this->m_timing_on, ALIGNOF_CUSIZE);
            if (retCode == CU_RELOADING) {
                CUCache->UnPinDataBlock(slotId);
                ereport(LOG, (errmodule(MOD_CACHE),
                              errmsg("The CU is being reloaded by remote read thread. Retry to load CU! table(%s), "
                                     "column(%s), relfilenode(%u/%u/%u), cuid(%u)",
                                     RelationGetRelationName(m_relation), NameStr(m_relation->rd_att->attrs[colIdx]->attname),
                                     m_relation->rd_node.spcNode, m_relation->rd_node.dbNode, m_relation->rd_node.relNode,
                                     cuDescPtr->cu_id)));
                goto RETRY_LOAD_CU;
            } else if (retCode == CU_ERR_ADIO) {
                ereport(ERROR,
                        (errcode(ERRCODE_IO_ERROR),
                         errmodule(MOD_ADIO),
                         errmsg("Load CU failed in adio! table(%s), column(%s), relfilenode(%u/%u/%u), cuid(%u)",
                                RelationGetRelationName(m_relation),
                                NameStr(m_relation->rd_att->attrs[colIdx]->attname),
                                m_relation->rd_node.spcNode,
                                m_relation->rd_node.dbNode,
                                m_relation->rd_node.relNode,
                                cuDescPtr->cu_id)));
            } else if (retCode == CU_ERR_CRC || retCode == CU_ERR_MAGIC) {
                /* 预提取的CU包含不正确的校验和 */
                addBadBlockStat(
                    &m_cuStorage[colIdx]->m_cnode.m_rnode, ColumnId2ColForkNum(m_cuStorage[colIdx]->m_cnode.m_attid));

                if (RelationNeedsWAL(m_relation) && CanRemoteRead()) {
                    /* 清除CacheBlockInProgressIO和CacheBlockInProgressUncompress，但不释放CU缓冲区 */
                    CUCache->TerminateCU(false);
                    ereport(WARNING,
                            (errcode(ERRCODE_DATA_CORRUPTED),
                             (errmsg("invalid CU in cu_id %u of relation %s file %s offset %lu, prefetch %s, try to "
                                     "remote read",
                                     cuDescPtr->cu_id,
                                     RelationGetRelationName(m_relation),
                                     relcolpath(m_cuStorage[colIdx]),
                                     cuDescPtr->cu_pointer,
                                     GetUncompressErrMsg(retCode))),
                             handle_in_client(true)));

                    /* 远程加载CU */
                    retCode = GetCUDataFromRemote(cuDescPtr, cuPtr, colIdx, valSize, slotId);
                    if (retCode == CU_RELOADING) {
                        /* 其他线程在远程读取 */
                        CUCache->UnPinDataBlock(slotId);
                        ereport(LOG, (errmodule(MOD_CACHE),
                                      errmsg("The CU is being reloaded by remote read thread. Retry to load CU! table(%s), "
                                             "column(%s), relfilenode(%u/%u/%u), cuid(%u)",
                                             RelationGetRelationName(m_relation),
                                             NameStr(m_relation->rd_att->attrs[colIdx]->attname), m_relation->rd_node.spcNode,
                                             m_relation->rd_node.dbNode, m_relation->rd_node.relNode, cuDescPtr->cu_id)));
                        goto RETRY_LOAD_CU;
                    }
                } else {
                    // 无记录表不能进行远程读取
                    CUCache->TerminateCU(true);
                    ereport(ERROR,
                            (errcode(ERRCODE_DATA_CORRUPTED),
                             (errmsg("invalid CU in cu_id %u of relation %s file %s offset %lu, prefetch %s",
                                     cuDescPtr->cu_id,
                                     RelationGetRelationName(m_relation),
                                     relcolpath(m_cuStorage[colIdx]),
                                     cuDescPtr->cu_pointer,
                                     GetUncompressErrMsg(retCode)),
                              errdetail("Can not remote read for unlogged/temp table. Should truncate table and "
                                        "re-import data."),
                              handle_in_client(true))));
                }
            } else {
                Assert(retCode == CU_OK);
            }
        }

        CheckConsistenceOfCUData(cuDescPtr, cuPtr, (AttrNumber)(colIdx + 1));
        return cuPtr;
    }

    // stat CU hdd sync read
    pgstatCountCUHDDSyncRead4SessionLevel();
    pgstat_count_cu_hdd_sync(m_relation);

    m_cuStorage[colIdx]->LoadCU(
        cuPtr, cuDescPtr->cu_pointer, cuDescPtr->cu_size, g_instance.attr.attr_storage.enable_adio_function, true);

    ADIO_RUN()
    {
        ereport(DEBUG1,
                (errmodule(MOD_ADIO),
                 errmsg("GetCUData:relation(%s), colIdx(%d), load cuid(%u), slotId(%d)",
                        RelationGetRelationName(m_relation),
                        colIdx,
                        cuDescPtr->cu_id,
                        slotId)));
    }
    ADIO_END();

    // Mark the CU as no longer io busy, and wake any waiters
    CUCache->DataBlockCompleteIO(slotId);

    retCode = CUCache->StartUncompressCU(cuDescPtr, slotId, this->m_plan_node_id, this->m_timing_on, ALIGNOF_CUSIZE);
    if (retCode == CU_RELOADING) {
        CUCache->UnPinDataBlock(slotId);
        ereport(LOG,
                (errmodule(MOD_CACHE),
                 errmsg("The CU is being reloaded by remote read thread. Retry to load CU! table(%s), column(%s), "
                        "relfilenode(%u/%u/%u), cuid(%u)",
                        RelationGetRelationName(m_relation),
                        NameStr(m_relation->rd_att->attrs[colIdx]->attname),
                        m_relation->rd_node.spcNode,
                        m_relation->rd_node.dbNode,
                        m_relation->rd_node.relNode,
                        cuDescPtr->cu_id)));
        goto RETRY_LOAD_CU;
    } else if (retCode == CU_ERR_CRC || retCode == CU_ERR_MAGIC) {
        /* Sync load CU contains incorrect checksum */
        addBadBlockStat(
            &m_cuStorage[colIdx]->m_cnode.m_rnode, ColumnId2ColForkNum(m_cuStorage[colIdx]->m_cnode.m_attid));

        if (RelationNeedsWAL(m_relation) && CanRemoteRead()) {
            /* clear CacheBlockInProgressIO and CacheBlockInProgressUncompress but not free cu buffer */
            CUCache->TerminateCU(false);
            ereport(WARNING,
                    (errcode(ERRCODE_DATA_CORRUPTED),
                     (errmsg(
                          "invalid CU in cu_id %u of relation %s file %s offset %lu, sync load %s, try to remote read",
                          cuDescPtr->cu_id,
                          RelationGetRelationName(m_relation),
                          relcolpath(m_cuStorage[colIdx]),
                          cuDescPtr->cu_pointer,
                          GetUncompressErrMsg(retCode)),
                      handle_in_client(true))));

            /* remote load cu */
            retCode = GetCUDataFromRemote(cuDescPtr, cuPtr, colIdx, valSize, slotId);
            if (retCode == CU_RELOADING) {
                /* other thread in remote read */
                CUCache->UnPinDataBlock(slotId);
                ereport(LOG,
                        (errmodule(MOD_CACHE),
                         errmsg("The CU is being reloaded by remote read thread. Retry to load CU! table(%s), "
                                "column(%s), relfilenode(%u/%u/%u), cuid(%u)",
                                RelationGetRelationName(m_relation), NameStr(m_relation->rd_att->attrs[colIdx]->attname),
                                m_relation->rd_node.spcNode, m_relation->rd_node.dbNode, m_relation->rd_node.relNode,
                                cuDescPtr->cu_id)));
                goto RETRY_LOAD_CU;
            }
        } else {
            // unlogged table can not remote read
            CUCache->TerminateCU(true);
            ereport(ERROR, (errcode(ERRCODE_DATA_CORRUPTED),
                            (errmsg("invalid CU in cu_id %u of relation %s file %s offset %lu, sync load %s", cuDescPtr->cu_id,
                                    RelationGetRelationName(m_relation), relcolpath(m_cuStorage[colIdx]), cuDescPtr->cu_pointer,
                                    GetUncompressErrMsg(retCode)),
                             errdetail("Can not remote read for unlogged/temp table. Should truncate table and re-import "
                                       "data."))));
        }
    }

    Assert(retCode == CU_OK);

    if (t_thrd.vacuum_cxt.VacuumCostActive) {
        // cu cache misses, so we update vacuum stats
        t_thrd.vacuum_cxt.VacuumCostBalance += u_sess->attr.attr_storage.VacuumCostPageMiss;
    }

    CheckConsistenceOfCUData(cuDescPtr, cuPtr, (AttrNumber)(colIdx + 1));
    return cuPtr;
}

你可能感兴趣的:(OpenGauss,学习,数据库,gaussdb)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
CentOS7环境卸载MySQL5.7 Hadoop_Liang mysql 数据库 mysql
备份重要数据切记，卸载之前先备份mysql重要的数据。备份一个数据库例如：备份名为mydatabase的数据库到backup.sql的文件中mysqldump-uroot-ppassword123mydatabase>backup.sql备份所有数据库mysqldump-uroot-ppassword123--all-databases>all_databases_backup.sql注意：-p后
php SPOF 贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.什么是单点故障（SPOF）？单点故障指的是系统中某个组件一旦失效，整个系统或服务就会不可用。常见的单点有：数据库、缓存、Web服务器、负载均衡、网络设备等。2.常见单点故障场景只有一台数据库服务器，宕机后所有业务不可用只有一台Redis缓存，挂掉后缓存全部失效只有一台Web服务器，挂掉后网站无法访问只有一个负载均衡节点，挂掉后流量无法分发只有一条网络链路，断开后所有服务失联3.消除单点故障的主
centos7安装 mysql5.7(安装包) heiPony linux mysql mariadb centos mysql
一.卸载centos7自带数据库查看系统自带的Mariadbrpm-qa|grepmariadbmariadb-libs-5.5.44-2.el7.centos.x86_64卸载rpm-e--nodepsmariadb-libs-5.5.44-2.el7.centos.x86_64删除etc目录下的my.cnfrm/etc/my.cnf二.检查mysql是否存在(有就卸载,删除相关文件)rpm-q
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
RocketMQ 基础教程-应用篇-死信队列码炫课堂-码哥 rocketmq专题 rocketmq java
作者简介：大家好，我是smart哥，前中兴通讯、美团架构师，现某互联网公司CTO联系qq：184480602，加我进群，大家一起学习，一起进步，一起对抗互联网寒冬学习必须往深处挖，挖的越深，基础越扎实！阶段1、深入多线程阶段2、深入多线程设计模式阶段3、深入juc源码解析阶段4、深入jdk其余源码解析
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
JavaScript 基础09：Web APIs——日期对象、DOM节点梦想当全栈 JavaScript javascript 前端开发语言
JavaScript基础09：WebAPIs——日期对象、DOM节点进一步学习DOM相关知识，实现可交互的网页特效能够插入、删除和替换元素节点。能够依据元素节点关系查找节点。一、日期对象掌握Date日期对象的使用，动态获取当前计算机的时间。ECMAScript中内置了获取系统时间的对象Date，使用Date时与之前学习的内置对象console和Math不同，它需要借助new关键字才能使用。1.实例
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）基于历史对话重新生成Query？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain RAG
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Q
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）其他Query优化相关策略？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？一
自动化运维工程师面试题解析【真题】
ZabbixAgent默认监听的端口是A.10050。以下是关键分析：选项排除：C.80是HTTP默认端口，与ZabbixAgent无关。D.5432是PostgreSQL数据库的默认端口，不涉及ZabbixAgent。B.10051是ZabbixServer的默认监听端口，用于接收Agent发送的数据，而非Agent自身的监听端口。ZabbixAgent的配置：根据官方文档，ZabbixAgen
什么是OA系统？使用OA系统对企业有哪些好处？
OA系统（OfficeAutomationSystem），即办公自动化系统，是将现代化办公和计算机网络功能结合起来的一种新型的办公方式。是现代企业管理中一种重要的信息化工具，它通过计算机技术、网络技术和数据库技术等手段，实现企业内部办公流程的自动化和信息化管理。使企业的信息交流更加顺畅，办公流程更加高效，从而提高企业的运营效率和管理水平。一、主要功能1.文档管理文档存储与检索：OA系统可以集中存储
传奇修改map地图教程_传奇技能第三祭：NPC的增加、隐藏和脚本修改垃圾箱博物馆传奇修改map地图教程
技能献祭，Get新技能：传奇技能——NPC功能与实现跟航家学技能，用干货带你飞，现学现用，底部有配套学习资源本篇内容简介：通过对游戏内NPC的控制，可以让NPC出现在地图中的任意位置，还可以控制外观显示、自定义命名，新增与隐藏以及脚本功能的实现。一、NPC总控制文本所在路径：D:MirServerMir200EnvirEnvir目录下，找到NPC总控制文本：Merchant，游戏内的所有NPC都在
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Flutter——数据库Drift开发详细教程(七) 怀君 flutter flutter 数据库
目录入门设置漂移文件入门变量数组定义表支持的列类型漂移特有的功能导入嵌套结果LIST子查询Dart互操作SQL中的Dart组件类型转换器现有的行类Dart文档注释结果类名称支持的语句自定义SQL类型定义类型使用自定义类型在Dart中在SQL中方言意识支持的SQLite扩展json1fts5地缘垄断自定义查询带有生成的api的语句自定义选择语句自定义更新语句入门Drift提供了一个dart_api来
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
android中百度定位、城市选择列表，右侧字母展示
好久好久没光顾过自己空空的博客了，做项目的时候都是逛着别人的博客急着把功能实现，近来闲下来了总结总结。这个城市选择功能也是当时做项目急着实现从哪找来的框架不记得了，然后改改用到项目中来的。非常感谢提供最初源码的博主，主要的区别是添加了搜索功能、定位功能，把以前的操作本地数据库sqlite的部分，改为操作对assest文件的操作，封装的有百度地图定位方法、可删除的edittext。百度地图的key需
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL