不甚了然

StarRocks分布式元数据源码解析

1. 支持元数据表

https://github.com/StarRocks/starrocks/pull/44276/files

核心类：LogicalIcebergMetadataTable，Iceberg元数据表，将元数据的各个字段做成表的列，后期可以通过sql操作从元数据获取字段，这个表的组成字段是DataFile相关的字段

public static LogicalIcebergMetadataTable create(String catalogName, String originDb, String originTable) {
    return new LogicalIcebergMetadataTable(catalogName,
            ConnectorTableId.CONNECTOR_ID_GENERATOR.getNextId().asInt(),
            ICEBERG_LOGICAL_METADATA_TABLE_NAME,
            Table.TableType.METADATA,
            builder()
                    .columns(PLACEHOLDER_COLUMNS)
                    .column("content", ScalarType.createType(PrimitiveType.INT))
                    .column("file_path", ScalarType.createVarcharType())
                    .column("file_format", ScalarType.createVarcharType())
                    .column("spec_id", ScalarType.createType(PrimitiveType.INT))
                    .column("partition_data", ScalarType.createType(PrimitiveType.VARBINARY))
                    .column("record_count", ScalarType.createType(PrimitiveType.BIGINT))
                    .column("file_size_in_bytes", ScalarType.createType(PrimitiveType.BIGINT))
                    .column("split_offsets", ARRAY_BIGINT)
                    .column("sort_id", ScalarType.createType(PrimitiveType.INT))
                    .column("equality_ids", ARRAY_INT)
                    .column("file_sequence_number", ScalarType.createType(PrimitiveType.BIGINT))
                    .column("data_sequence_number", ScalarType.createType(PrimitiveType.BIGINT))
                    .column("column_stats", ScalarType.createType(PrimitiveType.VARBINARY))
                    .column("key_metadata", ScalarType.createType(PrimitiveType.VARBINARY))
                    .build(),
            originDb,
            originTable,
            MetadataTableType.LOGICAL_ICEBERG_METADATA);
}

2. Iceberg表扫描

https://github.com/StarRocks/starrocks/pull/44313

核心类：StarRocksIcebergTableScan，扫描Iceberg表的实现类，基于Iceberg的上层接口实现，类似Iceberg默认提供的DataTableScan，doPlanFiles中定义实际的元数据文件扫描逻辑

这一块应当属于数据上层扫描逻辑

protected CloseableIterable doPlanFiles() {
    List dataManifests = findMatchingDataManifests(snapshot());
    List deleteManifests = findMatchingDeleteManifests(snapshot());

    boolean mayHaveEqualityDeletes = !deleteManifests.isEmpty() && mayHaveEqualityDeletes(snapshot());
    boolean loadColumnStats = mayHaveEqualityDeletes || shouldReturnColumnStats();

    if (shouldPlanLocally(dataManifests, loadColumnStats)) {
        return planFileTasksLocally(dataManifests, deleteManifests);
    } else {
        return planFileTasksRemotely(dataManifests, deleteManifests);
    }
}

3. Iceberg元数据信息接口

[Feature] Introduce meta spec interface by stephen-shelby · Pull Request #44527 · StarRocks/starrocks · GitHub

核心类：IcebergMetaSpec，Iceberg元数据描述，核心是RemoteMetaSplit的一个List，代表了元数据文件的列表，基于这个做分布式解析

这一块应当属于元数据文件的切片逻辑

public List getSplits() {
    return splits;
}

4. Iceberg元数据扫描节点

https://github.com/StarRocks/starrocks/pull/44581

核心类：IcebergMetadataScanNode，Iceberg元数据的扫描节点，袭乘自PlanNode类，主要是把上节的RemoteMetaSplit放到StarRocks的执行结构当中

这一块属于Iceberg逻辑向StarRocks逻辑的中间转换层

private void addSplitScanRangeLocations(RemoteMetaSplit split) {
    TScanRangeLocations scanRangeLocations = new TScanRangeLocations();

    THdfsScanRange hdfsScanRange = new THdfsScanRange();
    hdfsScanRange.setUse_iceberg_jni_metadata_reader(true);

    hdfsScanRange.setSerialized_split(split.getSerializeSplit());
    hdfsScanRange.setFile_length(split.length());
    hdfsScanRange.setLength(split.length());

    // for distributed scheduler
    hdfsScanRange.setFull_path(split.path());
    hdfsScanRange.setOffset(0);

    TScanRange scanRange = new TScanRange();
    scanRange.setHdfs_scan_range(hdfsScanRange);
    scanRangeLocations.setScan_range(scanRange);

    TScanRangeLocation scanRangeLocation = new TScanRangeLocation(new TNetworkAddress("-1", -1));
    scanRangeLocations.addToLocations(scanRangeLocation);

    result.add(scanRangeLocations);
}

5. Iceberg元数据读取

https://github.com/StarRocks/starrocks/pull/44632

核心类：IcebergMetadataScanner，这个应该是Iceberg元数据的实际读取类，实现自StarRocks的ConnectorScanner

ConnectorScanner是StarRocks的设计的介于C++-based的BE和Java-based的大数据组件之间的JNI抽象中间层，可以直接复用Java SDK，规避了对BE代码的侵入以及使用C++访问大数据存储的诸多不便

这一块属于时实际元数据文件读取的Java侧代码

public int getNext() throws IOException {
    try (ThreadContextClassLoader ignored = new ThreadContextClassLoader(classLoader)) {
        int numRows = 0;
        for (; numRows < getTableSize(); numRows++) {
            if (!reader.hasNext()) {
                break;
            }
            ContentFile file = reader.next();
            for (int i = 0; i < requiredFields.length; i++) {
                Object fieldData = get(requiredFields[i], file);
                if (fieldData == null) {
                    appendData(i, null);
                } else {
                    ColumnValue fieldValue = new IcebergMetadataColumnValue(fieldData);
                    appendData(i, fieldValue);
                }
            }
        }
        return numRows;
    } catch (Exception e) {
        close();
        LOG.error("Failed to get the next off-heap table chunk of iceberg metadata.", e);
        throw new IOException("Failed to get the next off-heap table chunk of iceberg metadata.", e);
    }
}

这一块目前没有找到Java侧的上层调用，应该在C++中调用，如下，其构造类是在C++中的

// ---------------iceberg metadata jni scanner------------------
std::unique_ptr create_iceberg_metadata_jni_scanner(const JniScanner::CreateOptions& options) {
    const auto& scan_range = *(options.scan_range);
    ;

    const auto* hdfs_table = dynamic_cast(options.hive_table);
    std::map jni_scanner_params;

    jni_scanner_params["required_fields"] = hdfs_table->get_hive_column_names();
    jni_scanner_params["metadata_column_types"] = hdfs_table->get_hive_column_types();
    jni_scanner_params["serialized_predicate"] = options.scan_node->serialized_predicate;

    jni_scanner_params["serialized_table"] = options.scan_node->serialized_table;
    jni_scanner_params["split_info"] = scan_range.serialized_split;
    jni_scanner_params["load_column_stats"] = options.scan_node->load_column_stats ? "true" : "false";

    const std::string scanner_factory_class = "com/starrocks/connector/iceberg/IcebergMetadataScannerFactory";
    return std::make_unique(scanner_factory_class, jni_scanner_params);
}

6. 元数据收集任务

https://github.com/StarRocks/starrocks/pull/44679/files

核心类：IcebergMetadataCollectJob，Iceberg元数据的收集类，实现自MetadataCollectJob，目前看就是通过执行SQL语句，从前文的LogicalIcebergMetadataTable表当中获取数据

这一块属于最终的元数据收集

private static final String ICEBERG_METADATA_TEMPLATE = "SELECT content" + // INTEGER
        ", file_path" + // VARCHAR
        ", file_format" + // VARCHAR
        ", spec_id" + // INTEGER
        ", partition_data" + // BINARY
        ", record_count" + // BIGINT
        ", file_size_in_bytes" + // BIGINT
        ", split_offsets" + // ARRAY
        ", sort_id" + // INTEGER
        ", equality_ids" + // ARRAY
        ", file_sequence_number" + // BIGINT
        ", data_sequence_number " + // BIGINT
        ", column_stats " + // BINARY
        ", key_metadata " + // BINARY
        "FROM `$catalogName`.`$dbName`.`$tableName$logical_iceberg_metadata` " +
        "FOR VERSION AS OF $snapshotId " +
        "WHERE $predicate'";

7. 流程梳理

1. IcebergMetadataCollectJob的调用

IcebergMetadataCollectJob -> StarRocksIcebergTableScan.planFileTasksRemotely -> StarRocksIcebergTableScan.doPlanFiles -> 由Iceberg定义的TableScan流程触发

2. StarRocksIcebergTableScan的构建

StarRocksIcebergTableScan -> IcebergCatalog.getTableScan -> IcebergMetadata.collectTableStatisticsAndCacheIcebergSplit -> prepareMetadata()和triggerIcebergPlanFilesIfNeeded()

prepareMetadata()线路由PrepareCollectMetaTask任务触发，其执行逻辑中调用了prepareMetadata()接口。PrepareCollectMetaTask是OptimizerTask的子类，属于StarRocks优化器的一环，在Optimizer类执行优化的时候会。这一块属于CBO优化，默认是false，没找到设置成true的地方，目前应该没有启用

triggerIcebergPlanFilesIfNeeded()路线有几个调用的地方，主路线应该是getRemoteFileInfos()，其他两个看内容属于统计信息之类的信息收集

IcebergMetadata.getRemoteFileInfos -> IcebergScanNode.setupScanRangeLocations -> PlanFragmentBuilder.visitPhysicalIcebergScan -> PhysicalIcebergScanOperator

这一条调用链最终源头到PhysicalIcebergScanOperator，这个应当是IcebergScanNode经过SQL计划转换后的实际执行节点类

3. 元数据扫描

IcebergMetaSpec -> IcebergMetadata.getSerializedMetaSpec -> MetadataMgr.getSerializedMetaSpec -> IcebergMetadataScanNode.setupScanRangeLocations -> PlanFragmentBuilder.visitPhysicalIcebergMetadataScan -> PhysicalIcebergMetadataScanOperator

元数据扫描这一块源头最终走到PhysicalIcebergMetadataScanOperator，也就是IcebergMetadataScanNode对应的执行类

4. 元数据扫描和数据扫描的逻辑关系

目前整体流程在最上层就差PhysicalIcebergMetadataScanOperator和PhysicalIcebergScanOperator的逻辑关系，这个逻辑在StarRocks的SQL到执行计划的转换过程当中

往上追踪到BackendSelectorFactory，注意这里有两个扫描节点的分配策略：LocalFragmentAssignmentStrategy、RemoteFragmentAssignmentStrategy。根据类的说明，最左节点为scanNode的时候，使用LocalFragmentAssignmentStrategy，它首先将扫描范围分配给 worker，然后将分配给每个 worker 的扫描范围分派给片段实例

在LocalFragmentAssignmentStrategy的assignFragmentToWorker当中可以看到入参包含很多scanNode，追踪上层到CoordinatorPreprocessor，scanNode的来源是StarRocks的DAG图。这之后的源头就涉及到任务解析和DAG图的顺序构建，应当是先扫描元数据再扫描数据这样构建

for (ExecutionFragment execFragment : executionDAG.getFragmentsInPostorder()) {
    fragmentAssignmentStrategyFactory.create(execFragment, workerProvider).assignFragmentToWorker(execFragment);
}

8. 代码解析

1. 元数据扫描

LogicalIcebergMetadataTable

首先从PhysicalIcebergMetadataScanOperator出发，访问者模式调用接口accept，走到PlanFragmentBuilder.visitPhysicalIcebergMetadataScan

这里首先跟LogicalIcebergMetadataTable关联了起来，这里PhysicalIcebergMetadataScanOperator里包含的表是LogicalIcebergMetadataTable表

LogicalIcebergMetadataTable的初始创建根据调用链追踪应当由CatalogMgr.createCatalog触发

PhysicalIcebergMetadataScanOperator node = (PhysicalIcebergMetadataScanOperator) optExpression.getOp();

LogicalIcebergMetadataTable table = (LogicalIcebergMetadataTable) node.getTable();

IcebergMetadataScanNode

中间经历一些列的设置，之后构建了IcebergMetadataScanNode

IcebergMetadataScanNode metadataScanNode =
        new IcebergMetadataScanNode(context.getNextNodeId(), tupleDescriptor,
                "IcebergMetadataScanNode", node.getTemporalClause());

构建之后调用了setupScanRangeLocations，走到了IcebergMetadataScanNode的类逻辑，首先获取元数据文件的分片信息

IcebergMetaSpec serializedMetaSpec = GlobalStateMgr.getCurrentState().getMetadataMgr()
        .getSerializedMetaSpec(catalogName, originDbName, originTableName, snapshotId, icebergPredicate).cast();

IcebergMetadata

这段逻辑跟IcebergMetadata关联了起来，调用其getSerializedMetaSpec接口，接口中就是获取Iceberg的元数据文件，中间经历了一定的过滤

List dataManifests = snapshot.dataManifests(nativeTable.io());

List matchingDataManifests = filterManifests(dataManifests, nativeTable, predicate);
for (ManifestFile file : matchingDataManifests) {
    remoteMetaSplits.add(IcebergMetaSplit.from(file));
}

获取分片之后就是按StarRocks的扫描结构组装TScanRangeLocations，最终在实际执行时分布式分配解析

private void addSplitScanRangeLocations(RemoteMetaSplit split) {
    TScanRangeLocations scanRangeLocations = new TScanRangeLocations();

    THdfsScanRange hdfsScanRange = new THdfsScanRange();
    hdfsScanRange.setUse_iceberg_jni_metadata_reader(true);

    hdfsScanRange.setSerialized_split(split.getSerializeSplit());
    hdfsScanRange.setFile_length(split.length());
    hdfsScanRange.setLength(split.length());

    // for distributed scheduler
    hdfsScanRange.setFull_path(split.path());
    hdfsScanRange.setOffset(0);

    TScanRange scanRange = new TScanRange();
    scanRange.setHdfs_scan_range(hdfsScanRange);
    scanRangeLocations.setScan_range(scanRange);

    TScanRangeLocation scanRangeLocation = new TScanRangeLocation(new TNetworkAddress("-1", -1));
    scanRangeLocations.addToLocations(scanRangeLocation);

    result.add(scanRangeLocations);
}

PlanFragment

visitPhysicalIcebergMetadataScan接口最终组装的是一个PlanFragment，这大体类似于Spark的stage，是物理执行计划的计划块

PlanFragment fragment =
        new PlanFragment(context.getNextFragmentId(), metadataScanNode, DataPartition.RANDOM);
context.getFragments().add(fragment);
return fragment

IcebergMetadataScanner

IcebergMetadataScanner由于其调用逻辑来自于C++的代码，暂未梳理其逻辑，但是假定其执行了，可以看其效果，主要在getNext()接口中读取数据

可以看到其读取后的数据结构是ContentFile，是Iceberg中DataFile的上层父类

ContentFile file = reader.next();
for (int i = 0; i < requiredFields.length; i++) {
    Object fieldData = get(requiredFields[i], file);
    if (fieldData == null) {
        appendData(i, null);
    } else {
        ColumnValue fieldValue = new IcebergMetadataColumnValue(fieldData);
        appendData(i, fieldValue);
    }
}

主要在appendData接口当中，向表添加数据，可以看到这里设置了一个offHeapTable

offHeapTable是 StarRocks 中的一个特殊表类型，简单来说就是在堆外内存中建立一个表结构，将数据对应存储到堆外内存，之后可以以表形式去访问

protected void appendData(int index, ColumnValue value) {
    offHeapTable.appendData(index, value);
}

2. 数据扫描中的元数据解析

首先同样到PlanFragmentBuilder.visitPhysicalIcebergScan，流程与visitPhysicalIcebergMetadataScan类似

首先是这里的表是数据表

Table referenceTable = node.getTable();
context.getDescTbl().addReferencedTable(referenceTable);
TupleDescriptor tupleDescriptor = context.getDescTbl().createTupleDescriptor();
tupleDescriptor.setTable(referenceTable);

// set slot
prepareContextSlots(node, context, tupleDescriptor);

之后是IcebergScanNode

IcebergScanNode icebergScanNode =
        new IcebergScanNode(context.getNextNodeId(), tupleDescriptor, "IcebergScanNode",
                equalityDeleteTupleDesc);

IcebergScanNode这里核心是调用setupScanRangeLocations

icebergScanNode.setupScanRangeLocations(context.getDescTbl());

最终同样封装成PlanFragment

PlanFragment fragment =
        new PlanFragment(context.getNextFragmentId(), icebergScanNode, DataPartition.RANDOM);
context.getFragments().add(fragment);
return fragment;

IcebergScanNode

在setupScanRangeLocations当中，有一个操作是getRemoteFileInfos，这个就是获取数据文件信息，因此内部包含了元数据解析的部分

List splits = GlobalStateMgr.getCurrentState().getMetadataMgr().getRemoteFileInfos(
        catalogName, icebergTable, null, snapshotId, predicate, null, -1);

IcebergMetadata

getRemoteFileInfos是在IcebergMetadata当中，会调用triggerIcebergPlanFilesIfNeeded，看接口名字可以明确这是用来触发Iceberg的元数据解析的，最终走到了collectTableStatisticsAndCacheIcebergSplit

private void triggerIcebergPlanFilesIfNeeded(IcebergFilter key, IcebergTable table, ScalarOperator predicate,
                                             long limit, Tracers tracers, ConnectContext connectContext) {
    if (!scannedTables.contains(key)) {
        tracers = tracers == null ? Tracers.get() : tracers;
        try (Timer ignored = Tracers.watchScope(tracers, EXTERNAL, "ICEBERG.processSplit." + key)) {
            collectTableStatisticsAndCacheIcebergSplit(table, predicate, limit, tracers, connectContext);
        }
    }
}

collectTableStatisticsAndCacheIcebergSplit当中获取了TableScan，这里的Scan就是StarRocksIcebergTableScan

TableScan scan = icebergCatalog.getTableScan(nativeTbl, new StarRocksIcebergTableScanContext(
        catalogName, dbName, tableName, planMode(connectContext), connectContext))
        .useSnapshot(snapshotId)
        .metricsReporter(metricsReporter)
        .planWith(jobPlanningExecutor);

StarRocksIcebergTableScan

之后走scan.planFiles()，这个中间会基于Iceberg的逻辑进行调用

CloseableIterable fileScanTaskIterable = TableScanUtil.splitFiles(
        scan.planFiles(), scan.targetSplitSize());

Icberg的逻辑中planFiles最终会调用TableScan的doPlanFiles，这里调用的就是StarRocksIcebergTableScan的实现接口，根据场景有本地和远程的调用方式

if (shouldPlanLocally(dataManifests, loadColumnStats)) {
    return planFileTasksLocally(dataManifests, deleteManifests);
} else {
    return planFileTasksRemotely(dataManifests, deleteManifests);
}

Iceberg应当是使用的planFileTasksRemotely，内部会构建IcebergMetadataCollectJob

MetadataCollectJob metadataCollectJob = new IcebergMetadataCollectJob(
        catalogName, dbName, tableName, TResultSinkType.METADATA_ICEBERG, snapshotId(), icebergSerializedPredicate);

metadataCollectJob.init(connectContext.getSessionVariable());

long currentTimestamp = System.currentTimeMillis();
String threadNamePrefix = String.format("%s-%s-%s-%d", catalogName, dbName, tableName, currentTimestamp);
executeInNewThread(threadNamePrefix + "-fetch_result", metadataCollectJob::asyncCollectMetadata);

MetadataExecutor执行

IcebergMetadataCollectJob的执行在MetadataExecutor当中，就是基本的SQL执行，这里是异步的

public void asyncExecuteSQL(MetadataCollectJob job) {
    ConnectContext context = job.getContext();
    context.setThreadLocalInfo();
    String sql = job.getSql();
    ExecPlan execPlan;
    StatementBase parsedStmt;
    try {
        parsedStmt = SqlParser.parseOneWithStarRocksDialect(sql, context.getSessionVariable());
        execPlan = StatementPlanner.plan(parsedStmt, context, job.getSinkType());
    } catch (Exception e) {
        context.getState().setError(e.getMessage());
        return;
    }

    this.executor = new StmtExecutor(context, parsedStmt);
    context.setExecutor(executor);
    context.setQueryId(UUIDUtil.genUUID());
    context.getSessionVariable().setEnableMaterializedViewRewrite(false);

    LOG.info("Start to execute metadata collect job on {}.{}.{}", job.getCatalogName(), job.getDbName(), job.getTableName());
    executor.executeStmtWithResultQueue(context, execPlan, job.getResultQueue());
}

你可能感兴趣的:(Iceberg知识集,StarRocks,Iceberg,数据湖,湖仓一体,大数据)

Spark从入门到熟悉（篇二）
本文介绍Spark的RDD编程，并进行实战演练，加强对编程的理解，实现快速入手知识脉络包含如下8部分内容：创建RDD常用Action操作常用Transformation操作针对PairRDD的常用操作缓存操作共享变量分区操作编程实战创建RDD实现方式有如下两种方式实现：textFile加载本地或者集群文件系统中的数据用parallelize方法将Driver中的数据结构并行化成RDD示例"""te
程序人生：技术人如何实现职业阶梯的跨越式发展 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据程序人生职场和发展 ai
程序人生：技术人如何实现职业阶梯的跨越式发展关键词：职业发展、技术领导力、T型人才、职业规划、跨领域能力、持续学习、技术管理摘要：本文针对技术从业者的职业发展痛点，构建了系统化的职业阶梯跨越模型。通过解析技术人才成长的核心阶段与能力模型，结合数学量化评估体系和实战案例，提供从技术深耕到领导力跃迁的完整路径。内容涵盖能力矩阵构建、项目实战策略、跨领域知识融合、个人品牌经营等关键模块，帮助技术人突破职
从雷军老罗看创始人IP打造：放下身段才是创客匠人破局关键创客匠人老蒋创始人IP 创客匠人大数据 IP变现
头部IP的共性：大佬们的“去光环化”生存法则当雷军以千亿市值掌舵者身份在直播间化身“带货小哥”，当罗永浩带着“交个朋友”的坦诚在镜头前卖口红还债，这些现象级IP的成功都指向同一个底层逻辑——放下身份感。创客匠人在服务众多知识付费从业者时发现，真正能击穿用户心理防线的IP，往往不是端着“专家架子”的布道者，而是像周云杰回应网友“领带不好看”那样，用真实互动打破距离感的“可交往者”。知识IP的认知误区
2025年IP变现王炸组合：DeepSeek+创匠AI如何助普通人月入10万创客匠人老蒋人工智能网络创客匠人创始人IP打造 deepseek AI 热点
在短视频与知识变现赛道，创客匠人推出的“DeepSeek+创匠AI”组合正成为创始人IP打造的核武器。这套工具通过“热点挖掘-文案生成-数字人出镜”的全链路提效，让普通人无需写文案、不出镜即可实现月入10万的变现目标，彻底重构IP运营的成本与效率逻辑。传统IP打造面临“内容枯竭、产能低下”的痛点：熬夜写脚本、3小时制作的视频仅200播放，而头部玩家已通过DeepSeek+创匠AI实现“5分钟扒热点
【python知识】importlib包详解无水先生 AI原理和python实现人工智能综合 python 数据分析
importlib—Theimplementationofimport—Python3.11.3documentation目录一、说明二、模块导入简介2.1最简单的importlib用途2.2importlib包的目的有三个2.3import_module()和__import__()三、高级模块使用3.1动态引入3.2模块引入检查3.3从源文件中引入3.4import_from_github_c
c语言程序设计基础教案,《c语言编程基础》电子教案 weixin_39906114 c语言程序设计基础教案
《c语言编程基础》电子教案宾县职业技术教育中心学校教导处制课题(内容)1.1C语言简史及特点课时1教学任务分析知识技能通过本节课的教学，使学生了解并熟悉编程语言C的发展历史、特点及其种类和适用范围。过程与方法通过C语言的发展，引出C语言的特点，从而激学生学好本门课程的兴趣。教学目标情感态度培养学生的动脑思考能力重点C语言的特点难点C语言的特点课前准备教具学具补充材料教材、教案笔记教学流程设计教师活
基于昇腾910B部署Qwen3-embedding-8B模型（通过vllm 推理引擎部署）萌新--加油 embedding 人工智能经验分享
目前基于知识库搭建，会涉及到embedding和rerank模型，目前阿里通义千问Qwen3-embedding-8B模型在网上测评效果还不错，本文基于vllm部署Qwen3-embedding-8B模型，使用的国产化算力910B2-64G单卡资源。1、环境要求：软件支持版本CANN>=8.1.RC1torch-npu>=2.5.1torch>=2.5.1Python>=3.9,<3.122、to
极客时间-《搞定音频技术》-学习笔记 Mark White 音视频学习笔记
极客时间-《搞定音频技术》-学习笔记语音基础知识https://www.zhangzhenhu.com/audio/feature.html序章-0作者说这个语音技术啊，未来肯定前景大好啊，大家都来学习，然后给出了课程的脑图音频基础什么是声音声音的三要素是指响度、音调和音色，它们都是声音的主观属性，用来描述声音的特征。响度指声音的强弱，音调指声音的高低，音色指声音的质量或特征。响度（Loudnes
LLM归因的限制和挑战
LLM归因虽然能提升任务性能和模型的可解释性，但面临多个方面的限制。参考ASurveyofLargeLanguageModelsAttribution，LLM归因的限制和挑战总结如下1）难以确定何时以及如何进行归因LLM区分一般知识(可能不需要引文)和专业知识(需要归因)是一项微妙的任务，难以达成一致。2）归因的准确性无法得到保证LLM可能会将生成的答案和不相关或错误的来源关联起来，这种错误归因可
Kafka生态整合深度解析：构建现代化数据架构的核心枢纽
Kafka生态整合深度解析：构建现代化数据架构的核心枢纽导语：在当今数据驱动的时代，ApacheKafka已经成为企业级数据架构的核心组件。本文将深入探讨Kafka与主流技术栈的整合方案，帮助架构师和开发者构建高效、可扩展的现代化数据处理平台。文章目录Kafka生态整合深度解析：构建现代化数据架构的核心枢纽一、Kafka与流处理引擎的深度集成1.1Kafka+ApacheSpark：批流一体化处理
Linux 日志监控工具对比：从 syslog 到 ELK 实战指南 Clownseven linux elk jenkins
更多云服务器知识，尽在hostol.com你有没有被Linux上满屏飞滚的日志整崩溃过？看着/var/log目录越来越肥，关键日志像大海捞针一样藏在里面，每次出故障就像拆盲盒，赌你能不能第一眼看出问题。日志系统，说起来简单，干起来头疼。很多人一开始用的是最经典的syslog，后来慢慢用上了rsyslog、journald，进阶点的就开始上ELK或者Graylog这些“现代化战斗系统”。但你真的了解
如何高效记录并整理编程学习笔记？ FrostedLotus·霜莲数据挖掘
如何高效记录并整理编程学习笔记？在编程学习的海洋中，高效的笔记记录和整理方法就像一张珍贵的航海图，能够帮助我们在浩瀚的知识中找到方向。如何建立一个既能快速记录又易于回顾的笔记系统？如何在繁忙的学习中保持笔记的条理性？让我们一起探讨如何打造属于自己的编程学习“知识宝库”!方向一：笔记工具选择选择合适的笔记工具是高效记录编程学习笔记的第一步。不同的工具有其独特的优势，适合不同的学习风格和需求。以下是一
家用充电桩远程监控安全管理系统解决方案蓝蜂物联网物联网远程监控边缘计算物联网
家用充电桩远程监控安全管理系统解决方案在当今电动汽车日益普及的背景下，家用充电桩的安全管理成为了广大车主关注的重点问题。为了实现对充电桩的高效、精准、远程监控，一套完善的家用充电桩远程监控安全管理系统解决方案应运而生。本方案旨在通过先进的物联网技术、云计算、大数据分析以及人工智能等科技手段，构建一个集实时监测、异常预警、故障诊断、数据统计、远程控制于一体的智能化平台，确保充电桩的安全运行及用户充电
TypeScript基本类型
一、前言TypeScript是JavaScript的一个超集，它通过添加静态类型系统帮助开发者写出更健壮、可维护性更强的代码。而理解TypeScript的基本类型是学习TypeScript的第一步。本文将带你全面了解TypeScript中的常用基本类型，包括：✅数值类型✅字符串类型✅布尔类型✅null与undefined✅any与unknown✅never与void✅数组类型✅元组类型并通过大量代
AI 时代下，普通人不能错过的五大变现机会 Jasonakeke AI 人工智能大数据
AI时代下，普通人不能错过的五大变现机会关键词：轻资产低门槛强需求机会1：知识付费——借“AI”做知识博主核心逻辑：AI降低知识生产门槛AI这个领域有巨大的科普红利和流量红利操作步骤：定位细分领域用AI工具快速生成内容选择平台机会2：AI自媒体——流量即现金变现模式：自媒体商单广告分成带货私域转化核心逻辑：目前AI存在巨大的科普红利和流量红利+AI能够提升创作效率爆款公式：选题：AI工具测评+具体
【AI Infra】基础学习汇总篇逆羽飘扬 AI基础知识人工智能学习
系列综述：目的：本系列是个人整理为了学习训练框架优化的，整理期间苛求每个知识点，平衡理解简易度与深入程度。来源：材料主要源于【DeepEP官方介绍】进行的，每个知识点的修正和深入主要参考各平台大佬的文章，其中也可能含有少量的个人实验自证。结语：如果有帮到你的地方，就点个赞和关注一下呗，谢谢！！！请先收藏！！！，后续继续完善和扩充(●’◡’●)文章目录一、分布式与并行基础分布式计算高性能并行GPU硬
【Python基础】13 知识拓展：CPU、GPU与NPU的区别和联系智算菩萨 python 开发语言人工智能
引言：处理器大战背后的技术革命在人工智能蓬勃发展的今天，我们经常听到CPU、GPU、NPU这些术语，但你是否真正理解它们之间的区别和联系？作为Python开发者，我们更关心的是：在什么场景下选择哪种处理器？如何在Python中充分发挥它们的性能优势？这篇文章将从技术原理出发，结合Python实战代码，深入解析这三种处理器的特点、应用场景和发展趋势，帮助你在面对不同计算任务时做出最优选择。第一章：C
服务器异常宕机或重启导致 RabbitMQ 启动失败问题分析与解决方案代码怪兽大作战 RabbitMQ 服务器 rabbitmq 宕机启动失败
服务器异常宕机或重启导致RabbitMQ启动失败问题分析与解决方案一、深度故障诊断与解决方案1.权限配置不当故障2.端口占用故障3.数据目录残留故障二、故障类型对比与诊断矩阵三、完整恢复流程（10步法）四、风险规避与最佳实践️数据保护策略预防性配置五、高级故障排除技巧诊断工具集容器特有故障处理容器维护命令速查主机与容器方案对比总结⚡快速恢复决策树六、总结当服务器异常宕机或重启后，RabbitMQ启
BAAI/BGE-VL多模态模型部署、原理、代码详解（实现图像文本混合检索），包含BEG-VL多模态模型的本地部署详细步骤及代码原理解析令令小宁 python 语言模型自然语言处理 nlp 人工智能
本文包含BGE-VL多模态模型的本地部署详细步骤及代码原理解析文章目录前言一、模型下载二、计算流程解析1.BGE-VL-base/Large2.BGE-VL-MLLM-s1/s2三、总结前言提示：这里可以添加本文要记录的大概内容：包含四个模型及数据集，数据集未开源，四个模型可以分别下载：其中，BGE-VL-base/Large是基于CLIP训练的模型，BGE-VL-MLLM-S1/S2是基于LLM
强化学习贝尔曼方程推导愤怒的可乐强化学习人工智能概率论机器学习算法
引言强化学习中贝尔曼方程的重要性就不说了，本文利用高中生都能看懂的数学知识推导贝尔曼方程。回报折扣回报GtG_tGt的定义为：Gt=Rt+1+γRt+2+γ2Rt+3+⋯=∑k=0∞γkRt+k+1(1)G_t=R_{t+1}+\gammaR_{t+2}+\gamma^2R_{t+3}+\cdots=\sum_{k=0}^\infty\gamma^kR_{t+k+1}\tag1Gt=Rt+1+γR
Redis主从复制详解卜锦元 redis 高可用性数据库 redis 数据库 linux 缓存
前言本文对于redis主从复制相关知识进行详细的解释，主要从主从复制的原理、配置方式、数据流转过程、重要概念与机制、常见问题与解决方案、典型使用场景、局限性与处理方案等方面出发，帮助我们更好的理解Redis的主从复制知识。一、Redis主从复制原理（Replication）主从复制是指一个Redis主节点（Master）将数据同步到一个或多个从节点（Slave/Replica），从节点一般以只读方
解锁数据潜能——亮数据Web数据集，精准、全面、即时程序猿追其他领域嵌入式效率性能优化科技计算机外设
解锁数据潜能——亮数据Web数据集，精准、全面、即时在数据驱动的时代，获取高质量的网络数据成为许多企业与研究机构的核心需求。亮数据推出的Web数据集产品，试图通过技术手段解决传统数据采集中的痛点，为使用者提供更高效的数据支持方案。该数据集的核心优势体现在三个维度：数据精准度、覆盖全面性和更新即时性。在精准度方面，通过动态IP网络与智能解析算法的结合，有效降低了传统爬虫常遇到的反爬干扰，使获取的数据
利用人名语言分类案例演示RNN、LSTM和GRU的区别（基于PyTorch） .30-06Springfield rnn lstm gru 分类人工智能 python pytorch
文章目录一、程序结构1.1程序整体结构1.2各模块功能关系流程图二、数据预处理模块详解2.1定义字符集和语言类别2.2读取数据2.3人名转换为one-hot编码张量2.4自定义数据集类2.5数据加载器三、模型定义模块详解3.1RNN模型3.2LSTM模型3.3GRU模型四、模型训练与测试模块详解4.1测试模型基本功能4.2模型训练主函数五、结果可视化与对比模块详解六、模型预测模块详解七、案例结果分
YOLOv8 轴承缺陷检测使用YOLOv8进行训练、评估和可视化预测结果包含1440张图片的轴承缺陷检测数据集 YOLO格式或XML格式 OICQQ67658008 YOLO xml 深度学习轴承缺陷数据检测算法人工智能
轴承缺陷检测4类1440张names:[‘aocao’,‘aoxian’,‘cashang’,‘huahen’]名称：：[‘凹槽’，‘凹陷’,‘卡伤’,‘划痕’]共1440张，8:1:1比例划分train：1152张，val：144张，test：144张标注文件为YOLO适用的txt格式或xml格式。可以直接用于模型训练。YOLOv8轴承缺陷检测importosimporttorchfromIPy
lesson1：Python入门知识你的电影很有趣 python 开发语言
目录文章目录前言一、python的语言特性1、语法简练2、解释型语言2.1解释型语言特点2.2编译型语言特点2.3执行效率比较3、标准库/第三方库4、支持面向对象二、windows常用命令三、程序的基本组成1、输入input2、运算3、输出print总结前言开始学习python的第一课一、python的语言特性1、语法简练变量不需要声明类型2、解释型语言2.1解释型语言特点需要解释器通过解释器逐行
为什么YashanDB数据库是大数据处理的理想选择？数据库
在当今大数据时代，如何高效管理和处理海量数据成为了许多企业的首要挑战。针对这一问题，选择合适的数据库系统至关重要。尤其是在大数据场景中，诸如数据存储、数据访问效率和并发控制等技术要求提高，给数据库的选择带来了更高的标准。YashanDB作为一款高性能数据库，以其独特的架构设计与一系列优秀的功能，成为大数据处理的理想选择。高度可扩展的部署架构YashanDB支持多种部署形态，包括单机部署、分布式集群
企业如何通过YashanDB实现数据的实时同步与备份？数据库
在当今数据驱动的商业环境中，数据的实时同步与备份变得越来越重要。企业在运作中倘若未能有效管理数据同步及备份，不仅会影响业务效率，也会增加数据丢失的风险。如何实现高效、可靠的数据实时同步与备份，成为企业IT部门亟待解决的技术问题。YashanDB作为一款优秀的数据库，具备强大的实时同步与备份能力，为企业提供了有效的解决方案。YashanDB的部署架构YashanDB支持三种部署形态：单机部署、共享集
企业如何构建基于YashanDB的数据分析系统数据库
随着大数据时代的到来，企业面临的一个核心技术问题是如何有效、快速地进行数据分析以指导决策。一个重要的性能瓶颈在于数据库的查询速度和存储结构的设计。尤其在处理海量数据时，如何在保证数据查询性能的同时确保数据的准确性和完整性，这问题显得尤为重要。YashanDB作为一个高性能的数据库系统，通过其独特的体系架构和强大的数据存储及访问机制，为企业构建高效的数据分析系统提供了可靠的技术支持。YashanDB
AI+大数据：社交网络分析在金融风控中的完整流程 AI智能应用 AI大模型应用入门实战与进阶人工智能大数据 ai
AI+大数据：社交网络分析在金融风控中的完整流程关键词：AI、大数据、社交网络分析、金融风控、完整流程摘要：本文详细讲述了在金融风控领域运用AI和大数据进行社交网络分析的完整流程。通过通俗易懂的语言，从背景知识入手，解释核心概念，阐述算法原理，分享项目实战经验，探讨实际应用场景，推荐相关工具资源，展望未来发展趋势与挑战，旨在让读者全面了解这一复杂技术在金融风控中的应用。背景介绍目的和范围我们的目的
LLM大模型命名规则与部署硬件实践手册
文章目录一、理论基础：从信息编码到系统设计1.1命名系统的信息论基础1.2硬件架构与模型运行的关系1.3量化技术的数学原理二、国际主流模型命名规则深度解析2.1OpenAI：极简主义与功能导向2.2AnthropicClaude：诗意命名的技术内涵2.3GoogleGemini：统一品牌下的分层架构2.4MetaLlama：开源社区的透明化命名三、国内主流模型命名规则与文化内涵3.1百度文心：知识
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，