tangjunjun-owen

CogVLM大模推理代码详细解读

文章目录

前言
一、参数介绍
- 1.cogvlm-grounding-generalist参数介绍
二、模型构建
- 1、创建主函数(get_model)
- 2、调用sat库模型构建函数(base_model.py)
- 3、模型类构建模型(self.add_mixin)
- 4、整体结构
- 5、模型运行结果
三、CogVLM推理源码解读
- 1、推理整体代码
- 2、CogVLMModel.from_pretrained
- 3、from_pretrained函数
- 4、from_pretrained_base函数
- 5、token与后处理
- 6、整体结构

前言

最近，我一直在查看多模态大模型相关内容，而CogVLM是我们公司需要重点研究模型。同时，CogVLM模型很少有文章涉及到代码相关解读，令更多小白困惑。介于此，我会陆续解读源码并分享。本篇文章，我将分享CogVLM推理整个pipeline走向，带大家熟知CogVLM模型推理过程，这里推理过程有别于hugginggface通用推理构建方法，本篇文章主要内容为作者训练好的参数说明、模型构建与推理stream。最终帮助大家熟知模型整个推理pipeline，特别是对sat库使用有一定认识。

注：CogVLM代码可读性不那么友好，因很多内容被sat库封装。

一、参数介绍

官网代码可查看已开源模型有如下：

We open-source different checkpoints for different downstreaming tasks:

cogvlm-chat-v1.1 The model supports multiple rounds of chat and vqa simultaneously, with different prompts.

cogvlm-base-224 The original checkpoint after text-image pretraining.

cogvlm-base-490 Amplify the resolution to 490 through position encoding interpolation from cogvlm-base-224.

cogvlm-grounding-generalist. This checkpoint supports different visual grounding tasks, e.g. REC, Grounding Captioning, etc.

我大概看了下，里面有一个文件是模型相关配置文件(model_cofig.json-基本差不多)和一个权重文件，我将是使用cogvlm-grounding-generalist作为列子介绍。

1.cogvlm-grounding-generalist参数介绍

下载解压后文件内容如下：

其中模型参数文件如下(其它基准参数文件差不多)：

{
    "model_class": "CogVLMModel",
    "tokenizer_type": "vicuna-7b-v1.5",
    "num_layers": 32,
    "hidden_size": 4096,
    "num_attention_heads": 32,
    "vocab_size": 32000,
    "layernorm_order": "pre",
    "model_parallel_size": 1,
    "max_sequence_length": 4096,
    "use_bias": false,
    "inner_hidden_size": 11008,
    "image_length": 1225,
    "eva_args": {
        "model_class": "EVA2CLIPModel",
        "num_layers": 63,
        "hidden_size": 1792,
        "num_attention_heads": 16,
        "vocab_size": 1,
        "layernorm_order": "post",
        "model_parallel_size": 1,
        "max_sequence_length": 1226,
        "inner_hidden_size": 15360,
        "use_final_layernorm": false,
        "layernorm_epsilon": 1e-06,
	"row_parallel_linear_final_bias": false,
        "image_size": [
            490,
            490
        ],
        "pre_len": 1,
        "post_len": 0,
        "in_channels": 3,
        "patch_size": 14
    },
    "bos_token_id": 1,
    "eos_token_id": 2,
    "pad_token_id": 0
}

二、模型构建

在这一部分，我想使用清华提供库构建cogvlm-grounding-generalist模型。大致模型构建模型使用get_model函数(下面推理内容模型创立是对get_model模型进行包装)，而get_model函数在sat库中base_model.py文件中，在通过类的classmethod(细节可参看点击这里)方式调用CogVLMModel模型类，在根据参数使用self.add_mixin创建模型模块，而构建完模型。

1、创建主函数(get_model)

说白了，设置一些列参数给模型入口函数get_model提供args参数，其代码如下：


import torch
from sat.arguments import update_args_with_file, overwrite_args_by_dict
import os
from sat.model import get_model
from models.cogvlm_model import CogVLMModel
if __name__ == '__main__':
    model_path='/home/oem/Project/tj/weights/cogvlm-grounding-generalist'
    args = CogVLMModel.get_args()  # 从sat中获取参数
    # 将model_config.json模型参数更新args参数
    args = update_args_with_file(args, path=os.path.join(model_path, 'model_config.json'))
    args = overwrite_args_by_dict(args, overwrite_args={})
    rank = int(os.environ.get('RANK', 0))
    local_rank = int(os.environ.get('LOCAL_RANK', 0))
    world_size = int(os.environ.get('WORLD_SIZE', 1))

    # 配置环境相关内容
    args.deepspeed=None
    args.local_rank=local_rank
    args.rank = rank
    args.world_size = world_size
    args.model_parallel_size = world_size
    args.mode = 'inference'
    args.skip_init = True
    args.use_gpu_initialization = True if torch.cuda.is_available() else False
    args.device = 'cuda'
    args.bf16 = False
    args.fp16 = False

    args.num_layers = 2  # 我在24G的显卡运行，显存较小，故将模型深度改小了

    model = get_model(args, CogVLMModel)  # 构建模型

    print(model)

其中以下第一行是model_config.json模型文件参数替换args参数，使用update_args_with_file函数，第二行是田间overwrite_args参数到args中，使用overwrite_args_by_dict函数实现。

args = update_args_with_file(args, path=os.path.join(model_path, 'model_config.json'))     
args = overwrite_args_by_dict(args, overwrite_args={})

这里我要说明模型参数也可使用此方式args = CogVLMModel.get_args()调用，后面会在get_model使用model_cofig.json文件替换args中的值！

其整体如图：

2、调用sat库模型构建函数(base_model.py)

然后进入sat库中base_model.py文件的get_model函数，在通过类的classmethod方式调用CogVLMModel模型类，如下图：

3、模型类构建模型(self.add_mixin)

最后进入cofvlm_model.py文件的CogVLMModel类中，更具参数使用self.add_mixin创建模型模块，而完成模型构建。当然，每一个self.add_mixin的字符都是调用隐藏在sat库中模块实现，我暂时不做说明。

4、整体结构

最后，我也给出整个模型构建流程，如下：

5、模型运行结果

模型运行结果如下：

三、CogVLM推理源码解读

CogVLM推理模型构建大致和上面模型构建流程差不多CogVLMModel.from_pretrained包装处理。当然，除了模型构建，推理部分也包含token编码与后处理，我使用源码cli_demo.py，做了一些小的修改。

1、推理整体代码

推理整体代码如下，可直接运行出结果，而我这里鉴于显存不足，我将model_cofig.json文件的number_layer=32改成2，且不加载作者提供权重，使用build_only=True可实现权重不加载。

# -*- encoding: utf-8 -*-
import os, sys
sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))

import torch
import argparse
from sat.model.mixins import CachedAutoregressiveMixin

from utils.chat import chat
from models.cogvlm_model import CogVLMModel
from utils.language import llama2_tokenizer, llama2_text_processor_inference
from utils.vision import get_image_processor

def main():
    parser = argparse.ArgumentParser()
    parser.add_argument("--max_length", type=int, default=2048, help='max length of the total sequence')
    parser.add_argument("--top_p", type=float, default=0.4, help='top p for nucleus sampling')
    parser.add_argument("--top_k", type=int, default=1, help='top k for top k sampling')
    parser.add_argument("--temperature", type=float, default=.8, help='temperature for sampling')
    parser.add_argument("--english", action='store_true', help='only output English')
    parser.add_argument("--version", type=str, default="chat", help='version to interact with')
    parser.add_argument("--from_pretrained", type=str, default="/home/weights/cogvlm-grounding-generalist", help='pretrained ckpt')
    parser.add_argument("--local_tokenizer", type=str, default="/home/project/CogVLM/CogVLM-main/lmsys/vicuna-7b-v1.5", help='tokenizer path')
    parser.add_argument("--no_prompt", action='store_true', help='Sometimes there is no prompt in stage 1')
    parser.add_argument("--fp16", action="store_true")
    parser.add_argument("--bf16", action="store_true")
    args = parser.parse_args()
    rank = int(os.environ.get('RANK', 0))
    world_size = int(os.environ.get('WORLD_SIZE', 1))
    parser = CogVLMModel.add_model_specific_args(parser)
    args = parser.parse_args()

    # load model
    args=argparse.Namespace(
        deepspeed=None,
        local_rank=rank,
        rank=rank,
        world_size=world_size,
        model_parallel_size=world_size,
        mode='inference',
        skip_init=True,
        use_gpu_initialization=True if torch.cuda.is_available() else False,
        device='cuda',
        **vars(args)
    )
    overwrite_args = {'model_parallel_size': world_size} if world_size != 1 else {}

    model, model_args = CogVLMModel.from_pretrained(
        args.from_pretrained,
        args=args,
        overwrite_args=overwrite_args,
        build_only=True
    )

    model = model.eval()
    from sat.mpu import get_model_parallel_world_size
    assert world_size == get_model_parallel_world_size(), "world size must equal to model parallel size for cli_demo!"

    tokenizer = llama2_tokenizer(args.local_tokenizer, signal_type=args.version)
    image_processor = get_image_processor(model_args.eva_args["image_size"][0])

    model.add_mixin('auto-regressive', CachedAutoregressiveMixin())

    text_processor_infer = llama2_text_processor_inference(tokenizer, args.max_length, model.image_length)

    if not args.english:
        if rank == 0:
            print('欢迎使用 CogVLM-CLI ，输入图像URL或本地路径读图，继续输入内容对话，clear 重新开始，stop 终止程序')
    else:
        if rank == 0:
            print('Welcome to CogVLM-CLI. Enter an image URL or local file path to load an image. Continue inputting text to engage in a conversation. Type "clear" to start over, or "stop" to end the program.')
    with torch.no_grad():
        while True:
            history = None
            cache_image = None
            if not args.english:
                if rank == 0:
                    image_path = [input("请输入图像路径或URL（回车进入纯文本对话）： ")]
                else:
                    image_path = [None]
            else:
                if rank == 0:
                    image_path = [input("Please enter the image path or URL (press Enter for plain text conversation): ")]
                else:
                    image_path = [None]
            if world_size > 1:
                torch.distributed.broadcast_object_list(image_path, 0)
            image_path = image_path[0]
            assert image_path is not None

            if image_path == 'stop':
                break
            if args.no_prompt and len(image_path) > 0:
                query = ""
            else:
                if not args.english:
                    if rank == 0:
                        query = [input("用户：")]
                    else:
                        query = [None]
                else:
                    if rank == 0:
                        query = [input("User: ")]
                    else:
                        query = [None]
                if world_size > 1:
                    torch.distributed.broadcast_object_list(query, 0)
                query = query[0]
                assert query is not None
            while True:
                if query == "clear":
                    break
                if query == "stop":
                    sys.exit(0)
                try:
                    response, history, cache_image = chat(
                        image_path,
                        model,
                        text_processor_infer,
                        image_processor,
                        query,
                        history=history,
                        image=cache_image,
                        max_length=args.max_length,
                        top_p=args.top_p,
                        temperature=args.temperature,
                        top_k=args.top_k,
                        invalid_slices=text_processor_infer.invalid_slices,
                        no_prompt=args.no_prompt
                        )
                except Exception as e:
                    print(e)
                    break
                if rank == 0:
                    if not args.english:
                        print("模型："+response)
                        if tokenizer.signal_type == "grounding":
                            print("Grounding 结果已保存至 ./output.png")
                    else:
                        print("Model: "+response)
                        if tokenizer.signal_type == "grounding":
                            print("Grounding result is saved at ./output.png")
                image_path = None
                if not args.english:
                    if rank == 0:
                        query = [input("用户：")]
                    else:
                        query = [None]
                else:
                    if rank == 0:
                        query = [input("User: ")]
                    else:
                        query = [None]
                if world_size > 1:
                    torch.distributed.broadcast_object_list(query, 0)
                query = query[0]
                assert query is not None


if __name__ == "__main__":
    main()

运行结果如下：

2、CogVLMModel.from_pretrained

使用上面推理代码给到参数进入CogVLMModel.from_pretrained包装函数，主要加载模型参数和权重(但我没加载权重)。

3、from_pretrained函数

通过上面进入类@classmethod的from_pretrained函数调用，进入from_pretrained_base函数。如下图：

4、from_pretrained_base函数

通过上面进入类@classmethod的from_pretrained_base函数调用。对于将调用get_model函数，这和上面模型构建说明一致；对于权重加载，在最后使用load_checkpoint加载。如下图：

5、token与后处理

最后，推理token与后处理也是源码内容，解释如下图：

6、整体结构

最后，我也给出整个模型构建流程，如下：

你可能感兴趣的:(语言模型-多模态大模型,pycharm,vscode,多模态大模型,视觉检测,计算机视觉)

机器视觉_图像算法（六）——形状矩(Hu) 智能之心 #机器视觉_图像算法形状矩 opencv
图像形状矩：一个从一幅数字图形中计算出来的矩集，通常描述了该图像形状的全局特征，并提供了大量的关于该图像不同类型的几何特性信息，比如大小、位置、方向及形状等。一阶矩与形状有关，二阶矩显示曲线围绕直线平均值的扩展程度，三阶矩则是关于平均值的对称性的测量。由二阶矩和三阶矩可以导出一组共7个不变矩。而不变矩是图像的统计特性，满足平移、伸缩、旋转均不变的不变性，在图像识别领域得到了广泛的应用。一般由mom
重温经典第二弹（xdoj1175，xdoj1179） Owen_Q 搜索暴力枚举字符串
一转眼，记忆又来到了暑假。或许，这是一个这算是自己真正开始接触了解acm的一个时间点吧，各种算法数据结构，开始慢慢浮出水面。回顾当初，感慨万千。又找出了两道未ac之题，确实复杂度明显加强，思维性的进一步考验。Count思路：子串搜索问题，因为n和k大到2e5，因此，肯定是个单向处理不能回溯的问题，否则最坏n方的复杂度是难以接受的。对于单次搜索，考虑可以维护现有区间的元素，然后移位遍历向后搜索，对于
python循环语句
Python循环语句文章目录Python循环语句一、实验目的二、实验原理三、实验环境四、实验内容五、实验步骤1.While循环结构2.While无限循环3.For循环语法4.break语句和continue语句一、实验目的掌握循环结构的语法二、实验原理Python中的循环语句有for和while。Python循环语句的控制结构图如下所示：三、实验环境Python3.6以上PyCharm四、实验内容
基于opencv的鱼群检测和数量统计识别鱼群密度带界面
完整项目点文末名片查看获取一、项目简介本项目旨在通过计算机视觉技术，实现对视频中鱼类数量的自动检测与计数。利用OpenCV库进行图像处理，包括背景减除、形态学操作、轮廓检测等步骤，最终在视频帧中标记出鱼类并统计其数量。该系统可广泛应用于水产养殖、生态监测等领域，有助于提高工作效率和数据准确性。二、环境准备在开始项目之前，需要确保以下环境和工具已安装：Python：推荐使用Python3.6及以上版
爆改RAG检索力：三大Query变形术，助你玩转AI知识检索！许泽宇的技术分享大模型 AIGC 搜索引擎人工智能 RAG
你以为RAG（Retrieval-AugmentedGeneration）就是“检索+生成”那么简单？那你可太低估AI界的“内卷”了！今天，咱们就来聊聊如何用三大Query变形术，把RAG的检索力拉满，助你在AI知识海洋里捞到最肥的鱼！一、RAG的“灵魂拷问”：你真的会提问吗？在AI时代，信息检索的效率和质量，80%取决于你“怎么问”。RAG系统的本质，就是“你问得好，我答得妙”。但现实往往是——
目标跟踪领域经典论文解析 ♢.＊目标跟踪人工智能计算机视觉
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！目标跟踪是计算机视觉领域的一个
论文阅读：2025 arxiv Qwen3 Technical Report
https://arxiv.org/pdf/2505.09388https://www.doubao.com/chat/9918384373236738文章目录论文翻译Qwen3技术报告摘要1引言论文翻译Qwen3技术报告Qwen团队摘要在这项工作中，我们介绍了Qwen模型家族的最新版本Qwen3。Qwen3包含一系列大型语言模型（LLM），旨在提升性能、效率和多语言能力。Qwen3系列包括密集型
GORM深度解析：模型定义与数据库迁移最佳实践 Golang编程笔记数据库 oracle ai
GORM深度解析：模型定义与数据库迁移最佳实践关键词：GORM、模型定义、数据库迁移、最佳实践、Go语言摘要：本文深入探讨了GORM这一强大的Go语言ORM库，详细介绍了模型定义的方法和技巧，以及数据库迁移的最佳实践。通过通俗易懂的语言和丰富的实例，帮助读者理解GORM的核心概念，掌握如何利用GORM高效地进行数据库操作。背景介绍目的和范围在Go语言开发中，与数据库进行交互是一项常见的任务。GOR
基于均值偏移算法的动态目标跟踪研究 Zoiny_楠算法均值算法目标跟踪
摘要：目标跟踪技术是计算机视觉领域中重要研究课题之一,在人类生活、军事侦察、工业生产、医疗诊断、交通管理等多方面,都有广泛的应用,研究目标跟踪对人类生活、工程应用等具有现实的指导意义。在基于视觉的目标跟踪算法中,经典的Mean-Shift算法以其理论科学有效、操作简单易实现,跟踪性能较好等优势,一直是众多学者研究的热点。可算法也存在着许多缺陷。例如目标模型中混有背景信息的干扰,给目标定位带来了偏差
05 大项目把握关键点，谋定而后动周壮成为团队技术牛人 java 后端面试架构
对技术Leader来讲，团队的开发模式多以项目制或敏捷迭代为主，不论哪种方式，项目管理都是最主要的工作之一。在互联网公司中，日常迭代和重点项目的同步进行几乎成了常态，你也会遇到一些特殊的项目，比如“一号工程（老板项目）”“技改项目（核心系统重写）”“倒排期的重大业务（11.11和618的大促、新业务新产品研发）”。这些项目我统称为“大项目”。大项目因为时间投入大、人员规模大、系统更大，和日常迭代项
创客匠人老蒋六力模型：创始人 IP 打造的底层逻辑与实践路径创小匠 tcp/ip 网络协议网络
创始人IP如何从0到1破局？创客匠人CEO老蒋提出的“六力模型”，为知识变现领域提供了系统化方法论。该模型将IP打造拆解为六个递进阶段，揭示了从“个人品牌”到“商业资产”的进化逻辑。一、定义力：构建IP的认知锚点IP的本质是“用户共识的塑造”。老蒋以神话故事为例，盘古开天辟地通过定义“宇宙起源”形成集体认知，这与现代创始人IP的“品类定义”逻辑一致。美特斯邦威周成建在直播中强调“国货转型”定位，正
创客匠人老蒋：创始人 IP 打造的五大核心命题与破局之道创小匠 tcp/ip 网络协议网络
在知识付费行业进入深水区的当下，创始人IP如何从“流量符号”进化为“商业引擎”？创客匠人CEO老蒋在“全球创始人IP领袖高峰论坛”中，围绕“IP、趋势、战略、创新、增长”五大关键词，揭示了IP打造的系统性方法论。一、认知破局：IP是商业战略而非营销手段老蒋以美特斯邦威周成建直播为例，指出创始人IP的本质是“企业战略的人格化表达”。数据显示，IP化创始人的企业估值平均比非IP化企业高30%-50%，
创客匠人联盟生态：重构家庭教育知识变现的底层逻辑创小匠重构人工智能大数据
在《家庭教育促进法》推动行业刚需化的背景下，单一个体IP的增长天花板日益明显。创客匠人提出的“联盟生态思维”，正推动家庭教育行业从“单打独斗”转向“矩阵作战”，其核心在于通过工具整合资源，将“同行竞争”转化为“生态共赢”。一、行业趋势：从个体IP到联盟矩阵的必然跃迁数据显示，2024年家庭教育新增服务超10万项，同质化竞争导致获客成本上涨40%。创客匠人联盟模型的破局点在于：当30位区域IP组成联
创客匠人视角下的知识变现革新：从付费到服务的底层逻辑重构创小匠重构
一、知识付费的本质：被误读的“信息”与被低估的“服务”当“知识付费已死”的论调甚嚣尘上时，创客匠人深耕行业11年的实践揭示了一个本质：知识本身是免费的，互联网时代信息唾手可得，但“让用户懂”的能力才是核心价值。正如牛顿三大定律从未收费，收费的是教师将知识转化为可理解体系的服务——这正是创客匠人所定义的“知识服务”内核。创始人IP打造的本质，正是将碎片化知识转化为体系化认知路径的能力，而知识变现的关
鸿蒙线程池全揭秘：让你的应用快、稳、省资源前端世界 harmonyos harmonyos 华为
摘要在现代应用开发中，多线程已经成为提升程序性能、优化用户体验的关键手段。尤其是在HarmonyOS（鸿蒙系统）这种强调分布式、并发处理的系统架构中，合理使用多线程不仅可以让程序运行更高效，还能帮助我们处理复杂的后台任务，比如文件下载、数据库操作、网络请求等。引言鸿蒙系统作为面向多设备融合的新一代操作系统，其支持的多线程模型与传统Android十分类似。很多Java的线程操作方法在鸿蒙中依然适用。
微电网能源管理系统：零碳园区的“智慧神经中枢” Amy18702111823 能源
在奔向“双碳”目标的征途上，零碳园区已成为城市高质量发展的绿色引擎。然而，风光资源的波动性、多能需求的复杂性、碳流管理的精确性，如同一张精密交织的能源网络。如何让这张网络高效、低碳、经济地运转？微电网能源管理系统正以“智慧神经中枢”的姿态，重塑零碳园区的能源未来。零碳园区的三大挑战，呼唤智慧解决方案能源“不可控”光伏“看天吃饭”、风电“随风摇摆”，间歇性电源直接冲击电网稳定性负荷“难协同”生产设备
零碳园区建设遭遇现实挑战？让我们一起寻找破局之道！ Amy18702111823 物联网
在“双碳”目标的时代浪潮下，零碳园区正成为各地政府与企业绿色转型的核心战场。江苏、广东、四川等20余省份密集出台专项扶持政策，财政补贴、土地优惠、碳配额激励多管齐下。2025年地方两会中，广东、福建、广西、山西、内蒙古等众多省市更是将其列为年度重点任务。然而，在这场轰轰烈烈的零碳园区建设热潮中，一系列现实难题正浮出水面：痛点直击：零碳园区建设的四大拦路虎“碳家底”不清，路径不明：园区的碳排放统计、
C++入门基础语法，并提到希望内容详细且包含实例Demo，我假设你现在想要一个基于C++的人脸考勤系统源码，并且希望代码适合初学者，包含详细注释和说明 zhxup606 C++c++开发语言
C++入门基础语法，并提到希望内容详细且包含实例Demo，我假设你现在想要一个基于C++的人脸考勤系统源码，并且希望代码适合初学者，包含详细注释和说明。根据搜索结果，C++人脸考勤系统通常使用OpenCV库进行人脸检测和识别，这需要一定的库配置和基础知识。以下是一个基于OpenCV的简单人脸考勤系统源码示例，适合初学者理解，代码实现基本功能：捕获摄像头画面、检测人脸、记录考勤信息，并保存到文件。C
Qt的概述和安装、信号与槽、元对象系统、动态属性、字符串QString、容器、窗口部件与布局管理器、顺序容器、UI界面设计、数值输入输出、时间和日期、界面UI组件、模型视图、关联与集合容器、对话框 zhxup606 C++qt ui 开发语言
涵盖Qt的概述和安装、信号与槽、元对象系统、动态属性、字符串QString、容器、窗口部件与布局管理器、顺序容器、UI界面设计、数值输入输出、时间和日期、界面UI组件、模型视图、关联与集合容器、对话框、多窗口开发、绘图、QGraphicsView绘图框架、文件处理、文件读写与事件、补充知识、INI配置文件、JSON文件操作、XML文件读写、和网络编程。每章将包含详细讲解、代码示例（demo），并确
Redis ZSet 数据结构深度解析：原理、实现与实战全揭密！程序猿Mr.wu Redis redis 数据结构缓存
一、前言：为什么要学习ZSet？在Redis的五大基础数据类型中，ZSet（SortedSet，有序集合）是一种非常强大而灵活的数据结构，广泛应用于排行榜、延时队列、权重排名等场景。如果说String是Redis的“最小原子”，那么ZSet就是Redis的“重量级选手”——不仅能存数据，还能排序查询，这正是它的魅力所在！二、ZSet是什么？和Set有啥区别？ZSet=Set+Score+排序！特性
使用vllm部署 Nanonets-OCR-s 没刮胡子软件开发技术实战专栏 Linux服务器技术人工智能AI ocr python 深度学习
使用vLLM部署Nanonets-OCR-s模型的完整指南Nanonets-OCR-s作为基于Qwen2.5-VL-3B的多模态OCR模型，结合vLLM的高效推理引擎可显著提升部署性能。一、环境准备与依赖安装1.安装vLLM与多模态依赖#安装vLLM（含CUDA加速）pipinstallvllm==0.3.21#建议使用稳定版本pipinstalltransformers==4.35
道路交通标志检测数据集-智能地图与导航交通监控与执法智慧城市交通管理-2,000 张图像 cver123 数据集智慧城市人工智能目标跟踪计算机视觉目标检测
道路交通标志检测数据集已发布目标检测数据集合集（持续更新）道路交通标志检测数据集介绍数据集概览包含类别应用场景数据样本展示YOLOv8训练实战1.环境配置安装YOLOv8官方库ultralytics2.数据准备2.1数据标注格式（YOLO）2.2文件结构示例2.3创建data.yaml配置文件3.模型训练关键参数补充说明：4.模型验证与测试4.1验证模型性能关键参数详解常用可选参数典型输出指标4.
干货！大模型时代一定要收藏的 20 个LLM 中文数据集 OpenBayes 资源上新人工智能语言模型数据库机器学习
自ChatGPT重磅推出以来，大语言模型(largelanguageModel,LLM)以其卓越的学习能力在各个领域引起轰动。大模型的训练和调优离不开优质庞大的数据支撑，精心构建的数据集不仅为大模型提供了充分的燃料，还为大模型在垂直领域的应用和性能提升提供了可能。本文整理了一些适用于大模型训练调优的热门中文公开数据集（按照首字母A-Z顺序排列），以供大家了解和使用。温馨提示：本文列举的所有数据集，
利用大数据领域Doris提升企业数据决策效率大数据洞察大数据网络 ai
利用大数据领域Doris提升企业数据决策效率关键词：大数据、Doris、企业数据决策、数据处理、效率提升摘要：本文围绕利用大数据领域的Doris来提升企业数据决策效率展开。首先介绍了背景，包括目的、预期读者、文档结构和相关术语。接着阐述了Doris的核心概念、架构以及与其他系统的联系。详细讲解了Doris的核心算法原理和具体操作步骤，并给出Python代码示例。同时介绍了相关的数学模型和公式。通过
燕山大学软件用户界面设计考题能运行就算成功经验分享
2024年考题，考前完全不知道考什么，趁着现在还记得，造福下后辈。全部是简答。1.描述下实用性和它的三个维度2.写出五个功能可见性的例子3.关键性模型Keystroke-LevelModel(KLM)字母的意思4.undo四个设计原则（笔记和翻译根本没有，看到时已经懵了）5.GUI三种设计方式6.瀑布模型为什么不适合ui设计后面是大题，跟写实验报告差不多，这次是个预定家政服务的题，写信息点描述中心
燕大《Python机器学习》实验报告：探索机器学习的奥秘温冰礼
燕大《Python机器学习》实验报告：探索机器学习的奥秘【下载地址】燕大Python机器学习实验报告下载这份实验报告是燕山大学软件工程专业的学生在进行机器学习实验时所编写的，内容详实，结构清晰，可以直接下载使用。报告中的实验数据和代码均经过验证，确保下载后可以直接应用于实际项目或作为学习参考项目地址:https://gitcode.com/Open-source-documentation-tut
解锁 Hello World 的 N 种炫酷玩法
目录一、引言二、编程语言之美2.1C语言艺术字输出2.2用汇编语言实现经典三、硬件交互的奇妙世界3.1Arduino与LED的舞蹈3.2STM32点亮小灯四、AI模型应用的创新之旅4.1OpenAIAPI初体验4.2LangChain框架的魅力五、总结与展望一、引言在编程的世界里，“HelloWorld”就像是一把神奇的钥匙，开启了无数人探索编程奥秘的大门。它作为编程学习的经典入门示例，有着不可替
day39 心落薄荷糖 Python训练营 python
#先继续之前的代码importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.dataimportDataLoader,Dataset#DataLoader是PyTorch中用于加载数据的工具fromtorchvisionimportdatasets,transforms#torchvision是一个用于计算机视觉的库，
DAY 10 机器学习建模与评估心落薄荷糖 Python训练营机器学习人工智能
知识点：1.数据集的划分2.机器学习模型建模的三行代码3.机器学习模型分类问题的评估今日代码比较多，但是难度不大，仔细看看示例代码，好好理解下这几个评估指标。作业：尝试对心脏病数据集采用机器学习模型建模和评估#一、导入库importpandasaspdimportpandasaspd#用于数据处理和分析，可处理表格数据。importnumpyasnp#用于数值计算，提供了高效的数组操作。impor
SQL学习笔记1
1.数据库1、什么是数据库数据库（DB）即用于存放数据的服务器，如MySQL等软件是数据库管理系统（DBMS），用于管理存放在数据库中的数据，SQL是用于操作DBMS的标准语言。2、数据库的类型数据库分为关系型数据库和非关系型数据库；关系型数据库是指用建立在关系模型上互相关联的二维表组成的数据库，MySQL是用于管理关系型数据库的数据库管理系统2.MySQL启动与连接1、MySQL启动安装好MyS
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他