QbitAl

LLaMA 2端到端推理打通！来自中国团队

允中发自凹非寺
量子位 | 公众号 QbitAI

Buddy Compiler 端到端 LLaMA2-7B 推理示例已经合并到 buddy-mlir仓库[1]主线。

我们在 Buddy Compiler 的前端部分实现了面向 TorchDynamo 的第三方编译器，从而结合了 MLIR 和 PyTorch 的编译生态。

目前，前端部分可以覆盖 LLaMA 计算图，转换到 MLIR 后我们集成了部分向量化和并行优化，并在 AVX512 平台上进行了测试。整个推理过程可以跑通但还需要大量优化。以下是相关链接和现状：

[E2E] Buddy Compiler 端到端 LLaMA2-7B 推理示例[2]
[E2E] 上述端到端推理示例目的是展示编译栈设计，并非完备的 LLaMA 问答工具
[Frontend] Buddy Dynamo Compiler[3]
[Midend] 集成面向矩阵乘法的向量化以及面向循环的并行优化
[Backend] 端到端示例在 X86 AVX512 机器上进行测试（Ubuntu 22.04）
[WIP] 开发并集成各种优化（现在速度太慢）
[WIP] 在多种 CPU 后端进行测试（Arm Neon, RVV, etc.）
[WIP] 对接多种硬件平台（GPU, Gemmini Accelerator, etc.）
[WIP] 增加前端覆盖程度（Stable Diffusion, CLIP, Whisper, etc.）

概述

AI 大模型的爆发为软硬件设计带来了新的抓手和机会。随着模型的规模、类型、模态的增加和发散，单一软硬件技术栈覆盖各种场景的能力越来越受限。这种趋势也加深了我对软硬件生态重要性的认识。在我看来，整个生态的最重要的三条设计原则如下（重要程度由高到低）：

技术路线标准化（生态的立足之本）
上手门槛低（足够多的贡献者和玩家是生态繁荣的关键）
优化上限高（决定了生态的发展潜力）

我们基于以上思考打造了 Buddy Compiler，致力于实现软硬件协同设计生态。我们的目标是实现从领域特定编程语言（DSL）到领域特定硬件架构（DSA）的编译流程和协同设计。

本文将介绍如何使用 Buddy Compiler 完成 LLaMA 2 的端到端推理。同时，我们也会分享 Buddy Compiler 的整体设计理念和未来的规划。具体的构建流程请参阅此处的文档[4]（大模型的构建需要十足的耐心和一台性能不错的机器）我们基于 PyTorch 和 MLIR 打通了 LLaMA 端到端的推理通路，但是尚未进行完整的性能分析和优化。

目前，我们只应用了针对矩阵乘法的向量化优化，以及针对循环的并行计算优化。

优化和调优的策略仍在开发阶段，因此目前的性能还处于较低水平。我们的初步目标并不是追求极致的性能，而是建立一个标准的端到端通路，在此基础上再做各层级性能优化和调优。

技术路线

技术路线的标准化不仅是我们努力追求的核心原则，而且我们坚信这能够吸引更多的贡献者和合作伙伴，同时还能够有效降低用户的学习门槛和后续的维护成本。

如图所示，我们选择 PyTorch 生态对接各种 AI 模型，选择 MLIR 生态作为 Buddy Compiler 的中间表示。

我们将 Buddy Compiler 作为 Torch Dynamo 的自定义编译器组成整个编译栈，从而希望实现将各种 AI 模型映射到多种硬件架构上的愿景。以下是一些设计点：

使用TorchDynamo作为Trace工具对接AI模型

TorchDynamo 使用 CPython 的 Frame Evaluation API 特性能够做到更加准确的 PyTorch 图的捕捉，详情可以参阅 PyTorch 的文档[5]。除此之外，PyTorch 2.x 提供了全面的编译支持，尤其是提供了非常友好的自定义编译器对接方案[6]。因此，PyTorch 2.x TorchDynamo 成为了我们对接 AI 模型的不二选择。

选择Aten IR作为对接层级

根据 PyTorch 的文档[5]，Core Aten IR 是服务于对接后端的算子集合，它相比 Prime IR 抽象级别也更高。我们倾向于使用较高的抽象级别映射到 MLIR 从而有更多的空间和信息来进行多层优化，因此我们选择 Aten IR 作为对接层级，可以很方便地映射到 Linalg Dialect 和 TOSA Dialect 的各种操作。

使用MLIR Python Bindings实现Dynamo Compiler生成TOSA/Linalg Ops

Buddy Compiler 前端中的 Dynamo Compiler（或者叫做 Dynamo Importer）的作用是将 PyTorch 的 Aten IR 转换到 MLIR，同时也负责将模型参数进行处理和打包。

Dynamo Compiler 遍历从 TorchDynamo 传入的 FX Graph，并且针对每个 Aten IR 节点进行转换，转换过程使用 MLIR Python Bindings 生成目标 MLIR 代码。

Dynamo Compiler 支持对接 Dialect 的优先级设定，即可以选择 Linalg Dialect 或者 TOSA Dialect 作为首选项进行转换。

最终，Dynamo Compiler 负责输出转换后的 MLIR Module 和权重参数。

使用Buddy Compiler工具链进行优化和下降

我们的整个编译通路目前并没有完全使用 Python 脚本完成，而是使用 CMake 将前、中、后端集成起来。

这一定程度上简化了并解耦了前、中、后端的开发流程。编译优化和下降的所有 Pass 注册到 buddy-opt 工具中，它包括所有的上游 Pass 和 Buddy Compiler 中的优化 Pass，因此 buddy-opt 是上游 mlir-opt 的超集。面向通用硬件的编译流程我们使用 MLIR Core Dialect 进行实现，从而达成最大化的复用，我们的工具也因此和所有 LLVM/MLIR 的工具兼容，例如 mlir-translate, llc 等等。

目前我们针对循环采用并行计算的优化，其中相关中间表示和优化 Pass 完全来自上游的 OMP Dialect，可以直接复用并带来不错的优化效果。从此也可以看出统一生态的优势。此外，我们针对粗颗粒度的 Operations 设计了向量化算法进行编译优化，使用 Vector Dialect 也可以实现跨 SIMD/Vector 平台的效果。

如果希望面向特定加速器（例如 Gemmini Accelerator）生成代码，也可以使用 buddy-translate 和 buddy-llc生成到特定于硬件的 LLVM IR，从而最终生成加速器的硬件指令。

Forward函数搭配Buddy Compiler Text Container完成端到端推理

在完成编译优化和下降之后，模型的 Forward 函数将会被构建为共享库。

由于我们很多场景需要在模拟器和开发平台上测试，因此我们没有选择将执行的流程交给 Python 生态，而是进行 AOT 编译，生成可执行文件。

为了配合从 MLIR 构建出来的 Forward 函数实现端到端的推理，我们提供了 C++ 版本的 Text Container 和 MemRef Container 来作为文本输入输出的 Tokenizer 和数据容器。

最终，在 C++ 的 main 函数中将输入的文本和权重参数加载到数据容器，然后调用 Forward 函数进行推理，输出的 Token 再交由 Text Container 进行后处理即可得到最终的文本。

未来工作

我们目前打通了 LLaMA 到 CPU SIMD/Vector 平台的通路，使用 X86 AVX512 进行初步的测试。用于 Vector Dialect 的跨平台性，Arm Neon 和 RISC-V Vector Extesion 也是可以天然支持的，我们正在进行广泛测试。

同时我们也在支持尝试将 Buddy Compiler 中的 Gemmini 加速器支持对接到大模型推理的通路上。

此外，GPU 的优化 Pass 也在开发中。在模型层面，我们希望测试并对接更多的多模态大模型，进一步提升 Buddy Dynamo Compiler 前端的覆盖程度。在完成上述工作后，下一个里程碑是将多模态大模型编译到多种硬件平台上。

总的来说，接下来前、中、后端将会相对解耦地进行开发，最终进行对接。

前端：对接更多模型完善算子覆盖程度。
中端：进行更详细的性能分析，面向各种计算负载开发不同层级的优化。
后端：对 CPU 各 SIMD/Vector 平台进行测试，完成面向 GPU / Gemmini 加速器的端到端通路。

三个部分均相对完备的时候就考虑用 Python 接口将所有工具链包装起来，形成一个更为优雅的使用流程。

总结

如今大模型推理的软件栈也层出不穷，技术路线也各不相同。我们使用的 Torch 2.x + Buddy Compiler 的编译栈设计策略实际上是希望融合 PyTorch 和 MLIR 两大生态进行 AI 计算。当然，在 MLIR 生态里面做大模型推理，我们认为 Torch-MLIR + IREE 目前是相对比较完备的解决方案。nod.ai 的 SHARK Turbine[7] 就使用了这种技术路线。

相比于 Torch-MLIR 搭配 IREE 的组合，Buddy Compiler 更强调 Simple But Powerful 设计，采用极致复用策略和完全代码生成策略。相比于 Torch-MLIR 的 Torch Dialect 层级，Buddy Compiler 更偏向直接复用 TOSA/Linalg 对接 Aten IR；相比于 IREE 覆盖一切后端的 Runtime 和 Execution Engine 的设计，Buddy Compiler 更偏向进行完全代码生成。

Shark Turbine 封面[8]是一个飞机涡轮发动机，这和他们的技术路线非常契合，TorchDynamo + Torch-MLIR + IREE 是一个极其精密且重型的编译栈，这样的“发动机“理论上可以带着他们飞跃任何高山沟壑。相比而言，Buddy Compiler 更像是电动汽车的三电平台，可以以此为基础打造各种性格的电动汽车。对我们来说，LLaMA 的支持不是起点也不是终点，是在探索路上偶遇的一座高山，我们希望翻过它，看看山那边的世界，尤其是开着自己造的车！

致谢

感谢所有 Buddy Compiler 的贡献者，特别感谢一起努力跑通 LLaMA 的伙伴：zhanghb97，weilinquan，xTayEx，EllisLambda，Lester-1，LAJIidea，SForeKeeper，LHY-24，xlinsist，qingqing12138. 同时感谢 OSPP 组委会提供的开源项目席位。

关于Intelligent Computing

Intelligent Computing是由之江实验室和美国科学促进会（AAAS）共同创办，是《科学》合作期刊框架中智能计算领域的第一本开放获取（Open Access）国际期刊。期刊以“面向智能的计算、智能驱动的计算”以及“智能、数据与计算驱动的科学发现”为主题，主要刊载原创研究论文、综述论文和观点论文。

你可能感兴趣的:(llama)

GGUF量化模型技术解析与DeepSeek-R1-Distill-Llama-8B选型指南每天三杯咖啡人工智能
```markdown#【完全指南】GGUF量化技术与DeepSeek-R1模型选型：从入门到部署##什么是模型量化？（小白扫盲版）###1.1量化就像"模型减肥术"-**传统模型**：每个参数用32位浮点数（好比高清无损图片）-**量化模型**：用4-8位整数存储（类似手机压缩照片）-**核心原理**：`FP32→Int8/Int4`的数学映射，保留关键特征###1.2为什么要量化？|对比项|原
Transformers模型版本和lm_eval老版本冲突问题ImportError: cannot import name ‘initialize_tasks‘ from ‘lm_eval.task neverwin6 llama python 服务器
Transformers模型版本和lm_eval老版本冲突问题1问题背景在LLM评测的时候，要用lm_eval模型，而对于像是llama3/Mistrual等比较新的模型，较低的Transformers不能适配，所以要升级到0.40.0以上才行，但是如果升级的话，那么直接在沿用老版本的lm_eval评测就会出现：Traceback(mostrecentcalllast):File"main.py"
KV 缓存简介 dev.null AI 缓存
以下是关于KV缓存（Key-ValueCache）的简介，涵盖其定义、原理、作用及优化意义：1.什么是KV缓存？KV缓存是Transformer架构（如GPT、LLaMA等大模型）在自回归生成任务（如文本生成）中，用于加速推理过程的核心技术。其本质是：在生成序列时，缓存历史token的Key和Value矩阵，避免重复计算，从而显著减少计算量。2.为什么需要KV缓存？传统自注意力计算的问题在生成第t
使用LoRA微调LLaMA3 想胖的壮壮深度学习人工智能
使用LoRA微调LLaMA3的案例案例概述在这个案例中，我们将使用LoRA微调LLaMA3模型，进行一个文本分类任务。我们将使用HuggingFace的Transformers库来完成这个过程。步骤一：环境搭建安装必要的Python包pipinstalltransformersdatasetstorch配置GPU环境确保你的环境中配置了CUDA和cuDNN，并验证GPU是否可用。importtor
llama.cpp 和 LLM（大语言模型）这个懒人 llama 语言模型人工智能
llama.cpp和LLM（大语言模型）的介绍，以及两者的关联与区别：1.LLM（LargeLanguageModel，大语言模型）定义：LLM是基于深度学习技术（如Transformer架构）构建的超大参数量的自然语言处理模型。它通过海量文本数据训练，能够生成连贯、语义丰富的文本，完成问答、创作、推理等任务。特点：参数规模大：如GPT-3（1750亿参数）、Llama-65B（650亿参数）等。
LLaMA-Factory 微调训练 zsh_abc llama docker 深度学习人工智能 python linux
LLaMA-Factory微调训练该框架功能，标注-微调-导出-合并-部署，一整条流程都有，而且训练时消耗的gpu算力也会小一些一，安装（推荐在linux中训练，win可以用wsl+docker）gitclonehttps://github.com/hiyouga/LLaMA-Factory.gitcdLLaMA-Factory#根据cuda版本选择安装pytoch版本pip3installtor
llama-factory微调 AI Echoes 深度学习人工智能机器学习 deepseek
大模型微调实操--llama-factoryllama-factory环境安装前置准备英伟达显卡驱动更新地址下载NVIDIA官方驱动|NVIDIAcuda下载安装地址CUDAToolkit12.2Downloads|NVIDIADeveloperpytorch下载安装地址PreviousPyTorchVersions|PyTorchllama-factory项目和文档地址https://githu
部署微调框架LLaMA-Factory 高原魔女 llama
LLaMAFactory1.我们在ChatGLM3的github官方页面上能看到对LLaMA-Factory的推荐2.LLaMAFactorygithub链接hiyouga/LLaMA-Factory:UnifyEfficientFine-Tuningof100+LLMs(github.com)步骤一：安装LLaMAFactory进入DSW开发环境。登录PAI控制台。在页面左上方，选择DSW实例所
ChatGPT智能聊天机器人实现云端源想 chatgpt 机器人
以下是一个从零实现类ChatGPT智能聊天机器人的完整开发指南，包含技术选型、核心代码逻辑和推荐学习资源：—云端平台整理一、技术架构与工具核心模型基座模型：HuggingFaceTransformers库（如GPT-2/GPT-3.5TurboAPI/LLaMA2）轻量化方案：微软DeepSpeed或MetaFairScale（降低显存占用）训练框架PyTorchLightning+Acceler
AI大模型学习路线：从入门到精通的完整指南【2025最新】 AI大模型-大飞人工智能学习大模型 LLM AI 程序员大模型学习
引言近年来，以GPT、BERT、LLaMA等为代表的AI大模型彻底改变了人工智能领域的技术格局。它们不仅在自然语言处理（NLP）任务中表现卓越，还在计算机视觉、多模态交互等领域展现出巨大潜力。本文旨在为开发者、研究者和技术爱好者提供一条清晰的学习路径，帮助读者逐步掌握大模型的核心技术并实现实际应用。一、基础阶段：构建知识体系数学与理论基础线性代数：矩阵运算、特征值与奇异值分解是大模型参数优化的基础
主流开源大模型能力对比矩阵时光旅人01号人工智能开源 python 深度学习 pytorch
模型名称核心优势主要局限Llama2/3✅多语言生态完善✅Rotary位置编码✅GQA推理加速⚠️数据时效性差⚠️隐私保护不足Qwen✅千亿参数规模✅中文语境优化✅复杂文本生成⚠️需高性能硬件⚠️领域知识需二次训练ChatGLM-3✅多轮对话支持✅中英双语流畅✅对话记忆优秀⚠️计算资源消耗大⚠️长文本易发散DeepSeek✅代码注释生成✅技术文档规范✅全流程方案生成⚠️逻辑错误较多⚠️数据更新延迟
LLaMA-Factory 训练数据默认使用 instruction、input、output 三个 key 背太阳的牧羊人模型微调 llama 人工智能大模型微调
在LLaMA-Factory进行SFT（Directivesupervisionfine-tuning指令监督微调）时，训练数据的格式非常重要，因为大模型依赖标准化的数据结构来学习指令-响应模式。identity.json文件的数据采用了“instruction”、“input”、“output”这三个key，它们的作用如下：Key作用示例“instruction”代表用户给AI的指令（问题或任务
linux（ubuntu）中Conda、CUDA安装Xinference报错ERROR: Failed to build (llama-cpp-python) 小胡说技书杂谈/设计模式/报错 Data/Python/大模型 linux ubuntu conda 大模型 python Xinference
文章目录一、常规办法二、继续三、继续四、缺少libgomp库（最终解决）在Conda环境中安装libgomp如果符合标题情况执行的：pipinstall"xinference[all]"大概率是最终解决的情况。一、常规办法llama-cpp-python依赖CMake、Make和g++来编译，所以可能是缺少依赖或者环境配置不对。按照以下步骤排查问题并解决：1.确保Python版本符合要求llama
大模型火爆 2025：LLaMA、Qwen、DeepSeek 核心原理+就业秘籍，快速入门 AI 工程师 weixin_40941102 llama 人工智能
1.大模型核心原理：从零开始理解AI模型这些是大型语言模型（LLMs）的核心技术，适合初学者逐步深入学习。以下是详细拆解，让小白也能掌握：LLaMA系列模型核心原理详解：什么是LLaMA？：LLaMA是一个基于人工智能的语言模型，像一个超级聪明的聊天机器人，能理解和生成人类语言。它由Meta公司开发，类似ChatGPT，但更开源、灵活。核心原理：Transformer架构：想象一个工厂流水线，LL
LLM之Colossal-LLaMA-2：源码解读(init_tokenizer.py文件)实现基于源词表的扩展、(init_model.py文件)实现过计算均值扩展模型、(prepare_pretr 一个处女座的程序猿 CaseCode NLP/LLMs 精选(人工智能)-中级 Colossal LLaMA-2 自然语言处理
LLM之Colossal-LLaMA-2：源码解读(init_tokenizer.py文件)实现基于jsonl文件中读取新词列表(新中文词汇)→for循环去重实现词表的扩展(中文标记的新词汇)→保存新的分词模型、(init_model.py文件)实现过计算均值来扩展模型的嵌入层以适应新的词汇表，然后保存扩展后的模型、(prepare_pretrain_dataset.py文件)将原始数据集进行处理
LLMs之Colossal-LLaMA-2：源码解读(train.py文件)基于给定数据集实现持续预训练LLaMA-2—解析命令行参数→初始化配置(分布式训练环境colossalai+训练日志+加速插一个处女座的程序猿 NLP/LLMs 精选(人工智能)-中级 Colossal-AI LLaMA-2 大语言模型自然语言处理
LLMs之Colossal-LLaMA-2：源码解读(train.py文件)基于给定数据集实现持续预训练LLaMA-2—解析命令行参数→初始化配置(分布式训练环境colossalai+训练日志+加速插件)→数据预处理(初始化分词器+数据处理器+数据加载器)→模型训练(初始化模型/优化器/学习率调度器/梯度检查点/Flash-Attention/设置数据类型/是否加载预训练模型/从上一次训练点继续训
1llama源码学习·model.py[3]ROPE旋转位置编码(1)原理小杜不吃糖学习
零：(导学)Transformer位置编码（1）为什么需要位置编码位置编码描述序列中实体的位置信息，为每个位置分配唯一的表示。Transformer使用智能位置编码方案，其中每个位置/索引都映射到一个向量。因此，位置编码层的输出是一个矩阵，其中矩阵的每一行表示序列的编码对象与其位置信息的总和（2）Transformer中的位置编码假设有一个长度为LLL的输入序列，并要求位置kkk为该序列中的对象，
llama源码学习·model.py[1]RMSNorm归一化小杜不吃糖 llama python
一、model.py中的RMSNorm源码classRMSNorm(torch.nn.Module):def__init__(self,dim:int,eps:float=1e-6):super().__init__()self.eps=epsself.weight=nn.Parameter(torch.ones(dim))def_norm(self,x):returnx*torch.rsqrt(
2025年开源大模型全景：语言、多模态与开发工具的前沿探索软件职业规划开源
语言类开源大模型1.Llama系列开发者：Meta发布时间：2024年7月参数量：8B、70B、405B特点：Llama系列模型以其强大的多语言支持和广泛的自然语言处理能力而闻名。它支持文本生成、问答、翻译等多种任务，尤其在处理长篇文本时表现出色，支持高达128K的上下文长度。Meta与超过25个合作伙伴共同推出该系列模型，包括亚马逊云科技、Databricks和英伟达等，推动了开源大模型在工业界
使用 Ollama 对 LLaMA-2 模型进行微调的详细指南软件职业规划 llama
1.环境准备在开始微调之前，需要确保硬件和软件环境满足要求。合适的环境配置可以显著提高微调效率，并减少潜在的错误。1.1硬件要求大语言模型的微调需要强大的计算能力，尤其是GPU资源。以下是推荐的硬件配置：GPU：建议使用至少NVIDIARTX3090或更高配置的GPU。如果条件允许，使用多卡GPU（如RTX4090或A100）可以显著加快训练速度。对于更大的模型（如LLaMA-213B或33B），
DeepSeek创始人专访：中国的AI不可能永远跟随，需要有人站到技术的前沿 AIBigModel 人工智能
来源：暗涌Waves，整理：FounderPark因为V3版本开源模型的发布，DeepSeek又火了一把，而且这一次，是外网刷屏。训练成本估计只有Llama3.1405B模型的11分之一，后者的效果还不如它。在多项测评上，DeepSeekV3达到了开源SOTA，超越Llama3.1405B，能和GPT-4o、Claude3.5Sonnet等TOP模型正面掰掰手腕——而其价格比Claude3.5Ha
Gemma 3 发布：最强单 GPU/TPU 可运行模型，性能超 Llama-405B！新加坡内哥谈技术人工智能自然语言处理语言模型深度学习 copilot llama
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/GoogleDeepMind再次掀起AI界的狂潮，正式推出Gemma3——一款轻量级但性
大语言模型微调和大语言模型应用的区别？ AI Echoes 人工智能深度学习机器学习
大语言模型微调和大语言模型应用的区别？1.定义与目标微调（Fine-tuning）目标：调整预训练模型（如GPT、LLaMA、PaLM）的参数，使其适应特定任务或领域。核心：通过额外的训练（使用特定数据集）优化模型的性能，提升其在特定场景下的效果。例如：将通用模型微调为法律咨询、医疗诊断或金融分析的专业模型。应用（Application）目标：直接使用预训练或微调后的模型解决实际问题，无需修改模型
LLM推理和优化（1）：基本概念介绍 AndrewHZ AI算法工程师面试指北算法 LLM 语言模型推理优化 KVCache DeepSeek 注意力机制
一、LLM推理的核心过程：自回归生成LLM（如DeepSeek、ChatGPT、LLaMA系列等）的推理本质是自回归生成：从初始输入（如[CLS]或用户prompt）开始，逐token预测下一个词，直到生成结束符（如[EOS]）。其核心分为两个阶段：1.Initialization阶段（初始化）目标：准备第一个token的生成条件。关键步骤：输入编码：将初始prompt转换为token序列（如[C
第二十八个问题-Dify、RAG-Flow、FastGPT 核心特点对比释迦呼呼 AI一千问架构深度学习人工智能机器学习自然语言处理
Dify、RAG-Flow、FastGPT核心特点对比以下基于搜索结果，从功能定位、技术架构、适用场景等维度总结三者的核心特点：1.Dify定位：开源的LLM应用开发平台，强调低代码与快速构建生成式AI应用。核心特点：多模型支持：无缝集成数百种专有/开源大模型（如GPT、Llama3、Mistral），支持通过API或本地部署调用18。流程编排能力：提供Chatflow（对话类应用）和Workfl
在M4 Mac Mini集群上运行DeepSeek V3 671B 强化学习曾小健 Deepseek原理与使用 macos
在M4MacMini集群上运行DeepSeekV3671B原创咖农小黄幻想发生器2024年12月30日10:50天津我们刚刚在苹果硅芯片上运行了最大的开源模型。直接来看在8台M4Pro64GBMacMini集群（总内存512GB）上运行DeepSeekv3（671B）的结果：模型首个Token时间（秒）每秒Token数DeepSeekV3671B（4位）2.915.37Llama3.1405B（4
如何增强机器学习基础，提升大模型面试通过概率 weixin_40941102 机器学习面试人工智能
我的好朋友没有通过面试所以我给我的好朋友准备了这一篇学习路线随着大模型（如Transformer、GPT-4、LLaMA等）在自然语言处理（NLP）、计算机视觉（CV）和多模态任务中的广泛应用，AI行业的招聘竞争愈发激烈。面试官不仅要求候选人熟练使用深度学习框架（如PyTorch、TensorFlow），还希望他们具备扎实的机器学习理论基础、算法实现能力和实际问题解决经验。本文将从机器学习基础入手
DeepSeek发展背景和前景爱吃苹果的日记本人工智能
1.成立背景：它的背景是由杭州深度求索人工智能基础技术研究有限公司开发，该公司成立于2023年7月17日，由量化资管巨头幻方量化创立。幻方量化在AI量化对冲基金领域具有深厚的技术积累和资金支持，这为DeepSeek的研发奠定了坚实的基础。2.技术演进：2024年1月：发布首个大模型DeepSeekLLM，包含670亿参数，在2万亿token的数据集上训练，性能超越Llama270BBase。202
8.3 GPTQ量化技术：4倍压缩大模型显存，精度零损失！少林码僧掌握先机！从 0 起步实战 AI 大模型微调打造核心竞争力语言模型人工智能 gpt
GPTQ量化技术：4倍压缩大模型显存，精度零损失！8.2GPTQ：专为GPT设计的模型量化算法一、模型量化技术背景在讨论GPTQ之前，我们需要先理解大模型部署面临的显存困境。以LLaMA-7B模型为例：FP32精度显存占用：28GBFP16精度显存占用：14GBINT8量化后显存占用：7GBINT4量化后显存占用：3.5GB
llama.cpp 安装与量化（mac电脑）初七i llama macos llama.cpp 量化 ai
llama.cpp安装与量化（mac电脑）1.创建并切换至虚拟环境2.安装llama.cpp3.安装依赖4.转换模型5.创建build目录6.生成构建文件7.编译项目8.运行量化命令9.测试量化后的模型1.创建并切换至虚拟环境condacreate-nllamacpppython=3.10-ycondaactivatellamacpp2.安装llama.cppgitclonehttps://git
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他