新缸中之脑

Llama.cpp工具main使用手册

Llama.cpp提供的 main工具允许你以简单有效的方式使用各种 LLaMA 语言模型。它专门设计用于与 llama.cpp 项目配合使用。

推荐：用 NSDT编辑器快速搭建可编程3D场景

Llama.cpp的工具 main提供简单的 C/C++ 实现，具有可选的 4 位量化支持，可实现更快、更低的内存推理，并针对桌面 CPU 进行了优化。该程序可用于使用 LLaMA 模型执行各种推理任务，包括根据用户提供的提示生成文本以及使用反向提示进行类似聊天的交互。

1、快速开始

要立即开始，请运行以下命令，确保使用你拥有的模型的正确路径：

基于 Unix 的系统（Linux、macOS 等）：

./main -m models/7B/ggml-model.bin --prompt "Once upon a time"

Windows：

main.exe -m models\7B\ggml-model.bin --prompt "Once upon a time"

要获得交互式体验，请尝试以下命令：

基于Unix的系统（Linux、MacOS等）：

./main -m models/7B/ggml-model.bin -n -1 --color -r "User:" --in-prefix " " -i -p \
'User: Hi
AI: Hello. I am an AI chatbot. Would you like to talk?
User: Sure!
AI: What would you like to talk about?
User:'

Windows：

main.exe -m models\7B\ggml-model.bin -n -1 --color -r "User:" --in-prefix " " -i -e -p "User: Hi\nAI: Hello. I am an AI chatbot. Would you like to talk?\nUser: Sure!\nAI: What would you like to talk about?\nUser:"

以下命令从启动提示生成“无限”文本（可以使用 Ctrl-C 来停止它）：

基于Unix的系统（Linux、MacOS等）：

./main -m models/7B/ggml-model.bin --ignore-eos -n -1 --random-prompt

Windows：

main.exe -m models\7B\ggml-model.bin --ignore-eos -n -1 --random-prompt

2、常用选项

在本节中，我们将介绍使用 LLaMA 模型运行主程序的最常用选项：

-m FNAME, --model FNAME：指定 LLaMA 模型文件的路径，例如 models/7B/ggml-model.bin。
-i, --interactive：以交互模式运行程序，允许你直接提供输入并接收实时响应。
-ins, --instruct：以指令模式运行程序，这在处理Alpaca模型时特别有用。
-n N, --n-predict N：设置生成文本时要预测的标记数量。调整此值可以影响生成文本的长度。
-c N, --ctx-size N：设置提示上下文的大小。默认值为 512，但 LLaMA 模型是在 2048 的上下文中构建的，这将为较长的输入/推理提供更好的结果。

3、输入提示

Llama.cpp的main程序提供了多种使用输入提示与 LLaMA 模型交互的方法：

–prompt PROMPT：直接提供提示作为命令行选项。
–file FNAME：提供包含一个或多个提示的文件。
–interactive-first：以交互模式运行程序并立即等待输入。下面有更多相关内容。
–random-prompt：以随机提示开始。

4、与模型交互

Llama.cpp的 main程序提供了与 LLaMA 模型交互的无缝方式，允许用户参与实时对话或提供特定任务的说明。可以使用各种选项触发交互模式，包括 --interactive、 --interactive-first 和 --instruct。

在交互模式下，用户可以通过在过程中注入输入来参与文本生成。用户可以随时按 Ctrl+C 插入并键入输入，然后按 Return 将其提交到 LLaMA 模型。要提交其他行而不最终确定输入，用户可以使用反斜杠 ( ) 结束当前行并继续输入。

4.1 交互选项

-i, --interactive：以交互模式运行程序，允许用户进行实时对话或向模型提供特定指令。
–interactive-first：以交互模式运行程序，并在开始文本生成之前立即等待用户输入。
-ins, --instruct：以指令模式运行程序，该模式专门设计用于擅长根据用户指令完成任务的 Alpaca 模型。
–color：启用彩色输出，以在视觉上区分提示、用户输入和生成的文本。
通过理解和利用这些交互选项，你可以使用 LLaMA 模型创建引人入胜的动态体验，根据你的特定需求定制文本生成过程。

4.2 反向提示

反向提示是一种通过在遇到特定文本字符串时暂停文本生成来使用 LLaMA 模型创建类似聊天体验的强大方法：

-r PROMPT, --reverse-prompt PROMPT：指定一个或多个反向提示以暂停文本生成并切换到交互模式。例如，每当轮到用户说话时，-r“User:”可用于跳回对话。这有助于创造更具互动性和对话性的体验。但是，当以空格结尾时，反向提示不起作用。
要克服此限制，可以使用 --in-prefix 标志在反向提示符后添加空格或任何其他字符。

4.3 In-Prefix

–in-prefix 标志用于向输入添加前缀，主要用于在反向提示后插入空格。以下是如何将 --in-prefix 标志与 --reverse-prompt 标志结合使用的示例：

./main -r "User:" --in-prefix " "

4.4 In-Suffix

–in-suffix 标志用于在输入后添加后缀。这对于在用户输入后添加“Assistant:”提示非常有用。它自动添加到用户输入末尾的换行符 ( \n) 之后。以下是如何将 --in-suffix 标志与 --reverse-prompt 标志结合使用的示例：

./main -r "User:" --in-prefix " " --in-suffix "Assistant:"

4.5 指令模式

指令模式在使用 Alpaca 模型时特别有用，这些模型旨在遵循用户指令来执行特定任务：

-ins、–instruct：启用指令模式，以利用 Alpaca 模型的功能，根据用户提供的指令完成任务。

技术细节：用户的输入在内部以反向提示符为前缀（或默认 ### instruction：），后跟 ### Response:（除非你在没有任何输入的情况下按 Return 键，以继续生成更长的响应）。

通过理解和利用这些交互选项，可以使用 LLaMA 模型创建引人入胜的动态体验，根据你的特定需求定制文本生成过程。

5、上下文管理

在文本生成过程中，LLaMA 模型的上下文大小有限，这意味着它们只能考虑输入和生成文本中的一定数量的标记。当上下文填满时，模型会在内部重置，可能会丢失对话或指令开始时的一些信息。上下文管理选项有助于在这些情况下保持连续性和连贯性。

5.1 上下文大小

–ctx-size 选项允许你设置 LLaMA 模型在文本生成过程中使用的提示上下文的大小。较大的上下文大小有助于模型更好地理解和生成较长输入或对话的响应。
-c N, --ctx-size N：设置提示上下文的大小（默认值：512）。 LLaMA 模型是在 2048 上下文构建的，这将在较长的输入/推理上产生最佳结果。然而，将上下文大小增加到超过 2048 可能会导致不可预测的结果。

5.2 扩展的上下文大小

一些微调模型通过缩放 RoPE 来延长上下文长度。例如，如果原始预训练模型的上下文长度（最大序列长度）为 4096 (4k)，而微调模型的上下文长度为 32k。这是一个 8 的缩放因子，应该通过将上面的 --ctx-size 设置为 32768 (32k) 并将 --rope-scale 设置为 8 来工作。

–rope-scale N：其中 N 是微调模型使用的线性缩放因子。

5.3 保持提示

–keep 选项允许用户在模型运行脱离上下文时保留原始提示，确保保持与初始指令或对话主题的连接。

–keep N：指定模型重置其内部上下文时要保留的初始提示中的标记数量。默认情况下，该值设置为 0（意味着不保留令牌）。使用 -1 保留初始提示中的所有标记。
通过利用 --ctx-size 和 --keep 等上下文管理选项，你可以与 LLaMA 模型保持更加连贯一致的交互，确保生成的文本与原始提示或对话保持相关。

6、生成相关选项

以下选项允许你控制文本生成过程，并根据你的需要微调生成文本的多样性、创造力和质量。通过调整这些选项并尝试不同的值组合，你可以找到适合你的特定用例的最佳设置。

6.1 要预测的令牌数量

-n N, --n-predict N：设置生成文本时要预测的令牌数量（默认值：128，-1 = 无穷大，-2 = 直到上下文填充）

–n-predict 选项控制模型响应输入提示生成的标记数量。通过调整此值，你可以影响生成文本的长度。较高的值将生成较长的文本，而较低的值将生成较短的文本。

即使我们有有限的上下文窗口， -1 的值也将启用无限文本生成。当上下文窗口已满时，一些较早的令牌（ --n-keep之后的令牌的一半）将被丢弃。然后必须重新评估上下文，然后才能恢复生成。在大型模型和/或大型上下文窗口上，这将导致输出显著暂停。

如果不希望出现暂停，则值 -2 将在上下文填满时立即停止生成。

需要注意的是，如果遇到序列结束 ( EOS) 标记或反向提示，生成的文本可能会短于指定的令牌数量。在交互模式下，文本生成将暂停，控制权将返回给用户。在非交互模式下，程序将结束。在这两种情况下，文本生成可能会在达到指定的 n 预测值之前停止。如果你希望模型继续运行而不自行产生序列结束，则可以使用 --ignore-eos 参数。

6.2 温度

–temp N：调整生成文本的随机性（默认值：0.8）。

温度是一个超参数，控制生成文本的随机性。它影响模型输出标记的概率分布。较高的温度（例如 1.5）使输出更加随机和创造性，而较低的温度（例如 0.5）使输出更加集中、确定性和保守。默认值为 0.8，它提供了随机性和确定性之间的平衡。在极端情况下，温度为 0 时将始终选择最有可能的下一个标记，从而在每次运行中产生相同的输出。

用法示例： --temp 0.5

6.3 重复惩罚

–repeat-penalty N：控制生成文本中标记序列的重复（默认值：1.1）。
–repeat-last-n N：用于惩罚重复的最后 n 个标记（默认值：64，0 = 禁用，-1 = ctx-size）。
–no-penalize-nl：应用重复惩罚时禁用换行标记的惩罚。

重复惩罚选项有助于防止模型生成重复或单调的文本。较高的值（例如，1.5）将对重复进行更严厉的惩罚，而较低的值（例如，0.9）将更宽松。默认值为 1.1。

Repeat-last-n 选项控制历史记录中要考虑惩罚重复的标记数量。较大的值将在生成的文本中进一步查找以防止重复，而较小的值将仅考虑最近的标记。值为 0 会禁用惩罚，值为 -1 会将标记数量设置为等于上下文大小 (ctx-size)。

使用 --no-penalize-nl 选项在应用重复惩罚时禁用换行惩罚。此选项对于生成聊天对话、对话、代码、诗歌或换行符在结构和格式中发挥重要作用的任何文本特别有用。禁用换行惩罚有助于在这些特定用例中保持自然流程和预期格式。

用法示例： --repeat-penalty 1.15 --repeat-last-n 128 --no-penalize-nl

6.4 Top-K 采样

–top-k N：将下一个标记选择限制为 K 个最可能的标记（默认值：40）。

Top-k 采样是一种文本生成方法，仅从模型预测的前 k 个最有可能的标记中选择下一个标记。它有助于降低生成低概率或无意义令牌的风险，但也可能限制输出的多样性。 top-k 的较高值（例如 100）将考虑更多标记并导致更多样化的文本，而较低值（例如 10）将关注最可能的标记并生成更保守的文本。默认值为 40。

用法示例： --top-k 30

6.5 Top-P 采样

–top-p N：将下一个标记选择限制为累积概率高于阈值 P（默认值：0.9）的标记子集。

Top-p 采样，也称为核心采样，是另一种文本生成方法，它从累积概率至少为 p 的标记子集中选择下一个标记。该方法通过考虑令牌的概率和采样的令牌数量来提供多样性和质量之间的平衡。 top-p 的较高值（例如 0.95）将导致文本更加多样化，而较低的值（例如 0.5）将生成更加集中和保守的文本。默认值为 0.9。

用法示例： --top-p 0.95

6.6 无尾采样 (TFS)

–tfs N：使用参数 z 启用无尾采样（默认值：1.0，1.0 = 禁用）。

无尾采样 (TFS) 是一种文本生成技术，旨在减少不太可能的标记对输出的影响，这些标记可能不太相关、不太连贯或无意义。与 Top-P 类似，它尝试动态确定大部分最可能的标记。但 TFS 根据概率的二阶导数过滤掉 logits。当二阶导数之和达到参数 z 后，停止添加标记。简而言之：TFS 查看令牌的概率下降的速度，并使用参数 z 切断不太可能的令牌的尾部。 z 的典型值在 0.9 至 0.95 范围内。值 1.0 将包括所有令牌，从而禁用 TFS 的效果。

使用示例： --tfs 0.95

6.6 局部典型抽样

–typical N：使用参数 p 启用本地典型采样（默认值：1.0，1.0 = 禁用）。

局部典型采样通过对基于周围上下文的典型或预期的标记进行采样，促进上下文连贯且多样化的文本的生成。通过将参数 p 设置在 0 和 1 之间，你可以控制生成局部连贯和多样化的文本之间的平衡。接近 1 的值将促进上下文更加一致的标记，而接近 0 的值将促进更加多样化的标记。等于 1 的值将禁用本地典型采样。

使用示例： --typical 0.9

6.7 Microstat采样

–mirostat N：启用 Mirostat 采样，控制文本生成过程中的困惑（默认值：0，0 = 禁用，1 = Mirostat，2 = Mirostat 2.0）。
–mirostat-lr N：设置Mirostat学习率，参数eta（默认：0.1）。
–mirostat-ent N：设置Mirostat目标熵，参数tau（默认值：5.0）。

Mirostat 是一种在文本生成过程中主动将生成文本的质量保持在所需范围内的算法。它的目的是在连贯性和多样性之间取得平衡，避免由于过度重复（无聊陷阱）或不连贯（混乱陷阱）而导致低质量的输出。

–mirostat-lr 选项设置 Mirostat 学习率 (eta)。学习率影响算法对生成文本反馈的响应速度。较低的学习率将导致调整速度较慢，而较高的学习率将使算法更具响应性。默认值为 0.1。

–mirostat-ent 选项设置 Mirostat 目标熵 (tau)，它表示生成的文本所需的困惑度值。调整目标熵可以让你控制生成文本的连贯性和多样性之间的平衡。较低的值将导致文本更加集中和连贯，而较高的值将导致文本更加多样化且可能不太连贯。默认值为 5.0。

用法示例： --mirostat 2 --mirostat-lr 0.05 --mirostat-ent 3.0

6.8 Logits偏差

-l TOKEN_ID(+/-)BIAS, --logit-bias TOKEN_ID(+/-)BIAS：修改令牌出现在生成的文本完成中的可能性。

logit 偏差选项允许你手动调整特定标记出现在生成文本中的可能性。通过提供令牌 ID 以及正偏差值或负偏差值，可以增加或减少生成该令牌的概率。

例如，使用 --logit-bias 15043+1 增加标记“Hello”的可能性，或使用 --logit-bias 15043-1 降低其可能性。使用负无穷大的值， --logit-bias 15043-inf 确保永远不会生成令牌 Hello。

更实际的用例可能是通过使用 -l 29905-inf 将 \ 令牌 (29905) 设置为负无穷大来防止生成 \code{begin} 和 \code{end}。这是由于 LLaMA 模型推理中出现的 LaTeX 代码普遍存在。

用法示例： --logit-bias 29905-inf

6.9 RNG种子

-s SEED, --seed SEED：设置随机数生成器 (RNG) 种子（默认值：-1，-1 = 随机种子）。

RNG 种子用于初始化影响文本生成过程的随机数生成器。通过设置特定的种子值，你可以使用相同的输入和设置在多次运行中获得一致且可重复的结果。这有助于测试、调试或比较不同选项对生成文本的影响，以了解它们何时出现分歧。如果种子设置为小于 0 的值，则将使用随机种子，这将导致每次运行产生不同的输出。

7、性能调整和内存选项

这些选项有助于提高 LLaMA 模型的性能和内存使用率。通过调整这些设置，你可以微调模型的行为，以更好地适应你的系统功能，并为特定用例实现最佳性能。

7.1 线程数

-t N, --threads N：设置计算期间使用的线程数。为了获得最佳性能，建议将此值设置为系统具有的物理 CPU 核心数（而不是逻辑核心数）。使用正确数量的线程可以极大地提高性能。

7.2 内存锁定模型

–mlock：将模型锁定在内存中，防止在内存映射时被换出。这可以提高性能，但会需要更多 RAM 来运行，并且在模型加载到 RAM 时可能会减慢加载时间，从而牺牲了内存映射的一些优势。

7.3 无内存映射

–no-mmap：不要对模型进行内存映射。默认情况下，模型被映射到内存中，这允许系统根据需要仅加载模型的必要部分。但是，如果模型大于 RAM 总量，或者系统可用内存不足，则使用 mmap 可能会增加页面调出的风险，从而对性能产生负面影响。禁用 mmap 会导致加载时间变慢，但如果不使用 --mlock，则可能会减少页面输出。请注意，如果模型大于 RAM 总量，关闭 mmap 将根本无法加载模型。

7.4 NUMA 支持

–numa：尝试优化，以帮助某些具有非统一内存访问的系统。目前，这包括将相等比例的线程固定到每个 NUMA 节点上的核心，并禁用 mmap 的预取和预读。后者会导致映射页面在第一次访问时出现故障，而不是一次性全部出现故障，并且结合将线程固定到 NUMA 节点，更多页面最终出现在使用它们的 NUMA 节点上。
请注意，如果模型已经在系统页面缓存中，例如由于先前运行时没有此选项，则除非你先删除页面缓存，否则这不会产生什么影响。这可以通过重新启动系统或在 Linux 上以 root 身份将“3”写入 /proc/sys/vm/drop_caches来完成。

7.5 内存浮点32位

–memory-f32：对于内存键+值，使用 32 位浮点数而不是 16 位浮点数。这使上下文内存要求和缓存的提示文件大小增加了一倍，但似乎并没有以可测量的方式提高生成质量。不建议。

7.6 批大小

-b N, --batch-size N：设置提示处理的批处理大小（默认值：512）。这种大的批有利于在构建期间安装并启用 BLAS 的用户。如果你没有启用 BLAS（“BLAS=0”），则可以使用较小的数字（例如 8）来查看在某些情况下评估时的提示进度。

7.7 提示缓存

–prompt-cache FNAME：指定一个文件来缓存初始提示后的模型状态。当使用较长的提示时，这可以显着加快启动时间。该文件在第一次运行期间创建，并在后续运行中重用和更新。注意：恢复缓存的提示并不意味着恢复会话保存时的确切状态。因此，即使指定特定种子，也不能保证你获得与原始生成相同的令牌序列。

7.8 语法

–grammar GRAMMAR、–grammar-file FILE：指定语法（内联或在文件中定义）以将模型输出限制为特定格式。例如，你可以强制模型输出 JSON 或仅使用表情符号说话。有关语法的详细信息，请参阅 GBNF 指南。

7.8 量化

有关 4 位量化的信息，可以显着提高性能并减少内存使用，请参阅 llama.cpp 的主README。

8、其他选项

这些选项在运行 LLaMA 模型时提供额外的功能和自定义：

-h, --help：显示帮助消息，其中显示所有可用选项及其默认值。这对于检查最新选项和默认值特别有用，因为它们可能会经常更改，并且本文档中的信息可能会过时。
–verbose-prompt：在生成文本之前打印提示。
–mtest：通过运行一系列测试来测试模型的功能，以确保其正常工作。
-ngl N, --n-gpu-layers N：当使用适当的支持（当前是 CLBlast 或 cuBLAS）进行编译时，此选项允许将某些层卸载到 GPU 进行计算。通常会提高性能。
-mg i, --main-gpu i：当使用多个 GPU 时，此选项控制哪个 GPU 用于小张量，对于小张量，在所有 GPU 上分割计算的开销是不值得的。相关 GPU 将使用稍多的 VRAM 来存储临时结果的暂存缓冲区。默认情况下使用 GPU 0。需要 cuBLAS。
-ts SPLIT, --tensor-split SPLIT：当使用多个 GPU 时，此选项控制应在所有 GPU 上分割多大的张量。 SPLIT 是一个以逗号分隔的非负值列表，用于指定每个 GPU 应按顺序获取的数据比例。例如，“3,2”会将 60% 的数据分配给 GPU 0，将 40% 的数据分配给 GPU 1。默认情况下，数据按 VRAM 的比例进行分割，但这可能不是最佳的性能。需要 cuBLAS。
-lv, --low-vram：不分配 VRAM 暂存缓冲区来保存临时结果。以牺牲性能（尤其是即时处理速度）为代价来减少 VRAM 使用。需要 cuBLAS。
–lora FNAME：将 LoRA（低阶适应）适配器应用于模型（意味着 --no-mmap）。这使你可以使预训练模型适应特定任务或领域。
–lora-base FNAME：可选模型，用作 LoRA 适配器修改的层的基础。该标志与 --lora 标志结合使用，并指定适应的基本模型。

原文链接：Llama.cpp工具main手册 — BimAnt

大模型或多模态在能源系统优化调度中的应用 u013250861 LLM 能源人工智能
1.大模型在电力调度中的应用GAIA-电力调度大语言模型项目描述:专为电力调度设计的大语言模型，能够处理运行调整、运行监控和黑启动等任务技术特点:基于LLaMA2微调，专门针对电力系统领域优化论文:“Alargelanguagemodelforadvancedpowerdispatch”(NatureScientificReports,2025)GitHub:暂未公开源代码，但论文中提到了完整的技
大模型格式
目录大模型格式：ollma可以加载ggufChatGPT说：什么是GGUF？大模型格式：Ollama模型格式只能运行已打包成.gguf格式的模型，或通过其Modelfile方式构建ModelScope模型格式大多使用HuggingFaceTransformers格式，如.bin、.safetensors，与Ollama不兼容模型加载方式不同Ollama自带封装推理引擎（ggml/llama.cpp
本地部署 Kimi K2 全指南（llama.cpp、vLLM、Docker 三法）迎风斯黄 llama docker 容器 kimi
KimiK2是MoonshotAI于2025年7月11日发布的高性能多专家语言模型（MoE），支持最大128K上下文，激活参数规模为32B，具备极强的推理、代码生成与多轮对话能力。自从其权重以多种格式开源以来，许多开发者希望将其部署在本地，以获得更高的私密性和灵活性。本文将详细介绍三种主流本地部署路径，并提供完整的配置步骤和使用建议。准备工作（通用部分）在进行部署前，请准备如下环境与资源：✅最低硬
大模型本地部署-dify私有化部署-教程
一、简介dify是一个开源的LLM应用开发平台。其直观的界面结合了AI工作流、RAG管道、Agent、模型管理、可观测性功能等，可以让您快速从原型到生产。二、核心功能列表1、工作流：在画布上构建和测试功能强大的AI工作流程。2、全面的模型支持：与数百种专有/开源LLMs以及数十种推理提供商和自托管解决方案无缝集成，涵盖GPT、Mistral、Llama3以及任何与OpenAIAPI兼容的模型。完整
LLM系统性学习完全指南（初学者必看系列） GA琥珀 LLM 学习人工智能语言模型
前言这篇文章将系统性的讲解LLM（LargeLanguageModels,LLM）的知识和应用。我们将从支撑整个领域的数学与机器学习基石出发，逐步剖析自然语言处理（NLP）的经典范式，深入探究引发革命的Transformer架构，并按时间顺序追溯从BERT、GPT-2到GPT-4、Llama及Gemini等里程碑式模型的演进。随后，我们将探讨如何将这些强大的基础模型转化为实用、安全的应用，涵盖对齐
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
【实战AI】macbook M1 本地ollama运行deepseek 东方鲤鱼 chat AI macos ai llama AIGC chatgpt
由于deepseek官网或者Aapi调用会有网络延迟或不响应的情况，故在本地搭建部署；前提条件1.由于需要拉取开源镜像，受网络限制，部分资源在前提中会下载的更快！请自行；2.设备macbookM132G下载ollamaOllama是一款跨平台推理框架客户端（MacOS、Windows、Linux），专为无缝部署大型语言模型（LLM）（如Llama2、Mistral、Llava等）而设计。通过一键式
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
LLaMA 学习笔记 AI算法网奇深度学习基础人工智能深度学习
目录LLaMA模型结构：模型微调手册：推理示例：指定位置加载模型测试ok：模型下载：llama-stack下载modelscope下载LLaMA优化技术RMSNormSwiGLU激活函数旋转位置编码（RoPE）LLaMA模型结构：llama3结构详解-CSDN博客模型微调手册：大模型微调LLaMA详细指南（准备环境、数据、配置微调参数+微调过程）_llama微调-CSDN博客显存占用：FP16/B
LLaMA-Omni 深度解析：打开通往无缝人机语音交互的大门 kakaZhui 前沿多模态大模型：论文与实战 llama 交互 LLM TTS 语音识别语音合成人工智能
一、引言：语音交互大模型今天我们来看语音交互大模型LLaMA-Omni，它由中国科学院计算技术研究所的研究者们推出，是一个基于强大的Llama-3.1-8B-Instruct构建的语音语言模型。LLaMA-Omni不仅实现了低至226ms的惊人交互延迟，还能同时生成高质量的文本与语音回复，真正意义上让大语言模型（LLM）具备了“听说”的能力。这篇博客将带你由浅入深，全方位地探索LLaMA-Omni
llama-factory微调Qwen2.5-7B-instruct实战，看这一篇就够了！！！（含windows和linux）亚伯拉罕·黄肯大模型 llama 人工智能大模型 llamafactory 微调 Qwen
一.安装llama-factoryllama-factort的网站：https://github.com/hiyouga/LLaMA-Factory安装llama-factory很简单，打开github后滑到安装LLaMAFactory跟着步骤走即可。安装LLaMAFactorygitclone--depth1https://github.com/hiyouga/LLaMA-Factory.git
在LLM快速迭代时代构建持久AI应用：架构设计与实施策略
引言：技术浪潮下的开发困境大型语言模型(LLM)的发展速度令人瞠目：从GPT-3到GPT-4，从Claude1到Claude3，从Llama1到Llama3，迭代周期正在从"年"缩短到"月"。作为一名AI应用开发者，我亲身经历了这种技术浪潮带来的挑战：昨天精心调优的prompt今天可能失效；上个季度集成的模型这个季度已有更优选择；刚完成的功能设计瞬间被新模型的能力超越。在如此快速变化的环境中，如何
零代码玩转大模型！LLaMA Factory：你的专属模型精修师 jane_xing 人工智能 llama
你是否曾对大语言模型（LLM）的强大能力心驰神往，却苦于以下难题？想定制专属模型？微调代码看不懂，环境配置太复杂…硬件资源有限？动辄需要数张A100，普通设备望而却步…中文任务不给力？原生模型中文理解弱，效果难达预期…部署门槛高？模型优化、压缩、服务化步步是坎？好消息是：LLaMAFactory来拯救你啦！它就像一家功能齐全的“模型精修店”，让你无需深厚AI功底，也能轻松定制、优化和部署大模型！一
大模型 Agent（智能体）技术简介北京地铁1号线自然语言处理与大语言模型大模型语言模型 Agent
大模型Agent（智能体）技术是当前人工智能领域的前沿方向，它赋予大型语言模型（LLM）自主感知、规划、决策和行动的能力，使其不再局限于“被动应答”，而是能主动完成复杂任务。简单来说，Agent是一个以LLM为“大脑”的自主智能系统，能够理解目标、使用工具、与环境交互并最终解决问题。一、为什么需要Agent？——大模型的局限与Agent的使命传统的大语言模型（如GPT-4、Claude、Llama
MiniMind：3小时训练26MB微型语言模型，开源项目助力AI初学者快速入门 nine是个工程师关注人工智能语言模型开源
开发｜界面｜引擎｜交付｜副驾——重写全栈法则：AI原生的倍速造应用流来自全栈程序员nine的探索与实践，持续迭代中。欢迎关注评论私信交流~在大型语言模型(LLaMA、GPT等)日益流行的今天，一个名为MiniMind的开源项目正在AI学习圈内引起广泛关注。这个项目让初学者能够在3小时内从零开始训练出一个仅26.88MB大小的微型语言模型，体积仅为GPT-3的七千分之一，却完整覆盖了从数据处理到模型
人工智能开源的大模型训练微调框架LLaMA-Factory
LLaMA-Factory是一个开源的大模型训练微调框架，具有模块化设计和多种高效的训练方法，能够满足不同用户的需求。用户可以通过命令行或Web界面进行操作，实现个性化的语言模型微调。LLaMA-Factory是一个专注于高效微调LLaMA系列模型的开源框架（GitHub项目地址：https://github.com/hiyouga/LLaMA-Factory）。它以极简配置、低资源消耗和对中文任
TensorRT-LLM：大模型推理加速引擎的架构与实践
前言：技术背景与发展历程：随着GPT-4、LLaMA等千亿级参数模型的出现，传统推理框架面临三大瓶颈：显存占用高（单卡可达80GB）、计算延迟大（生成式推理需迭代处理）、硬件利用率低（Transformer结构存在计算冗余）。根据MLPerf基准测试，原始PyTorch推理的token生成速度仅为12.3tokens/s（A100显卡）。一、TensorRT-LLM介绍：TensorRT-LLM是
【LLM】Llama-Index 架构 FOUR_A LLM llama 架构
数据源（DataSources）PDF/文档数据库API网页音频/视频知识库自定义源数据连接器（DataConnectors）用于从各种数据源提取和加载数据，以便进行索引和查询。1.SimpleDirectoryReader含义：简单目录读取器。功能：主要用于读取本地文件系统中的目录内容。它可以列出目录中的文件和子目录，通常用于文件管理或数据预处理阶段。例如，在一个数据处理项目中，你可能需要列出某
AI初学者如何对大模型进行微调？——零基础保姆级实战指南
仅需8GB显存，三步完成个人专属大模型训练四步实战：从环境配置到模型发布步骤1：云端环境搭建（10分钟）推荐使用阿里魔塔ModelScope免费GPU资源：#注册后执行环境初始化pip3install--upgradepippip3installbitsandbytes>=0.39.0gitclone--depth1https://github.com/hiyouga/LLaMA-Factory.
「论文导读」LLM高效推理与模型量化雷羿 LexChien prompt 人工智能 LLM 论文阅读
1.论文背景作者：HugoTouvron等人，來自MetaAI来源：arXiv:2302.13971，2023年2月主题：介绍LLaMA系列模型（LLaMA-7B、13B、33B、65B），专为研究用途设计，强调高效能与低资源需求的语言模型推理。论文探讨如何通过优化训练数据、模型架构和推理技术，在有限硬体资源（如单一GPU或CPU）上实现高效推理。学术背景：随着大型语言模型（LLM）如GPT-3的
【深度学习新浪潮】什么是上下文长度？小米玄戒Andrew 深度学习新浪潮深度学习人工智能 LLM 语言模型大模型模型优化上下文长度
大型语言模型（LLM）的上下文长度是指模型在处理当前输入时能够有效利用的历史文本长度，通常以token（如单词、子词或标点）为单位衡量。例如，GPT-4支持128Ktoken的上下文，而Llama4Scout甚至达到了10Mtoken的惊人规模。这一指标直接影响模型在长文档理解、多轮对话等复杂任务中的表现。一、上下文长度的合理范围上下文长度的选择需结合具体应用场景：日常对话：通常需要8K–32Kt
大模型开源与国产化突围：技术路径与产业机遇深度解析梦玄海开源架构 golang 开发语言后端大数据
引言：大模型时代的双轨竞速2023年全球大语言模型（LLM）参数量突破万亿级，GPT-4、LLaMA等模型引领技术浪潮。中国在这场竞赛中面临双重命题：既要融入全球开源生态，又要构建自主可控的技术体系。本文将从技术架构、训练范式、生态建设三个维度，深入剖析大模型开源与国产化的突围路径。一、全球开源格局与中国大模型现状1.1国际开源生态的演进特征技术民主化加速：LLaMA-2（700亿参数）、BLOO
大语言模型（LLM）课程学习（Curriculum Learning）、数据课程（data curriculum）指南：从原理到实践
在人工智能的浪潮之巅，我们总会惊叹于GPT-4、Llama3.1、Qwen2.5这些顶尖大语言模型（LLM）所展现出的惊人能力。它们似乎无所不知，能写诗、能编程、能进行复杂的逻辑推理。一个自然而然的问题是：它们是如何“学”会这一切的？大多数人会回答：“用海量数据喂出来的。”这个答案只说对了一半。如果你认为只要把互联网上能找到的所有数据（比如15万亿个token）随机打乱，然后“一锅烩”地喂给模型，
量子计算+AI芯片：光子计算如何重构神经网络硬件生态
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站量子计算+AI芯片：光子计算如何重构神经网络硬件生态——2025年超异构计算架构下的万亿参数模型训练革命产业拐点：英伟达BlackwellUltra发布光互连版GPU，IBM量子处理器突破512比特，光子计算商用成本降至$5/TOPS实测突破：Llama3-405B在光子-量子混合集群训练能耗下
llama-cpp-python使用教程 try2find llama python 开发语言
以下是llama-cpp-python的完整使用教程，涵盖安装、基础用法、高级功能（如GPU加速、多模态等）和常见问题解决。1.安装1.1基础安装（CPU版）pipinstallllama-cpp-python-ihttps://pypi.tuna.tsinghua.edu.cn/simple1.2启用GPU加速（CUDA）CMAKE_ARGS="-DGGML_CUDA=ON"pipinstall
10.2 ChatGPT自动生成训练数据实战：37.2%准确率提升秘籍少林码僧掌握先机！从 0 起步实战 AI 大模型微调打造核心竞争力 chatgpt 人工智能机器学习语言模型
ChatGPT自动生成训练数据实战：37.2%准确率提升秘籍使用ChatGPT自动设计生成训练数据的Prompt在大模型微调场景中，高质量训练数据的获取往往是制约模型效果的核心瓶颈。根据2023年GoogleResearch的实证研究，使用GPT-4生成的合成数据对LLaMA2进行微调，能达到人工标注数据85%的效果水平。本章将揭秘如何通过ChatGPT自动生成适配ChatGLM3的微调数据。一、
Go 语言实现本地大模型聊天机器人：从推理到 Web UI 的全流程雷羿 LexChien Go golang 机器人前端
接续Go-LLM-CPP专案，继续扩充前端聊天室功能一.专案目录架构：go-llm-cpp/├──bin/#第三方依赖│├──go-llama.cpp/#封裝GGUF模型推理（CGo）│└──llm-go/#prompt构建+回合管理（Go）│├──cmd/#可执行应用│└──main.go#CLI/HTTPserver入口点│├──config/│└──persona.yaml#人格模板（系统p
【技术派专享】并行智算云：RTX 5090 免费算力深度评测 + 实战指南▎ 为什么开发者需要关注云端算力？山顶望月川人工智能云计算
在微调Llama3、训练扩散模型或跑Kaggle比赛时，本地显卡（比如RTX3090/4090）常面临显存不足、训练慢、散热差等问题。而购买多卡服务器成本极高（一台8×A100机器年成本超20万），对个人和小团队极不友好。并行智算云近期推出的“开发者扶持计划”，提供RTX5090免费算力（显存32GB，FP32算力60TFLOPS），实测比4090训练速度快1.8倍，且支持多卡并行。下面从技术优势
Llama改进之——RoPE旋转位置编码愤怒的可乐 NLP项目实战 #LLaMA RoPE 旋转位置编码
引言旋转位置编码(RotaryPositionEmbedding,RoPE)将绝对相对位置依赖纳入自注意力机制中，以增强Transformer架构的性能。目前很火的大模型LLaMA、QWen等都应用了旋转位置编码。之前在[论文笔记]ROFORMER中对旋转位置编码的原始论文进行了解析，重点推导了旋转位置编码的公式，本文侧重实现，同时尽量简化数学上的推理，详细推理可见最后的参考文章。复数与极坐标复数
Llama改进之——分组查询注意力愤怒的可乐 #NLP项目实战自然语言处理 llama 深度学习人工智能分组查询注意力旋转位置编码
引言今天介绍LLAMA2模型引入的关于注意力的改进——分组查询注意力(Grouped-queryattention,GQA)1。Transformer中的多头注意力在解码阶段来说是一个性能瓶颈。多查询注意力2通过共享单个key和value头，同时不减少query头来提升性能。多查询注意力可能导致质量下降和训练不稳定，因此常用的是分组查询注意力。然后我们结合上篇文章3探讨的旋转位置编码，将选择位置编
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D

Llama.cpp工具main使用手册

1、快速开始

2、常用选项

3、输入提示

4、与模型交互

4.1 交互选项

4.2 反向提示

4.3 In-Prefix

4.4 In-Suffix

4.5 指令模式

5、上下文管理

5.1 上下文大小

5.2 扩展的上下文大小

5.3 保持提示

6、生成相关选项

6.1 要预测的令牌数量

6.2 温度

6.3 重复惩罚

6.4 Top-K 采样

6.5 Top-P 采样

6.6 无尾采样 (TFS)

6.6 局部典型抽样

6.7 Microstat采样

6.8 Logits偏差

6.9 RNG种子

7、性能调整和内存选项

7.1 线程数

7.2 内存锁定模型

7.3 无内存映射

7.4 NUMA 支持

7.5 内存浮点32位

7.6 批大小

7.7 提示缓存

7.8 语法

7.8 量化

8、其他选项

你可能感兴趣的:(llama)