GGUF

量化方案不如 GGUF 灵活

safetensors格式是HuggingFace的transformers库使用的默认序列化格式。它在开源社区中广泛用于共享、训练、微调和部署AI模型。HuggingFace上发布的新模型都以safetensors格式存储，包括Llama、Gemma、Phi、Stable-Diffusion、Flux等许多模型。有用资源：transformers库关于保存和加载模型的文档。bitsandbyte

·2025-04-23 04:57

GUF 最初是为 llama.cpp 项目开发的

GGUF最初是为llama.cpp项目开发的。GGUF是一种二进制格式，旨在实现快速的模型加载和保存，并易于阅读。模型通常使用PyTorch或其他框架开发，然后转换为GGUF格式以与GGML一起使用。

·2025-04-23 00:21

ollama导入自己微调后的模型胡言乱语

1.ollama导入自己微调后的模型胡言乱语原因：Modelfile的模板格式不对，对的如下所示##格式0FROMtinyllama-my-model.gguf###SetthesystemmessageSYSTEM

fc&&fl·2025-04-13 00:35

ollama轻松拉取huggingface上的大模型

要使用Ollama拉取HuggingFace上的大模型，你可以按照以下步骤操作：升级Ollama：确保你的Ollama是最新版本，因为新版本支持直接运行HuggingFace上的GGUF格式模型。

Ven%·2025-04-08 23:02

llama-本地推理大模型多模型同时运行

单模型llama-server.exe-m"G:\AI-AI\LLM\stablediffusionv2.gguf"--port8081多模型llama-server.exe--config_file{

未来之窗软件服务·2025-04-04 04:29

Hugging Face 模型格式全解析：从 PyTorch 到 GGUF

HuggingFace模型格式全解析：从PyTorch到GGUFHuggingFace生态支持多种模型格式，以满足不同场景下的存储、部署和推理需求。以下是主流格式的技术解析与演进脉络：1.PyTorch原生格式（.pt/.pth）特性：直接保存PyTorch的state_dict（模型参数）或完整模型（含结构）。兼容性强，与PyTorch训练/推理流程深度集成。文件体积较大，加载速度较慢，存在安全

mingo_敏·2025-03-20 17:37

GGUF量化模型技术解析与DeepSeek-R1-Distill-Llama-8B选型指南

```markdown#【完全指南】GGUF量化技术与DeepSeek-R1模型选型：从入门到部署##什么是模型量化？

每天三杯咖啡·2025-03-20 16:29

HuggingFace下载模型并导入Ollama指南

并且，一般为了快速部署，会选择Ollama这类管模型管理工具，类似Docker引擎一样，但是Ollama支持的模型镜像格式（如GGUF）HuggingFac

Repetion_Maxumim·2025-03-15 14:00

llama.cpp编译

-Bbuild2.下载模型验证#下载地址https://huggingface.co/filipealmeida/open-llama-7b-v2-open-instruct-GGUF/blob/main

1nv1s1ble·2025-03-11 10:10

基于llama_cpp 调用本地模型（llama）实现基本推理

背景llama_cpp是一个基于C++的高性能库（llama.cpp）的Python绑定，支持在CPU或GPU上高效运行LLaMA及其衍生模型（如LLaMA2），并通过量化技术（如GGUF格式）优化内存使用

月光技术杂谈·2025-03-11 10:40

llama.cpp框架下GGUF格式及量化参数全解析

其中，GGUF格式和模型量化参数是实现高效推理的重要技术手段。本文将对`llama.cpp`框架下的GGUF格式及量化参数进行详细解析，帮助读者更好地理解和应用这些技术

Black_Rock_br·2025-03-11 06:40

Ollama Modelfile详解及验证

Modelfile2.2.1llama3.2Modelfile2.2.2Deepseek-r1:1.5bModelfile3指令3.1FROM(Required)3.1.1从现有模型构建3.1.2从Safetensors模型构建3.1.3从GGUF

Karl_zhujt·2025-03-10 03:50

模型优化之强化学习（RL）与监督微调（SFT）的区别和联系

想了解有关deepseek本地训练的内容可以看我的文章：本地基于GGUF部署的DeepSeek实现轻量级调优之一：提示工程（PromptEngineering）（完整详细教程）_deepseekgguf-CSDN

搏博·2025-03-02 10:08

Open WebUI：开源AI交互平台的全面解析

提供直观的聊天界面设计跨平台响应式设计:完美适配桌面/移动端即时响应:毫秒级响应速度富文本支持:代码语法高亮完整Markdown/LaTeX渲染语音输入支持（支持静音自动提交）模型管理多模型切换:支持不同LLM模型即时切换GGUF

·2025-03-01 06:17

【deepseek】deepseek-r1本地部署-第三步：下载模型

二、操作1、LMStudio开发模式切换模式名字PowerUser2、下载模型模型名字DeepSeek-R1-Distill-Llama-8B-GGUF3、下载完成三、总结按需选择合适的bit的模型，否则会跑不动

Evenurs·2025-03-01 02:45

Open WebUI：开源AI交互平台的全面解析

提供直观的聊天界面设计跨平台响应式设计:完美适配桌面/移动端即时响应:毫秒级响应速度富文本支持:代码语法高亮完整Markdown/LaTeX渲染语音输入支持（支持静音自动提交）模型管理多模型切换:支持不同LLM模型即时切换GGUF

·2025-03-01 01:42

GGUF 文件格式全解析

GGUF（GGMLUniversalFormat）作为一种新兴的二进制文件格式，旨在解决传统GGML及其衍生格式（如GGMF和GGJT）的局限性，为模型推理提供更高效、更灵活的解决方案。

Just_Paranoid·2025-02-26 22:25

：GGUF、GPTQ 还是 AWQ

：GGUF、GPTQ还是AWQ1.GGUF：(GPT-GeneratedUnifiedFormat,GPT生成的统一格式)GGUF是GGML的后继者，由llama.cpp团队推出。

GordonJK·2025-02-22 05:38

AI 模型的优化与应用：大模型本体、蒸馏、量化与 GGUF

本文将探讨大模型本体（FullModel）、蒸馏（Distillation）、量化（Quantization）和GGUF（GPT-GeneratedUnifiedFormat）等优化技术，并分析它们的区别

CCSBRIDGE·2025-02-21 23:15

【大语言模型_3】ollama本地加载deepseek模型后回答混乱问题解决

解决方法重新下载模型，选择了DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf重新编写ds7b.mf文件，文件内容如下：FROM/root/zml/DeepSe

没枕头我咋睡觉·2025-02-20 21:54

本地DeepSeek模型GGUF文件转换为PyTorch格式

接前文，我们在本地Windows系统上，基于GGUF文件部署了DeepSeek模型（DeepSeek-R1-Distill-Qwen-1.5B.gguf版本），但是GGUF是已经量化的版本，我们除了对其进行微调之外

搏博·2025-02-16 14:48

大模型转换为 GGUF

一、GGUF介绍GGUF格式的全名为（GPT-GeneratedUnifiedFormat），提到GGUF就不得不提到它的前身GGML（GPT-GeneratedModelLanguage）。

奔跑中的小象·2025-02-15 22:48

win10 llamafactory模型微调相关① || Ollama运行微调模型

2.Ollama加载GGUF模型文件微调相关1.微调结果评估【06】LLaMA-Factory微调大模型——微调模型评估_llamafactory评估-CSDN博客2.模型下载到本地通义千问2.5-3B-Instruct

我的巨剑能轻松搅动潮汐·2025-02-12 22:31

【大模型部署及其应用】Ollama搭建运行中文大语音模型Llama3-8B-Chinese-Chat

上搭建和运行中文大语言模型Llama3-8B-Chinese-Chat的步骤：下载地址：https://huggingface.co/shenzhi-wang/Llama3-8B-Chinese-Chat-GGUF

源代码杀手·2025-02-11 18:34

[python]读取大模型.gguf后缀文件

1、首先安装gguf包pipinstallgguf2、运行以下代码，把路径改成自己的gguf文件路径即可。

孙奶奶爱吃溜溜梅·2025-02-10 01:09

AI大模型：一文搞懂大模型文件存储格式新宠GGUF

本文大介绍大模型文件存储格式新宠GGUF，目前HuggingfaceTransformers已经支持了GGUF格式，同时，像谷歌的Gemma、阿里的Qwen等模型默认已经提供了GGUF格式

Llama-Turbo·2025-02-10 01:37

理解大模型：FP32、FP16、TF32、BF16、混合精度

这个其实是指的GGUF模型的量化级别。量化级别决定于模型根据质量和准确性定义的值（ggml_type）。在GGUF规范中，值列表如下GGUF自身又有多种格式，主要区别在于浮点数的位数和量化的方式。

·2025-02-04 18:36

大模型文件格式GGUF格式

GGUF简介当前的大模型的参数规模较大，数以千亿的参数导致了它们的预训练结果文件都在几十GB甚至是几百GB，这不仅导致其使用成本很高，在不同平台进行交换也非常困难。

·2025-02-04 18:36

DeepSeek R1 Ollama本地化部署全攻略：三步实现企业级私有化大模型部署

本文将深入讲解如何将HuggingFace格式的DeepSeekR1模型转换为Ollama支持的GGUF格式，并实现企业级的高可用部署方案。文章包含完整的量化配置、API服务集成和性能优化技巧。

Coderabo·2025-02-02 00:45

【笔记】linux离线部署Ollama+Deepseek r1+open webui

昨天看到了实验室服务器文件夹下面有一个deepseek的gguf文件，就顺便部署一下至于为什么要本地呢？

MrIqzd·2025-01-31 18:35

Ubuntu上如何优雅下载huggingface上某个gguf模型文件

OS:Ubuntu22.04LTS需求：下载GorillaOpenfunctionsV2Q2GGUF模型到本地https://huggingface.co/gorilla-llm/gorilla-openfunctions-v2

晨欣·2025-01-31 08:40

GGUF 大模型文件格式

1.基础原理GGUF简介当前的大模型的参数规模较大，数以千亿的参数导致了它们的预训练结果文件都在几十GB甚至是几百GB，这不仅导致其使用成本很高，在不同平台进行交换也非常困难。

香菜烤面包·2025-01-31 07:04

ollama把huggingface下载下来的模型转换为gguf

说明ollama导入从huggingface下载下来的模型在ollama的说明文档中有详细的介绍,大家可以按照文档说明进行操作。importing-pytorch–safetensors。既然官方已经给出了明确的操作步骤，那么我写这篇博客的意义又是什么呢？主要有两个目的：1.我的操作可能更适合中国宝宝体质2.方便后期自己查看要求建议使用conda管理python环境建议使用linux或mac环境，

abments·2025-01-31 07:34

【教程】Ollama 部署 MindSpore 训练的大模型

gguf-mindspore本项目（gguf-mindspore）帮助用户快速的将MindSpore生成的大模型的ckpt文件，转换为Ollama可以加载的GGUF格式文件，主要思路是针对已有的如Huggingface

Hsiayukoo·2025-01-22 05:48

python调用ollama库详解

0准备1）准备Ollama软件（注意：两个不是同一个东西）详见上次的文章Ollama通过gguf文件加载AI模型（补充：关于Ollama加载AI模型的补充）2）准备ollama库如果您还未安装ollama

2201_75335496·2025-01-18 19:36

llama.cpp本地部署大模型

llama.cpp是一个C++库，用于简化LLM推理的设置，它使得在本地机器上运行大模型（GGUF格式）成为可能。

张兆坤的那些事·2024-09-11 00:00

python调用ollama库详解

0准备1）准备Ollama软件（注意：两个不是同一个东西）详见上次的文章Ollama通过gguf文件加载AI模型（补充：关于Ollama加载AI模型的补充）2）准备ollama库如果您还未安装ollama

2201_75335496·2024-09-07 22:51

大模型中 .safetensors 文件、.ckpt文件、.gguf和.pth以及.bin文件区别、加载和保存以及转换方式

在大模型中，.safetensors、.ckpt、.gguf、.pth和.bin文件都是用于保存和加载模型参数的文件格式，它们之间的区别和转换方式如下：.safetensors文件：这是TensorFlow2

nanshaws·2024-09-05 07:22

探索GGUF：利用llama.cpp高效运行大型语言模型

探索GGUF：利用llama.cpp高效运行大型语言模型在人工智能领域，大型语言模型（LLM）的应用越来越广泛，但运行这些模型常常需要大量计算资源和复杂的配置。

Chen_Chance·2024-08-28 05:27

开源大预言模型中的GGUF和GGML格式分别是什么意思

GGUF和GGML是用于存储推断模型的文件格式，特别是在语言模型如GPT（生成式预训练变换器）的背景下。让我们探讨一下它们之间的关键区别，以及各自的优缺点。

soragui·2024-02-06 12:14

大语言模型量化方法对比：GPTQ、GGUF、AWQ

原文：大语言模型量化方法对比：GPTQ、GGUF、AWQ-知乎在过去的一年里，大型语言模型(llm)有了飞速的发展，在本文中，我们将探讨几种(量化)的方式，除此以外，还会介绍分片及不同的保存和压缩策略。

javastart·2024-02-02 17:48

合并多个大语言模型文件的方法

合并多个大语言模型文件的方法1.合并多个大语言模型文件的方法1.合并多个大语言模型文件的方法运行下面命令，（示例）LinuxandmacOS:catswallow-70b-instruct.Q6_K.gguf-split

engchina·2024-01-14 21:50

构建自己的私人GPT-支持中文

privateGPT本地部署目前只支持基于llama.cpp的gguf格式模型，GGUF是llama.cpp团队于2023年8月21日推出的一种新格式。

崎山小鹿·2024-01-11 01:54

大语言模型量化方法对比：GPTQ、GGUF、AWQ

在过去的一年里，大型语言模型(llm)有了飞速的发展，在本文中，我们将探讨几种(量化)的方式，除此以外，还会介绍分片及不同的保存和压缩策略。说明：每次加载LLM示例后，建议清除缓存，以防止出现OutOfMemory错误。delmodel,tokenizer,pipeimporttorchtorch.cuda.empty_cache()如果在jupyter中无法释放显存，请重启这个jupyterno

deephub·2023-11-20 12:49

【个人笔记本】本地化部署类chatgpt模型详细流程

静待缘起·2023-09-19 04:53

本地部署CodeLlama +GTX1080显卡对接open-interpreter对接wxbot（一）

GitHub-oobabooga/text-generation-webui:AGradiowebUIforLargeLanguageModels.Supportstransformers,GPTQ,llama.cpp(GGUF

三块钱0794·2023-09-15 13:24

微信机器人之：pycharm 和 python3.6.8 和 itchat 开发环境配置

//www.jetbrains.com/pycharm/download/#section=windows2、我自己网盘的破解版：链接：https://pan.baidu.com/s/1N6tswI3gGUF-OrUqI9ZGzQ

勇往直前996·2020-08-19 21:28

推荐频道

GGUF

量化方案不如 GGUF 灵活

GUF 最初是为 llama.cpp 项目开发的

ollama导入自己微调后的模型胡言乱语

ollama轻松拉取huggingface上的大模型

llama-本地推理大模型多模型同时运行

Hugging Face 模型格式全解析：从 PyTorch 到 GGUF

GGUF量化模型技术解析与DeepSeek-R1-Distill-Llama-8B选型指南

HuggingFace下载模型并导入Ollama指南

llama.cpp编译

基于llama_cpp 调用本地模型（llama）实现基本推理

llama.cpp框架下GGUF格式及量化参数全解析

Ollama Modelfile详解及验证

模型优化之强化学习（RL）与监督微调（SFT）的区别和联系

Open WebUI：开源AI交互平台的全面解析

【deepseek】deepseek-r1本地部署-第三步：下载模型

Open WebUI：开源AI交互平台的全面解析

GGUF 文件格式全解析

：GGUF、GPTQ 还是 AWQ

AI 模型的优化与应用：大模型本体、蒸馏、量化 与 GGUF

【大语言模型_3】ollama本地加载deepseek模型后回答混乱问题解决

本地DeepSeek模型GGUF文件转换为PyTorch格式

大模型转换为 GGUF

win10 llamafactory模型微调相关① || Ollama运行微调模型

【大模型部署及其应用 】Ollama搭建运行中文大语音模型Llama3-8B-Chinese-Chat

[python]读取大模型.gguf后缀文件

AI大模型：一文搞懂大模型文件存储格式新宠GGUF

理解大模型：FP32、FP16、TF32、BF16、混合精度

大模型文件格式GGUF格式

DeepSeek R1 Ollama本地化部署全攻略：三步实现企业级私有化大模型部署

【笔记】linux离线部署Ollama+Deepseek r1+open webui

Ubuntu上如何优雅下载huggingface上某个gguf模型文件

GGUF 大模型文件格式

ollama把huggingface下载下来的模型转换为gguf

【教程】Ollama 部署 MindSpore 训练的大模型

python调用ollama库详解

llama.cpp本地部署大模型

python调用ollama库详解

大模型中 .safetensors 文件、.ckpt文件、.gguf和.pth以及.bin文件区别、加载和保存以及转换方式

探索GGUF：利用llama.cpp高效运行大型语言模型

开源大预言模型中的GGUF和GGML格式分别是什么意思

大语言模型量化方法对比：GPTQ、GGUF、AWQ

合并多个大语言模型文件的方法

构建自己的私人GPT-支持中文

大语言模型量化方法对比：GPTQ、GGUF、AWQ

【个人笔记本】本地化部署 类chatgpt模型 详细流程

本地部署CodeLlama +GTX1080显卡 对接open-interpreter对接wxbot（一）

微信机器人之：pycharm 和 python3.6.8 和 itchat 开发环境配置

AI 模型的优化与应用：大模型本体、蒸馏、量化与 GGUF

【大模型部署及其应用】Ollama搭建运行中文大语音模型Llama3-8B-Chinese-Chat

【个人笔记本】本地化部署类chatgpt模型详细流程

本地部署CodeLlama +GTX1080显卡对接open-interpreter对接wxbot（一）