Ollama是当前GitHub最热门的开源项目之一(⭐50k+),它让开发者能在本地电脑上一键运行Llama3、Mistral等主流大语言模型。相比需要昂贵GPU的云端方案,Ollama的优势在于:
实测数据:在M1 Macbook Pro上运行Llama3-8B模型,响应速度可达15-20 tokens/秒,完全满足日常开发需求
# 管理员模式运行PowerShell
winget install ollama
ollama run llama3 # 自动下载最新版Llama3
# 使用Homebrew一键安装
brew install ollama
# 启动服务(会常驻后台)
ollama serve
# 新开终端窗口运行模型
ollama run mistral
# Ubuntu/Debian
curl -fsSL https://ollama.com/install.sh | sh
# 运行中文优化模型
ollama run qwen:7b
常见问题排查:
sudo lsof -i :11434
查看占用进程ollama pull --insecure registry.ollama.ai/library/llama3
# 先安装Python SDK
pip install ollama
# 代码自动补全示例
response = ollama.generate(
model='codellama:7b',
prompt='用Python实现快速排序,要求:1.添加类型注解 2.包含单元测试'
)
print(response['text'])
# 加载自定义知识库(PDF/Word/TXT)
ollama create mykb -f ./Modelfile
# Modelfile内容示例:
FROM llama3
SYSTEM """
你是一个医疗助手,请根据以下知识回答:
{{ 读取./medical.txt }}
"""
// 同时比较两个模型的输出差异
const models = ['llama3', 'mistral'];
for (const model of models) {
const res = await fetch('http://localhost:11434/api/generate', {
method: 'POST',
body: JSON.stringify({
model,
prompt: "用幽默的方式解释量子力学"
})
});
console.log(`==== ${model} ====`);
for await (const chunk of res.body) {
process.stdout.write(JSON.parse(chunk).response);
}
}
# 使用4-bit量化版本(体积缩小70%)
ollama pull llama3:8b-instruct-q4_0
# 查看CUDA版本
nvidia-smi
# 启动时指定GPU
OLLAMA_NO_CUDA=0 ollama run llama3
# 限制显存使用(适合低配设备)
OLLAMA_GPU_MEMORY_UTILIZATION=0.5 ollama serve
version: '3'
services:
ollama:
image: ollama/ollama
ports:
- "11434:11434"
volumes:
- ./models:/root/.ollama
gateway:
image: nginx
configs:
- source: ollama_proxy.conf
// Spring Boot集成示例
@RestController
public class AIController {
@PostMapping("/ask")
public String ask(@RequestBody String question) {
String cmd = String.format("ollama run llama3 \"%s\"", question);
return Runtime.getRuntime().exec(cmd).inputStream().readAllBytes();
}
}
模型名称 | 大小 | 适用场景 | 推荐版本 |
---|---|---|---|
Llama3 | 8B/70B | 通用任务 | instruct-q4 |
Mistral | 7B | 代码生成 | instruct |
Gemma | 2B/7B | 移动端部署 | it-q5 |
Phi-3 | 3.8B | 数学推理 | mini-128k |
Qwen | 7B | 中文处理 | chat-q4 |
OLLAMA_HOST=mirror.ollama.ai ollama pull...
sudo fallocate -l 8G /swapfile
export LANG=zh_CN.UTF-8
Ollama正在重塑本地AI应用的开发方式。某电商企业采用Ollama+Llama3构建智能客服后,响应速度提升4倍,月度运维成本降低80%。现在就开始你的本地AI之旅吧!
延伸阅读:
Q&A:你在使用Ollama时遇到什么问题?欢迎评论区留言,点赞最高的3个问题将获得作者1v1解决方案!