Local Deploy

大模型本地部署中心

从个人电脑跑开源模型,到企业内网提供 OpenAI 兼容 API,这里把常见路线、硬件建议和部署命令放在一起。

Routes

四条部署路线

最快上手

Ollama 桌面/单机

适合个人电脑、内部演示和轻量应用。命令少、模型库丰富,默认提供本地 HTTP API。

  • 推荐模型:Qwen、Gemma、DeepSeek-R1、Llama
  • 适合硬件:Apple Silicon、Windows、Linux
  • 主要用途:聊天、摘要、知识库原型
生产 API

vLLM / TGI 推理服务

适合把开源模型部署成 OpenAI 兼容 API,并支持更高吞吐、更好的并发和服务化运维。

  • 推荐模型:Qwen、Llama、Mistral、DeepSeek Distill
  • 适合硬件:NVIDIA GPU 24GB 起步
  • 主要用途:企业 API、Agent、批处理
极致兼容

llama.cpp + GGUF

适合 CPU、Apple Silicon、低显存机器和离线部署。GGUF 量化模型能显著降低硬件门槛。

  • 推荐模型:Gemma GGUF、Qwen GGUF、Llama GGUF
  • 适合硬件:CPU、Mac、轻量 GPU
  • 主要用途:端侧、内网、低成本推理
企业集成

LocalAI / Open WebUI / 网关

适合把多个本地模型、嵌入模型、图像/语音能力和统一 API 管起来,方便团队使用。

  • 推荐组合:LocalAI + WebUI + 向量数据库
  • 适合硬件:CPU 到多 GPU 集群
  • 主要用途:私有知识库、内部助手、PoC

Hardware

硬件选择建议

实际占用会受量化、上下文长度、batch size 和并发影响,下面按常见个人/小团队场景估算。

8GB 显存

优先 3B-7B 量化模型,适合轻量聊天、摘要、分类和本地开发测试。

Gemma 4B Qwen 4B/7B
16GB 显存

可尝试 7B-14B 量化模型,适合中文助手、知识库和较稳定的办公场景。

Qwen 14B DeepSeek Distill 8B
24GB 显存

进入小型生产 API 的起点,适合 14B-32B 量化模型和较低并发服务。

Qwen 32B Llama 70B 量化
48GB+ 显存

适合 32B-70B 模型、更长上下文和多人并发,建议使用 vLLM/TGI 服务化。

Qwen 72B Mistral Large

Checklist

部署前检查

确认 GPU 驱动、Docker、模型授权、数据存储路径、外网下载权限和 API 鉴权策略,再对外暴露服务。