Local Deploy

大模型本地部署中心

从个人电脑跑开源模型，到企业内网提供 OpenAI 兼容 API，这里把常见路线、硬件建议和部署命令放在一起。

Routes

四条部署路线

最快上手

适合个人电脑、内部演示和轻量应用。命令少、模型库丰富，默认提供本地 HTTP API。

生产 API

适合把开源模型部署成 OpenAI 兼容 API，并支持更高吞吐、更好的并发和服务化运维。

极致兼容

适合 CPU、Apple Silicon、低显存机器和离线部署。GGUF 量化模型能显著降低硬件门槛。

企业集成

适合把多个本地模型、嵌入模型、图像/语音能力和统一 API 管起来，方便团队使用。

Hardware

实际占用会受量化、上下文长度、batch size 和并发影响，下面按常见个人/小团队场景估算。

8GB 显存

优先 3B-7B 量化模型，适合轻量聊天、摘要、分类和本地开发测试。

Gemma 4B Qwen 4B/7B

16GB 显存

可尝试 7B-14B 量化模型，适合中文助手、知识库和较稳定的办公场景。

Qwen 14B DeepSeek Distill 8B

24GB 显存

进入小型生产 API 的起点，适合 14B-32B 量化模型和较低并发服务。

Qwen 32B Llama 70B 量化

48GB+ 显存

适合 32B-70B 模型、更长上下文和多人并发，建议使用 vLLM/TGI 服务化。

Qwen 72B Mistral Large

Checklist

确认 GPU 驱动、Docker、模型授权、数据存储路径、外网下载权限和 API 鉴权策略，再对外暴露服务。