Ollama 桌面/单机
适合个人电脑、内部演示和轻量应用。命令少、模型库丰富,默认提供本地 HTTP API。
- 推荐模型:Qwen、Gemma、DeepSeek-R1、Llama
- 适合硬件:Apple Silicon、Windows、Linux
- 主要用途:聊天、摘要、知识库原型
Local Deploy
从个人电脑跑开源模型,到企业内网提供 OpenAI 兼容 API,这里把常见路线、硬件建议和部署命令放在一起。
Routes
适合个人电脑、内部演示和轻量应用。命令少、模型库丰富,默认提供本地 HTTP API。
适合把开源模型部署成 OpenAI 兼容 API,并支持更高吞吐、更好的并发和服务化运维。
适合 CPU、Apple Silicon、低显存机器和离线部署。GGUF 量化模型能显著降低硬件门槛。
适合把多个本地模型、嵌入模型、图像/语音能力和统一 API 管起来,方便团队使用。
Hardware
实际占用会受量化、上下文长度、batch size 和并发影响,下面按常见个人/小团队场景估算。
优先 3B-7B 量化模型,适合轻量聊天、摘要、分类和本地开发测试。
Gemma 4B Qwen 4B/7B可尝试 7B-14B 量化模型,适合中文助手、知识库和较稳定的办公场景。
Qwen 14B DeepSeek Distill 8B进入小型生产 API 的起点,适合 14B-32B 量化模型和较低并发服务。
Qwen 32B Llama 70B 量化适合 32B-70B 模型、更长上下文和多人并发,建议使用 vLLM/TGI 服务化。
Qwen 72B Mistral LargeChecklist
确认 GPU 驱动、Docker、模型授权、数据存储路径、外网下载权限和 API 鉴权策略,再对外暴露服务。