Container Images

大模型容器镜像下载

这里的按钮会复制官方镜像拉取或运行命令。生产环境建议固定版本号、启用鉴权，并把模型缓存目录挂载到持久化磁盘。

个人本地首选

Ollama

适合快速运行 Qwen、Gemma、DeepSeek-R1、Llama 等本地模型，默认端口 11434。

docker pull ollama/ollama

docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Docker Hub 官方文档

高吞吐 API

vLLM OpenAI Server

适合把开源模型部署成 OpenAI 兼容 API，适用于服务端推理、Agent 和批处理。

docker pull vllm/vllm-openai:latest

docker run --runtime nvidia --gpus all \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -p 8000:8000 --ipc=host \
  vllm/vllm-openai:latest \
  --model Qwen/Qwen2.5-7B-Instruct

Docker 文档

生产推理

Hugging Face TGI

适合部署 Hugging Face Hub 上的主流开源模型，支持 Messages API、流式输出和多硬件后端。

docker pull ghcr.io/huggingface/text-generation-inference:3.3.5

model=Qwen/Qwen2.5-7B-Instruct
volume=$PWD/data
docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data \
  ghcr.io/huggingface/text-generation-inference:3.3.5 \
  --model-id $model

TGI Quick Tour

GGUF / 低资源

llama.cpp Server

适合 GGUF 量化模型、CPU/Apple Silicon/低显存环境，也能启动 OpenAI 兼容 API 服务。

docker pull ghcr.io/ggml-org/llama.cpp:server

docker run -v /path/to/models:/models -p 8080:8080 \
  ghcr.io/ggml-org/llama.cpp:server \
  -m /models/model.gguf --host 0.0.0.0 --port 8080

Docker 文档

OpenAI 替代

LocalAI

适合自托管 OpenAI 替代接口，能统一接入 LLM、语音、图像和多种后端。

docker pull localai/localai:latest-aio-cpu

docker run -p 8080:8080 --name local-ai -ti localai/localai:latest-aio-cpu

容器文档