Ollama
适合快速运行 Qwen、Gemma、DeepSeek-R1、Llama 等本地模型,默认端口 11434。
docker pull ollama/ollama
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
Container Images
这里的按钮会复制官方镜像拉取或运行命令。生产环境建议固定版本号、启用鉴权,并把模型缓存目录挂载到持久化磁盘。
适合快速运行 Qwen、Gemma、DeepSeek-R1、Llama 等本地模型,默认端口 11434。
docker pull ollama/ollama
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
适合把开源模型部署成 OpenAI 兼容 API,适用于服务端推理、Agent 和批处理。
docker pull vllm/vllm-openai:latest
docker run --runtime nvidia --gpus all \
-v ~/.cache/huggingface:/root/.cache/huggingface \
-p 8000:8000 --ipc=host \
vllm/vllm-openai:latest \
--model Qwen/Qwen2.5-7B-Instruct
适合部署 Hugging Face Hub 上的主流开源模型,支持 Messages API、流式输出和多硬件后端。
docker pull ghcr.io/huggingface/text-generation-inference:3.3.5
model=Qwen/Qwen2.5-7B-Instruct
volume=$PWD/data
docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data \
ghcr.io/huggingface/text-generation-inference:3.3.5 \
--model-id $model
适合 GGUF 量化模型、CPU/Apple Silicon/低显存环境,也能启动 OpenAI 兼容 API 服务。
docker pull ghcr.io/ggml-org/llama.cpp:server
docker run -v /path/to/models:/models -p 8080:8080 \
ghcr.io/ggml-org/llama.cpp:server \
-m /models/model.gguf --host 0.0.0.0 --port 8080
适合自托管 OpenAI 替代接口,能统一接入 LLM、语音、图像和多种后端。
docker pull localai/localai:latest-aio-cpu
docker run -p 8080:8080 --name local-ai -ti localai/localai:latest-aio-cpu