Open Models

开源大模型安装办法

先用 Ollama 快速试模型，再用 vLLM/TGI 做服务化；低资源机器优先选择 GGUF + llama.cpp。

中文 / 通用

Qwen

中文能力、开源生态和企业可用性都比较均衡，适合作为本地中文助手和私有知识库基础模型。

ollama run qwen3:8b

vllm serve Qwen/Qwen2.5-7B-Instruct --host 0.0.0.0 --port 8000

推理 / 代码

DeepSeek-R1 Distill

适合推理、代码和复杂任务原型。小尺寸蒸馏版本更适合个人显卡和本地测试。

ollama run deepseek-r1:8b

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --host 0.0.0.0 --port 8000

生态 / 英文

Llama

生态丰富、工具链成熟，适合英文、多语言和需要社区微调资源的团队。

ollama run llama3.2:3b

vllm serve meta-llama/Llama-3.1-8B-Instruct --host 0.0.0.0 --port 8000

轻量 / 多模态

Gemma

适合个人设备、轻量服务和成本敏感场景。小尺寸模型适合做分类、摘要和助手原型。

ollama run gemma3:4b

llama-server -hf ggml-org/gemma-3-1b-it-GGUF --host 0.0.0.0 --port 8080

企业 / 多语言

Mistral

适合多语言、欧洲业务和开源/商用组合评估。服务化部署时优先确认模型授权。

ollama run mistral

model=mistralai/Mistral-7B-Instruct-v0.3
docker run --gpus all --shm-size 1g -p 8080:80 -v $PWD/data:/data \
  ghcr.io/huggingface/text-generation-inference:3.3.5 \
  --model-id $model

Install Paths

通用安装流程

先选运行框架

个人使用选 Ollama；服务 API 选 vLLM/TGI；低资源或 GGUF 选 llama.cpp。

确认模型授权

尤其是 Llama、Mistral、Gemma 等模型，商用前确认 license、gated access 和用途限制。

固定缓存目录

把 Hugging Face、Ollama 或 GGUF 模型目录挂载到持久化磁盘，避免每次重启重新下载。

压测后上线

用真实 prompt 测首 token 延迟、tokens/s、并发、显存峰值和失败重试策略。