Qwen
中文能力、开源生态和企业可用性都比较均衡,适合作为本地中文助手和私有知识库基础模型。
ollama run qwen3:8b
vllm serve Qwen/Qwen2.5-7B-Instruct --host 0.0.0.0 --port 8000
Open Models
先用 Ollama 快速试模型,再用 vLLM/TGI 做服务化;低资源机器优先选择 GGUF + llama.cpp。
中文能力、开源生态和企业可用性都比较均衡,适合作为本地中文助手和私有知识库基础模型。
ollama run qwen3:8b
vllm serve Qwen/Qwen2.5-7B-Instruct --host 0.0.0.0 --port 8000
适合推理、代码和复杂任务原型。小尺寸蒸馏版本更适合个人显卡和本地测试。
ollama run deepseek-r1:8b
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --host 0.0.0.0 --port 8000
生态丰富、工具链成熟,适合英文、多语言和需要社区微调资源的团队。
ollama run llama3.2:3b
vllm serve meta-llama/Llama-3.1-8B-Instruct --host 0.0.0.0 --port 8000
适合个人设备、轻量服务和成本敏感场景。小尺寸模型适合做分类、摘要和助手原型。
ollama run gemma3:4b
llama-server -hf ggml-org/gemma-3-1b-it-GGUF --host 0.0.0.0 --port 8080
适合多语言、欧洲业务和开源/商用组合评估。服务化部署时优先确认模型授权。
ollama run mistral
model=mistralai/Mistral-7B-Instruct-v0.3
docker run --gpus all --shm-size 1g -p 8080:80 -v $PWD/data:/data \
ghcr.io/huggingface/text-generation-inference:3.3.5 \
--model-id $model
Install Paths
个人使用选 Ollama;服务 API 选 vLLM/TGI;低资源或 GGUF 选 llama.cpp。
尤其是 Llama、Mistral、Gemma 等模型,商用前确认 license、gated access 和用途限制。
把 Hugging Face、Ollama 或 GGUF 模型目录挂载到持久化磁盘,避免每次重启重新下载。
用真实 prompt 测首 token 延迟、tokens/s、并发、显存峰值和失败重试策略。