本地部署 Qwen3.6-35B 大模型推理服务。
model/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf (22GB)model/mmproj.gguf (多模态)# 启动服务
OLLAMA_HOST=0.0.0.0:11434 ollama serve
# 进入交互式对话
ollama run qwen3.6-35b
# API 调用
curl http://localhost:11434/api/generate -d '{"model": "qwen3.6-35b", "prompt": "你好"}'
使用本地模型:需要先导入
ollama create qwen3.6-35b -f Modelfile
nohup /workspace/llama-server -m /workspace/model/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf \
--host 0.0.0.0 --port 8080 -ngl 100 -t 16 -c 65536 -b 1024 \
--mlock --no-mmap --tensor-split 1.0 --cont-batching \
-mm /workspace/model/mmproj.gguf --reasoning off > llama-server.log 2>&1 &
| 服务 | 端口 |
|---|---|
| Ollama | 11434 |
| Llama-Server | 8080 |
打开 WebIDE 的端口映射或使用本地 VSCode 映射到本地端口访问。