logo
0
0
WeChat Login
docs: 更新部署说明,添加 Ollama 支持

Qwen3.6 本地推理服务

本地部署 Qwen3.6-35B 大模型推理服务。

模型文件

  • model/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf (22GB)
  • model/mmproj.gguf (多模态)

服务

Ollama (推荐)

# 启动服务 OLLAMA_HOST=0.0.0.0:11434 ollama serve # 进入交互式对话 ollama run qwen3.6-35b # API 调用 curl http://localhost:11434/api/generate -d '{"model": "qwen3.6-35b", "prompt": "你好"}'

使用本地模型:需要先导入 ollama create qwen3.6-35b -f Modelfile

Llama-Server (原生)

nohup /workspace/llama-server -m /workspace/model/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf \ --host 0.0.0.0 --port 8080 -ngl 100 -t 16 -c 65536 -b 1024 \ --mlock --no-mmap --tensor-split 1.0 --cont-batching \ -mm /workspace/model/mmproj.gguf --reasoning off > llama-server.log 2>&1 &

端口

服务端口
Ollama11434
Llama-Server8080

打开 WebIDE 的端口映射或使用本地 VSCode 映射到本地端口访问。