一键部署腾讯 AI 音乐生成模型 — CNB GPU 云端运行
基于腾讯 SongGeneration 和 ComfyUI 的 AI 音乐生成环境。Fork 本仓库到 CNB 平台即可在 GPU 云端一键启动,支持歌词/旋律/风格提示词输入,生成带人声的完整歌曲。
sh start-comfyui.sh 启动 ComfyUIw,选择工作流,运行开始生成(约几分钟)ComfyUI/output/ 目录下,可右键下载到本地| 方式 | 说明 | 适用场景 |
|---|---|---|
| 提示词(prompt text) | 用文字描述风格、情感、乐器 | 快速试听、风格探索 |
| 提示音乐(prompt audio) | 上传参考音频引导生成 | 参考特定旋律风格 |
SongGeneration-comfyui/ ├── README.md # 本文件 ├── Dockerfile # GPU 环境镜像定义 ├── build-pytorch-devel.sh # PyTorch 镜像构建脚本 ├── start-comfyui.sh # ComfyUI 启动脚本 ├── SongGeneration_v2.json # ComfyUI 工作流配置 ├── .cnb.yml # CNB 云开发配置 ├── patch/ │ └── generate.py # 歌词格式化补丁 ├── models/ # AI 模型权重(Git LFS) ├── assets/ │ ├── sample_prompt_audio.wav # 示例参考音频 │ ├── results/ # 生成结果 │ └── SongGeneration_v2_rap_long_wip.json # 额外工作流 └── docs/ ├── 安装技术细节.md # 详细安装文档 └── images/ └── song-generation-demo-cut.webp # 操作演示截图
# 前置要求:NVIDIA GPU,Driver 580.95.05+,CUDA 13.0+
docker build -t docker.cnb.cool/examples/ecosystem/ai-devel/tencent-song-generation-comfyui:v0.3.43-cu12.4-torch2.6 .
docker run --gpus all -p 8188:8188 <镜像名>
详见
docs/安装技术细节.md
Q: 生成一首歌需要多久? A: 通常 3-5 分钟,取决于歌词长度和 GPU 规格。CNB H20 GPU 约 3 分钟。
Q: 中文歌词会唱错字吗? A: 已内置歌词自动格式化补丁,大幅减少唱错字现象。建议使用换行分割歌词,段落间留空行。
Q: 支持哪些音乐风格? A: 支持流行、摇滚、R&B、嘻哈、古典等多种风格,详见 genre.txt。
Q: Python 3.11 可以吗? A: 不行。Python 3.11 的 dataclass 升级导致默认值类型不兼容,已锁定 Python 3.10。