logo
0
0
WeChat Login
麻薯 (OpenClaw)<openclaw@cnb.cool>
docs: README 全面增强 — 概述、快速开始、目录结构、FAQ、标准化章节

Tencent SongGeneration ComfyUI

一键部署腾讯 AI 音乐生成模型 — CNB GPU 云端运行

ComfyUI Version Python Version Torch Version CUDA Version

概述

基于腾讯 SongGeneration 和 ComfyUI 的 AI 音乐生成环境。Fork 本仓库到 CNB 平台即可在 GPU 云端一键启动,支持歌词/旋律/风格提示词输入,生成带人声的完整歌曲。

快速开始

  1. Fork 本仓库到你的 CNB 账号
  2. 在 TERMINAL 中执行 sh start-comfyui.sh 启动 ComfyUI
  3. 菜单中按快捷键 w,选择工作流,运行开始生成(约几分钟)
  4. 生成完成后在页面收听结果
  5. 生成结果在 ComfyUI/output/ 目录下,可右键下载到本地

两种生成方式

方式说明适用场景
提示词(prompt text)用文字描述风格、情感、乐器快速试听、风格探索
提示音乐(prompt audio)上传参考音频引导生成参考特定旋律风格

歌词格式要求

  • 不同段落用空行分割
  • 歌词用换行分割
  • 已内置自动格式化,会转换为模型匹配格式

Description 写法参考

详见 项目文档 - Input Guide

生成结果展示

您的浏览器不支持 FLAC 播放。音频文件见 assets/results/song_audios03111858.flac

目录结构

SongGeneration-comfyui/ ├── README.md # 本文件 ├── Dockerfile # GPU 环境镜像定义 ├── build-pytorch-devel.sh # PyTorch 镜像构建脚本 ├── start-comfyui.sh # ComfyUI 启动脚本 ├── SongGeneration_v2.json # ComfyUI 工作流配置 ├── .cnb.yml # CNB 云开发配置 ├── patch/ │ └── generate.py # 歌词格式化补丁 ├── models/ # AI 模型权重(Git LFS) ├── assets/ │ ├── sample_prompt_audio.wav # 示例参考音频 │ ├── results/ # 生成结果 │ └── SongGeneration_v2_rap_long_wip.json # 额外工作流 └── docs/ ├── 安装技术细节.md # 详细安装文档 └── images/ └── song-generation-demo-cut.webp # 操作演示截图

本地运行

# 前置要求:NVIDIA GPU,Driver 580.95.05+,CUDA 13.0+ docker build -t docker.cnb.cool/examples/ecosystem/ai-devel/tencent-song-generation-comfyui:v0.3.43-cu12.4-torch2.6 . docker run --gpus all -p 8188:8188 <镜像名>

详见 docs/安装技术细节.md

操作演示

FAQ

Q: 生成一首歌需要多久? A: 通常 3-5 分钟,取决于歌词长度和 GPU 规格。CNB H20 GPU 约 3 分钟。

Q: 中文歌词会唱错字吗? A: 已内置歌词自动格式化补丁,大幅减少唱错字现象。建议使用换行分割歌词,段落间留空行。

Q: 支持哪些音乐风格? A: 支持流行、摇滚、R&B、嘻哈、古典等多种风格,详见 genre.txt

Q: Python 3.11 可以吗? A: 不行。Python 3.11 的 dataclass 升级导致默认值类型不兼容,已锁定 Python 3.10。

致谢