zwy527
/
VibeVoice-Large-pt
Public
Search/Ask
0
0
WeChat Login
Login
Code
Issues
Pull requests
Events
Packages
Insights
main
Branch
1
Tag
0
Fork
Fork
from
itgay/VibeVoice-Large-pt
BigBomb
编辑文件 README
b11c8894
9
commits
.cnb.yml
.gitattributes
README
config.json
model-00001-of-00010.safetensors
model-00002-of-00010.safetensors
model-00003-of-00010.safetensors
model-00004-of-00010.safetensors
model-00005-of-00010.safetensors
model-00006-of-00010.safetensors
model-00007-of-00010.safetensors
model-00008-of-00010.safetensors
model-00009-of-00010.safetensors
model-00010-of-00010.safetensors
model.safetensors.index.json
preprocessor_config.json
test-chn.txt
git clone https://github.com/microsoft/VibeVoice.git cd VibeVoice/ pip install -e . pip install flash-attn --no-build-isolation 启动: /workspace/VibeVoice# python demo/gradio_demo.py --model_path /workspace --share 或者 /workspace/VibeVoice# python demo/inference_from_file.py --model_path /workspace --txt_path ../test-chn.txt --speaker_names Xinran Bowen 我的经验:如果经常遇到长文本转码出错,建议使用命令行模式。生成的文件可以安装一个nginx再下载下来即可。我的一个5分钟多的音频就是命令行下生成的,web端死活不成功。 按照官网安装完了,直接启动开始转音频会报错找不到ffprobe文件或者目录。 新开一个终端安装即可: apt-get update && apt-get install -y ffmpeg 包有点大,安装了不少文件。 无需重启,web端重新生成音频即可。 短音频说话的中文怪怪的。长音频比MOSS TTSD慢多了,奇怪。我就是使用的MOSS TTSD的同一个docker镜像。 中间还遇到在生成长音频时没多久就报错,但是看terminal那里还在走进度条。过一会儿web端又提示重新连接成功了。 看进度条太慢了,我stop了,把文本删除了一大部分再次尝试。 成功了一段73s的音频: Speaker 1: 诶,我最近看了一篇讲人工智能的文章,还挺有意思的,想跟你聊聊。 Speaker 2: 哦?是吗,关于啥的啊?又是哪个公司发了什么逆天的新模型吗? Speaker 1: 那倒不是,是一个咱们国内的教授,复旦大学的邱锡鹏教授,他提了一个新概念,叫什么,呃,叫情境扩展,Context Scaling。 Speaker 2: Context Scaling?情境扩展?听起来有点,呃,有点玄乎啊,这是个啥意思? Speaker 1: 对,我一开始也觉得有点抽象,但你看完就觉得,诶,特别有道理。他大概意思就是说啊,咱们现在对人工智能的追求,不能光是把它做得更大,你知道吧,就是不能光堆参数,喂数据。 Speaker 2: 嗯,是,这个我懂。就好像之前大家都在比谁的模型参数多,几千亿,上万亿的。 Speaker 1: 对对对,就是那个意思。他说那个时代,算是第一幕,就是模型规模化的胜利,靠堆料,堆出了像这个ChatGPT这样厉害的通用模型。 Speaker 2: 嗯,是的。 Speaker 1: 然后呢,现在差不多是第二幕,就是大家发现光堆料好像不行了,收益越来越小,就开始搞一些,呃,后训练的优化。 Speaker 2: 哦,后训练优化?比如呢?
About
No description, topics, or website provided.
17.40 GiB
0
forks
0
stars
1
branches
0
Tag
README
Release
0
Tag
0
Contributors
3
2
Language
Others
100%