Autodl云端使用Infinitetalk和comfyui生成数字人对口型视频
前言
钢结构课程中,需要根据课程音频生成数字人视频作为ppt中的人像插入,于是上网查了一些相关AI模型,发现Infinitetalk可以根据音频生成数字人对口型视频,comfyui提供了图形化界面方便使用,于是决定尝试一下。
一开始在本地电脑上运行comfyui,但是自己电脑是gtx1660ti,显存只有6g,跑不动,于是决定租用autodl云端服务器来运行,生成的结果还可以,效果不错,下面记录一下具体的操作步骤。
步骤
注册autodl账号
租用服务器
- autodl的
算力市场中选择北京B区的RTX5090服务器,选择按量计费筛选,价格大概是每小时2.88元左右,实际是按照分钟计费的 - 镜像选择社区镜像,搜索
infinitytalk,选择MeiGen-AI/InfiniteTalk/InfiniteTalk,版本选择v1.0.2(专门适用RTX5090显卡的) - 创建并开机
- 开机后可以马上先关机,然后点
更多-无卡开机,这样可以节省显卡资源,无卡开机只需要0.1元/小时,不然就是2.88元/小时
部署infinitetalk和comfyui
- 从
jupyterlab中打开,双击左边文件夹下载模型,打开脚本 - 逐个运行下载的单元格,下载
UMT5 文本编码器和Wan2.1-I2V-480p模型 - 模型下载好了之后关机,再重新开机,这次默认有显卡了
- 从
jupyterlab启动页面打开终端,输入以下命令启动服务:cd /root/ComfyUI
python main.py --use-sage-attention --port 8080 - 自定义服务下载
AutoDL-SSH-Tools.zip

- 运行
autodl.exe,里面有ssh指令和ssh密码,都是从autodl网站控制台中可以复制粘贴进去,另外代理到本地端口填8080,也就是跟上面启动服务的端口一致

- 点击
代理,然后点击下面的链接,就可以打开comfyui的图形化界面了
生成对口型视频
- 在comfyui中左边的工作流中已经有了几个预设的工作流,选择
Kijai...I2V...这个,这是用infinitetalk图生视频的工作流
- 点击图中的这两个位置上传音频文件和数字人图片文件

- 另外最结尾的结点,把
save_output从false改成true,这样就会保存输出结果
- 点击下面的运行按钮,等待运行完成。我上传的是一个34秒的音频,运行时间大概时这个的10倍。
- 运行完成后,从
jupyterlab中打开comfyui/output文件夹,就可以看到输出的视频文件了,然后下载下来 - 以下是我生成的效果,可以看到数字人的口型是跟音频对齐的,效果还不错
参考资料
- Infinitetalk
- ComfyUI
- AutoDL社区中的Infinitetalk镜像
- B站部署一个部署comfyui的教程:AutoDL算力云ComfyUI部署全流程