其它 > 软件使用

创建时间：2025-10-19

Autodl云端使用Infinitetalk和comfyui生成数字人对口型视频

前言

钢结构课程中，需要根据课程音频生成数字人视频作为ppt中的人像插入，于是上网查了一些相关AI模型，发现Infinitetalk可以根据音频生成数字人对口型视频，comfyui提供了图形化界面方便使用，于是决定尝试一下。

一开始在本地电脑上运行comfyui，但是自己电脑是gtx1660ti，显存只有6g，跑不动，于是决定租用autodl云端服务器来运行，生成的结果还可以，效果不错，下面记录一下具体的操作步骤。

步骤

注册autodl账号

租用服务器

autodl的算力市场中选择北京B区的RTX5090服务器，选择按量计费筛选，价格大概是每小时2.88元左右，实际是按照分钟计费的
镜像选择社区镜像，搜索infinitytalk，选择MeiGen-AI/InfiniteTalk/InfiniteTalk，版本选择v1.0.2（专门适用RTX5090显卡的）
创建并开机
开机后可以马上先关机，然后点更多-无卡开机，这样可以节省显卡资源，无卡开机只需要0.1元/小时，不然就是2.88元/小时

部署infinitetalk和comfyui

从jupyterlab中打开，双击左边文件夹下载模型，打开脚本
逐个运行下载的单元格，下载UMT5 文本编码器和Wan2.1-I2V-480p模型
模型下载好了之后关机，再重新开机，这次默认有显卡了
从jupyterlab启动页面打开终端，输入以下命令启动服务：
cd /root/ComfyUI
python main.py --use-sage-attention --port 8080
自定义服务下载AutoDL-SSH-Tools.zip
运行autodl.exe，里面有ssh指令和ssh密码，都是从autodl网站控制台中可以复制粘贴进去，另外代理到本地端口填8080，也就是跟上面启动服务的端口一致
点击代理，然后点击下面的链接，就可以打开comfyui的图形化界面了

生成对口型视频

在comfyui中左边的工作流中已经有了几个预设的工作流，选择Kijai...I2V...这个，这是用infinitetalk图生视频的工作流
点击图中的这两个位置上传音频文件和数字人图片文件
另外最结尾的结点，把save_output从false改成true，这样就会保存输出结果
点击下面的运行按钮，等待运行完成。我上传的是一个34秒的音频，运行时间大概时这个的10倍。
运行完成后，从jupyterlab中打开comfyui/output文件夹，就可以看到输出的视频文件了，然后下载下来
以下是我生成的效果，可以看到数字人的口型是跟音频对齐的，效果还不错

参考资料

Infinitetalk
ComfyUI
AutoDL社区中的Infinitetalk镜像
B站部署一个部署comfyui的教程：AutoDL算力云ComfyUI部署全流程