其它 > 软件使用
创建时间:2025-10-19

Autodl云端使用Infinitetalk和comfyui生成数字人对口型视频

前言


钢结构课程中,需要根据课程音频生成数字人视频作为ppt中的人像插入,于是上网查了一些相关AI模型,发现Infinitetalk可以根据音频生成数字人对口型视频,comfyui提供了图形化界面方便使用,于是决定尝试一下。

一开始在本地电脑上运行comfyui,但是自己电脑是gtx1660ti,显存只有6g,跑不动,于是决定租用autodl云端服务器来运行,生成的结果还可以,效果不错,下面记录一下具体的操作步骤。

步骤


注册autodl账号

租用服务器

  1. autodl的算力市场中选择北京B区的RTX5090服务器,选择按量计费筛选,价格大概是每小时2.88元左右,实际是按照分钟计费的
  2. 镜像选择社区镜像,搜索infinitytalk,选择MeiGen-AI/InfiniteTalk/InfiniteTalk,版本选择v1.0.2(专门适用RTX5090显卡的)
  3. 创建并开机
  4. 开机后可以马上先关机,然后点更多-无卡开机,这样可以节省显卡资源,无卡开机只需要0.1元/小时,不然就是2.88元/小时

部署infinitetalk和comfyui

  1. jupyterlab中打开,双击左边文件夹下载模型,打开脚本
  2. 逐个运行下载的单元格,下载UMT5 文本编码器Wan2.1-I2V-480p模型
  3. 模型下载好了之后关机,再重新开机,这次默认有显卡了
  4. jupyterlab启动页面打开终端,输入以下命令启动服务:
    cd /root/ComfyUI
    python main.py --use-sage-attention --port 8080
  5. 自定义服务下载AutoDL-SSH-Tools.zip
    autodl自定义服务
  6. 运行autodl.exe,里面有ssh指令ssh密码,都是从autodl网站控制台中可以复制粘贴进去,另外代理到本地端口8080,也就是跟上面启动服务的端口一致
    autodl-ssh-tools
  7. 点击代理,然后点击下面的链接,就可以打开comfyui的图形化界面了

生成对口型视频

  1. 在comfyui中左边的工作流中已经有了几个预设的工作流,选择Kijai...I2V...这个,这是用infinitetalk图生视频的工作流
    comfyui工作流
  2. 点击图中的这两个位置上传音频文件和数字人图片文件
    comfyui上传文件
  3. 另外最结尾的结点,把save_outputfalse改成true,这样就会保存输出结果
    save_output
  4. 点击下面的运行按钮,等待运行完成。我上传的是一个34秒的音频,运行时间大概时这个的10倍。
  5. 运行完成后,从jupyterlab中打开comfyui/output文件夹,就可以看到输出的视频文件了,然后下载下来
  6. 以下是我生成的效果,可以看到数字人的口型是跟音频对齐的,效果还不错

参考资料