SadTalker：让stable diffusion人物说话的创新工具-Toy模板网

这篇具有很好参考价值的文章主要介绍了SadTalker：让stable diffusion人物说话的创新工具。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

本文详细介绍了安装过程和使用教程。

功能说明

github 项目SadTalker 可以根据一张图片、一段音频，合成面部说这段语音的视频。图片需要真人或者接近真人。目前项目已经支持stable diffusion webui,可以SD出图后，结合一段音频合成面部说话的视频（抖音常见的数字人）

SadTalker安装过程

内访问速度比较慢，使用ghproxy加速，格式https://ghproxy.com/{github url}

https://ghproxy.com/https://github.com/OpenTalker/SadTalker

如图在extensions中填入地址，和下载后的目录名称，下载的文件将存放在{project你的项目}/stable-diffusion-webui/extensions，并且文件夹的文字和页面输入的一致SadTalker

SadTalker,stable diffusion,面部合成,GitHub项目
上一步插件安装完成后，还需要继续补充两个压缩包文件，分别放到对应目录

根据仓库代码 download_models得知下载地址，手动下载，主要是两个目录文件checkpoints 和gfpgan
也可以百度云盘:

模型checkpoints, 提取码: sadt.
gfpgan, 提取码: sadt.

checkpoints：整个checkpoints放在 {project}/stable-diffusion-webui/extensions/SadTalker扩展目录下;

gfpgan：解压搓来的4个文件alignment_WFLW_4HG.pth detection_Resnet50_Final.pth GFPGANv1.4.pth parsing_parsenet.pth需要放在 {project}/stable-diffusion-webui/models/GFPGAN

继续下一步环境配置
ffmpeg：视频生成需要用到（根据环境不同选择适合自己的方式）,以下是centos8安装方式

dnf install epel-release
yum config-manager --set-enabled PowerTools
yum-config-manager --add-repo=https://negativo17.org/repos/epel-multimedia.repo
dnf install ffmpeg ffmpeg
ffmpeg -version

重新启动程序python3 launch.py --enable-insecure-extension-access --xformers --server-name 0.0.0.0

使用教程（一）linux下部署sdwebui，安装模型和插件的图片来试试效果，关于参数说明

图片，最好是大头，不然会显得不自然
音频文件，用SadTalker示例的音频测试
图片处理方式氛围，crop（剪裁）, resize（重置大小）, full(原图)，其中crop根据面部关键点生成的表情和动画相对逼真，前提是不要全图，看起来会很怪
Remove head motion (works better with preprocess full) 这个选项在原图的时候很有必要，优化人物头部运动，生成的视频更加自然；这里因为用了剪裁，所以就不选择打开了
Face enhancement，勾选上, 可以获得更好的面部质量

SadTalker,stable diffusion,面部合成,GitHub项目