SadTalker:让stable diffusion人物说话的创新工具

这篇具有很好参考价值的文章主要介绍了SadTalker:让stable diffusion人物说话的创新工具。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文详细介绍了安装过程和使用教程。

功能说明

github 项目SadTalker 可以根据一张图片、一段音频,合成面部说这段语音的视频。图片需要真人或者接近真人。目前项目已经支持stable diffusion webui,可以SD出图后,结合一段音频合成面部说话的视频(抖音常见的数字人)

SadTalker安装过程

内访问速度比较慢,使用ghproxy加速,格式https://ghproxy.com/{github url}

https://ghproxy.com/https://github.com/OpenTalker/SadTalker

如图在extensions中填入地址,和下载后的目录名称,下载的文件将存放在{project你的项目}/stable-diffusion-webui/extensions,并且文件夹的文字和页面输入的一致SadTalker

SadTalker,stable diffusion,面部合成,GitHub项目
上一步插件安装完成后,还需要继续补充两个压缩包文件,分别放到对应目录

  • 根据仓库代码 download_models得知下载地址,手动下载,主要是两个目录文件checkpoints gfpgan

  • 也可以百度云盘:

    • 模型checkpoints, 提取码: sadt.

    • gfpgan, 提取码: sadt.

checkpoints:整个checkpoints放在 {project}/stable-diffusion-webui/extensions/SadTalker扩展目录下;

gfpgan: 解压搓来的4个文件alignment_WFLW_4HG.pth detection_Resnet50_Final.pth GFPGANv1.4.pth parsing_parsenet.pth需要放在 {project}/stable-diffusion-webui/models/GFPGAN

继续下一步环境配置
ffmpeg:视频生成需要用到(根据环境不同选择适合自己的方式),以下是centos8安装方式

dnf install epel-release
yum config-manager --set-enabled PowerTools
yum-config-manager --add-repo=https://negativo17.org/repos/epel-multimedia.repo
dnf install ffmpeg ffmpeg
ffmpeg -version

重新启动程序python3 launch.py --enable-insecure-extension-access --xformers --server-name 0.0.0.0

使用教程(一)linux下部署sdwebui,安装模型和插件的图片来试试效果,关于参数说明

  • 图片,最好是大头,不然会显得不自然

  • 音频文件,用SadTalker示例的音频测试

  • 图片处理方式氛围,crop(剪裁), resize(重置大小), full(原图),其中crop根据面部关键点生成的表情和动画相对逼真,前提是不要全图,看起来会很怪

  • Remove head motion (works better with preprocess full) 这个选项在原图的时候很有必要,优化人物头部运动,生成的视频更加自然;这里因为用了剪裁,所以就不选择打开了

  • Face enhancement,勾选上, 可以获得更好的面部质量

SadTalker,stable diffusion,面部合成,GitHub项目

视频被CSDN处理过,看起来有些不自然,实际效果还是不错的

SadTalker,stable diffusion,面部合成,GitHub项目

文本生成语音涉及太多非技术问题,就不展开了,自行看TTS-Vue项目文章来源地址https://www.toymoban.com/news/detail-482024.html

到了这里,关于SadTalker:让stable diffusion人物说话的创新工具的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • AI绘图实战(八):制作游戏人物原稿三视图 | Stable Diffusion成为设计师生产力工具

    S:AI能取代设计师么? I :至少在设计行业,目前AI扮演的主要角色还是超级工具,要顶替?除非甲方对设计效果无所畏惧~~ 预先学习 : 安装及其问题解决参考:《Windows安装Stable Diffusion WebUI及问题解决记录》; 运行使用时问题《Windows使用Stable Diffusion时遇到的各种问题整理

    2024年02月06日
    浏览(19)
  • Stable Diffusion WebUI安装SadTalker插件

    AI绘画已经火了有几个月了,不知道大家有没有去体验一下呢? 要说可操作性最强的莫过于Stable Diffusion WebUI,简称SD,下面我们就来介绍一下如何给SD安装上SadTalker插件,记录一下安装和使用过程中踩过的坑~ 通过Stable Diffusion WebUI安装SadTalker插件,有4种方式: 1. web界面通过在

    2024年02月10日
    浏览(20)
  • Stable Diffusion 使用 SadTalker 生成图片数字人

    Heygen和D-ID等照片转视频的工具,都需要在线付费使用。本次介绍一个SadTalker数字人。SadTalker有多种使用方式,包括完整安装程序和stable diffusion插件模式。安装程序操作较繁琐,因此推荐stable diffusion插件模式。 打开SD进入扩展复制链接 https://github.com/OpenTalker/SadTalker.git 到安装

    2024年02月13日
    浏览(17)
  • Stable Diffusion——Adetailer面部处理

    下载地址: GitHub - Bing-su/adetailer: Auto detecting, masking and inpainting with detection model.  修复介绍: 具体的得根据实际情况进行选择。  模型 适用对象 face_yolov8n.pt 2D / 真实人脸 face_yolov8s.pt 2D / 真实人脸 hand_yolov8n.pt 2D / 真实人手 person_yolov8n-seg.pt 2D / 真实全身 person_yolov8s-seg.pt 2D/真实

    2024年02月03日
    浏览(20)
  • 打造AI虚拟数字人,Stable Diffusion+Sadtalker教程

    站长笔记 2 个月前 1 1k Stable Diffusion是一个能够根据 文本描述生成高质量图片的深度学习模型 ,它使用了一种叫做 潜在扩散模型的生成网络架构 ,可以在普通的GPU上运行。Sadtalker是一个能够根 据图片和音频生成 视频的开源项目 ,它使用了一种叫做 SadNet的神经网络 ,可以

    2024年02月11日
    浏览(49)
  • 基于SadTalker的AI主播,Stable Diffusion也可用

    基于之前的AI主播的的学习基础 基于Wav2Lip的AI主播 和 基于Wav2Lip+GFPGAN的高清版AI主播,这次尝试一下VideoRetalking生成效果。 总体来说,面部处理效果要好于Wav2Lip,而且速度相对于Wav2Lip+GFPGAN也提升很多,也支持自由旋转角度,但是如果不修改源码的情况下,视频的部分截取稍

    2023年04月23日
    浏览(16)
  • 尝试着在Stable Diffusion里边使用SadTalker进行数字人制作

    首先需要标明的是,我这里是图片说话类型,而且是看了知识星球AI破局俱乐部大航海数字人手册进行操作的。写下这篇文章是防止我以后遗忘。 我使用的基础软件是Stable Diffusion,SadTalker是作为插件放进来的,需要注意的是这对自己的电脑GPU要求比较高,至少需要8G,至少我

    2024年04月09日
    浏览(23)
  • 让图片说话SadTalker

    SadTalker:使用一张图片和一段语音来生成口型和头、面部视频. 西安交通大学开源了人工智能SadTalker模型,通过从音频中学习生成3D运动系数,使用全新的3D面部渲染器来生成头部运动,可以实现图片+音频就能生成高质量的视频。 论文地址:Learning Realistic 3D Motion Coefficients 整

    2024年02月21日
    浏览(14)
  • stable diffusion如何确保每张图的面部一致?

    可以使用roop插件,确定好脸部图片后,使用roop固定,然后生成的所有图片都使用同一张脸。 这款插件的功能简单粗暴:一键换脸。 如图所示: 任意上传一张脸部清晰的图片,点击启用。 在其他提示词不变的情况下,Stable Diffusion会跑出一张按照提示词的要求的图片,但脸部

    2024年02月16日
    浏览(14)
  • AI数字人:sadtalker让照片开口说话

            西安交通大学也开源了人工智能SadTalker模型,通过从音频中学习生成3D运动系数,使用全新的3D面部渲染器来生成头部运动,可以实现图片+音频就能生成高质量的视频。         论文地址:Learning Realistic 3D Motion Coefficients        通过人脸图像和一段语音音频

    2024年02月13日
    浏览(12)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包