AniTalker – 通过音频和人像生产动画脸部表情视频

简介

上海交大开源的一个创新的框架,对口型说话视频生成框架。旨在从单一静态人像和输入音频生成逼真的说话视频,通过身份解耦面部动作编码来实现。

与现有主要关注口型同步模型不同,AniTalker 采用一种通用运动表示方式,能够捕捉丰富的面部动态,包括微妙表情和头部运动。

演示

特色

  • 自监督学习:通过重建目标视频帧和使用度量学习、互信息解耦,学习到的面部动作表示既健壮又具有多样性。
  • 通用运动表示:AniTalker 的运动表示不包含特定身份细节,减少了对标记数据的需求。
  • 扩散模型与方差适配器:结合使用这些技术,可以生成多样化且可控的面部动画。

网址

演示:https://x-lance.github.io/AniTalker/
开源:https://github.com/X-LANCE/AniTalker
论文:https://arxiv.org/abs/2405.03121

THE END
分享
二维码
打赏
海报
AniTalker – 通过音频和人像生产动画脸部表情视频
上海交大开源的一个创新的框架,对口型说话视频生成框架。旨在从单一静态人像和输入音频生成逼真的说话视频,通过身份解耦面部动作编码来实现。与现有主要关注口型同步模型不同,AniTalker 采用一种通用运动表示方式,能够捕捉丰富的面部动态,包括微妙表情和头部运动。
<<上一篇
下一篇>>