面部表情

共 4 篇网址

排序

发布更新浏览点赞

FantasyPortrait

FantasyPortrait 是一种高保真、多情感的肖像动画生成框架，使用表达增强学习策略来捕捉细腻的面部动态，适合单角色和多角色场景。该技术的优势在于其独特的掩蔽交叉注意机制，有效防止了特征干扰，提升了动画的质量与表现力。该产品背景源于对现有面部动画方法的不足的反思，尤其是在处理多角色互动时的挑战。未来将以开源形式提供代码与模型，鼓励研究与开发。

0560

图像生成 # 动画 # 图像生成 # 多角色

GAGAvatar

GAGAvatar是一种基于高斯模型的3D头像重建与动画生成技术，它能够在单张图片的基础上快速生成3D头像，并实现实时的面部表情动画。这项技术的主要优点包括高保真度的3D模型生成、快速的渲染速度以及对未见身份的泛化能力。GAGAvatar通过创新的双提升方法捕捉身份和面部细节，利用全局图像特征和3D可变形模型来控制表情，为数字头像的研究和应用提供了新的基准。

0260

头像生成 # 3D头像 # 实时动画 # 数字娱乐

X-Dyna

X-Dyna是一种创新的零样本人类图像动画生成技术，通过将驱动视频中的面部表情和身体动作迁移到单张人类图像上，生成逼真且富有表现力的动态效果。该技术基于扩散模型，通过Dynamics-Adapter模块，将参考外观上下文有效整合到扩散模型的空间注意力中，同时保留运动模块合成流畅复杂动态细节的能力。它不仅能够实现身体姿态控制，还能通过本地控制模块捕捉与身份无关的面部表情，实现精确的表情传递。X-Dyna在多种人类和场景视频的混合数据上进行训练，能够学习物理人体运动和自然场景动态，生成高度逼真和富有表现力的动画。

0370

图像生成 # 动态生成 # 图像动画 # 扩散模型

MEMO

MEMO是一个先进的开放权重模型，用于音频驱动的说话视频生成。该模型通过记忆引导的时间模块和情感感知的音频模块，增强了长期身份一致性和运动平滑性，同时通过检测音频中的情感来细化面部表情，生成身份一致且富有表情的说话视频。MEMO的主要优点包括更真实的视频生成、更好的音频-唇形同步、身份一致性和表情情感对齐。该技术背景信息显示，MEMO在多种图像和音频类型中生成更真实的说话视频，超越了现有的最先进方法。

0370

音频处理 # 情感检测 # 视频生成 # 身份一致性