
EMO (Emote Portrait Alive) 是阿里巴巴集团智能计算研究院的研究团队开发的一个音频驱动型肖像视频生成框架。具体来说,EMO系统基于音频信号驱动来生成肖像视频。用户只需要提供一张参考图片和一段音频文件(例如说话、唱歌的声音),EMO就能够根据音频内容生成一个生动的视频,视频中的人物会展现出丰富的面部表情和多变的头部动作,仿佛照片中的人物正在唱你所制定的语言或歌曲。
EMO系统不仅精准地捕获了人类微妙的表情细节和面部特征的个性化风格,因此能够生成高度真实感和强烈表现力的动态图像。而且,它还能根据输入音频的长度生成任意长度的视频,保持角色身份的一致性。无论是处理不同语言的歌曲、使古代画像动起来,还是生成具有逼真动作和表情的三维或AI生成内容,EMO都能够轻松应对,注入生动的动态效果。此外,它还能够驾驭快速节奏,确保快速歌词与角色动画的同步。
EMO (Emote Portrait Alive) 效果演示demo:
https://img.pidoutv.com/wp-content/uploads/2024/03/1453312183-1-16.mp4
EMO (Emote Portrait Alive) 项目地址
官方项目主页:https://humanaigc.github.io/emote-portrait-alive/
@arXiv研究论文:https://arxivorg/abs/2402.17485
GitHub: https://github.com/HumanAIGC/EMO(模型和源码待开源)
EMO(Emote Portrait Alive)的功能特点
- 音频驱动的视频生成:EMO系统基于音频信号来驱动肖像视频的生成。用户只需要提供一张参考图片和一段音频,EMO便能根据音频内容,如语音的节奏、音调和音量等,来生成对应的人物面部表情和头部动作。
- 丰富的表情和动作:EMO能够精准地捕捉人类微妙的表情细节,并生成多样化的头部动作。这使得生成的视频具有高度的真实感和强烈的表现力,仿佛照片中的人物真的在唱歌、说话或者做其他动作。
- 保持人物身份一致性:不论音频的时长如何,EMO都能生成与参考图片中人物身份一致的动态视频。这使得生成的视频具有连续性和统一性,用户可以根据需要生成任意长度的视频。
- 跨语言和多场景应用:EMO不仅能处理不同语言的音频,如中文、英文等,还能应用于多种场景,如使古代画像动起来、生成具有逼真动作和表情的三维或AI生成内容等。这展示了其广泛的适用性和灵活性。
- 同步性和节奏感:EMO能够驾驭快速节奏的音频,确保生成的视频与音频保持同步。这使得生成的肖像视频在演唱快速歌曲或进行快速对话时,仍然能够保持流畅和连贯。
- 个性化风格保留:在生成动态视频的过程中,EMO能够保持面部特征的个性化风格,使得生成的视频不仅具有动态效果,还能保留原始图片中的人物特色。
EMO (Emote Portrait Alive) 的技术原理
- 输入准备:用户提供一个参考图像(通常是目标角色的静态肖像)和相应的音频输入(如说话或唱歌的声音)。这些输入将作为生成视频的基础。
- 特征提取:使用ReferenceNet从参考图像中提取特征。ReferenceNet是一个与主网络(Backbone Network)结构相似的网络,它专注于从输入图像中提取详细的特征。
- 音频处理:音频输入通过预训练的音频编码器处理,以提取音频特征。这些特征捕捉了语音的节奏、音调和发音等信息,这些信息将用来驱动视频中角色的面部表情和头部动作。
- 生成视频:EMO利用骨干网络获取多帧噪声潜在输入,并尝试在每个时间步将它们去噪到连续的视频帧。骨干网络采用类似于SD 1.5的UNet结构,其中包含了用于维持生成帧之间连续性的时间模块。
- 注意力机制:EMO利用两种形式的注意力机制——参考注意力(Reference-Attention)和音频注意力(Audio-Attention)。参考注意力用于保持角色身份的一致性,而音频注意力则用于调整角色的动作,使之与音频信号相匹配。
- 时间模块:这些模块用于操纵时间维度并调整动作速度,以生成流畅且连贯的视频序列。时间模块通过自注意力层跨帧捕获动态内容,有效地在不同的视频片段之间维持一致性。
- 训练策略:EMO的训练分为三个阶段:图像预训练、视频训练和速度层训练。速度层的训练专注于调整角色头部的移动速度和频率。
- 去噪过程:在生成过程中,Backbone Network尝试去除多帧噪声,生成连续的视频帧。参考特征和音频特征被结合使用,以生成高度真实和表情丰富的视频内容。
EMO模型通过这种结合使用参考图像、音频信号和时间信息的方法,能够生成与输入音频同步且在表情和头部姿势上富有表现力的肖像视频,超越了传统技术的限制,创造出更加自然和逼真的动画效果。
数据统计
相关导航

讯飞星火大模型是由科大讯飞推出的新一代认知智能大模型,拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务。可基于自然文本、语音的方式提供多场景文本生成、语言理解、知识问答、逻辑推理、数学解答、代码生成和多模态7大能力,快速生成文本、图片、代码等内容。

CatVTON
CatVTON是一款基于扩散模型的虚拟试穿技术工具,旨在提供高效、低资源需求的虚拟试穿体验。通过在空间维度上简单地拼接服装和人物图像来实现不同类别服装的虚拟试穿,该方法有效地降低了模型复杂度和计算成本,同时保持了高质量的虚拟试衣效果,特别适用于电商平台、时尚设计、个人造型顾问、增强现实应用和虚拟时装秀等场景。

Magic Clothing
Magic Clothing是一个专注于控制性的服装驱动图像合成的项目,它是OOTDiffusion模型的一个分支版本,旨在通过服装来控制图像的生成。

Video-LLaVA
Video-LLaVA是由北京大学ChatLaw课题组开发的一款视频问答模型。它基于Transformer架构,能够处理视频和问题,通过自注意力机制来捕捉二者之间的关联信息,并可以回答有关其内容的问题,它准确地描述了这些媒体中的视觉效果。这个模型通过在大量视频数据上进行预训练,使得它能够理解丰富的视频特征和问题语义,进而在视频问答任务上取得了先进的性能,该技术还可用于标记图像和视频。

Step-Video-T2V
Step-Video-T2V 是由阶跃星辰与吉利汽车集团 联合开源的一款先进文本生成视频(Text-to-Video)模型。这款模型在 2025 年 2 月 18 日正式发布,具备强大的多模态生成能力,支持中文和英文输入,适用于广告、影视制作、教育等多个场景。

琴乐大模型
琴乐大模型是由腾讯AI Lab与腾讯TME天琴实验室共同研发的人工智能音乐创作大模型。它可以通过输入中英文关键词、描述性语句或音频,能够直接生成立体声音频或多轨乐谱。

Idea-2-3D
Idea-2-3D 是一个3D 模型生成框架,能够从多模态输入(如文本、图像和 3D 模型)中生成高质量的 3D 模型。该框架由三个基于大型多模态模型(LMM)的智能代理组成,分别负责生成提示、选择模型和反馈反映。通过这些代理的协作和批评循环,Idea-2-3D 能够自动生成与输入高度一致的 3D 模型。

M2UGen
M2UGen是一个由腾讯和新加坡国立大学共同研发的多模态音乐生成模型,它具备音乐生成、理解和编辑的能力。具体来说,M2UGen可以接收文字、图片、视频或音频作为输入,然后生成与之相匹配的音乐。例如,给它一段文字,如诗句或故事,它能够创作出与文字内容相应的音乐;对于图片,它能创作出匹配的音乐,让图片仿佛“动起来”;对于视频,它可以根据视频内容创作出合适的背景音乐。
暂无评论...