OmniHuman-1

12个月前发布 44 00

OmniHuman-1 是一个端到端的多模态条件人类视频生成框架,能够基于单张人像和运动信号(如音频、视频或其组合)生成人类视频。该技术通过混合训练策略克服了高质量数据稀缺的问题,支持任意宽高比的图像输入,生成逼真的人类视频。它在弱信号输入(尤其是音频)方面表现出色,适用于多种场景,如虚拟主播、视频制作等。

收录时间:
2025-05-30
OmniHuman-1OmniHuman-1

OmniHuman-1 是一个端到端的多模态条件人类视频生成框架,能够基于单张人像和运动信号(如音频、视频或其组合)生成人类视频。该技术通过混合训练策略克服了高质量数据稀缺的问题,支持任意宽高比的图像输入,生成逼真的人类视频。它在弱信号输入(尤其是音频)方面表现出色,适用于多种场景,如虚拟主播、视频制作等。

数据统计

相关导航

ReCapture

ReCapture

ReCapture是一种从单一用户提供的视频生成新视频和新颖摄像机轨迹的方法。该技术允许我们从完全不同的角度重新生成源视频,并带有电影级别的摄像机运动。ReCapture通过使用多视图扩散模型或基于深度的点云渲染生成带有新摄像机轨迹的嘈杂锚视频,然后通过我们提出的掩蔽视频微调技术将锚视频重新生成为干净且时间上一致的重新角度视频。这种技术的重要性在于它能够利用视频模型的强大先验,将近似的视频重新生成为时间上一致且美观的视频。
Go with the Flow

Go with the Flow

Go with the Flow 是一种创新的视频生成技术,通过使用扭曲噪声代替传统的高斯噪声,实现了对视频扩散模型运动模式的高效控制。该技术无需对原始模型架构进行修改,即可在不增加计算成本的情况下,实现对视频中物体和相机运动的精确控制。其主要优点包括高效性、灵活性和可扩展性,能够广泛应用于图像到视频生成、文本到视频生成等多种场景。该技术由 Netflix Eyeline Studios 等机构的研究人员开发,具有较高的学术价值和商业应用潜力,目前开源免费提供给公众使用。
PSYCHE AI

PSYCHE AI

PSYCHE AI 是一款专注于生成逼真 AI 视频的工具,其核心功能是通过 AI 技术快速生成高质量的视频内容。用户可以从超过 100 种 AI 角色和 120 种 AI 语音中选择,无需任何视频编辑经验即可生成内容。该产品基于先进的 AI 技术,能够为企业和个人提供高效的内容创作解决方案,尤其适用于内容营销、教育、数字员工和个性化品牌等领域。其价格定位为每视频 2-3 美元,相比传统视频制作成本大幅降低,同时提供免费试用,降低了用户的使用门槛。
Video Prediction Policy

Video Prediction Policy

Video Prediction Policy(VPP)是一种基于视频扩散模型(VDMs)的机器人策略,能够准确预测未来的图像序列,展现出对物理动力学的良好理解。VPP利用VDMs中的视觉表示来反映物理世界的演变,这种表示被称为预测性视觉表示。通过结合多样化的人类或机器人操控数据集,并采用统一的视频生成训练目标,VPP在两个模拟环境和两个真实世界基准测试中均优于现有方法。特别是在Calvin ABC-D基准测试中,相较于先前的最佳技术,VPP实现了28.1%的相对改进,并在复杂的真实世界灵巧手操控任务中提高了28.8%的成功率。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...