热门

CAT4D

11个月前发布 28 00

CAT4D是一个利用多视图视频扩散模型从单目视频中生成4D场景的技术。它能够将输入的单目视频转换成多视角视频，并重建动态的3D场景。这项技术的重要性在于它能够从单一视角的视频资料中提取并重建出三维空间和时间的完整信息，为虚拟现实、增强现实以及三维建模等领域提供了强大的技术支持。产品背景信息显示，CAT4D由Google DeepMind...

收录时间：

2025-05-30

打开网站手机查看

视频创作 # 3D重建 # 4D场景 # 增强现实 # 多视图视频 # 扩散模型 # 虚拟现实

CAT4D

CAT4D

CAT4D是一个利用多视图视频扩散模型从单目视频中生成4D场景的技术。它能够将输入的单目视频转换成多视角视频，并重建动态的3D场景。这项技术的重要性在于它能够从单一视角的视频资料中提取并重建出三维空间和时间的完整信息，为虚拟现实、增强现实以及三维建模等领域提供了强大的技术支持。产品背景信息显示，CAT4D由Google DeepMind、Columbia University和UC San Diego的研究人员共同开发，是一个前沿的科研成果转化为实际应用的案例。

数据统计

相关导航

Diffusion as Shader

Diffusion as Shader (DaS) 是一种创新的视频生成控制模型，旨在通过3D感知的扩散过程实现对视频生成的多样化控制。该模型利用3D跟踪视频作为控制输入，能够在统一的架构下支持多种视频控制任务，如网格到视频生成、相机控制、运动迁移和对象操作等。DaS的主要优势在于其3D感知能力，能够有效提升生成视频的时间一致性，并在短时间内通过少量数据微调即可展现出强大的控制能力。该模型由香港科技大学等多所高校的研究团队共同开发，旨在推动视频生成技术的发展，为影视制作、虚拟现实等领域提供更为灵活和高效的解决方案。

genmoai

genmoai/models 是一个开源的视频生成模型，代表了视频生成技术的最新进展。该模型名为 Mochi 1，是一个基于 Asymmetric Diffusion Transformer (AsymmDiT) 架构的10亿参数扩散模型，从零开始训练，是迄今为止公开发布的最大的视频生成模型。它具有高保真运动和强提示遵循性，显著缩小了封闭和开放视频生成系统之间的差距。该模型在 Apache 2.0 许可下发布，用户可以在 Genmo 的 playground 上免费试用此模型。

Go with the Flow

Go with the Flow 是一种创新的视频生成技术，通过使用扭曲噪声代替传统的高斯噪声，实现了对视频扩散模型运动模式的高效控制。该技术无需对原始模型架构进行修改，即可在不增加计算成本的情况下，实现对视频中物体和相机运动的精确控制。其主要优点包括高效性、灵活性和可扩展性，能够广泛应用于图像到视频生成、文本到视频生成等多种场景。该技术由 Netflix Eyeline Studios 等机构的研究人员开发，具有较高的学术价值和商业应用潜力，目前开源免费提供给公众使用。

On-device Sora

On-device Sora 是一个开源项目，旨在通过线性比例跳跃（LPL）、时间维度标记合并（TDTM）和动态加载并发推理（CI-DL）等技术，实现在移动设备（如 iPhone 15 Pro）上高效的视频生成。该项目基于 Open-Sora 模型开发，能够根据文本输入生成高质量视频。其主要优点包括高效性、低功耗和对移动设备的优化。该技术适用于需要在移动设备上快速生成视频内容的场景，如短视频创作、广告制作等。项目目前开源，用户可以免费使用。

FasterCache

FasterCache是一种创新的无需训练的策略，旨在加速视频扩散模型的推理过程，并生成高质量的视频内容。这一技术的重要性在于它能够显著提高视频生成的效率，同时保持或提升内容的质量，这对于需要快速生成视频内容的行业来说是非常有价值的。FasterCache由来自香港大学、南洋理工大学和上海人工智能实验室的研究人员共同开发，项目页面提供了更多的视觉结果和详细信息。产品目前免费提供，主要面向视频内容生成、AI研究和开发等领域。

AccVideo

AccVideo 是一种新颖的高效蒸馏方法，通过合成数据集加速视频扩散模型的推理速度。该模型能够在生成视频时实现 8.5 倍的速度提升，同时保持相似的性能。它使用预训练的视频扩散模型生成多条有效去噪轨迹，从而优化了数据的使用和生成过程。AccVideo 特别适用于需要高效视频生成的场景，如电影制作、游戏开发等，适合研究人员和开发者使用。

TANGO Model

TANGO是一个基于层次化音频-运动嵌入和扩散插值的共语手势视频重现技术。它利用先进的人工智能算法，将语音信号转换成相应的手势动作，实现视频中人物手势的自然重现。这项技术在视频制作、虚拟现实、增强现实等领域具有广泛的应用前景，能够提升视频内容的互动性和真实感。TANGO由东京大学和CyberAgent AI Lab联合开发，代表了当前人工智能在手势识别和动作生成领域的前沿水平。

暂无评论

您必须登录才能参与评论！

none

暂无评论...