CausVid

1年前发布 65 0 0

CausVid是一个先进的视频生成模型，它通过将预训练的双向扩散变换器适配为因果变换器，实现了即时视频帧的生成。这一技术的重要性在于它能够显著减少视频生成的延迟，使得视频生成能够以交互式帧率（9.4FPS）在单个GPU上进行流式生成。CausVid模型支持从文本到视频的生成，以及零样本图像到视频的生成，展现了视频生成技术的新高度。

收录时间：

2025-05-30

打开网站手机查看

视频创作 # 人工智能 # 机器学习 # 流式处理 # 深度学习 # 视频生成

CausVid

CausVid

CausVid是一个先进的视频生成模型，它通过将预训练的双向扩散变换器适配为因果变换器，实现了即时视频帧的生成。这一技术的重要性在于它能够显著减少视频生成的延迟，使得视频生成能够以交互式帧率（9.4FPS）在单个GPU上进行流式生成。CausVid模型支持从文本到视频的生成，以及零样本图像到视频的生成，展现了视频生成技术的新高度。

数据统计

相关导航

CameraBench

CameraBench 是一个用于分析视频中相机运动的模型，旨在通过视频理解相机的运动模式。它的主要优点在于利用生成性视觉语言模型进行相机运动的原理分类和视频文本检索。通过与传统的结构从运动 (SfM) 和实时定位与*构建 (SLAM) 方法进行比较，该模型在捕捉场景语义方面显示出了显著的优势。该模型已开源，适合研究人员和开发者使用，且后续将推出更多改进版本。

StableAnimator

StableAnimator是首个端到端身份保留的视频扩散框架，能够在不进行后处理的情况下合成高质量视频。该技术通过参考图像和一系列姿势进行条件合成，确保了身份一致性。其主要优点在于无需依赖第三方工具，适合需要高质量人像动画的用户。

genmoai

genmoai/models 是一个开源的视频生成模型，代表了视频生成技术的最新进展。该模型名为 Mochi 1，是一个基于 Asymmetric Diffusion Transformer (AsymmDiT) 架构的10亿参数扩散模型，从零开始训练，是迄今为止公开发布的最大的视频生成模型。它具有高保真运动和强提示遵循性，显著缩小了封闭和开放视频生成系统之间的差距。该模型在 Apache 2.0 许可下发布，用户可以在 Genmo 的 playground 上免费试用此模型。

Kawara AI

Kawara AI 是一款面向视频创作者的 AI 工具，通过智能组织和搜索视频文件，帮助用户高效管理视频素材。其核心功能包括自动剪辑、视频搜索和无缝集成等，旨在提升视频创作的生产力。产品目前提供免费试用，定位为视频创作者的得力助手，致力于简化视频编辑流程，节省时间和精力。

Sieve Eye Contact Correction

Sieve Eye Contact Correction API 是一个为开发者设计的快速且高质量的视频眼神校正API。该技术通过重定向眼神，确保视频中的人物即使没有直接看向摄像头，也能模拟出与摄像头进行眼神交流的效果。它支持多种自定义选项来微调眼神重定向，保留了原始的眨眼和头部动作，并通过随机的“看向别处”功能来避免眼神呆板。此外，还提供了分屏视图和可视化选项，以便于调试和分析。该API主要面向视频制作者、在线教育提供者和任何需要提升视频交流质量的用户。定价为每分钟视频0.10美元。

Go with the Flow

Go with the Flow 是一种创新的视频生成技术，通过使用扭曲噪声代替传统的高斯噪声，实现了对视频扩散模型运动模式的高效控制。该技术无需对原始模型架构进行修改，即可在不增加计算成本的情况下，实现对视频中物体和相机运动的精确控制。其主要优点包括高效性、灵活性和可扩展性，能够广泛应用于图像到视频生成、文本到视频生成等多种场景。该技术由 Netflix Eyeline Studios 等机构的研究人员开发，具有较高的学术价值和商业应用潜力，目前开源免费提供给公众使用。

长上下文调优（LCT）

长上下文调优（LCT）旨在解决当前单次生成能力与现实叙事视频制作之间的差距。该技术通过数据驱动的方法直接学习场景级一致性，支持交互式多镜头开发和合成生成，适用于视频制作的各个方面。

MuAPI

WAN 2.1 LoRA T2V是一款能够根据文本提示生成视频的工具，通过LoRA模块的定制训练，用户可以定制化生成视频，适用于品牌叙事、粉丝内容和风格化动画。产品背景丰富，提供高度定制化的视频生成体验。

暂无评论

您必须登录才能参与评论！

立即登录

none

暂无评论...