AccVideoAccVideo 是一种新颖的高效蒸馏方法,通过合成数据集加速视频扩散模型的推理速度。该模型能够在生成视频时实现 8.5 倍的速度提升,同时保持相似的性能。它使用预训练的视频扩散模型生成多条有效去噪轨迹,从而优化了数据的使用和生成过程。AccVideo 特别适用于需要高效视频生成的场景,如电影制作、游戏开发等,适合研究人员和开发者使用。
Apollo-LMMsApollo是一个专注于视频理解的先进大型多模态模型家族。它通过系统性地探索视频-LMMs的设计空间,揭示了驱动性能的关键因素,提供了优化模型性能的实用见解。Apollo通过发现'Scaling Consistency',使得在较小模型和数据集上的设计决策能够可靠地转移到更大的模型上,大幅降低计算成本。Apollo的主要优点包括高效的设计决策、优化的训练计划和数据混合,以及一个新型的基准测试ApolloBench,用于高效评估。
MemenomeLMMemenomeLM是一个创新的在线教育工具,通过将PDF文档转化为视频内容,帮助用户更高效地学习。它利用先进的AI技术,将枯燥的文字转化为生动的视频,使学习变得更加有趣和高效。产品主要面向学生群体,尤其是那些需要处理大量阅读材料的学生。它提供了多种视频格式和声音效果,以满足不同用户的需求。MemenomeLM有免费版和付费版,付费版提供更多功能,如更多的视频生成次数、高级AI声音和专属服务器等。
ReCaptureReCapture是一种从单一用户提供的视频生成新视频和新颖摄像机轨迹的方法。该技术允许我们从完全不同的角度重新生成源视频,并带有电影级别的摄像机运动。ReCapture通过使用多视图扩散模型或基于深度的点云渲染生成带有新摄像机轨迹的嘈杂锚视频,然后通过我们提出的掩蔽视频微调技术将锚视频重新生成为干净且时间上一致的重新角度视频。这种技术的重要性在于它能够利用视频模型的强大先验,将近似的视频重新生成为时间上一致且美观的视频。
长上下文调优(LCT)长上下文调优(LCT)旨在解决当前单次生成能力与现实叙事视频制作之间的差距。该技术通过数据驱动的方法直接学习场景级一致性,支持交互式多镜头开发和合成生成,适用于视频制作的各个方面。
TransPixar.proTransPixar 是一款基于先进人工智能技术的透明视频生成工具。它采用创新的 DiT 架构,能够将文本描述快速转化为高质量的透明视频,实现 RGB 和 Alpha 通道的完美对齐。该技术对于创意制作领域具有重要意义,能够极大提升创作效率,降低制作成本,为视觉特效、动画制作等行业带来全新的解决方案。目前,该产品主要面向创意专业人士,提供高效、专业的透明视频生成服务,具体价格未明确提及,但从其定位来看,可能属于付费范畴。
ASMR.soASMR.so是基于先进的 VEO3 AI 技术的平台,用户可以快速生成专业的 ASMR 视频。该产品支持多种 ASMR 类型,包括耳语、敲击、自然声音等,旨在为用户提供放松和享受的体验。其主要优势在于视频生成速度快(通常在 2 分钟内完成),高清质量以及用户友好的操作流程。适合视频创作者、ASMR 爱好者以及需要放松内容的用户。该平台还提供灵活的信用系统,用户可根据需求选择套餐。产品价格方面,有免费试用和付费套餐可供选择。
Diffusion as ShaderDiffusion as Shader (DaS) 是一种创新的视频生成控制模型,旨在通过3D感知的扩散过程实现对视频生成的多样化控制。该模型利用3D跟踪视频作为控制输入,能够在统一的架构下支持多种视频控制任务,如网格到视频生成、相机控制、运动迁移和对象操作等。DaS的主要优势在于其3D感知能力,能够有效提升生成视频的时间一致性,并在短时间内通过少量数据微调即可展现出强大的控制能力。该模型由香港科技大学等多所高校的研究团队共同开发,旨在推动视频生成技术的发展,为影视制作、虚拟现实等领域提供更为灵活和高效的解决方案。