CogVideoX1.5-5B-SAT

11个月前发布 38 00

CogVideoX1.5-5B-SAT是由清华大学知识工程与数据挖掘团队开发的开源视频生成模型,是CogVideoX模型的升级版。该模型支持生成10秒视频,并支持更高分辨率的视频生成。模型包含Transformer、VAE和Text Encoder等模块,能够根据文本描述生成视频内容。CogVideoX1.5-5B-SAT模型以其强大的视...

收录时间:
2025-05-30
CogVideoX1.5-5B-SATCogVideoX1.5-5B-SAT

CogVideoX1.5-5B-SAT是由清华大学知识工程与数据挖掘团队开发的开源视频生成模型,是CogVideoX模型的升级版。该模型支持生成10秒视频,并支持更高分辨率的视频生成。模型包含Transformer、VAE和Text Encoder等模块,能够根据文本描述生成视频内容。CogVideoX1.5-5B-SAT模型以其强大的视频生成能力和高分辨率支持,为视频内容创作者提供了一个强大的工具,尤其在教育、娱乐和商业领域有着广泛的应用前景。

数据统计

相关导航

Sana_600M_1024px

Sana_600M_1024px

Sana是一个由NVIDIA开发的文本到图像生成框架,能够高效生成高达4096×4096分辨率的图像。Sana以其快速的速度和强大的文本图像对齐能力,使得在笔记本电脑GPU上也能部署。它是一个基于线性扩散变换器(text-to-image generative model)的模型,拥有1648M参数,专门用于生成1024px基础的多尺度高宽图像。Sana模型的主要优点包括高分辨率图像生成、快速的合成速度以及强大的文本图像对齐能力。Sana模型的背景信息显示,它是基于开源代码开发的,可以在GitHub上找到源代码,同时它也遵循特定的许可证(CC BY-NC-SA 4.0 License)。
Sana_1600M_512px_MultiLing

Sana_1600M_512px_MultiLing

Sana是一个由NVIDIA开发的文本到图像的框架,能够高效生成高达4096×4096分辨率的图像。Sana能够以极快的速度合成高分辨率、高质量的图像,并且具有强烈的文本-图像对齐能力,可以在笔记本电脑GPU上部署。该模型基于线性扩散变换器,使用固定预训练的文本编码器和空间压缩的潜在特征编码器,支持英文、中文和表情符号混合提示。Sana的主要优点包括高效率、高分辨率图像生成能力以及多语言支持。
VideoVAEPlus

VideoVAEPlus

这是一个视频变分自编码器(VAE),旨在减少视频冗余并促进高效视频生成。该模型通过观察发现,将图像VAE直接扩展到3D VAE会引入运动模糊和细节失真,因此提出了时间感知的空间压缩以更好地编码和解码空间信息。此外,该模型还集成了一个轻量级的运动压缩模型以实现进一步的时间压缩。通过利用文本到视频数据集中固有的文本信息,并在模型中加入文本指导,显著提高了重建质量,特别是在细节保留和时间稳定性方面。该模型还通过在图像和视频上进行联合训练来提高其通用性,不仅提高了重建质量,还使模型能够执行图像和视频的自编码。广泛的评估表明,该方法的性能优于最近的强基线。
Viral Video

Viral Video

Viral Video是一个利用人工智能技术帮助用户快速创建病毒式视频的在线平台。它通过文本到视频的转换、文本到语音的转换、AI视频编辑和AI场景生成等功能,简化了视频制作流程,降低了成本,并提高了视频的吸引力和传播潜力。该平台特别适合内容创作者、营销人员和社交媒体运营者,帮助他们以更低的成本和更快的速度制作出高质量的视频内容,从而在社交媒体上获得更多的关注和互动。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...