LlamaVoiceLlamaVoice是一个基于羊驼模型的大型语音生成模型,它通过直接预测连续特征,提供了一种与传统依赖于离散语音码预测的向量量化模型相比更为流畅和高效的处理过程。该模型具有连续特征预测、变分自编码器(VAE)潜在特征预测、联合训练、先进采样策略和基于流的增强等关键特点。020语音处理# 变分自编码器# 机器学习# 流模型
VideoVAEPlus这是一个视频变分自编码器(VAE),旨在减少视频冗余并促进高效视频生成。该模型通过观察发现,将图像VAE直接扩展到3D VAE会引入运动模糊和细节失真,因此提出了时间感知的空间压缩以更好地编码和解码空间信息。此外,该模型还集成了一个轻量级的运动压缩模型以实现进一步的时间压缩。通过利用文本到视频数据集中固有的文本信息,并在模型中加入文本指导,显著提高了重建质量,特别是在细节保留和时间稳定性方面。该模型还通过在图像和视频上进行联合训练来提高其通用性,不仅提高了重建质量,还使模型能够执行图像和视频的自编码。广泛的评估表明,该方法的性能优于最近的强基线。020文案写作# 变分自编码器# 文本到视频# 时间压缩