TarsierTarsier是由字节跳动研发的大规模视频语言模型家族,旨在生成高质量的视频描述,并具备良好的视频理解能力。Tarsier 采用了简单的模型结构,结合了 CLIP-ViT 编码帧和 LLM 模型来建模时间关系。通过精心设计的两阶段训练策略,Tarsier 展现出了强大的视频描述能力和视频理解能力,在多个公共基准测试中取得了最先进的成果。
Step-Video-T2VStep-Video-T2V 是由阶跃星辰与吉利汽车集团 联合开源的一款先进文本生成视频(Text-to-Video)模型。这款模型在 2025 年 2 月 18 日正式发布,具备强大的多模态生成能力,支持中文和英文输入,适用于广告、影视制作、教育等多个场景。
星声AI星声AI是一款专注于AI播客领域的播客生成器,面向广大播客爱好者和音频内容分享用户,为您提供专业的 AI 播客生成服务。利用最新的 AI 生成技术,星声AI 能够定制化打造优质的播客内容,同时提高信息的阅读和吸收效率。