Open-Sora-PlanOpen-Sora-Plan是一个开源项目,旨在复现OpenAI的Sora(T2V模型),并构建关于Video-VQVAE(VideoGPT)+ DiT的知识。项目由北京大学-兔展AIGC联合实验室发起,目前资源有限,希望开源社区能够贡献力量。项目提供了训练代码,并欢迎Pull Request。
Argmax WhisperKitWhisperKit由Argmax公司推出,是一个基于Whisper项目的推理工具包,它允许在iOS和macOS应用程序中进行语音识别和转录。该项目的目标是收集开发者反馈,并在几周内发布一个稳定的候选版本,以加速设备上推理的生产化。
avp_teleoperate这是一个开源项目,用于实现人形机器人Unitree H1_2的遥控操作。它利用了Apple Vision Pro技术,允许用户通过虚拟现实环境来控制机器人。该项目在Ubuntu 20.04和Ubuntu 22.04上进行了测试,并且提供了详细的安装和配置指南。该技术的主要优点包括能够提供沉浸式的遥控体验,并且支持在模拟环境中进行测试,为机器人遥控领域提供了新的解决方案。
VastGaussianVastGaussian是一个3D场景重建的开源项目,它通过使用3D高斯来模拟大型场景的几何和外观信息。这个项目是作者从零开始实现的,可能存在一些错误,但为3D场景重建领域提供了一种新的尝试。项目的主要优点包括对大型数据集的处理能力,以及对原始3DGS项目的改进,使其更易于理解和使用。
LLaVA++LLaVA++是一个开源项目,旨在通过集成Phi-3和LLaMA-3模型来扩展LLaVA模型的视觉能力。该项目由Mohamed bin Zayed University of AI (MBZUAI)的研究人员开发,通过结合最新的大型语言模型,增强了模型在遵循指令和学术任务导向数据集上的表现。
Open-MAGVIT2Open-MAGVIT2是由腾讯ARC实验室开源的一个自回归图像生成模型系列,包含从300M到1.5B不同规模的模型。该项目复现了Google的MAGVIT-v2分词器,实现了在ImageNet 256×256数据集上达到1.17 rFID的先进重建性能。通过引入不对称分词技术,将大词汇表分解为不同大小的子词汇表,并引入'下一个子标记预测'来增强子标记间的交互,以提高生成质量。所有模型和代码均已开源,旨在推动自回归视觉生成领域的创新和创造力。
Geleza.appgeleza.app是一款基于人工智能的写作助手,为您的业务生成高质量的推广文案和内容。它能够快速创建需要最少努力、时间和成本的高质量内容,包括关键词生成、博客主题头脑风暴、博客段落写作、故事创作、关键词提取、电子邮件写作、推文生成等功能。通过geleza.app,您可以更轻松地编写销售推广内容,加快发布内容的速度,并提高销售业绩。