Stable Diffusion 3.5 Medium

11个月前发布 40 00

Stable Diffusion 3.5 Medium是一个基于文本到图像的生成模型,由Stability AI开发,具有改进的图像质量、排版、复杂提示理解和资源效率。该模型使用了三个固定的预训练文本编码器,通过QK-规范化提高训练稳定性,并在前12个变换层中引入双注意力块。它在多分辨率图像生成、一致性和各种文本到图像任务的适应性方面表现...

收录时间:
2025-05-30
Stable Diffusion 3.5 MediumStable Diffusion 3.5 Medium

Stable Diffusion 3.5 Medium是一个基于文本到图像生成模型,由Stability AI开发,具有改进的图像质量、排版、复杂提示理解和资源效率。该模型使用了三个固定的预训练文本编码器,通过QK-规范化提高训练稳定性,并在前12个变换层中引入双注意力块。它在多分辨率图像生成、一致性和各种文本到图像任务的适应性方面表现出色。

数据统计

相关导航

Sana_1600M_512px

Sana_1600M_512px

Sana是一个由NVIDIA开发的文本到图像的生成框架,能够高效生成高达4096×4096分辨率的图像。Sana以其快速的速度、强大的文本图像对齐能力以及可在笔记本电脑GPU上部署的特性而著称。该模型基于线性扩散变换器,使用预训练的文本编码器和空间压缩的潜在特征编码器,代表了文本到图像生成技术的最新进展。Sana的主要优点包括高分辨率图像生成、快速合成、笔记本电脑GPU上的可部署性,以及开源的代码,使其在研究和实际应用中具有重要价值。
InternVL2_5-38B-MPO

InternVL2_5-38B-MPO

InternVL2.5-MPO是一个先进的多模态大型语言模型系列,基于InternVL2.5和混合偏好优化(MPO)构建。该系列模型在多模态任务中表现出色,能够处理图像、文本和视频数据,并生成高质量的文本响应。模型采用'ViT-MLP-LLM'范式,通过像素unshuffle操作和动态分辨率策略优化视觉处理能力。此外,模型还引入了多图像和视频数据的支持,进一步扩展了其应用场景。InternVL2.5-MPO在多模态能力评估中超越了多个基准模型,证明了其在多模态领域的领先地位。
Aria-Base-64K

Aria-Base-64K

Aria-Base-64K是Aria系列的基础模型之一,专为研究目的和继续训练而设计。该模型在长文本预训练阶段后形成,经过33B个token(21B多模态,12B语言,69%为长文本)的训练。它适合于长视频问答数据集或长文档问答数据集的继续预训练或微调,即使在资源有限的情况下,也可以通过短指令调优数据集进行后训练,并转移到长文本问答场景。该模型能够理解多达250张高分辨率图像或多达500张中等分辨率图像,并在语言和多模态场景中保持强大的基础性能。
Sana_600M_512px

Sana_600M_512px

Sana是一个由NVIDIA开发的文本到图像的生成框架,能够高效生成高达4096×4096分辨率的图像。Sana以其快速的速度和强大的文本图像对齐能力,可以在笔记本电脑GPU上部署,代表了图像生成技术的一个重要进步。该模型基于线性扩散变换器,使用预训练的文本编码器和空间压缩的潜在特征编码器,能够根据文本提示生成和修改图像。Sana的开源代码可在GitHub上找到,其研究和应用前景广阔,尤其在艺术创作、教育工具和模型研究等方面。
Edify Image

Edify Image

Edify Image是NVIDIA推出的一款图像生成模型,它能够生成具有像素级精确度的逼真图像内容。该模型采用级联像素空间扩散模型,并通过新颖的拉普拉斯扩散过程进行训练,该过程能够在不同频率带以不同的速率衰减图像信号。Edify Image支持多种应用,包括文本到图像合成、4K上采样、ControlNets、360° HDR全景图生成和图像定制微调。它代表了图像生成技术的最新进展,具有广泛的应用前景和重要的商业价值。
Qwen2-VL-7B

Qwen2-VL-7B

Qwen2-VL-7B是Qwen-VL模型的最新迭代,代表了近一年的创新成果。该模型在视觉理解基准测试中取得了最先进的性能,包括MathVista、DocVQA、RealWorldQA、MTVQA等。它能够理解超过20分钟的视频,为基于视频的问题回答、对话、内容创作等提供高质量的支持。此外,Qwen2-VL还支持多语言,除了英语和中文,还包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。模型架构更新包括Naive Dynamic Resolution和Multimodal Rotary Position Embedding (M-ROPE),增强了其多模态处理能力。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...