
Magic Clothing是一个专注于控制性的服装驱动图像合成的项目,它是OOTDiffusion模型的一个分支版本,旨在通过服装来控制图像的生成。并且官方团队发布了在 768 分辨率上训练的模型权重,此版本中服装和文本提示的强度可以独立调整。以及支持与IP-Adapter-FaceID、ControlNet-Openpos模型一起使用,能够使用肖像和参考姿势图像作为附加条件。这个项目的目标是为图像合成提供更多的控制和灵活性,使得用户能够根据自己的需求创建更具个性化和创意的图像。
- MagicClothing权重文件:https://huggingface.co/ShineChen1024/MagicClothing
- github:https://github.com/ShineChen1024/MagicClothing/tree/main
- OOTDiffusion技术论文:https://arxiv.org/abs/2403.01779
- IP-Adapter-FaceID:https://huggingface.co/h94/IP-Adapter-FaceID
Magic Clothing的主要功能特点
- 控制性:用户可以通过文本提示来控制图像合成中的服装细节,从而生成定制的、穿着特定服装的人物图像。
- 高度可控:系统能够在生成过程中融合服装细节,实现高度可控和细粒度的图像输出。
- 多模态支持:支持IP-Adapter-FaceID,允许使用面部图像作为额外条件,提高图像合成的个性化和准确性。
- 模型更新:提供了不同分辨率的模型权重,如512和768分辨率,以及最新的1024分辨率版本,适用于VTON-HD和DressCode。
- 可视化工具:提供了Gradio工具,用户可以通过这些工具来探索和使用Magic Clothing的功能。
ComfyUI_MagicClothing体验
ComfyUI_MagicClothing是MagicClothing虚拟试衣的非官方实现ComfyUI插件,但也是一款强大的ComfyUI插件,支持功能如下:
- 通过提示生语成服装图像
- IPAdapter FaceID 配合人脸检测和服装图像合成
- IPAdapter FaceID 配合 controlnet openpose 和服装图像合成
- 支持上半身、下半身和全身模型
ComfyUI_MagicClothing插件安装
可以使用插件管理器搜索ComfyUI_MagicClothing安装,或者采用Git工具安装。
Git安装如下
在 ComfyUI 的 custom_nodes 目录下运行下列CLI命令
git clone https://github.com/frankchieng/ComfyUI_MagicClothing.git
pip install -r requirements.txt
模型下载
需要从Huggingface下载 cloth_segm.pth, magic_clothing_768_vitonhd_joint.safetensors(上半身模型), OMS_1024_VTHD+DressCode_200000.safetensors(下半身和全身模型)3个模型,并将它们放置在ComfyUI/custom_nodes/ComfyUI_MagicClothing/checkpoints 目录下。
同时,如果需要体验 ipadapterfaceid保持面部风格一致性迁移,那么还需要安装 ComfyUI_IPAdapter_plus 自定义节点。然后从IPAdapter FaceID 模型,并将它们放置在对应目录结构下。
另外,如果还想运行 controlnet openpose 部分,那么必须安装 comfyui_controlnet_aux 插件,以及下载 openpose 模型中的 body_pose_model.pth, facenet.pth 和 hand_pose_model.pth,并将它们放置在 custom_nodes/comfyui_controlnet_aux/ckpts/lllyasviel/Annotators目录下。
还有部分模型会在运行时根据用户选项下载(如openpose模型 body_pose_model.pth, facenet.pth 和 hand_pose_model.pth),因此需要能访问huggingface。
文件结构如下:
ComfyUI
|– models
| |– ipadapter
| | |– ip-adapter-faceid-plus_sd15.bin
| | |– ip-adapter-faceid-plusv2_sd15.bin
| | |– ip-adapter-faceid_sd15.bin
| |– loras
| | |– ip-adapter-faceid-plus_sd15_lora.safetensors
| | |– ip-adapter-faceid-plusv2_sd15_lora.safetensors
| | |– ip-adapter-faceid_sd15_lora.safetensors
|– custom_nodes
| |– ComfyUI_MagicClothing
| | |– checkpoints
| | | |– cloth_segm.pth
| | | |– magic_clothing_768_vitonhd_joint.safetensors
| | | |– OMS_1024_VTHD+DressCode_200000.safetensors
MagicClothing模型体验
01. simple workflow
02. IPAdapater FaceID workflow
03. IPAdapater FaceID chained with controlnet openpose workflow
04. full-body workflow with IPadapterFaceid
注:实践效果中对于人物面部特征保持相对弱,作者也提到很快会有人物细节更好改善版模型。目前内置模型为SD1.5模型,作者称将会尝试dreamshape8, xxmix9realistic_v40等SDXL模型。
附录
- github:https://github.com/ShineChen1024/MagicClothing/tree/main
- 插件:https://github.com/frankchieng/ComfyUI_MagicClothing/tree/main
数据统计
相关导航

Veo 是 Google DeepMind 开发的一种先进的视频生成模型。它能够生成1080p高分辨率、长时长的高质量视频。Veo 支持多种电影和视觉风格,能够准确捕捉文本提示的细微差别,并提供创意控制。这个模型旨在使视频制作更易于访问,并在叙事、教育等领域开启新的可能性。

ClotheDreamer
ClotheDreamer 是一种基于 3D 高斯方法的工具,用于从文本提示生成可穿戴的、可生产的 3D 服装资产。由上海大学、上海交通大学、复旦大学和腾讯优图实验室共同推出。它采用了一种名为 Disentangled Clothe Gaussian Splatting (DCGS) 的新型表示方法,使得服装和人体模型可以分别优化。

AnimateZero
AnimateZero是腾讯AI团队发布的一款AI视频生成模型,通过改进预训练的视频扩散模型(Video Diffusion Models),能够更精确地控制视频的外观和运动,实现从静态图像到动态视频的无缝转换。

妙笔
妙笔是阿里巴巴最新开源的中文文生图模型,它与经典的Stable Diffusion 1.5版本结构相同,兼容现有的lora、controlnet等主流插件及其权重。妙笔的特点是用户可以直接输入中文进行文生图操作,生成的图像效果逼真。例如,输入“枯藤老树昏鸦,小桥流水人家。水墨画。”,妙笔能够理解诗句中的意境并生成相应的图像。

RMBG-2.0
RMBG-2.0是由BRIA AI 开发的开源图像背景移除模型,通过先进的卷积神经网络(CNN)实现高精度的前景与背景分离。该模型在经过精心挑选的数据集(包括一般图像、电子商务、游戏和广告内容)上进行了训练,专为大规模企业内容创建的商业用例设计,其准确性、效率和多功能性可以媲美领先的 Source Available 型号。

Boximator
Boximator是字节跳动推出的一款利用深度学习技术进行视频合成的先进工具。它使用文本提示和额外的盒子约束来生成丰富且可控制的视频运动,从而为用户创造独特的视频场景提供了灵活的运动控制。具体来说,Boximator可以通过文本精准控制生成视频中人物或物体的动作,能生成包含多个角色以及特定类型运动的复杂场景,并能精确生成物体和背景的细节。

琴乐大模型
琴乐大模型是由腾讯AI Lab与腾讯TME天琴实验室共同研发的人工智能音乐创作大模型。它可以通过输入中英文关键词、描述性语句或音频,能够直接生成立体声音频或多轨乐谱。

FunAudioLLM
FunAudioLLM 是由阿里巴巴通义团队开发的旨在增强人类与大型语言模型(LLMs)之间的自然语音交互的框架。其核心包括两个创新模型:SenseVoice 和 CosyVoice。SenseVoice 提供高精度的多语言语音识别、情绪识别和音频事件检测,支持超过 50 种语言,并具有极低的延迟。CosyVoice 则专注于自然语音生成,支持多语言、音色和情绪控制,能够进行零样本语音生成、跨语言语音克隆和指令遵循。
暂无评论...