DreamO— 字节联合北大推出的图像定制生成框架

时间：2025-04-29 | 作者： | 阅读：0

DreamO是什么

dreamo 是由字节跳动创作团队与北京大学深圳研究生院电子与计算机工程学院共同开发的图像定制生成统一框架。它利用预训练的扩散变换器（dit）模型，灵活地实现多种图像生成任务。dreamo 支持身份、主体、风格、背景等多种条件的无缝集成，通过特征路由约束和占位符策略提升生成结果的一致性和条件解耦能力。采用分阶段训练策略，确保模型在复杂任务中高效收敛并保持高质量生成。该框架广泛适用于虚拟试穿、风格迁移、主体驱动生成等场景，为图像生成提供强大的定制化能力。

DreamO的主要功能

多条件集成：支持身份、主体、风格、背景等多种条件的定制，将这些条件无缝融入图像生成过程。
高质量生成：通过分阶段训练策略，确保生成图像的高质量，并纠正低质量数据引入的偏差。
灵活的条件控制：用户可以精确控制条件在生成图像中的位置和布局。
广泛的适用性：适用于虚拟试穿、风格迁移、主体驱动生成等多种复杂图像生成任务。

DreamO的技术原理

扩散变换器（DiT）框架：以扩散变换器为核心架构，统一处理不同类型的输入（如文本、图像、条件等）以实现图像定制。扩散模型通过逐步去噪生成图像，变换器架构增强模型对输入条件的理解和处理能力。
特征路由约束：通过引入特征路由约束，提升生成结果与参考图像的一致性。约束优化条件图像与生成图像之间的注意力机制，确保生成图像的特定区域与条件图像对应，避免条件之间的耦合。
占位符策略：在文本描述中添加占位符（如 [ref#1]），将条件图像与文本描述中的特定对象关联，实现对生成图像中条件位置的精确控制。
分阶段训练策略：采用分阶段训练方法，包括初始阶段（简单任务）、全面训练阶段（多任务）和质量对齐阶段（纠正偏差），帮助模型在复杂数据分布下顺利收敛，保持高质量生成。
大规模训练数据：构建涵盖多种任务（如身份定制、主体驱动、虚拟试穿、风格迁移等）的大规模训练数据集，确保模型能够学习到不同条件下的生成能力。