OmniGen2— 智源研究院开源的多模态生成模型

时间：2025-07-01 | 作者： | 阅读：0

omnigen2 是由北京智源人工智能研究院开发的开源多模态生成模型。该模型能够依据文本提示生成高质量图像，并支持通过指令进行图像编辑，例如调整背景或人物特征等。omnigen2 采用了双组件架构，融合了视觉语言模型（vlm）与扩散模型，从而实现对多种生成任务的统一处理。其优势在于开源免费、性能优越以及具备强大的上下文生成能力，适用于商业应用、创意设计及科研开发等多个领域。

主要功能

文本生成图像：可以根据文字描述生成高清晰度且美观的图像，在多个评测基准中表现优异，如在 GenEval 和 DPG-Bench 上分别获得 0.86 和 83.57 的分数。
指令驱动图像修改：支持复杂指令下的图像编辑操作，包括局部更改（如更换服装颜色）和整体风格变换（如将照片转换为漫画风格）。在图像编辑任务中，OmniGen2 在多个测试中实现了编辑精准性与图像质量之间的良好平衡。
上下文相关生成：可处理并灵活结合多种输入元素（如人物、参考对象和场景），产生新颖且连贯的视觉效果。在 OmniContext 基准测试中，OmniGen2 在视觉一致性方面比现有开源模型高出15%以上。
图像理解能力：继承自 Qwen-VL-2.5 基础模型，具有出色的图像内容解析和分析能力。

技术原理

双路径结构：OmniGen2 设计了独立的文本与图像解码路径，分别负责处理各自模态的数据。文本部分基于 Qwen2.5-VL-3B 多模态语言模型（MLLM），而图像生成则由一个单独的扩散 Transformer 模块完成，避免了文本生成过程对图像质量的影响。
扩散 Transformer 技术：图像生成模块使用了一个包含 32 层的扩散 Transformer，隐藏维度为 2520，总参数量约为 40 亿。该模块采用修正流（Rectified Flow）方法以提升图像生成效率。
Omni-RoPE 位置嵌入：引入了一种创新的多模态旋转位置编码机制（Omni-RoPE），将位置信息拆分为序列标识符、模态类型、二维坐标等要素，实现对图像每个位置的精确编码，并支持多图空间定位和身份识别。
自我优化机制：设计了专门的反思机制，用于提高图像生成的质量与一致性，使模型能够在多轮生成中不断优化输出结果。
分阶段训练策略：首先在文字转图像任务上预训练扩散模型，随后引入混合任务进行联合训练，最终实施端到端训练以增强反思能力。
数据筛选流程：训练数据来源于视频提取，经过多重过滤步骤，包括 DINO 相似性筛选和 VLM 一致性验证，确保训练集的高质量。