DeepEyes— 小红书联合西安交大推出的多模态深度思考模型

时间：2025-06-04 | 作者： | 阅读：0

deepinsight 是小红书团队与西安交通大学合作开发的多模态深度学习模型。该模型通过端到端强化学习实现类似于 openai o3 的“以图推理”能力，且不需要依赖监督微调（sft）。deepinsight 能够在推理时动态调用图像处理工具，例如裁剪和缩放，从而加强其对细节的理解能力。此模型在视觉推理基准测试 v* bench 上取得了 90.1% 的准确率，展示了其卓越的视觉搜索及多模态推理能力。deepinsight 拥有优秀的图像定位功能，有助于减少幻觉现象的发生，提高了模型的可信度和适应性。

DeepInsight的核心功能

以图推理：能够直接将图像整合进推理流程中，不仅能观察图像，还能对其进行深入思考，在推理过程中动态地运用图像资料，强化细节识别力。
视觉检索：能够在高分辨率图像中迅速找到小目标或模糊区域，借助裁剪和缩放技术进行详尽分析，极大改善了检索精度。
幻觉抑制：凭借聚焦于图像细节的能力，减少了模型生成答案时可能出现的错误联想，增强了回答的精确性和稳定性。
跨模态推理：实现了视觉与文本推理之间的平滑过渡，增强了模型处理复杂任务的能力。
动态工具应用：模型能够自主判断何时应调用图像处理工具，比如裁剪、缩放等，无需外界干预即可完成更高效的推理过程。

DeepInsight的技术基础

端到端强化学习：DeepInsight 利用端到端强化学习（RL）来训练模型，无需进行冷启动的监督微调（SFT）。它依据奖励信号直接调整模型行为，使其学会如何在推理中有效地利用图像资源。奖励机制涵盖准确性奖励、格式奖励以及条件工具奖励，保证了模型既给出正确答案又能恰当地使用图像工具。
交错多模态思维链：DeepInsight 提出了交错多模态思维链（Interleaved Multimodal Chain-of-Thought, iMCoT），允许模型在推理期间交替处理视觉与文本信息。模型会在每次推理步骤中评估是否需要额外的视觉信息，并据此生成边界框坐标以裁剪图像的关键部分，然后将这些部分再次送回模型作为新的视觉证据。
面向工具使用的数据挑选：为了更好地鼓励模型使用工具，采用了面向工具使用的数据挑选策略。训练数据经过严格筛选，确保它们能够有效推动模型掌握工具操作技巧。数据集涵盖了高分辨率图像、图表数据以及推理数据，涉及多种任务类型，有助于提升模型的通用性。
工具调用行为演变：在训练进程中，模型的工具调用行为经历了三个阶段：初期试探、积极实践和高效利用。从最初的随机尝试逐步发展到精准且高效的工具调用，最终达到了接近人类水平的视觉推理效果。
多模态整合：DeepInsight 将视觉与文本信息紧密结合，构建了一个统一的推理架构。这种整合提升了模型在视觉任务上的表现，并增强了其在多模态任务中的整体效能。