MM-Eureka – 上海AI Lab联合上交大等推出的多模态推理模型-六六导航站

MM-Eureka – 上海AI Lab联合上交大等推出的多模态推理模型

2025-04-27 21:20:17 小编：六六导航站

MM-Eureka是什么

MM-Eureka 是上海人工智能实验室、上海创智学院、上海交通大学和香港大学的研究人员共同开发的多模态推理模型。模型通过基于规则的大规模强化学习（RL），将单模态推理中的关键特性（如稳定的回答长度增长、准确率奖励以及视觉顿悟时刻）扩展到多模态场景。

MM-Eureka 推出两个核心模型：MM-Eureka-8B 和 MM-Eureka-Zero-38B，分别基于 InternVL2.5-Instruct-8B 和 InternVL2.5-Pretrained-38B。仅使用 54K 图文数据进行规则型强化学习训练，平均性能便超过了使用 1M 数据的 MPO 模型。MM-Eureka-Zero-38B 仅使用 8K 图文数学推理数据，在自建的 K12 基准测试上超越指令模型 8.2%，在 MathVerse 上表现相当。

MM-Eureka的主要功能

多模态推理能力：将大规模基于规则的强化学习（RL）扩展到多模态推理领域，能处理文本和视觉信息。复现关键特性：在多模态空间中复现了文本 RL 系统（如 DeepSeek-R1）的关键特性，包括准确率奖励和响应长度的稳步提升，以及反思行为的涌现。数据高效性：仅使用 54K 图文数据进行规则型 RL 训练，平均性能超过了使用 1M 数据的 MPO 模型，整体基准准确率与使用 12M 数据进行 CoT SFT 训练的模型相当。

MM-Eureka的技术原理

基于规则的大规模强化学习框架：MM-Eureka 基于 OpenRLHF 开发了高效可扩展的多模态大规模强化学习框架，支持 InternVL 等多种模型和 RL 算法。使模型能在多模态环境中进行有效的训练，成功复现了 DeepSeek-R1 的关键特性，如准确率奖励和响应长度的稳步提升。数据过滤与稳定训练：研究团队发现，数据选择对于稳定 RL 训练至关重要。基于难度的数据过滤策略对 RL 训练的稳定性起到了关键作用。视觉顿悟时刻（Visual aha-moment）：MM-Eureka 在训练过程中展现出类似 DeepSeek-R1 的视觉顿悟时刻。具体表现为模型学会反思和回溯，会重新审视图像中的关键信息。极简的强化学习设计：极简的 RL 设计在 MM-Eureka 中被证明是有效的。在 instruct 模型上实验时，添加 KL 散度会限制模型探索，导致无法观测到响应长度的提高。 MM-Eureka 采用简单的奖励函数（如准确性奖励和格式奖励），通过难度基础的数据过滤策略进行稳定训练。高效的数据利用：MM-Eureka 展现出极高的数据效率。仅使用 54K 图文数据进行规则型强化学习训练，平均性能就超过了使用 1M 数据的 MPO 模型。MM-Eureka-Zero 仅使用 8K 图文数学推理数据（指令模型的 0.05%），在自建的 K12 基准测试上超越指令模型 8.2%，在 MathVerse 上表现相当。表明在多模态推理领域，简单的规则型强化学习设计可以显著提升训练效果，在数据量较少的情况下也能达到与大规模训练相当的性能。

MM-Eureka的项目地址

Github仓库：https://github.com/ModalMinds/MM-EUREKAarXiv技术论文：https://arxiv.org/pdf/2503.07365

MM-Eureka的应用场景

教育领域：MM-Eureka 能通过强大的推理能力和反思机制，帮助学生更好地理解和解决复杂的数学问题。增强现实（AR）和虚拟现实（VR）：在 AR 和 VR 场景下，通过结合视觉和语言信息，MM-Eureka 可以为用户提供更加沉浸式和交互式的体验。数据分析和决策支持：MM-Eureka 的多模态推理能力使其在数据分析和决策支持方面具有显著优势。能处理复杂的图文数据，帮助用户从大量信息中提取关键信息并做出更明智的决策。自动化和智能助手：MM-Eureka 可以作为智能助手的核心技术，为用户提供更智能、更自然的交互体验。游戏和娱乐：在游戏和娱乐领域，MM-Eureka 的多模态推理能力可以用于开发更加智能的非玩家角色（NPC）和交互式剧情。