AReaL-boba – 蚂蚁联合清华开源的强化学习训练框架-六六导航站

AReaL-boba – 蚂蚁联合清华开源的强化学习训练框架

2025-05-27 16:24:32 小编：六六导航站

AReaL-boba是什么

AReaL-boba 是蚂蚁技术研究院和清华大学联合推出的开源强化学习训练框架。AReaL-boba是 AReaL 的升级版本，降低了强化学习训练门槛，用户能轻松训练推理模型。框架训练速度快，支持多种计算资源，基于创新优化，显著提升训练吞吐量。其中7B 模型在数学推理上表现卓越，刷新 AIME 分数纪录。AReaL-boba 开源训练数据、脚本和模型，在 32B 模型尺寸上，用 200 条数据和 200 美金成本复刻 QwQ-32B 的推理效果，推动强化学习技术的普惠化。

AReaL-boba的主要功能

高效训练：基于优化和适配 SGLang 推理框架，显著提升训练吞吐量，支持从小规模到大规模分布式训练。推理能力提升：在数学推理等任务上表现出色，7B 模型在 AIME 基准测试中刷新同尺寸模型的分数纪录。低资源训练：基于创新的数据蒸馏技术，用200 条数据复现 QwQ-32B 的推理效果，降低训练成本。完全开源：提供完整的代码、数据集、训练脚本和评估脚本，确保可复现性，方便开发者使用和改进。

AReaL-boba的技术原理

强化学习：基于奖励信号优化模型的行为，用与环境的交互学习最优策略。在语言模型中，强化学习用在优化模型的生成能力，在特定任务上表现更好。SGLang 推理框架集成：AReaL-boba 是首个全面集成 SGLang 推理框架的开源训练系统。SGLang 提供高效的推理能力，优化训练过程中的计算效率。工程优化：对训练流程进行多项工程优化，包括并行计算、显存管理等，提升训练吞吐量。在不同模型尺寸上均实现显著的训练速度提升。数据蒸馏技术：基于创新的数据蒸馏方法，从大量数据中提取关键信息，精简训练数据。