WebRL – 清华联合智谱AI推出的自进化在线课程强化学习框架-六六导航站

WebRL – 清华联合智谱AI推出的自进化在线课程强化学习框架

2025-01-28 17:34:52 小编：六六导航站

WebRL是什么

WebRL是清华大学、智谱AI联合推出的自我进化的在线课程强化学习框架，训练使用开放大型语言模型（LLMs）的高性能网络代理。WebRL动态生成任务、结果监督奖励模型（ORM）评估任务成功与否，及自适应强化学习策略，解决训练任务稀缺、反馈信号稀疏和在线学习中的策略分布漂移等挑战。WebRL显著提升了Llama-3.1和GLM-4等模型在WebArena-Lite基准测试中的成功率，超越专有LLM API和之前训练的网络代理，证明在提升开源LLMs网络任务能力方面的有效性。

WebRL的主要功能

自我进化课程学习：WebRL能从失败的尝试中生成新任务，动态调整任务的难度和复杂性，适应智能体当前的技能水平。结果监督奖励模型（ORM）：WebRL训练一个ORM评估任务的成功与否，提供二进制奖励信号（成功为1，失败为0），指导智能体的学习过程。自适应强化学习策略：基于KL散度约束的策略更新算法，WebRL限制策略更新过程中的分布漂移，确保智能体在新任务学习中不会偏离已有知识太远。经验回放缓冲区：WebRL用经验回放缓冲区保留先前的成功经验，减轻灾难性遗忘的风险，在训练中重用经验。持续性能提升：WebRL基于迭代自我进化，让智能体在在线环境中持续、一致地提高性能。

WebRL的技术原理

问题表述：WebRL将网络任务建模为有限视界的马尔可夫决策过程（MDP），定义状态、动作、奖励和转移概率。ORM训练：基于训练LLM作为ORM，自动化评估代理的执行轨迹是否成功完成任务，提供反馈信号。强化学习：在在线网络环境中，WebRL用自我进化的课程学习策略动态生成任务，用KL约束策略更新算法防止策略分布的大幅漂移。经验回放：基于经验回放缓冲区来保留先前的知识，减轻灾难性遗忘的风险，用存储成功轨迹避免对错误轨迹的中间状态进行准确估计的挑战。自我进化的课程学习策略：WebRL实施生成和过滤的两步流程，生成逐渐更具挑战性的任务，且仍然适合代理当前的能力，基于In-breadth evolving技术创建新指令。策略更新：WebRL在策略更新时考虑新旧策略之间的KL散度，确保策略的平滑过渡，避免因策略更新导致的性能下降。

WebRL的项目地址

GitHub仓库：https://github.com/THUDM/WebRLarXiv技术论文：https://arxiv.org/pdf/2411.02337v1

WebRL的应用场景

网页浏览自动化：WebRL基于训练智能体自动完成网页浏览任务，如信息检索、填写表单、网上购物等。网络数据提取：在需要从网页中提取特定数据（如价格、评论、新闻文章）的场景中，WebRL帮助自动化数据提取过程。客户服务自动化：在客户服务领域，作为聊天机器人，用网页交互解决用户问题或完成交易。网络内容管理：对于需要管理大量网络内容的网站管理员，WebRL自动化内容更新、发布和维护任务。电子商务：在电子商务平台，帮助自动化订单处理、库存管理和客户交互。