AGUVIS – 香港大学联合 Salesforce 推出统一纯视觉的GUI自动化框架
2025-01-06 09:53:40 小编:六六导航站
AGUVIS是什么
AGUVIS是香港大学、Salesforce 联合推出的统一的纯视觉框架,专为自主GUI智能体设计,能在各种平台(如网页、桌面、移动设备)上操作。AGUVIS基于图像观察和自然语言指令与视觉元素的关联,采用一致的动作空间实现跨平台泛化。AGUVIS结合显式规划和推理,增强代理在复杂数字环境中的自主导航和交互能力。框架通过大规模数据集和两阶段训练流程,实现了在离线和在线场景中超越现有方法的性能,成为首个不依赖外部闭源模型独立完成任务的纯视觉GUI代理。

AGUVIS的主要功能
跨平台自主GUI交互:在不同平台(如网站、桌面和移动设备)上自主执行GUI任务。图像观察与自然语言指令关联:将自然语言指令映射到视觉界面元素,实现基于图像的交互。显式规划与推理:集成规划和推理能力,让代理够分析环境并生成有效的操作步骤。大规模数据集构建:创建包含多模态推理和基础的大规模GUI代理轨迹数据集。AGUVIS的技术原理
纯视觉框架:采用纯视觉方法,将界面观察统一为图像,将指令基础到图像坐标,提高跨环境的泛化能力。统一动作空间:用标准化的动作空间和插件系统,在不同平台间进行一致的学习与交互。视觉-语言模型(VLM):VLM作为基础,如Qwen2-VL,处理任意分辨率的高分辨率图像,并动态转换为视觉令牌。两阶段训练范式:第一阶段:基础训练:专注于使模型理解和与单个GUI截图中的对象交互。第二阶段:规划与推理训练:在基础训练的基础上,引入更复杂的决策制定和推理过程,基于多样化的代理轨迹数据训练模型。内省式独白(Inner Monologue):在训练中生成详细的内省式独白,包含观察描述、思考和低级动作指令,模拟代理的思考过程、提升其规划能力。插件系统:为不能直接映射到现有动作空间的动作提供灵活性,让模型能够适应新环境和任务。AGUVIS的项目地址
项目官网:aguvis-projectGitHub仓库:https://github.com/xlang-ai/aguvisarXiv技术论文:https://arxiv.org/pdf/2412.04454AGUVIS的应用场景
自动化测试:在软件开发中自动化测试各种图形用户界面,包括网站、桌面应用和移动应用,确保软件的稳定性和可靠性。虚拟助手:作为虚拟助手,帮助用户自动化日常的计算机任务,如日程管理、邮件处理和数据输入。业务流程自动化:在企业中自动化执行特定的业务流程,如财务报告生成、客户数据管理等,提高工作效率。教育和培训:创建交互式教育软件,模拟真实世界的GUI操作,用于教学和培训目的。客户服务自动化:在客户服务领域自动处理客户请求,基于GUI界面提供快速响应和解决方案。- 猜你喜欢
-
词魂提示指令
-
ChatGPT Shortcut提示指令
-
Learning Prompt提示指令
-
-
PromptVine提示指令
-
-
-
MJ Prompt Tool提示指令
-
绘AI提示指令
- 相关AI应用
-
AIPRM提示指令
-
Snack Prompt提示指令
-
PublicPrompts提示指令
-
Generrated提示指令
-
LangGPT提示指令
-
AI Short提示指令
-
-
ClickPrompt提示指令
-
PromptHero提示指令
- 推荐AI教程资讯
- Perplexideez – 开源本地AI搜索助手,智能搜索信息来源追溯
- Micro LLAMA – 教学版 LLAMA 3模型实现,用于学习大模型的核心原理
- GenCast – 谷歌DeepMind推出的AI气象预测模型
- FullStack Bench – 字节豆包联合M-A-P社区开源的全新代码评估基准
- Motion Prompting – 谷歌联合密歇根和布朗大学推出的运动轨迹控制视频生成模型
- Fish Speech 1.5 – Fish Audio 推出的语音合成模型,支持13种语言
- ClearerVoice-Studio – 阿里通义实验室开源的语音处理框架
- PaliGemma 2 – 谷歌DeepMind推出的全新视觉语言模型
- Optimus-1 – 哈工大联合鹏城实验室推出的智能体框架
- Fox-1 – TensorOpera 开源的小语言模型系列
- 精选推荐
-
词魂2025-01-02提示指令
-
法智2025-01-02法律助手
-
AI Prompt Generator2025-01-02提示指令
-
PromptHero2025-01-02提示指令
-
Learning Prompt2025-01-02提示指令
-
FlowGPT2024-12-31提示指令