AndroidLab – 清华和北大联合推出系统化评估Android智能代理的框架
2025-01-27 14:33:47 小编:六六导航站
AndroidLab是什么
AndroidLab是用在训练和系统评估Android自主代理的框架,集成文本和图像模态操作环境,统一行动空间和可重现基准测试。AndroidLab支持大型语言模型和多模态模型,包含138个任务,覆盖九个应用。基于AndroidLab,开发Android指令数据集,提升开源模型的成功率。框架缩小开源与闭源模型性能差距,推动开源解决方案发展,并在GitHub开源。

AndroidLab的主要功能
多模态操作环境:提供标准化的多模态操作环境,支持大型语言模型(LLMs)和多模态模型(LMMs)在相同的操作空间内进行交互。基准测试:设计一个包含138项任务的基准测试,覆盖九个常见应用,任务类型包括操作任务和查询任务,涉及真实世界的复杂交互场景。评估指标:引入任务完成率(SR)、子目标成功率(Sub-SR)、反向冗余率(RRR)和合理操作比率(ROR)等评估指标,精准评估代理的任务表现。数据集构建:创建Android Instruct数据集,结合自动化探索与人工标注,生成高质量的操作数据,提升开源模型在任务完成率和操作效率上的表现。模型训练与优化:支持对开源和闭源模型进行训练和优化,基于指令调优显著缩小开源与闭源模型之间的性能差距。AndroidLab技术原理
操作模式:XML模式:为文本输入的LLMs设计,基于压缩XML信息传递界面状态,模型直接选择元素执行操作。SoM模式:针对LMMs的设计,用Set-of-Mark方法,将屏幕截图与标记信息结合,模型选择带有编号的标记元素进行操作。推理与操作框架:ReAct框架:基于逐步推理和操作输出,模型输出操作的同时展示中间推理过程。SeeAct框架:推理与操作分离,分两轮交互进行,第一轮模型生成详细的推理步骤,第二轮执行具体操作。任务设计与重现性:每个任务设计多个子目标,用XML树结构匹配来验证每个子目标的完成情况,确保结果准确性和操作的高效性。评估系统:基于任务完成的评估系统,直接从设备和屏幕状态判断,提供全面和精确的代理性能评估。数据集与模型训练:基于自动化探索和人工标注构建数据集,训练和微调模型,提升模型在多模态与文本输入任务中的表现。AndroidLab的项目地址
GitHub仓库:https://github.com/THUDM/Android-LabarXiv技术论文:https://arxiv.org/pdf/2410.24024AndroidLab的应用场景
自动化测试:用在移动应用的自动化测试,模拟用户操作检测应用的功能和性能。智能助理开发:开发理解和执行复杂用户指令的智能助理,如语音助手和聊天机器人。人机交互研究:研究和改进人机交互方式,特别是在移动设备上,如何让机器更好地理解和响应人类指令。人工智能研究:提供一个实验平台,研究和开发大型语言模型(LLMs)和多模态模型(LMMs)在实际应用中的表现。教育和培训:作为教育工具,帮助学生和研究人员理解Android操作系统的工作原理和应用开发。- 猜你喜欢
-
豆包AI助手 ( 免费 )提示指令
-
文状元智能写作提示指令
-
笔灵AI提示指令
-
ChatMindAI提示指令
-
免费FAE机器人对话提示指令
-
小鱼AI写作(免费)提示指令
-
词魂提示指令
-
ChatGPT Shortcut提示指令
-
Learning Prompt提示指令
- 相关AI应用
-
-
PromptVine提示指令
-
-
-
MJ Prompt Tool提示指令
-
绘AI提示指令
-
AIPRM提示指令
-
Snack Prompt提示指令
-
PublicPrompts提示指令
- 推荐AI教程资讯
- AndroidLab – 清华和北大联合推出系统化评估Android智能代理的框架
- Recraft V3 – Recraft推出的AI文本到图像生成模型
- Magentic-One – 微软推出的多AI智能体协同完成复杂任务系统
- X-Portrait 2 – 字节跳动推出的单图驱动视频生成模型
- Ichigo – 开源的多模态AI语音助手,实时处理语音和文本的交织序列
- CogSound – 智谱AI最新推出的音效模型
- AgentSquare – 清华推出模块化智能体系统设计和搜索新框架
- Fashion-VDM – 谷歌和华盛顿大学联合推出的虚拟试穿技术
- olly.bot – 个人AI助理,集成多种通用AI能力支持本地使用
- AdaCache – Meta推出加速AI视频实时高质量生成的开源项目
- 精选推荐
-
词魂2025-01-02提示指令
-
法智2025-01-02法律助手
-
ChatGPT Prompt Genius2025-01-02提示指令
-
ChatLaw2024-12-31法律助手
-
MJ Prompt Tool2025-01-02提示指令
-
通义法睿2024-12-31法律助手