ScreenAgent – 基于视觉语言模型的计算机控制智能体
2025-05-09 16:25:36 小编:六六导航站
ScreenAgent是什么
ScreenAgent是一个由吉林大学人工智能学院的研究团队开发的计算机控制智能体,该智能体是基于视觉语言模型(VLM)构建的,能够与真实计算机屏幕进行交互。研究人员构建了一个包含“计划-执行-反思”的运行流程,以引导智能体与计算机屏幕进行持续性的交互。ScreenAgent的核心功能是通过观察屏幕截图,并输出相应的鼠标和键盘动作来操纵图形用户界面(GUI),从而执行多步骤的复杂任务。

ScreenAgent的官网入口
官方GitHub代码库:https://github.com/niuzaisheng/ScreenAgentArxiv研究论文入口:https://arxiv.org/abs/2402.07945ScreenAgent的运行流程

ScreenAgent的技术原理
视觉语言模型(VLM):VLM是一种结合了视觉和语言处理能力的模型,它可以理解图像内容并生成相应的自然语言描述。在ScreenAgent中,VLM用于解析屏幕截图,理解用户的任务提示,并规划出一系列动作来完成任务。强化学习环境:ScreenAgent通过VNC协议与真实计算机屏幕交互,创建了一个强化学习环境。在这个环境中,智能体可以观察屏幕状态(状态空间),执行动作(动作空间),并根据执行结果获得奖励(奖励函数)。控制流程:计划(Planning):智能体根据当前屏幕截图和任务提示,分解任务并规划一系列子任务和相应的动作序列。执行(Acting):智能体根据规划阶段的输出,通过发送鼠标和键盘动作命令来操纵计算机界面。反思(Reflecting):智能体评估执行动作后的结果,决定是否需要重试、继续或调整计划。数据集和评估:ScreenAgent数据集包含了完成各种日常计算机任务时的屏幕截图和动作序列,用于训练和评估模型。CC-Score(Vision Language Computer Control Score)是一个细粒度的评估指标,用于衡量智能体在计算机控制任务中的表现。模型训练:ScreenAgent 模型通过在 ScreenAgent 数据集上进行训练,学习如何有效地规划、执行和反思以完成复杂的计算机控制任务。训练过程中采用多种技术,如监督学习、强化学习以及人类反馈循环(RLHF)等。- 猜你喜欢
-
MusicTGA-HR提示指令
-
RappingAI提示指令
-
Boomy提示指令
-
TwoShot提示指令
-
Weet提示指令
-
Muzaic Studio提示指令
-
-
HookGen提示指令
-
DadaBots提示指令
- 相关AI应用
-
Playlistable提示指令
-
Riffusion提示指令
-
WZRD提示指令
-
-
Cyanite.ai提示指令
-
Piano Genie提示指令
-
Synthesizer V提示指令
-
Cosonify提示指令
-
Musico提示指令
- 推荐AI教程资讯
- ScreenAgent – 基于视觉语言模型的计算机控制智能体
- YOLOv9 – 新一代高效的实时目标检测系统
- VideoPrism – 谷歌研究团队推出的通用视频编码器
- GPT-SoVITS – 开源的声音克隆项目,只需少量数据即可合成声音
- OpenCodeInterpreter – 开源的代码解释器,可生成和执行代码
- ChatMusician – 可理解和生成音乐的大模型
- EMO – 阿里推出的AI肖像视频生成框架
- StarCoder 2 – BigCode推出的第二代开源代码大模型
- MeloTTS – MyShell AI推出的多语言文本到语音转换工具
- Snap Video – Snapchat公司推出的AI视频生成模型
- 精选推荐
-
Koolio.ai2025-02-19提示指令
-
Soundraw2025-02-24提示指令
-
Superpower ChatGPT2025-02-01提示指令
-
Learning Prompt2025-01-02提示指令
-
ChatMindAI2025-01-27提示指令
-
Epagestore.ai2025-02-05法律助手