OmniParser – 微软推出的屏幕解析工具,将UI截图转换为结构化数据
2025-02-01 17:01:32 小编:六六导航站
OmniParser是什么
OmniParser是微软研究院推出的屏幕解析工具,将用户界面的屏幕截图转换成结构化数据。工具专门设计用在提高基于大型语言模型(如GPT-4V)的UI代理系统的性能,基于准确识别可交互图标和理解截图元素的语义,增强代理执行任务的能力。OmniParser用微调过的模型提取屏幕中的交互区域和元素功能语义,在多个基准测试中提升操作的精确度和代理的性能,无需依赖额外信息如HTML或视图层次结构。

OmniParser的主要功能
解析UI截图:OmniParser将用户界面的屏幕截图解析成结构化的元素,包括可交互图标和文本。识别可交互区域:用专门的检测模型识别和标记UI中的可交互区域,如按钮和图标。提取功能语义:用描述模型提取检测到的元素的功能语义,生成对用户任务相关的描述。增强代理性能:结合解析结果,提升基于大型语言模型(如GPT-4V)的UI代理在执行任务时的性能和准确性。跨平台应用:支持多种操作系统和应用程序,如Windows、MacOS、iOS、Android及多种Web浏览器和桌面应用。无需额外信息:无需依赖HTML或视图层次结构等额外信息,独立地从视觉截图中提取必要数据。OmniParser的技术原理
数据集构建:从流行网页和应用中提取数据,构建可交互图标检测数据集和图标描述数据集。模型微调:检测模型:用YOLOv8模型在可交互图标检测数据集上进行微调,识别和定位UI中的可交互区域。描述模型:用BLIP-v2模型在图标描述数据集上进行微调,生成图标的功能描述。OCR模块:集成光学字符识别(OCR)模块提取屏幕上的文本,与图标检测结果合并,去除高重叠的边界框。结构化表示:将检测到的元素和生成的描述整合,形成结构化的DOM(文档对象模型)表示,在潜在可交互元素上叠加边界框的截图。行动预测:结合结构化元素和功能语义,减轻大型语言模型在行动预测时的负担,更准确地将预测的行动转换为屏幕上的实际行动。OmniParser的项目地址
项目官网:omniparser-for-pure-vision-based-gui-agentHuggingFace模型库:https://huggingface.co/microsoft/OmniParserarXiv技术论文:https://arxiv.org/pdf/2408.00203OmniParser的应用场景
自动化软件测试:在软件开发过程中,自动识别和操作UI元素,执行测试脚本,提高测试效率和覆盖率。虚拟助手:作为虚拟助手的一部分,帮助理解屏幕内容、执行如预订、查询和数据输入等任务。辅助技术:对于视觉障碍人士,OmniParser能解析屏幕内容、转化为语音输出,提供屏幕阅读功能。用户界面设计验证:设计师验证UI设计中的可交互元素是否符合预期的功能和语义。跨平台应用开发:开发者在不同操作系统和设备上测试和优化应用的UI,确保一致的用户体验。- 猜你喜欢
-
ContentGeni提示指令
-
Call Annie提示指令
-
ChatGenius提示指令
-
通义千问提示指令
-
知否AI问答提示指令
-
文心一言提示指令
-
免费AI全能助手提示指令
-
NameGPT名称生成器提示指令
-
AI写作网(免费)提示指令
- 相关AI应用
-
陌言AI创作助手提示指令
-
豆包AI助手 ( 免费 )提示指令
-
文状元智能写作提示指令
-
笔灵AI提示指令
-
ChatMindAI提示指令
-
免费FAE机器人对话提示指令
-
小鱼AI写作(免费)提示指令
-
词魂提示指令
-
ChatGPT Shortcut提示指令
- 推荐AI教程资讯
- OmniParser – 微软推出的屏幕解析工具,将UI截图转换为结构化数据
- Ditto – AI应用程序生成器,零编码自动规划和构建应用
- Flux.1 Lite – Freepik推出的轻量级AI模型
- Phidata – 创建具有记忆、知识、工具和推理能力的AI智能体框架
- Allegro – Rhymes AI推出文本生成高质量视频内容的模型
- FakeShield – 北大推出检测图像伪造的多模态大语言模型框架
- MaskGCT – 趣丸科技联合香港中文大学推出的语音合成大模型
- GLM-4-Voice – 智谱AI推出的端到端情感语音模型
- Unbounded – 谷歌推出的首款AI生成式无限人生模拟游戏
- AutoGLM – 智谱AI推出的模拟人类操作手机的AI智能体
- 精选推荐
-
词魂2025-01-02提示指令
-
法智2025-01-02法律助手
-
ChatMindAI2025-01-27提示指令
-
墨鱼Aigc_Ai写作_伪原创文案写作神器2025-01-29法律助手
-
通义法睿2024-12-31法律助手
-
AI Short2025-01-02提示指令