Proxy Lite – 开源视觉语言模型,支持自动化网页任务
2025-03-10 14:53:18 小编:六六导航站
Proxy Lite是什么
Proxy Lite 是开源的轻量级视觉语言模型(VLM),参数量为3B,支持自动化网页任务。Proxy Lite 能像人类一样操作浏览器,完成网页交互、数据抓取、表单填写等重复性工作,显著降低自动化成本。Proxy Lite用“观察-思考-工具调用”的三步决策机制,具备强大的泛化能力和低资源占用,支持在消费级GPU上高效运行。Proxy Lite 提供完整的浏览器交互框架,支持网页自动化测试、数据提取、智能任务助手等多种应用场景,适合开发者快速部署和使用。

Proxy Lite的主要功能
网页自动化操作:自动完成浏览器中的各种操作,如点击按钮、填写表单、滚动页面、处理弹窗等。网页数据抓取:解析网页内容,提取结构化数据,支持新闻、社交媒体、电商平台等多类型网页的数据抓取。AI驱动的交互式Web代理:结合视觉感知能力,实现UI自动化测试和前端行为分析。智能任务助手:帮助用户搜索、筛选和总结信息,提升网页导航体验。低资源占用:仅3B参数,支持在消费级GPU上高效运行,无需依赖大型云计算资源。Proxy Lite的技术原理
视觉语言模型(VLM):结合视觉感知(图像识别)和自然语言处理能力,理解和操作网页内容。三步决策机制:观察:评估上一操作是否成功,并获取当前网页的状态信息。思考:根据当前页面状态进行推理,决定下一步操作。工具调用:基于浏览器API进行交互,如点击、输入、滚动等。浏览器交互框架:内置完整的浏览器交互控制框架,用Playwright库驱动浏览器操作,支持无头模式(Headless)和隐身模式(Stealth)以降低被反爬风险。执行反馈机制:借鉴DeepSeek R1等模型的反馈机制,在任务执行中不断优化决策流程,提升执行准确性。Proxy Lite的项目地址
GitHub仓库:https://github.com/convergence-ai/proxy-liteProxy Lite的应用场景
网页自动化操作:自动完成点击、填写表单、滚动页面等任务,减少人工操作。网页数据抓取:提取新闻、电商等网页的结构化数据,用在数据分析或内容聚合。自动化测试:实现Web应用的UI自动化测试,快速检测界面功能。智能任务助手:帮助用户搜索、筛选信息,提升网页使用效率。企业级任务自动化:企业内部流程自动化,如数据录入和跨系统发布信息。- 猜你喜欢
-
MusicTGA-HR提示指令
-
RappingAI提示指令
-
Boomy提示指令
-
TwoShot提示指令
-
Weet提示指令
-
Muzaic Studio提示指令
-
-
HookGen提示指令
-
DadaBots提示指令
- 相关AI应用
-
Playlistable提示指令
-
Riffusion提示指令
-
WZRD提示指令
-
-
Cyanite.ai提示指令
-
Piano Genie提示指令
-
Synthesizer V提示指令
-
Cosonify提示指令
-
Musico提示指令
- 推荐AI教程资讯
- Proxy Lite – 开源视觉语言模型,支持自动化网页任务
- WeGen – 中科大联合上海交大等推出的统一多模态生成模型
- DiffBrush – 北邮联合清华等机构推出的图像生成与编辑框架
- Liquid – 华中科技、字节、港大联合推出的统一多模态生成框架
- X-Dancer – 字节等机构推出音乐驱动的人像舞蹈视频生成框架
- AVD2 – 清华联合复旦等机构推出的自动驾驶事故视频理解与生成框架
- Kiss3DGen – 基于图像扩散模型的3D资产生成框架
- Archon – 开源 AI 智能体框架,自主生成代码构建 AI 智能体
- PodAgent – 港中文、微软、小红书联合推出的播客生成框架
- Chat2SVG – 文本描述实现高质量矢量图形的生成框架
- 精选推荐
-
WiziShop2025-02-02法律助手
-
Endel2025-02-25提示指令
-
Voice.ai2025-02-14提示指令
-
Awesome ChatGPT Prompts2025-01-02提示指令
-
Co-Writer AI2025-02-12法律助手
-
ChatLaw2024-12-31法律助手