DeepSeek 等秒变操控电脑 AI智能体,微软开源工具 OmniParser V2.0 发布

2025-03-25 0 901

2 月 17 日消息,微软OmniParser是一款基于纯视觉的 GUI 智能体解析和识别屏幕上可交互图标的 AI工具,此前搭配 GPT-4V 可显著增强识别能力。2 月 12 日,微软在官网发布了OmniParser 最新版本 V2.0,可将 OpenAI(4o / o1 / o3-mini)、DeepSeek(R1)、Qwen(2.5VL)和 Anthropic(Sonnet)等模型,变成可以操控计算机的 AI 智能体。与 V1 版本相比,OmniParser V2 使用了更大规模的交互元素检测数据和图标功能标题数据进行了训练,在检测较小的可交互 UI 元素时准确率更高、推理速度更快,延迟降低了 60%。在高分辨率 Agent 基准测试 ScreenSpot Pro 中,V2+GPT-4o 的准确率达到了 39.6%,而 GPT-4o 原始准确率只有 0.8%。为了能够更快地实验不同的智能体设置,微软还开源了 OmniTool,这是一个集成了智能体所需一系列基本工具的 Docker 化 Windows 系统,涵盖屏幕理解、定位、动作规划和执行等功能,也是将大模型变成智能体的关键工具。相关内容:微软 GitHub Copilot 企业版正式上线,每人每月 39 美元微软起诉一组织非法入侵其 AI 服务,绕过安全防护生成有害内容人类工作面临替代威胁:OpenAI 被曝本月将发“博士级”超级 AI 智能体OpenAI上线首款AI智能体Operator,可控制电脑自动执行任务,订票、网购都可代劳声明:内容来源公开的各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在。
点赞 (0)
常见问题
  • 本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。
查看详情
  • 如果出现购买后没有跳转下载链接,请更换浏览器登陆本站会员中心在购买记录里面查找链接。如果链接失效出现无法下载的情况,请联系客户修复并补发资源。
查看详情

相关文章

发表评论
暂无评论