OpenAI日前推出名为 「Operator」的AI代理服务,它能够像人类一样操作网页浏览器,执行包括预订旅行、订购外卖、填写表单等在内的各种线上任务,甚至可以同时处理多项任务。
Operator建立在OpenAI的多模态大型语言模型GPT-4o之上,并结合了名为 ?Computer-Using Agent (CUA)?的全新模型。CUA模型赋予Operator与图形用户界面(例如按钮、文字框、菜单)互动的能力,使其能够像人类一样浏览网页、点击按钮、输入文字等,从而完成各种线上任务。
OpenAI声称Operator的性能超越了Anthropic的Computer Use和Google DeepMind的Mariner等竞争对手的类似工具。在一系列业界基准测试中,CUA 在完成线上任务方面的得分均高於 Computer Use 和 Mariner。
OpenAI 计划在未来利用API向开发者开放CUA的功能,以便他们构建自己的应用程式,进一步扩展Operator的应用范围,并推动AI代理技术的发展。
虽然Operator目前仍处於实验阶段,但它展现了AI技术的巨大潜力。可以预见未来将会有更多像Operator这样的AI代理出现,影响人们的生活和工作方式。