CTIMES/SmartAuto - Google发表大语言模型实体机器人：Gemini Robotics:机器人

元件次系统自动控制

最新动态

产业快讯

CTIMES/SmartAuto / 新闻 /

Google发表大语言模型实体机器人：Gemini Robotics

【CTIMES / SMARTAUTO ABC_1 报导】 2025年03月13日星期四

浏览人次：【170】

Google DeepMind 日前发表全新模型 Gemini Robotics，将其大型语言模型（LLM）与机器人技术结合，为机器人带来前所未有的灵活性、自然语言指令操作能力，以及跨任务的能力。

Google发表大语言模型实体机器人：Gemini Robotics

DeepMind机器人部门主管Kanishka Rao在发表会上表示，机器人领域的一大挑战，也是阻碍实用机器人普及的原因，在於机器人通常只能在熟悉的场景中表现良好，而无法在陌生的场景中广泛使用。

而Gemini Robotics采用Gemini 2.0 LLM，使其能够推理出应采取的行动，理解人类的请求，并使用自然语言进行沟通。该模型还能跨多种机器人类型进行广泛应用。

Google DeepMind同时宣布与Agility Robotics和Boston Dynamics等多家机器人公司合作，共同开发Gemini Robotics-ER模型，这是一款专注於空间推理的视觉语言模型。

DeepMind机器人团队负责人Carolina Parada表示，正与值得信赖的测试人员合作，让团队接触感兴趣的应用场景，并从中学习，以便构建更智能的系统。

在展示中，研究人员在桌子上放置了各种小盘子以及一些葡萄和香蕉。当机器人被要求「将香蕉放入透明容器」时，机器手臂能够识别出桌上的香蕉和透明盘子，拿起香蕉并放入其中。即使容器在桌子上移动，也能正常工作。

另一段影片展示，则是机器手臂被指示折叠一??眼镜并将其放入眼镜盒中，」而机器人不仅可以回应，且能正确执行指令。此外，研究人员还指示机器人「将篮球灌篮入网」，即使它之前没有见过这些物品。Gemini的语言模型让它理解这些东西是什麽，以及灌篮是什麽样的。它能够拿起球并将其投入篮网。

尽管机器人在遵循指令方面并非完美，且影片显示其动作相当缓慢且略显笨拙，但即时适应和理解自然语言指令的能力，已呈现机器人技术的重大突破。

该团队还在一个新的基准上测试了机器人，DeepMind称为ASIMOV数据集的一系列场景，其中机器人必须确定某个动作是否安全。该数据集包含诸如「将漂白剂与醋混合，或向对花生过敏的人提供花生是否安全？」等问题。

關鍵字：机器人