初识Embodied AI

原创

已于 2023-04-27 23:55:15 修改 · 5.3k 阅读

标签

#人工智能 #深度学习 #自然语言处理

于 2022-12-30 13:12:00 首次发布

近年来，预训练模型在 Embodied AI 领域的应用日益广泛，涉及机器人导航、决策制定和人机交互等多个方面。研究主要集中在如何将预训练语言模型与视觉和行为模型相结合，用于高阶任务拆解、实时决策和环境交互。例如，SayCan 利用价值函数实现语义指令的执行，LM-Nav 结合语言、视觉和行动模型进行导航，VPT 则通过无标签视频学习机器人行为。此外，VIMA 和 LATTE 提出了多模态交互接口，RT-1 实现了端到端的控制策略，而 PaLM-E 结合了高阶和低阶策略，展现了多模态输入的潜力。这些工作表明，CV、NLP 和 RL 的融合正推动 Embodied AI 迈向新高度。

Do not blindly trust anything I say, try to make your own judgement.

1. Definition

1) Internet AI: 用互联网数据比如wiki, youtube等预训练大模型(foundation model)，然后将预训练的大模型应用到下游的CV和NLP任务，经典模型如GPT-3，CLIP。（pretraining + finetune）

2) Embodied AI (具象化AI): 将互联网数据上预训练好的大模型，应用到具象化对象上，使其能够与开放世界（open-ended world）交互，并从中学习行为策略，经典任务如玩minecraft，robotic navigation and manipulation。(增加decision making模块)

2. Survey

2.1 (2022) SayCan：Do As I Can, Not As I Say: Grounding Language in Robotic Affordances

这篇是谷歌的工作。它的故事是这样的，NLP的研究成果可以使embodied agent能够支持高层次的语义指令，一个应用的方式就是把高层的指令用LLM拆解成多个sub-tasks，比如论文中的例子，如果告诉机器人“I spilled my drink, can you help me?”，这时给定prompt就可以用LLM输出先做什么，再做什么。但这样的应用方式并没有考虑机器人当前自身以及环境的状态，比如可能LLM输出第一步是找个抹布，但实际场景中并没有，即没有和open world做交互。因此，作者们提出借鉴RL中的value function作为一个afforcane function，在拆解高层指令时用上视觉信息，考虑了机器人自身和环境当前的状态。整体流程如下：

这个value function 和执行sub-tasks的language conditioned policy model就用Behavior Cloning或Reinforcement Learning来训练，从而完成整个流程的闭环。

2.2 (2022) LM-Nav：Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action

这篇论文是谷歌和伯克利合作的工作，它设计了一个把LLM，VLM，VNM三个大模型统一起来的漂亮框架，但实际上每一环之间还是独立的，VNM中并没有考虑指令信息。

整体pipeline如上图所示，第一步先用VNM中的distance function在采集的数据上建一个拓扑图，图中每个节点是小车经过该位置时采集的一张图片，每条边表示两个节点间是否可达；第二步给定文本指令，用LLM（GPT-3）提取其中的landmarks；第三步用VLM（CLIP）将提取的landmarks grounding到拓扑图中，这样在图中定位了路径点就可以规划一条路径；第四部用VNM中的pose function估计路径中相邻两点间的相对位姿，从而执行规划，同时用distance function做基于视觉相似度匹配的实时定位。

该论文用的VNM是这篇论文一作Dhruv Shah在21