Do not blindly trust anything I say, try to make your own judgement.
目录
1. Definition
1) Internet AI: 用互联网数据比如wiki, youtube等预训练大模型(foundation model),然后将预训练的大模型应用到下游的CV和NLP任务,经典模型如GPT-3,CLIP。(pretraining + finetune)
2) Embodied AI (具象化AI): 将互联网数据上预训练好的大模型,应用到具象化对象上,使其能够与开放世界(open-ended world)交互,并从中学习行为策略,经典任务如玩minecraft,robotic navigation and manipulation。(增加decision making模块)
2. Survey
2.1 (2022) SayCan:Do As I Can, Not As I Say: Grounding Language in Robotic Affordances

这篇是谷歌的工作。它的故事是这样的,NLP的研究成果可以使embodied agent能够支持高层次的语义指令,一个应用的方式就是把高层的指令用LLM拆解成多个sub-tasks,比如论文中的例子,如果告诉机器人“I spilled my drink, can you help me?”,这时给定prompt就可以用LLM输出先做什么,再做什么。但这样的应用方式并没有考虑机器人当前自身以及环境的状态,比如可能LLM输出第一步是找个抹布,但实际场景中并没有,即没有和open world做交互。因此,作者们提出借鉴RL中的value function作为一个afforcane function,在拆解高层指令时用上视觉信息,考虑了机器人自身和环境当前的状态。整体流程如下:

这个value function 和执行sub-tasks的language conditioned policy model就用Behavior Cloning或Reinforcement Learning来训练,从而完成整个流程的闭环。
2.2 (2022) LM-Nav:Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action

这篇论文是谷歌和伯克利合作的工作,它设计了一个把LLM,VLM,VNM三个大模型统一起来的漂亮框架,但实际上每一环之间还是独立的,VNM中并没有考虑指令信息。
整体pipeline如上图所示,第一步先用VNM中的distance function在采集的数据上建一个拓扑图,图中每个节点是小车经过该位置时采集的一张图片,每条边表示两个节点间是否可达;第二步给定文本指令,用LLM(GPT-3)提取其中的landmarks;第三步用VLM(CLIP)将提取的landmarks grounding到拓扑图中,这样在图中定位了路径点就可以规划一条路径;第四部用VNM中的pose function估计路径中相邻两点间的相对位姿,从而执行规划,同时用distance function做基于视觉相似度匹配的实时定位。
该论文用的VNM是这篇论文一作Dhruv Shah在21

近年来,预训练模型在 Embodied AI 领域的应用日益广泛,涉及机器人导航、决策制定和人机交互等多个方面。研究主要集中在如何将预训练语言模型与视觉和行为模型相结合,用于高阶任务拆解、实时决策和环境交互。例如,SayCan 利用价值函数实现语义指令的执行,LM-Nav 结合语言、视觉和行动模型进行导航,VPT 则通过无标签视频学习机器人行为。此外,VIMA 和 LATTE 提出了多模态交互接口,RT-1 实现了端到端的控制策略,而 PaLM-E 结合了高阶和低阶策略,展现了多模态输入的潜力。这些工作表明,CV、NLP 和 RL 的融合正推动 Embodied AI 迈向新高度。
1万+

被折叠的 条评论
为什么被折叠?



