【具身智能】系列论文解读（CoWs on PASTURE & VoxPoser & Relational Pose Diffusion）

原创

已于 2023-08-06 12:14:15 修改 · 1.6k 阅读

标签

#人工智能 #语言模型

于 2023-08-06 10:58:54 首次发布

本文围绕机器人导航与操作展开研究。提出语言驱动的零样本对象导航（L - ZSON）的PASTURE基准和CLIP on Wheels (CoW)基线，评估其在不同场景的表现；VoxPoser利用语言模型合成机器人轨迹；还提出用于多模态重新排列的关系姿势扩散系统，提升机器人操作泛化能力。

0. My Conclusion

CoWs on PASTURE： 擅长零样本的视觉语言对象导航，主要解决了LLM辅助下的任务级动作执行任务
VoxPoser： 擅长设计一些未预定义的动作轨迹，主要解决了LLM辅助下的动作轨迹设计任务
Relational Pose Diffusion：擅长将已有的动作迁移变换到新场景下的动作，增强机械臂的泛化能力，主要解决了Diff模型辅助下的复杂多变的场景动作轨迹适应能力的任务

1. 牧场中的奶牛：语言驱动的零样本对象导航的基线和基准

Samir Yitzhak Gadre Mitchell Wortsmany Gabriel Ilharcoy Ludwig Schmidty Shuran Song

(2022-12-14) CoWs on PASTURE: Baselines and Benchmarks for Language-Driven Zero-Shot Object Navigation

(0) 摘要

为了使机器人普遍有用，即使没有对域内数据进行昂贵的导航训练（即执行零样本推理），它们也必须能够找到人们描述的任意对象（即由语言驱动）。

我们在统一的环境中探索这些功能：语言驱动的零样本对象导航（L-ZSON）。受到图像分类开放词汇模型最近成功的启发，我们研究了一个简单的框架，CLIP on Wheels (CoW)，使开放词汇模型无需微调即可适应此任务。为了更好地评估 L-ZSON，我们引入了 PASTURE 基准，该基准考虑寻找不常见的对象、由空间和外观属性描述的对象以及相对于可见对象描述的隐藏对象。我们通过直接在 HABITAT、ROBOTHOR 和 PASTURE 中部署 21 个 CoW 基线来进行深入的实证研究。总的来说，我们评估了超过 90k 的导航片段，发现 (1) CoW 基线经常难以利用语言描述，但擅长查找不常见的对象。 (2) 一个简单的 CoW，具有基于 CLIP 的对象定位和经典探索，无需额外的训练，与在 HABITAT MP3D 数据上训练 5 亿步的最先进的 ZSON 方法的导航效率相匹配。与最先进的 ROBOTHOR ZSON 模型相比，同一 CoW 的成功率提高了 15.6 个百分点。

图 1. L-ZSON 的 PASTURE 基准。文本指定导航目标对象。代理不会对这些任务进行训练，从而使评估协议成为零样本。 (a) 不常见的目标目标，例如“美洲驼柳条篮”，在现有的导航基准中找不到。 (b) 外观、空间描述，这是找到正确物体所必需的。 © 隐藏对象描述，定位不可见的对象。

(1) 引言

为了更广泛地应用，机器人应该是语言驱动的：能够根据任意文本输入推断目标，而不是局限于一组固定的对象类别。虽然现有的图像分类、语义分割和对象导航基准，如 ImageNet-1k [61]、ImageNet-21k [21]、MS-COCO [43]、LVIS [27]、HABITAT [63] 和 ROBOTHOR [17] 包括尽管它们涵盖了大量的日常用品，但它们并没有捕捉到所有对人们重要的物品。例如，**丢失的“玩具飞机”**可能与幼儿园教室相关，但该对象未在上述任何数据集中进行注释。

在本文中，我们研究了语言驱动的零样本对象导航（L-ZSON）——一种更具挑战性但也更适用的对象导航版本 [4,17,63,74,83] 和 ZSON [37, 44] 任务。在 L-ZSON 中，智能体必须根据自然语言描述找到一个对象，该对象可能包含不同级别的粒度（例如，“玩具飞机”、“床下的玩具飞机”或“木制玩具飞机”）。 LZSON 包含 ZSON，后者仅指定目标类别 [37, 44]。由于 L-ZSON 是“零样本”，因此我们考虑无法在目标对象或域上进行导航训练的代理。这反映了现实的应用场景，其中环境和对象集可能事先未知。

在任何具有非结构化语言输入的环境中执行 L-ZSON 都是具有挑战性的；然而，图像分类 [34, 55, 57]、对象检测 [3, 20, 26, 35, 41, 45, 47, 58, 82] 和语义分割 [2, 5, 14, 32, 35, 36, 81] 提供了一个有希望的基础。这些模型提供了一个界面，人们可以在其中以文本形式指定他们希望分类、检测或分割的任意对象。例如，CLIP [57] 开放词汇分类器计算输入图像和一组用户指定的标题（例如，“玩具飞机的照片”……）之间的相似度分数，选择具有最高的标题分数来确定图像分类标签。鉴于这些模型的灵活性，我们希望了解它们即使在没有额外训练的情况下执行具体任务的能力。

我们提出了 L-ZSON 的基线和基准。更具体地说：

一系列基线算法，CLIP on Wheels (CoW)，它使开放词汇模型适应 L-ZSON 的任务。 CoW 从语义映射工作线 [10,40,51] 中获得灵感，当语言目标未可靠本地化时，将导航任务分解为探索，否则分解为目标驱动的规划。 CoW保留了原始开放词汇模型的文本用户界面，并且不需要任何导航训练。我们评估了 21 个 CoW，消除了许多开放词汇模型、探索策略、主干、提示策略和后处理策略。
一个新的基准，PASTURE，用于评估 CoW 和 L-ZSON 上的未来方法。我们设计 PASTURE（如图 1 所示）来研究传统对象导航代理所不具备的功能，传统对象导航代理是在一组固定类别上进行训练的。我们考虑以下能力：（1）不常见物体（例如“扎染冲浪板”），（2）在存在干扰物体的情况下通过空间和外观属性找到物体（例如“青苹果”与“红苹果”） ”），以及（3）无法用肉眼观察到的物体（例如，“床下的杯子”）。

CoW 基线和 PASTURE 基准使我们能够在 L-ZSON 具体任务的背景下对开放词汇模型的功能进行广泛的研究。我们的实验证明了 CoW 在不常见物体上的潜力以及充分利用语言描述的局限性，从而为未来的研究提供了实证动力。为了将 CoW 与之前的零样本方法联系起来，我们还对 HABITAT MP3D 数据集进行了评估。我们发现我们最好的 CoW 实现的导航效率 (SPL) 与最先进的 ZSON 方法 [44] 相匹配，该方法在 MP3D 训练数据上训练 5 亿步。在之前的工作中考虑的 ROBOTHOR 对象子集上，相同的 CoW 在任务成功率上击败了领先方法 [37] 15.6 个百分点。

(2) 相关工作

**测绘和探索。**使用移动机器人进行有效探索是视觉和机器人技术中长期存在的问题。经典方法通常将任务分解为地图重建[29,31,49,50,67]，代理定位[16,19,52]和规划[40,73]。最近的工作研究了学习的探索替代方案[6,13,53,54,59]。在这里，代理通常通过自我监督奖励（例如好奇心[54]）或监督奖励（例如国家访问计数[24,68,70]）进行端到端训练。基于学习的方法通常需要较少的手动调整，但需要数百万个训练步骤和奖励工程。我们在 CoW 的背景下测试经典和可学习的探索策略，以研究它们对 L-ZSON 的适用性。

图 2. 轮子夹 (CoW) 概述。 CoW 使用策略来探索，并使用对象定位器（例如开放词汇对象检测器）来确定对象目标是否在视野中。

图 3. 映射。当奶牛在空间中漫游时，根据以自我为中心的深度观察创建自上而下的地图。（a）基于前沿的探索[77]显示了通往下一个前沿的计划路径探索路径。 (b) 当 CoW 发现对象时，反投影对象相关性分数提供对象目标。

**目标条件导航。**除了开放式探索之外，许多导航任务都是有目标条件的，其中代理需要导航到指定位置（即点目标 [10, 11, 25, 30, 62, 72, 76, 78]），查看环境的（即图像目标 [46, 60, 83]）或对象类别（即对象目标 [1, 8, 9, 11, 18, 42, 69, 74, 79]）。我们考虑一个对象目标导航任务。

**遵循导航中的说明。**先前的工作研究了基于语言