【读论文】AIR-Embodied

AIR-Embodied: An Efficient Active 3DGS-based Interaction and
Reconstruction Framework with Embodied Large Language Model

这篇文章对标的方法主要是传统的**Next Best View (NBV)**规划方法和基于学习的方法。现有方法的缺点包括:

  1. 预定义标准限制:NBV规划方法依赖于预定义的标准来选择最佳视角,通常只能从有限的候选视角中选择,难以处理遮挡问题。
  2. 学习方法的局限性:基于学习的方法虽然通过奖励机制改进了视角选择,但仍然难以处理遮挡问题,且计算成本高,泛化能力差。
  3. 低层次理解:现有方法对当前重建状态的理解有限,无法智能地找到全局最优解。
  4. 执行错误管理不足:现有方法在执行过程中容易出现错误,且缺乏有效的闭环推理机制来纠正这些错误。

这篇文章解决了主动3D重建中的遮挡问题和执行错误管理问题,提出了一种新的框架AIR-Embodied,通过集成具身AI代理和大规模预训练的多模态语言模型(MLLM)来改进主动3D重建。

创新点

  1. 集成3D高斯光斑(3DGS)和大语言模型(LLM):用于视角和动作规划,提高了表面表示的保真度和重建质量。
  2. 优化框架:通过成本函数联合优化视角和动作,实现了高效的主动任务规划和执行,并引入闭环推理模块确保准确性、质量和完整性。
  3. 自主交互:系统能够自主与物体交互,通过闭环推理适应和纠正计划与实际动作之间的差异,通过物体操作处理遮挡问题。
  4. 实验验证:在虚拟和真实世界环境中的广泛实验评估表明,该方法在重建质量和效率方面显著优于现有方法。

实验结果

文章在虚拟和真实世界环境中进行了广泛的实验评估,结果表明AIR-Embodied在重建质量和效率方面显著优于现有方法。具体结果如下:

  • 虚拟实验:在OmniObject3D数据集上的实验结果显示,AIR-Embodied在PSNR、SSIM、LPIPS、Accuracy、Completeness、Chamfer距离和F-score等指标上均取得了最佳结果,平均贡献率(ACR)也最高。
  • 真实世界实验:在真实世界实验中,AIR-Embodied在简单、中等和复杂物体上的表现均优于基线方法,尤其是在闭环推理模块的帮助下,能够有效处理感知和控制误差,保持了最先进的性能。

模型输入输出

  • 输入

    • 当前重建状态的低层次像素数据。
    • 多模态提示(multi-modal prompts),用于生成高层次理解。
    • 目标物体的3D模型和当前不完全的重建模型。
  • 输出

    • 优化后的视角序列和动作序列,用于主动重建任务。
    • 最终的高质量3D重建模型。

模型结构及实现全过程

模型结构

  1. 高层次推理模块

    • 从低层次像素数据生成多模态提示,利用大规模预训练的多模态语言模型(MLLM)进行推理,生成高层次理解。
    • 将高层次理解映射到3D空间,生成3D体素网格。
  2. 视角和动作规划模块

    • 根据重建不确定性模型,识别需要进一步采样的区域。
    • 通过优化成本函数,生成最优的视角序列和动作序列。
  3. 闭环推理模块

    • 在每次动作执行后,比较实际结果与预期结果,计算差异。
    • 根据差异进行微调和纠正,确保任务的精确完成。

实现全过程

  1. 初始化

    • 获取目标物体的初始3D模型和当前不完全的重建模型。
    • 初始化3D高斯光斑(3DGS)表示。
  2. 高层次推理

    • 从低层次像素数据生成多模态提示。
    • 利用MLLM进行推理,生成高层次理解,并映射到3D体素网格。
  3. 视角和动作规划

    • 根据重建不确定性模型,识别需要进一步采样的区域。
    • 通过优化成本函数,生成最优的视角序列和动作序列。
  4. 执行动作

    • 根据生成的视角序列和动作序列,执行主动重建任务。
    • 在每次动作执行后,获取当前场景状态。
  5. 闭环推理

    • 比较实际结果与预期结果,计算差异。
    • 根据差异进行微调和纠正,确保任务的精确完成。
  6. 迭代优化

    • 重复上述步骤,直到重建任务完成。
  7. 输出结果

    • 输出最终的高质量3D重建模型。

通过上述过程,AIR-Embodied框架能够有效地处理遮挡问题和执行错误,显著提高重建质量和效率。

现有模型:无法像人类一样具备常识来处理遮挡问题
本模型是一种将具身AI代理与大规模预训练的多模态语言模型相结合的新框架
具身智能:强调智能体可以和环境交互
具身AI代理:agent
AIR-Embodied采用三阶段流程:通过多模态提示理解当前重建状态,结合视角选择和交互动作进行任务规划,并运用闭环推理确保执行的准确性。
代理操作分为三个阶段:(1)它通过从低级像素数据生成多模态提示来评估当前重建状态,并使用推理来识别和解释重建不良的区域。(2)它规划任务,包括视角选择和交互操作,如推动物体以暴露被遮挡的区域。(3)代理验证执行结果,并应用闭环推理来微调动作,确保精确重建。

赞赏