【读论文】AIR-Embodied

AIR-Embodied: An Efficient Active 3DGS-based Interaction and
Reconstruction Framework with Embodied Large Language Model

这篇文章对标的方法主要是传统的**Next Best View (NBV)**规划方法和基于学习的方法。现有方法的缺点包括：

预定义标准限制：NBV规划方法依赖于预定义的标准来选择最佳视角，通常只能从有限的候选视角中选择，难以处理遮挡问题。
学习方法的局限性：基于学习的方法虽然通过奖励机制改进了视角选择，但仍然难以处理遮挡问题，且计算成本高，泛化能力差。
低层次理解：现有方法对当前重建状态的理解有限，无法智能地找到全局最优解。
执行错误管理不足：现有方法在执行过程中容易出现错误，且缺乏有效的闭环推理机制来纠正这些错误。

这篇文章解决了主动3D重建中的遮挡问题和执行错误管理问题，提出了一种新的框架AIR-Embodied，通过集成具身AI代理和大规模预训练的多模态语言模型（MLLM）来改进主动3D重建。

创新点

集成3D高斯光斑（3DGS）和大语言模型（LLM）：用于视角和动作规划，提高了表面表示的保真度和重建质量。
优化框架：通过成本函数联合优化视角和动作，实现了高效的主动任务规划和执行，并引入闭环推理模块确保准确性、质量和完整性。
自主交互：系统能够自主与物体交互，通过闭环推理适应和纠正计划与实际动作之间的差异，通过物体操作处理遮挡问题。
实验验证：在虚拟和真实世界环境中的广泛实验评估表明，该方法在重建质量和效率方面显著优于现有方法。

实验结果

文章在虚拟和真实世界环境中进行了广泛的实验评估，结果表明AIR-Embodied在重建质量和效率方面显著优于现有方法。具体结果如下：

虚拟实验：在OmniObject3D数据集上的实验结果显示，AIR-Embodied在PSNR、SSIM、LPIPS、Accuracy、Completeness、Chamfer距离和F-score等指标上均取得了最佳结果，平均贡献率（ACR）也最高。
真实世界实验：在真实世界实验中，AIR-Embodied在简单、中等和复杂物体上的表现均优于基线方法，尤其是在闭环推理模块的帮助下，能够有效处理感知和控制误差，保持了最先进的性能。

模型输入输出

输入：
- 当前重建状态的低层次像素数据。
- 多模态提示（multi-modal prompts），用于生成高层次理解。
- 目标物体的3D模型和当前不完全的重建模型。
输出：
- 优化后的视角序列和动作序列，用于主动重建任务。
- 最终的高质量3D重建模型。

模型结构及实现全过程

模型结构

高层次推理模块：
- 从低层次像素数据生成多模态提示，利用大规模预训练的多模态语言模型（MLLM）进行推理，生成高层次理解。
- 将高层次理解映射到3D空间，生成3D体素网格。
视角和动作规划模块：
- 根据重建不确定性模型，识别需要进一步采样的区域。
- 通过优化成本函数，生成最优的视角序列和动作序列。
闭环推理模块：
- 在每次动作执行后，比较实际结果与预期结果，计算差异。
- 根据差异进行微调和纠正，确保任务的精确完成。

实现全过程

初始化：
- 获取目标物体的初始3D模型和当前不完全的重建模型。
- 初始化3D高斯光斑（3DGS）表示。
高层次推理：
- 从低层次像素数据生成多模态提示。
- 利用MLLM进行推理，生成高层次理解，并映射到3D体素网格。
视角和动作规划：
- 根据重建不确定性模型，识别需要进一步采样的区域。
- 通过优化成本函数，生成最优的视角序列和动作序列。
执行动作：
- 根据生成的视角序列和动作序列，执行主动重建任务。
- 在每次动作执行后，获取当前场景状态。
闭环推理：
- 比较实际结果与预期结果，计算差异。
- 根据差异进行微调和纠正，确保任务的精确完成。
迭代优化：
- 重复上述步骤，直到重建任务完成。
输出结果：
- 输出最终的高质量3D重建模型。

通过上述过程，AIR-Embodied框架能够有效地处理遮挡问题和执行错误，显著提高重建质量和效率。

现有模型：无法像人类一样具备常识来处理遮挡问题
本模型是一种将具身AI代理与大规模预训练的多模态语言模型相结合的新框架
具身智能：强调智能体可以和环境交互
具身AI代理：agent
AIR-Embodied采用三阶段流程：通过多模态提示理解当前重建状态，结合视角选择和交互动作进行任务规划，并运用闭环推理确保执行的准确性。
代理操作分为三个阶段：（1）它通过从低级像素数据生成多模态提示来评估当前重建状态，并使用推理来识别和解释重建不良的区域。（2）它规划任务，包括视角选择和交互操作，如推动物体以暴露被遮挡的区域。（3）代理验证执行结果，并应用闭环推理来微调动作，确保精确重建。