论文主页

这篇文章对标的现有方法包括DC05和 TK22，这些方法在光照规划方面存在一些缺点。现有方法的缺点主要体现在以下几个方面：

假设限制：DC05 和 TK22 假设物体表面是朗伯反射（Lambertian reflectance），这限制了它们在处理现实世界中复杂材料和光照条件下的非朗伯表面时的有效性。
全局光照效果处理不足：现有方法在处理全局光照效果（如阴影和相互反射）时表现不佳。
在线光照规划的挑战：现有方法难以适应在线光照规划，尤其是在面对复杂的非朗伯反射和全局光照效果时。

这篇文章解决了以下问题：

复杂光照条件下的光照规划：提出了一个基于强化学习的光照规划方法，能够在复杂的非朗伯反射和全局光照效果下进行有效的光照规划。
提高光照规划的效率和准确性：通过强化学习的方法，能够在有限的照明方向下实现更高的表面法线估计精度。

创新点包括：

基于强化学习的光照规划：首次将强化学习应用于光照规划，通过奖励驱动的方式探索光照空间。
双头DQN设计：设计了一个专门针对广义光度立体（generalized photometric stereo）的双头DQN网络，用于预测最佳光照方向。
密集奖励设计：将稀疏奖励转换为密集奖励，加速强化学习的训练过程。

实验结果表明：

提高光度立体方法的性能：在多个光度立体方法（如LS、CNN-PS、PS-FCN）上，使用ReLeaPS方法在20个光照方向下的性能优于随机选择光照方向的性能。
优于现有方法：在20个光照方向下，ReLeaPS方法的性能优于DC05和TK22方法。
在真实数据集上的验证：在DiLiGenT和DiLiGenT10^2数据集上的实验结果表明，ReLeaPS方法在不同光照方向数量下的性能均优于现有方法。

模型的输入输出：

输入：一系列图像观测值 $\mathcal{I} = \{I_1, I_2, \cdots, I_T\}$ 和对应的光照方向 $\bm{L} = [l_1, l_2, \cdots, l_T]$ 。
输出：预测的表面法线图 $\bm{N}$ 。

模型结构及实现全过程：

图像形成模型：
- 给定一个正交相机和 $T$ 个校准的光照方向，捕获 $T$ 个图像观测值 $\mathcal{I}$ 。
- 图像强度分布 $\mathcal{I}(\bm{p})$ 在像素位置 $\bm{p}$ 下可以表示为：
  $\mathcal{I}(\bm{p}) = s \odot \rho \odot \max(\bm{L} \bm{n}, \bm{0})$
  其中， $\bm{s}$ 和 $\bm{\rho}$ 分别是表示全局光照效果和非朗伯反射的 $T$ 维向量， $\bm{L}$ 是光照方向矩阵， $\bm{n}$ 是表面法线。
光照规划的强化学习框架：
- 使用双头DQN（Dueling DQN）来学习最佳光照方向。
- 状态 $\mathcal{S}_t$ 包括当前的图像序列和光照方向。
- 动作 $\mathcal{A}_{t+1}$ 是下一个光照方向。
- 奖励 $\mathcal{R}_t$ 是基于估计的表面法线和真实表面法线之间的角度误差。
双头DQN网络结构：
- 全局特征提取：从输入图像中提取全局特征图。
- 优势网络：将全局特征图转换为观测特征，并根据光照方向预测动作。
- 状态值网络：从全局特征图中提取非朗伯效应，用于预测状态值。
  Q值：智能体在给定状态下采取特定动作可以获得的预期累积奖励的度量
训练过程：
- 使用AdamW优化器进行训练，学习率为 $10^{-5}$ ，权重衰减为 $10^{-8}$ 。
- 使用经验回放（Replay Buffer）来存储和采样过去的经验，以提高训练效率。
测试过程：
- 在测试阶段，只评估优势网络，选择具有最大Q值的光照方向。

Method

Sparse-to-dense Reward Design 从稀疏到密集的奖励设置
将最后一个状态的角误差转换为相邻状态之间的角误差变化（增量角误差）

$R_t = E_{t-1} - E_t - \alpha E_t, \quad 2 \leq t \leq T,$
其中 $\alpha$ 是奖励塑造项的权重。尽管这一目标与定义 1 中的优化目标不同，但我们通过实验证明，这种新的密集奖励策略在 RL 训练中更加稳健和高效。

【读论文】ReLeaPS

Method

感谢您的支持，我会继续努力的!