【读论文】EPPS

代码页
title：Edge-preserving Near-light Photometric Stereo with Neural Surfaces
标题：基于神经曲面的保边近光光度立体

abstract：本文提出了一种近光源光度立体方法，该方法在其3D重建中能够真实地保留锐利的深度边缘。与依赖于有限差分来近似深度偏导数和表面法线的以往方法不同，我们在近光源光度立体中引入了一种解析可微分的神经表面，从而避免在锐利深度边缘处的微分误差，中深度被表示为图像坐标的神经函数。通过进一步将朗伯反照率表述为由表面法线和深度得出的依赖变量，我们的方法不易受不准确深度初始化的影响。对合成和真实场景的实验表明，我们的方法在细节形状恢复和边缘保留方面的有效性。

关键词：边缘保留，神经表面，光度立体

Whats the problem？

给定近光源图像观测和校准的点光源位置，近光源光度立体法 (NLPS) 旨在恢复每个场景点的深度、表面法线和反射率。由于表面法线与由深度偏导数建模的表面切平面垂直，NLPS 问题自然涉及表面的微分以将其与表面法线关联。

以往的 NLPS 方法以离散方式将深度和表面法线表示为网格图，并依赖有限差分来近似深度偏导数。然而，这种近似在锐利深度边缘处表现不佳，导致表面法线和深度的不一致估计。

为避免有限差分并实现边缘保留的 NLPS，本文提出使用解析可微分的表面表示。所提方法可以忠实地恢复形状和表面法线，特别是在深度不连续处（深度突变，比如台阶）比现有最先进方法 [24] 表现更好。

我们将深度表示为图像坐标的解析函数，深度偏导数通过函数导数的解析表达式建模。可以从解析函数中获得一致的表面法线和深度，而无需依赖有限差分。除了确保深度和法线的一致性外，解析深度函数在表示复杂和锐利深度边缘方面也很有效。具体来说，我们使用基于可微分神经网络的神经表面表示作为解析深度函数。通过神经表面，我们的 NLPS 方法能够实现细节形状恢复和边缘保留。

此外，通过将反照率视为由表面法线和深度得出的依赖变量，我们的方法在面对不准确的表面初始化时具有鲁棒性。与需要精心形状初始化的以往 NLPS 方法相比，我们的方法在各种初始形状下表现出优越的收敛性，如图1（底部）所示。

对标的方法

文章对标了现有的一些近光源光度立体（NLPS）方法，特别是以下方法：

QD18 [24]
LB20 [14]
其他方法如SM20 [26]和MQ16 [17]也在补充材料中有提及

现有方法的缺点

有限差分近似误差：
现有方法依赖于有限差分（finite difference approximation）来近似深度的偏导数和表面法线，这在深度边缘（深度不连续处）会导致误差和不一致的估计。
对初始深度敏感：
- 很多现有方法对初始形状估计非常敏感，初始深度设置不准确会导致形状重建的误差。
边缘保留不足：
- 很多方法无法在深度边缘处保留锐利的深度变化，这对于详细形状恢复尤其重要。

文章解决的问题

引入解析的可微的神经表面表示（analytical surface differentiations representation）：
- 通过使用神经网络来表示深度（连续），使得深度和其偏导数都能通过解析表达式得到，从而避免了有限差分近似带来的误差。
边缘保留：
- 通过使用神经表面，确保在深度不连续处仍能保持一致的深度和表面法线估计，从而实现边缘保留。
对初始深度不敏感：
- 通过将反照率作为表面法线和深度的依赖变量，该方法对初始深度的准确性不敏感，能够在多种初始深度设置下保持收敛到正确的形状。

What's new?

我们通过以下两个技术贡献提出了一种准确的 NLPS 方法：

在 NLPS 中使用解析神经表面表示以实现准确的形状恢复，特别是在深度不连续处效果显著。
通过将反照率视为依赖变量，我们仅将 NLPS 作为神经表面参数的优化，使我们的方法对各种初始猜测具有鲁棒性。

Method

在近光源光度立体（NLPS）模型中，公式

$m_{p,q} = \rho_p S(p, q, z_p, \nabla z_p)$

中的各个参数中，已知和未知的参数如下：

已知参数：

$m_{p,q}$ ：像素 $p$ 在光源 $q$ 照射下的观测值。这个值是从图像中直接获取的，即拍摄到的图像像素值。
$p$ ：像素的位置（图像坐标）。这是图像中的像素位置，是已知的。
$q$ ：光源位置。这通常是通过实验前的光源校准获得的。
相机的焦距（ $f$ ）和其他相机参数：这些也是通过相机校准已知的。

未知参数：

$\rho_p$ ：像素 $p$ 处的反照率。这个值是需要通过优化过程来估计的。
$z_p$ ：像素 $p$ 处的深度。这个也是需要通过优化来估计的。
$\nabla z_p$ ：像素 $p$ 处的深度导数。这个值依赖于深度的估计，需要通过优化来计算。

函数S(p, q, z, \nabla z)：

这是一个描述了像素位置、光源位置、深度及其导数之间关系的函数。虽然它的具体形式是已知的（基于物理光照模型），但它依赖于深度和深度导数的值，这些值是需要通过优化过程来求解的。

总结来说，光源位置（ $q$ ）、像素位置（ $p$ ）和图像观测值（ $m_{p,q}$ ）是已知的，而反照率（ $\rho_p$ ）、深度（ $z_p$ ）和深度导数（ $\nabla z_p$ ）是需要通过优化来估计的未知参数。

Pipeline

输入：

近光源图像观察值
校准好的点光源位置

输出：

场景每个点的深度
表面法线
反射率（反照率）

该模型使用一种分析可微的神经表面表示方法，通过避免在深度边缘进行有限差分来减少误差，以保留3D重建中的锐利深度边缘。通过进一步将Lambertian反照率表示为表面法线和深度的依赖变量，该方法对初始深度的准确性不敏感，能够有效地在合成和现实场景中进行详细的形状恢复，并保留边缘。

根据文章内容，以下是对标的方法、现有方法的缺点、文章解决的问题以及实验结果的总结：

实验结果

合成数据集：
- 实验使用了五个合成对象（如Tent, Bunny, Buddha等），在这些对象中，作者的方法在深度边缘保留和整体形状恢复方面优于现有方法。
- 平均表面法线角度误差（MAngE）和深度绝对误差（MAbsE）显著低于对标方法。
真实世界数据集：
- 实验使用了捕获的真实数据，包括三个物体（如Stair, Angel, Plato）。
- 结果表明，作者的方法在深度不连续处（如台阶区域、天使的翅膀和脖子区域、柏拉图的书本区域）比现有方法恢复出更合理的形状。
LUCES数据集：
- 该数据集包含了14个具有不同形状和材料的物体，实验结果显示作者的方法在12个物体上比现有方法表现更好，特别是在表面法线和相对深度估计上。

通过这些实验结果，文章展示了提出的方法在形状恢复、边缘保留以及对初始深度不敏感方面的优势。

Relative Works

近光和正常光源下重建3D的区别主要在于以下几点：

光源位置：
- 正常光源通常假定为远距离方向光源（远光），光源距离场景非常远，光线可以认为是平行的。
- 近光源则是指光源靠近场景，光线发散角度较大，需要考虑光源与场景之间的距离和角度。
光线衰减：
- 在远光源情况下，光线可以认为强度均匀，没有明显的衰减效应。
- 近光源情况下，光线强度随着距离的增加迅速衰减，需要考虑光源到场景点之间的距离。
几何关系：
- 远光源下，表面法线可以直接通过光强度和反射计算得出，几何关系简单。
- 近光源下，需要考虑光源位置、场景点位置以及表面法线之间的复杂几何关系。
深度边缘处理：
- 远光源下的光度立体（Photometric Stereo）方法通常依赖有限差分来近似深度的偏导数，但在深度边缘处，这种近似会导致表面法线和深度的不一致，导致重建误差。
- 近光源下的光度立体方法引入了解析可微的神经表面表示，通过避免在深度边缘处的有限差分误差，能够更准确地重建复杂和锋利的深度边缘。
鲁棒性：
- 远光源下，光度立体方法对初始深度估计的准确性依赖较小。
- 近光源下，本文提出的方法将反照率作为表面法线和深度的依赖变量，使得方法对初始深度估计不准确的情况更为鲁棒。
复杂度：
- 远光源下的光度立体方法较为简单，但在处理复杂几何形状和高频细节时有局限。
- 近光源下，使用神经网络表示的解析深度函数能够更有效地表示复杂和锋利的深度边缘，提升了复杂场景的形状恢复能力。

通过本文方法的实验结果可以看出，近光源光度立体方法在保持深度边缘和形状细节方面具有显著优势，特别是在深度不连续区域相比现有方法有更好的表现

深度
在三维重建中，深度通常表示为每个像素点到相机的距离。具体来说，有以下几种常见的表示方法：

深度图 (Depth Map): 深度图是一幅灰度图像，其中每个像素的灰度值表示该点的深度值。深度值可以是以实际距离表示的（如米、毫米等），也可以是归一化后的相对深度。
点云 (Point Cloud): 点云是三维空间中离散点的集合，每个点用其三维坐标 (x, y, z) 表示。点云通常由深度图转换而来，通过将深度信息与相应的图像像素位置结合，得到每个点的三维坐标。
体素 (Voxel): 体素是三维空间中的体积像素，类似于二维图像中的像素。每个体素有一个深度值，表示该体素在三维空间中的位置。这种表示方法通常用于体绘制和体积数据处理。
网格 (Mesh): 网格由顶点（vertices）和面（faces）组成，顶点的三维坐标代表空间中的点，面通过连接顶点形成。通过将深度信息转化为顶点的 z 坐标，可以构建出三维网格模型。
距离变换 (Distance Transform): 距离变换是一种将深度信息转化为到某个参考点或曲面的距离的表示方法。在一些应用中，距离变换可以用来表示物体表面到某个参考面的距离。

不同的表示方法适用于不同的应用场景和算法需求。

Albedo 反照率
在论文中，albedo（反照率）是指物体表面反射光的能力。它是一个无单位的比例值，表示物体表面反射的光强度与入射光强度的比率。反照率高的表面反射更多的光，而反照率低的表面则吸收更多的光。

在这篇论文中，反照率是用来描述物体表面在不同光照条件下的反射特性。论文提出的方法将反照率视为深度和表面法线的依赖变量，通过最小化反照率与实际图像观测之间的差距来计算反照率。这种处理方式使得方法对初始深度的准确性要求不高，并且能够在优化神经表面参数的过程中同时估计表面形状和反照率【4†source】。

光源的各向异性
光源的各向异性（Anisotropic）和各向同性（Isotropic）主要区别在于光的传播方向和强度是否随方向变化：

各向同性光源（Isotropic Light Source）：
- 各向同性光源在所有方向上均匀地发出光。
- 这种光源的强度在各个方向上相同。
- 一个经典的例子是理想点光源，它在空间的所有方向上均匀地发光，强度随距离平方反比衰减。
各向异性光源（Anisotropic Light Source）：
- 各向异性光源在不同方向上发出不同强度的光。
- 光的传播在某些方向上可能更强，而在其他方向上可能较弱。
- 一个常见的例子是聚光灯，它在特定方向上发出更强的光，而在其他方向上光的强度较弱。

在3D重建和光学研究中，各向同性光源通常用于简单模型和计算，而各向异性光源则用于更复杂的场景，以模拟真实世界中的光照条件。

Lambertian图像
Lambertian图像是一种在Lambertian反射模型下生成的图像。Lambertian反射模型假设表面对入射光的反射是各向同性的，也就是说，光线被均匀地散射到所有方向，因此从任何观察角度看，表面亮度都是相同的。这种反射模型常用于计算机视觉和图像处理，因为它简化了表面反射特性的描述。

英文单词

calibrated 校准的
surface normal 表面法线
albedo 反照率
finite surface differentiations 有限表面微分
analytical surface differentiations 解析表面微分
Implementation 实现
focal 焦点
perspective projection 透视投影
derivatives 导数
partial derivative 偏导数
light irradiance 光照强度
constant 常量