用于鲁棒高效立体匹配的差异不确定性概率建模

时间:2026年1月19日
来源:Pattern Recognition

编辑推荐:

贝叶斯风险框架下提出新型不确定性感知立体匹配方法,通过序数回归建模视差分布并利用核回归高效估计模型不确定性,无需重复训练即可分离数据与模型不确定性,实验验证其在四大数据集上的准确性及预测性能提升。

广告
   X   

蔡文晓|胡东婷|尹若嫣|邓建康|傅欢|杨万口|龚明明
中国江苏省南京市东南大学,210096

摘要

立体匹配在各种应用中发挥着至关重要的作用,理解不确定性可以提高安全性和可靠性。尽管如此,立体匹配中不确定性的估计和分析却一直被忽视。以往的研究难以将其分为数据(随机)和模型(认知)两部分,并且对不确定性的解释往往有限。这种可解释性非常重要,因为它有助于更清楚地了解误差的来源,从而提高预测的准确性和决策过程。在本文中,我们提出了一个新的基于不确定性意识的立体匹配框架。我们采用贝叶斯风险作为不确定性的度量方法,用来分别估计数据不确定性和模型不确定性。我们基于视差的概率分布系统地分析数据不确定性,并且无需重复模型训练即可高效估计模型不确定性。实验在四个立体匹配基准数据集上进行,结果表明我们的方法能够准确高效地估计不确定性,同时不牺牲视差预测的准确性。

引言

立体匹配[1],或称双目深度估计,长期以来一直是一个具有重要应用价值的问题,包括自动驾驶[2]、智能体AI[3]和医学图像处理[4]等领域。立体匹配中的不确定性估计至关重要,并具有许多实际应用。例如,在自动驾驶中,雾天时深度估计的准确性可能会下降。如果汽车能够意识到在这种情况下估计的不确定性较高,它就可以做出更明智的决策,比如减速以更谨慎地行驶[5]。因此,识别立体匹配中的不确定性是非常重要的。
不确定性可以分为两大类:数据不确定性和模型不确定性[6]。数据(随机)不确定性源于数据生成过程中的固有不确定性,而模型(认知)不确定性则源于拟合模型的不足以及模型参数的随机性,通过增加训练观测量可以减少这种不确定性[7]。分别估计这些不确定性有几个关键优势:
  • 数据不确定性有助于过滤高质量数据:数据不确定性较高的点可能是由于数据收集过程中的错误造成的,可能无法反映真实的地面真实情况。识别这些点可以过滤掉低质量的数据,从而得到更干净、更稳健的数据集,支持更准确的模型训练。
  • 模型不确定性有助于指导数据收集:模型不确定性的独立估计可以突出模型最不确定的数据区域,这通常表明需要更多的训练样本。
  • 在立体匹配中估计数据不确定性和模型不确定性面临几个挑战:
  • (i)
    现有的框架[6]、[8]主要关注估计总不确定性,而没有将其分解为数据不确定性和模型不确定性这两部分。
  • (ii)
    稳健地估计数据不确定性需要对视差分布进行概率建模,而这在当前的立体匹配学习框架中尚未得到很好的解决。
  • (iii)
    估计模型不确定性通常需要多次重新训练,例如深度集成[10]、[11],这会导致处理速度变慢和计算需求增加。
  • 我们通过概率建模视差分布来解决这些问题。采用贝叶斯风险作为不确定性的度量方法。我们引入了一个框架,利用序数回归[12]来估计视差值的概率分布,这种建模方式比仅依赖地面真实值更有效。此外,我们还通过应用于模型嵌入的额外核回归估计器来估计模型不确定性。这种方法能够高效地分别估计数据不确定性和模型不确定性,无需重新训练模型。
    在四个广泛使用的立体匹配数据集[13]、[14]、[15]、[16]上的实验结果表明,我们提出的方法能够准确高效地估计不确定性和模型不确定性。我们的基于不确定性意识的模型在视差估计方面也表现出了更好的性能。此外,我们证明通过选择不确定性较小的数据点可以进一步提高预测准确性。
    本文的贡献包括:
  • 我们基于贝叶斯风险构建了一个基于不确定性意识的立体匹配框架。
  • 我们的方法通过概率建模视差分布,能够稳健地估计数据不确定性。
  • 我们采用额外的核回归模型来高效估计模型不确定性。
  • 我们进一步展示了通过有效过滤高度不确定的数据来提高预测准确性的潜力。
  • 相关研究

    相关工作

    在本节中,我们介绍了立体匹配、深度估计和不确定性估计的最新研究。还探讨了立体匹配中不确定性的计算和应用。

    提出的方法

    我们使用贝叶斯风险进行分解,因为它通过测量预测值与地面真实值之间的差异来直接量化模型的风险。这种分解适用于立体匹配中的不确定性量化,因为它能有效捕捉由数据噪声和模型误差引起的不确定性。在本节中,我们首先介绍了不确定性作为贝叶斯风险的定义[20]。然后我们展示了我们在立体匹配中的数据驱动不确定性估计方法。

    数据集

    我们使用了四个立体匹配数据集:KITTI[13]、Virtual KITTI[14]、SceneFlow[15]和Driving Stereo[16]。这些数据集上的实验结果见表1。由于这些数据集相对全面,如果全部用于训练,得到的数据不确定性将远大于模型不确定性。然而,在实际应用中,用于训练模型的数据集只是其中的一小部分。换句话说,目前我们还无法训练出一个通用适用的模式;

    序数回归

    图5展示了使用平滑L1损失(smooth-l1 loss)和序数回归损失(OR loss)训练的模型。使用OR loss训练的模型在不确定性估计方面与误差分布更为吻合。与使用平滑L1损失训练的模型相比,它提供了更详细的信息。OR loss使模型能够更好地学习视差分布,而平滑L1损失仅在训练过程中提供一个预测值。

    训练数据

    模型不确定性的大小反映了模型的充分性

    数据集

    我们在实验中使用了四个数据集。
    KITTI [13]有两个版本,2012年和2015年,分别包含194对和200对大小为1248x384的训练图像对。我们使用了KITTI 2015年的所有图像,并从KITTI 2012年随机选择了10张图像进行训练,模型测试则在KITTI 2012上进行。
    Virtual KITTI [14]是一个合成数据集,包含21260对大小为1242x375的图像对。我们随机选择了2000对进行训练。
    SceneFlow [15]的图像大小为960x540,包含35454对训练图像对和4370对测试图像对。

    更多定性结果

    我们在图8、9、10、11、12、13、14、15中展示了更多的图像误差和不确定性对结果。我们用红色框标出了模型产生较大预测误差但估计不确定性较低的区域。用橙色框标出了模型在立体匹配中表现良好但仍然预测出高不确定性的区域。还标出了预测不确定性与实际立体匹配误差吻合良好的区域。如图10至图15所示,SEDNet[9]经常表现出

    结论

    在本文中,我们提出了一种用于立体匹配中不确定性估计的新框架。我们的方法成功地使用贝叶斯风险公式将总不确定性分解为数据不确定性和模型不确定性两部分。我们通过结合序数回归进行视差估计和后置核回归模型来估计模型不确定性,从而实现了这一目标,无需重复进行耗时的模型训练。这种方法能够得到准确的不确定性度量。

    未引用的参考文献

    图1。

    CRediT作者贡献声明

    蔡文晓:撰写——审稿与编辑,撰写——初稿,可视化,验证,软件,方法论,调查,形式分析,数据整理,概念化。胡东婷:撰写——审稿与编辑,方法论。尹若嫣:撰写——审稿与编辑。邓建康:指导。傅欢:指导。杨万口:指导,资金获取。龚明明:撰写——审稿与编辑,指导。

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

    生物通微信公众号
    微信
    新浪微博


    生物通 版权所有