跳转到主要内容gydF4y2Ba

简短的研究报告的文章gydF4y2Ba

前面。2023年1月远程Sens。10gydF4y2Ba
秒。图像分析和分类gydF4y2Ba
卷3 - 2022 |gydF4y2Ba https://doi.org/10.3389/frsen.2022.1100012gydF4y2Ba

不确定性是不足以确定嘈杂的标签在训练数据构建二元分割的脚印gydF4y2Ba

www.雷竞技rebatfrontiersin.orggydF4y2Ba汉娜阿尔曼gydF4y2Ba 1gydF4y2Ba,gydF4y2Bawww.雷竞技rebatfrontiersin.orggydF4y2Ba乔纳斯地沟gydF4y2Ba 2gydF4y2Ba和gydF4y2Bawww.雷竞技rebatfrontiersin.orggydF4y2Ba茱莉亚NieblinggydF4y2Ba 2gydF4y2Ba*gydF4y2Ba
  • 1gydF4y2Ba普林斯顿大学,普林斯顿,纽约,美国gydF4y2Ba
  • 2gydF4y2Ba科学研究所的数据,数据分析和情报,德国航空航天中心(DLR),德国耶拿gydF4y2Ba

获得高质量的标签是一个主要挑战深层神经网络在遥感领域中的应用。获取标签的一种常见方法是使用人群采购提供所需的训练数据集,还常常包含不正确的标签可以显著影响深神经网络的训练过程。在本文中,我们利用不确定性来识别一个特定类型的标签噪声卫星图像的语义分割的建筑物。这种类型的标签噪声被称为“遗漏噪音,”即。,missing labels for whole buildings which still appear in the satellite image. Following the literature, uncertainty during training can help in identifying the “sweet spot” between generalizing well and overfitting to label noise, which is further used to differentiate between noisy and clean labels. The differentiation between clean and noisy labels is based on pixel-wise uncertainty estimation and beta distribution fitting to the uncertainty estimates. For our study, we create a data set for building segmentation with different levels of omission noise to evaluate the impact of the noise level on the performance of the deep neural network during training. In doing so, we show that established uncertainty-based methods to identify noisy labels are in general not sufficient enough for our kind of remote sensing data. On the other hand, for some noise levels, we observe some promising differences between noisy and clean data which opens the possibility to refine the state-of-the-art methods further.

1介绍gydF4y2Ba

深层神经网络(款)产生了各种各样的先进的结果分类和分割任务,包括语义分割遥感图像(gydF4y2BaKemker et al ., 2018gydF4y2Ba)。然而,在训练数据标签的噪音可能会损害款的性能通过破坏网络的泛化能力,是经验表明,款能够overfit完全随机噪声(gydF4y2BaZhang et al ., 2021gydF4y2Ba)。一般来说,标签的作用噪声对款不是很好理解的训练:在实践中,模型往往会推广相当不错甚至在高噪音环境(gydF4y2BaRolnick et al ., 2018gydF4y2Ba;gydF4y2Ba王et al ., 2018gydF4y2Ba),但在其他情况下标签噪音影响模型分割大幅培训(而闻名gydF4y2BaRahaman et al ., 2022gydF4y2Ba)。gydF4y2Ba

标签噪音可以出现在任何部分的数据收集、处理,或分析,由于各种各样的原因。研究者往往依赖于不太精确的自动化过程标签大量数据便宜,但即使是专家意见可以不同意相同的分割任务(gydF4y2BaRedekop Chernyavskiy, 2021gydF4y2Ba)。注释器在语义分割,它是几乎不可能准确的标签图像像素,导致不可避免的噪声以及分割边界(gydF4y2Ba科利尔et al ., 2020gydF4y2Ba)。在(gydF4y2BaMnih辛顿,2012gydF4y2Ba)作者将这种现象称为“登记噪音。“登记噪声可以出现在形式的变化,旋转或不准确的边界几何图形。遥感数据集也可能是不完整的或过时的;因此建立标签不匹配架构在相应的卫星图像。的情况一个标签缺失的建筑出现在卫星图像被称为“遗漏噪音”。gydF4y2Ba

有许多方法来处理标签噪音在深入学习。的作者(gydF4y2Ba沃甘Ulusoy, 2021gydF4y2Ba)组织这些“噪音模型”和“无噪声模型”类别。“基于噪声模型”的方法寻求估计底层噪声结构为了不再强调,重新用标签标明,或删除的标签,这样模型不能从错误中学习,而“无噪声模型”方法利用嘈杂的标签来提高鲁棒性,例如,加速梯度下降通过例子矿业或难以避免过度拟合(gydF4y2BaChang et al ., 2017gydF4y2Ba)。存在许多不同的模型结构和损失函数来处理噪音标签在这些类别(gydF4y2BaMnih辛顿,2012gydF4y2Ba;gydF4y2BaFobi et al ., 2020gydF4y2Ba;gydF4y2Ba康et al ., 2020gydF4y2Ba;gydF4y2Ba康et al ., 2021gydF4y2Ba)。本文分为“噪声模型”范畴,旨在确定一个嘈杂的标签潜在的重新分布。同时,作为可解释性成为主要焦点领域的深度学习,研究预测的不确定性正在增加,因为关键应用的深度学习模型估算的不确定性等措施的信心需要解释和信任模型预测(gydF4y2BaHenne et al ., 2020gydF4y2Ba)。整体学习和蒙特卡罗辍学,两个最受欢迎的技术措施获得信心,估计预测的不确定性通过评估相同的多个预测模型或模型参数略有不同。也存在不断扩大的文学解释深度学习的不确定性,不确定性估计有可能包含有用的信息数据和网络本身(gydF4y2BaAbdar et al ., 2021gydF4y2Ba)。遥感领域特别是缺乏有意义的探索不确定性;gydF4y2Ba哈斯和Rabus (2021)gydF4y2Ba解决这个问题,但他们不包括标签噪音在他们的研究中。gydF4y2Ba

自标签噪音是不利于款的实用价值,重要的是要获得一个更全面的了解网络学习面对这个问题。直觉上,标签噪音会影响模型的不确定性:如果一些样品(噪声)的标记模式偏离了多数人的标记模式(清洁),这可能导致更多不确定的模型偏差的。这两个,gydF4y2Ba科勒et al。(2019)gydF4y2Ba和gydF4y2BaRedekop和Chernyavskiy (2021)gydF4y2Ba标签之间的关系,研究噪声和预测的不确定性,在图像分类和医学图像分割领域,分别。具体地说,他们用观察到的模式的不确定性在CNN培训选择理想的时代,从嘈杂的单独的清洁标签基于各自的独特分布的不确定性。我们的目标是找出如果类似的方法可成功地用于遥感数据。该方法在gydF4y2BaArazo et al。(2019)gydF4y2Ba使用类似的方法通过拟合β混合清洗和嘈杂的标签分布,但他们使用任务的不确定性损失函数,而不是寻找最优的时代区分清洁和嘈杂的标签。gydF4y2Ba

在这项工作中,我们评估这些方法在遥感图像的适用性。为此,我们引入噪声的标签数据集建立的足迹和评估这些方法是否能够成功地识别了噪音。我们使用建议的启发式gydF4y2Ba科勒et al。(2019)gydF4y2Ba和gydF4y2BaRedekop和Chernyavskiy (2021)gydF4y2Ba选择理想的时代找到标签噪音。接下来,我们适合混合贝塔分布的不确定性值选择时代为了单独的清洁和嘈杂的标签组件。最后,我们使用安装分布对每个像素进行分类清理或吵闹,并报告几个性能指标。gydF4y2Ba

2方法gydF4y2Ba

描述的方法gydF4y2Ba科勒et al。(2019)gydF4y2Ba和gydF4y2BaRedekop和Chernyavskiy (2021)gydF4y2Ba工作如下:假定在训练一个款,有一个时间点,当模型已经学会了识别的重要模式,但还没有学会overfit训练数据中的噪声。这是一个合理的假设,因为它是经验所示gydF4y2BaArpit et al。(2017)gydF4y2Ba和gydF4y2BaArazo et al。(2019)gydF4y2Ba这款通常只在后来的时代开始过度拟合的噪音。并进一步假设预测的不确定性在这样一个点是明显不同于在清洁上嘈杂的样本。gydF4y2Ba

每一个,gydF4y2Ba科勒et al。(2019)gydF4y2Ba和gydF4y2BaRedekop和Chernyavskiy (2021)gydF4y2Ba经验,推荐有前途的启发式选择一个时代的预测不确定性可以用来正确区分噪声和清洁标签没有知识潜在的噪声分布。在这两种情况下,这些启发式的观察到局部最小值的不确定性测量在一个特定的时代,正值全球最大的测试精度。作者得出结论,因此可以使用这种观察局部最小值作为指标测试精度最高的时代,相当于上述时间点。论文提供了一个理论解释和健壮的测试这些启发式。不过,在缺乏替代指标,我们也使用这些启发式选择合适的时代。选择时代,每个训练样本计算预测的不确定性,然后两个单峰分布拟合直方图的不确定性。理想情况下,这两个发行版应该代表的不确定性分布清洁和噪声样本,分别。随后可以使用这两个发行版分类训练样本作为清洗或吵了。我们的贡献由应用所提出的方法gydF4y2Ba科勒et al。(2019)gydF4y2Ba和gydF4y2BaRedekop和Chernyavskiy (2021)gydF4y2Ba在遥感数据集与几个不同级别的标签噪音和评估这些方法的性能,以确定该方法可以成功地使用在遥感领域。我们使用一个DeepLabV3 +模型(gydF4y2Ba陈et al ., 2018gydF4y2Ba)与辍学(率= 1),一个二进制crossentropy损失,亚当优化器(gydF4y2BaKingma英航,2014gydF4y2Ba)和10的初始学习速率gydF4y2Ba4gydF4y2Ba与指数衰减的语义分割建筑足迹鹿特丹市的卫星图像数据集(gydF4y2BaShermeyer et al ., 2020gydF4y2Ba)。从这个数据集,只有图像包含至少30%的建筑被选为训练和验证,以减少类失衡的影响。我们训练模型对100年时代的批量大小,使用2574年和643年的RGB图像进行训练和验证,分别为(80% / 20%)。每个图片都有256×256像素。获取的不确定性估计,训练数据的模型预测在每个时代,利用MC辍学(gydF4y2Ba加Ghahramani, 2016gydF4y2Ba)和20向前传球softmax预测每个像素的输出向量。gydF4y2Ba

在我们的分析中,我们关注遗漏噪音,它出现在图像中对象可见失踪的标签掩码(gydF4y2BaMnih辛顿,2012gydF4y2Ba)。这是一个非常常见的噪声类型遥感图像可以来自过时的或不完整的参考数据。评估的方法能够识别遗漏噪音,我们创建了11初始数据集的不同版本,每个版本包含相同的图片,但不同数量的遗漏噪音标签。我们随后火车模型在每个的11个版本,使用原始噪声(0%)所有试验验证标签。我们11集覆盖的噪音水平在0%和100%之间的间隔10百分点。噪音的百分比在这里指真实建筑的一部分转化为背景像素的像素,这意味着在数据集的10%遗漏噪音,大约10%的真正建立在每个图像像素转换为背景像素。因为我们只有把整个建筑的几何图形,准确的噪声水平在一个图像可以在某种程度上有所不同。gydF4y2Ba

每个培训像素计算预测的不确定性gydF4y2BaxgydF4y2Ba,我们执行gydF4y2BaTgydF4y2Ba与辍学≔20向前传递(gydF4y2Ba加Ghahramani, 2016gydF4y2Ba)在每个时代获得序列编码的一个炎热softmax向量gydF4y2Ba (gydF4y2Ba ggydF4y2Ba tgydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba )gydF4y2Ba tgydF4y2Ba =gydF4y2Ba 1、2gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba TgydF4y2Ba 与gydF4y2Ba ggydF4y2Ba tgydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba =gydF4y2Ba (gydF4y2Ba ggydF4y2Ba cgydF4y2Ba tgydF4y2Ba (gydF4y2Ba xgydF4y2Ba )gydF4y2Ba )gydF4y2Ba cgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba ,gydF4y2Ba …gydF4y2Ba ,gydF4y2Ba CgydF4y2Ba ∈gydF4y2Ba RgydF4y2Ba CgydF4y2Ba ,在那里gydF4y2BaCgydF4y2Ba= 2类的数量。类指数gydF4y2BacgydF4y2Ba= 0代表建筑类和gydF4y2BacgydF4y2Ba= 1为背景类。培训期间我们跟踪三种不确定性的措施:gydF4y2Ba

1。平均softmax值预测的类:gydF4y2Ba

μgydF4y2Ba ≔gydF4y2Ba 1gydF4y2Ba TgydF4y2Ba ∑gydF4y2Ba tgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba TgydF4y2Ba 马克斯gydF4y2Ba cgydF4y2Ba ∈gydF4y2Ba 0 1gydF4y2Ba ggydF4y2Ba cgydF4y2Ba tgydF4y2Ba xgydF4y2Ba (gydF4y2Ba 1gydF4y2Ba )gydF4y2Ba

2。将softmax成绩的标准差为建筑类,提出(gydF4y2Ba科勒et al ., 2019gydF4y2Ba):gydF4y2Ba

σgydF4y2Ba 0gydF4y2Ba ≔gydF4y2Ba ∑gydF4y2Ba tgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba TgydF4y2Ba ggydF4y2Ba 0gydF4y2Ba tgydF4y2Ba xgydF4y2Ba −gydF4y2Ba μgydF4y2Ba 0gydF4y2Ba 2gydF4y2Ba 与gydF4y2Ba μgydF4y2Ba 0gydF4y2Ba ≔gydF4y2Ba 1gydF4y2Ba TgydF4y2Ba ∑gydF4y2Ba tgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba TgydF4y2Ba ggydF4y2Ba 0gydF4y2Ba tgydF4y2Ba xgydF4y2Ba 。gydF4y2Ba (gydF4y2Ba 2gydF4y2Ba )gydF4y2Ba

3所示。所使用的测量(gydF4y2BaRedekop Chernyavskiy, 2021gydF4y2Ba)和定义的(gydF4y2BaKwon et al ., 2020gydF4y2Ba),旨在捕获模型的任意部分输出的方差gydF4y2Ba1gydF4y2Ba。我们将参考它gydF4y2BaVargydF4y2Ba艾尔gydF4y2Ba在本文的其余部分:gydF4y2Ba

VgydF4y2Ba 一个gydF4y2Ba rgydF4y2Ba 一个gydF4y2Ba lgydF4y2Ba ≔gydF4y2Ba 1gydF4y2Ba TgydF4y2Ba ∑gydF4y2Ba tgydF4y2Ba =gydF4y2Ba 1gydF4y2Ba TgydF4y2Ba ggydF4y2Ba 0gydF4y2Ba tgydF4y2Ba xgydF4y2Ba ⋅gydF4y2Ba 1gydF4y2Ba −gydF4y2Ba ggydF4y2Ba 0gydF4y2Ba tgydF4y2Ba xgydF4y2Ba (gydF4y2Ba 3gydF4y2Ba )gydF4y2Ba

在我们的实验中,提出的模型预测的标准偏差gydF4y2Ba科勒et al。(2019)gydF4y2Ba是最成功的不确定性措施确定一个最优的时代,观察到的局部最小值的影响在这种不确定性程度最明显可见的定性。以下的建议gydF4y2Ba科勒et al。(2019)gydF4y2Ba,我们适合混合贝塔分布直方图的预测不确定性值选择的时代中提取“噪声”和“清洁”组件。我们使用betamix算法和代码实现gydF4y2Ba2gydF4y2Ba从gydF4y2Ba施罗德和Rahmann (2017)gydF4y2Ba,因为预测的不确定性包括0和1的值,影响性能的传统MLE-based EM算法(gydF4y2Ba施罗德Rahmann, 2017gydF4y2Ba;gydF4y2BaArazo et al ., 2019gydF4y2Ba)。直方图的算法分配每个不确定性值的两个组件基于后验概率分布。我们比较准确地分配给“嘈杂”组件的像素匹配实际遗漏的噪音,或建筑物像素从训练中删除标签。总像素的比例分配给“嘈杂”组件由betamix算法应该匹配已知遗漏噪声水平,或百分比的像素移除。“吵”的标签分配然后用来计算pixel-wise精度指标对实际(已知)遗漏噪音。gydF4y2Ba

3的结果gydF4y2Ba

我们将首先涉及的过程为提取不确定性值:选择一个合适的时代gydF4y2Ba图1gydF4y2Ba显示的发展将softmax成绩的标准差为建筑类gydF4y2BaσgydF4y2Ba0gydF4y2Ba在培训期间,计算在整个训练集和所有向前推移,为每个嘈杂的数据集。预测不确定性的措施似乎遵守特定的模式在模型训练,特别是在低到中等遗漏噪音水平。训练时遗漏噪音水平高于0%,将softmax的平均标准偏差值先减小达到最低在上半年的培训和提高。这个结果反映了观察(gydF4y2Ba科勒et al ., 2019gydF4y2Ba)早期网络中最小的标准偏差在训练期间,允许我们使用这个最小的时代之间的分离干净和嘈杂的标签通过拟合混合贝塔分布。有趣的是,这种模式并不出现在0%的疏忽噪音水平;在这种情况下,标准偏差稳步减少在整个培训过程。然而,噪音水平= 50%以上,启发式似乎用处不大,总体不确定性的大小是较小的,似乎有更多的随机不确定性值在训练。简洁的原因,我们不显示其他不确定性措施在第二节解释说,虽然他们也显示类似的行为,对于数据集与现有的但不是极高的噪音水平,不确定性开始前先降低再增加。为每个噪音水平我们选择第一个局部最小值预测不确定性的时代进行进一步分析,如果存在一个最小。提取的时代所示gydF4y2Ba表1gydF4y2Ba。gydF4y2Ba

图1gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

图1gydF4y2Ba。建筑类的将softmax值的标准偏差gydF4y2BaσgydF4y2Ba0gydF4y2Ba100年培训时代不同噪声水平的训练数据。gydF4y2Ba

表1gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

表1gydF4y2Ba。pixel-wise表精度指标对像素分类为“嘈杂”betamix算法与已知遗漏噪音。提出的方法gydF4y2Ba科勒et al。(2019)gydF4y2Ba使用softmax的标准差值的类gydF4y2BaσgydF4y2Ba0gydF4y2Ba选择一个时代,意味着softmax值预测类的gydF4y2BaμgydF4y2Ba在选择时代确定噪声样本。提出的方法gydF4y2BaRedekop Chernyavskiy, 2021gydF4y2Ba使用的差异gydF4y2BaVargydF4y2Ba艾尔gydF4y2Ba时代的选择和gydF4y2BaVargydF4y2Ba艾尔gydF4y2Ba识别。大胆的值显示最好的结果为每个噪声电平之间的两个启发式。gydF4y2Ba

接下来,我们适合混合贝塔分布上的不确定性值选择的时代。gydF4y2Ba图2 a, BgydF4y2Ba显示的训练集的不确定性直方图噪声分别有20%和30%在上述时期选择的启发式,以及混合贝塔分布的两个组件安装的betamix算法在数据。这里使用的不确定性度量是平均softmax值预测的类gydF4y2BaμgydF4y2Ba,这可以看作是一个信心的分数。注意,这是一个不同的测量比用于识别的时代。我们选择了不同的措施,因为很明显定性,这种方法生成的直方图有更多不同的模式的生成与建筑类的标准偏差。直方图显示,大多数样本分配一个很高的信心1.0附近的噪音水平。然而还有一个局部最大值。6和7之间。基于的作品gydF4y2Ba科勒et al。(2019)gydF4y2Ba和gydF4y2BaRedekop和Chernyavskiy (2021)gydF4y2Ba组件组成的,我们假设低不确定性值是“干净”和组件的高不确定性”吵了。“简洁的原因,我们只显示这两个噪音水平的分布,为两种模式的区别最明显的地方。更高的噪声水平,尤其是超过50%,较小的局部最大值再次消失,和betamix算法只能适合单个组件,换句话说未能识别出任何噪音标签。可能的原因是过高噪音水平,网络不能区分清洁和嘈杂的标签了。gydF4y2Ba

图2gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

图2gydF4y2Ba。混合β分布符合和不确定性直方图的清洁和嘈杂的样本。gydF4y2Ba(一)gydF4y2Ba混合betamixβ分布合适的算法对训练数据有20%的噪音gydF4y2Ba(B)gydF4y2Ba混合betamixβ分布合适的算法对训练数据有30%的噪音gydF4y2Ba(C)gydF4y2Ba不确定直方图的清洁和嘈杂的噪声样本训练数据为20%gydF4y2Ba(D)gydF4y2Ba不确定直方图的清洁和嘈杂的噪声样本训练数据为30%。不确定性是通过计算平均softmax值预测类的gydF4y2BaμgydF4y2Ba。gydF4y2Ba

以来在我们的实验装置有完整信息的噪声数据,我们可以检查是否分布发现betamix算法实际上与噪声的分布和干净的样品。gydF4y2Ba图2 c, DgydF4y2Ba显示直方图的实际清洁和嘈杂的样本训练集的标签噪声20%和30%,分别。可以看到的是,清洁标签确实是集中在分数很高的信心,然而信心较低分数的区别不是很清楚,因为类似的可以找到大量的清洁和嘈杂的样本。此外,噪音水平有一个明显的区别:训练集的直方图与20%和30%标签噪声允许一个更好的清洁和噪音之间的区别比其他的训练集的样本。简洁的原因,我们只显示两个噪音水平的直方图之间的区别清洁和嘈杂的样品效果最好。gydF4y2Ba

另一个有趣的观察是不同的不确定性是如何分布空间。我们可以看到gydF4y2Ba图3gydF4y2Ba,预测不确定性似乎主要集中在建筑物的边界,基于热图所有四种不确定性的措施。gydF4y2Ba

图3gydF4y2Ba
www.雷竞技rebatfrontiersin.orggydF4y2Ba

图3gydF4y2Ba。热图预测不确定性在训练的第一行和20%的疏忽遗漏噪声0%噪声在时代最后一行15。gydF4y2Ba(一)gydF4y2Ba卫星图像gydF4y2Ba(B)gydF4y2Ba培训的标签gydF4y2Ba(C)gydF4y2Ba预测的平均softmax类gydF4y2Ba(D)gydF4y2Ba标准偏差gydF4y2Ba(E)gydF4y2BaVargydF4y2Ba艾尔gydF4y2Ba。所有不确定性值缩放更好的可见性。gydF4y2Ba

精度指标的任务识别噪声样本所示gydF4y2Ba表1gydF4y2Ba为不同的噪声水平,描述的方法gydF4y2Ba科勒et al。(2019)gydF4y2Ba和描述的方法gydF4y2BaRedekop和Chernyavskiy (2021)gydF4y2Ba。这两种方法之间的主要区别是:使用的不确定性的措施将softmax前使用标准偏差值的类gydF4y2BaσgydF4y2Ba0gydF4y2Ba对时代的意思是softmax价值选择和预测类gydF4y2BaμgydF4y2Ba对噪声样本识别。后者使用的变化gydF4y2BaVargydF4y2Ba艾尔gydF4y2Ba之间的时代选择和随后的时代gydF4y2BaVargydF4y2Ba艾尔gydF4y2Ba对噪声样本识别。精度指标表明,这两种方法做一个可怜的工作准确检测的像素。最大的借据分数达到任何噪音或启发式低位(50%噪声;时代1;Redekop的方法),远低于通常的阈值5需要被认为是成功的。一般来说,使用的方法(gydF4y2BaRedekop Chernyavskiy, 2021gydF4y2Ba)导致更大的噪声预测,可能因为它通常选择适合分布,较早的时期,这样有更多的不确定性模型的预测,因此更多的像素被列为吵了。出于同样的原因,这种启发式方法会导致较低的精度和召回分数更高,因为有更多的整体预测噪声(积极)像素,因此更多的假阳性和假阴性。高于5的噪音水平是不可能的了适合两个β分布直方图,因此没有结果报告更高的噪音水平。gydF4y2Ba

4讨论gydF4y2Ba

的结果gydF4y2Ba图1gydF4y2Ba清楚地表明,标签的存在噪声影响的不确定性模型在训练。按照观察gydF4y2Ba科勒et al。(2019)gydF4y2Ba和gydF4y2BaRedekop和Chernyavskiy (2021)gydF4y2Ba,标签噪音导致培训先减少再增加不确定性。这种行为是不可见上噪音水平也是可以预料到的:在极端情况下100%的标签噪音,训练标签由单纯的背景,因此该模型不能学到任何模式,而是将每一次预测背景类,导致最大的信心。这意味着如果一个模型的不确定性在训练可用于识别嘈杂的标签,它只会可能的噪音水平低于某个阈值。此外,我们看到的比较gydF4y2Ba图2 a, BgydF4y2Ba与gydF4y2Ba图2 c, DgydF4y2Ba清洁和噪声样本的不确定性分布重叠强烈,因此不能准确地捕捉到betamix算法。整合或替换算法这两个发行版更可靠的发现可能是下一步在将来试图利用噪音标签检测的不确定性,即使可靠嘈杂的标签识别仅根据不确定性仍不可能因为大两个分布之间的重叠。gydF4y2Ba

我们这里显示结果不如所报道的gydF4y2Ba科勒et al。(2019)gydF4y2Ba和gydF4y2BaRedekop和Chernyavskiy (2021)gydF4y2Ba在各自的数据集,这带来了一个问题为什么似乎更有效的方法对自然对遥感图像和医学图像。一种可能性可以更高的分数背景和目标类之间的界限。我们观察到边界像素比平均水平更大的不确定性。类似的基于Var的观察gydF4y2Ba艾尔gydF4y2Ba在gydF4y2BaKwon et al。(2020)gydF4y2Ba。(gydF4y2Ba科利尔et al。(2020)gydF4y2Ba这一现象提供了一个潜在的原因:gydF4y2Ba

“图像分割数据集天然异方差的不确定性。一个512×512的形象有262144像素,因此,在实践中人类注释器不能单独标签像素但标签集合的像素。由于注释往往是吵的边界对象。”gydF4y2Ba

自真实建筑注释不完美结合卫星图像的像素数据,有天然边界噪声的语义分割任务。因此,该模型可以正确选择边界噪声和更不确定这些像素在训练;然而,这可能很难跟踪其他种类的噪声不确定性,即使它是手动添加和研究者。我们试图解释这个属性通过屏蔽边界像素在贝塔分布的拟合。另外,我们还使用了损失函数专门设计来减少不确定性边界(gydF4y2BaBokhovkin Burnaev, 2019gydF4y2Ba)。两次不过,结果看上去仍然类似于上面所示,表明边界并不是唯一来源的差异。gydF4y2Ba

作为gydF4y2Ba表1gydF4y2Ba显示,上述不确定性分布重叠的清洁和嘈杂的样本会导致整体业绩不佳的方法对于识别噪声样本。性能指标表明,预测的不确定性是一个贫穷指标省略噪音,尤其是在超过50%的建筑网络训练之前标签已被移除。gydF4y2Ba

总之,最初的目标识别的标签基于不确定性不能达到令人满意的程度。还是一个有前途的清洁和嘈杂的标签之间的不确定性分布差异可以发现至少在一些噪音水平。精炼的方法用于这项工作更准确地捕捉清洁和嘈杂的标签的真实分布仍然可以使用的标签清理的目的,例如,获取一个先验概率可能噪声样本或建立的一个子集最值得信赖的样本。gydF4y2Ba

数据可用性声明gydF4y2Ba

公开的数据集进行分析。这些数据可以在这里找到:gydF4y2Bahttps://zenodo.org/record/6651463 .Y1vdcErP1FEgydF4y2Ba。gydF4y2Ba

作者的贡献gydF4y2Ba

胡锦涛进行了所有的实验,进行文学研究、处理结果和写的更大的一部分介绍,方法和结果部分。詹的初始想法,提供代码的部分实验,监督和指导实验,制定了大讨论的一部分。约给结构实验,建议制定论文的部分和支持整个写作过程。gydF4y2Ba

资金gydF4y2Ba

这项研究是由德国航空航天中心(DLR)范围内的合作与普林斯顿大学的暑期工作项目支持的亥姆霍兹信息和数据科学学院(飞驒)。gydF4y2Ba

的利益冲突gydF4y2Ba

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。gydF4y2Ba

出版商的注意gydF4y2Ba

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。gydF4y2Ba

脚注gydF4y2Ba

1gydF4y2Bahttps://github.com/ykwon0407/UQ_BNN/blob/master/retina/utils.pygydF4y2Ba

2gydF4y2Bahttps://bitbucket.org/genomeinformatics/betamix/src/master/gydF4y2Ba

引用gydF4y2Ba

Abdar, M。,Pourpanah, F., Hussain, S., Rezazadegan, D., Liu, L., Ghavamzadeh, M., et al. (2021). A review of uncertainty quantification in deep learning: Techniques, applications and challenges.正融合。gydF4y2Ba76年,243 - 297。doi: 10.1016 / j.inffus.2021.05.008gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

沃甘,G。,和Ulusoy, I. (2021). Image classification with deep learning in the presence of noisy labels: A survey.以知识为基础的系统。gydF4y2Ba215年,106771年。doi: 10.1016 / j.knosys.2021.106771gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Arazo E。,Ortego, D., Albert, P., O’Connor, N., and McGuinness, K. (2019). “Unsupervised label noise modeling and loss correction,” in国际会议上机器学习gydF4y2Ba(gydF4y2BaPMLRgydF4y2Ba),312 - 321。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Arpit D。,Jastrzkebski, S., Ballas, N., Krueger, D., Bengio, E., Kanwal, M. S., et al. (2017). A closer look at memorization in deep networks.Int,相依马赫。学习。gydF4y2Ba,gydF4y2Ba澳大利亚悉尼gydF4y2Ba。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Bokhovkin,。,和Burnaev, E. (2019). “Boundary loss for remote sensing imagery semantic segmentation,” in国际神经网络研讨会上gydF4y2Ba(gydF4y2Ba施普林格gydF4y2Ba),388 - 401。gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Chang H.-S。,Learned-Miller, E., and McCallum, A. (2017). Active bias: Training more accurate neural networks by emphasizing high variance samples.放置神经Inf。过程。系统。gydF4y2Ba30.gydF4y2Ba

谷歌学术搜索gydF4y2Ba

陈,L.-C。、朱、Y。,Papandreou, G., Schroff, F., and Adam, H. (2018). “Encoder-decoder with atrous separable convolution for semantic image segmentation,” in计算机视觉的欧洲会议(大会)gydF4y2Ba,801年。gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

科利尔,M。,Mustafa, B., Kokiopoulou, E., Jenatton, R., and Berent, J. (2020).一个简单的概率方法,深分类input-dependent标签下的噪音gydF4y2Ba。gydF4y2BaarXiv预印本arXiv: 2003.06778gydF4y2Ba。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Fobi, S。,Conlon, T., Taneja, J., and Modi, V. (2020). “Learning to segment from misaligned and partial labels,” in第三届ACM SIGCAS学报》会议上计算和可持续的社会gydF4y2Ba,286 - 290。gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

加,Y。,和Ghahramani, Z. (2016). “Dropout as a bayesian approximation: Representing model uncertainty in deep learning,” in国际会议上机器学习gydF4y2Ba(gydF4y2BaPMLRgydF4y2Ba)。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

排水沟,j . A。Kruspe,。、朱、X X。,和Niebling, J. (2022). Impact of training set size on the ability of deep neural networks to deal with omission noise.前面。远程Sens。gydF4y2Ba3,2431。doi: 10.3389 / frsen.2022.932431gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

哈斯,J。,和R一个bus, B. (2021). Uncertainty estimation for deep learning-based segmentation of roads in synthetic aperture radar imagery.远程Sens。gydF4y2Ba13日,1472年。doi: 10.3390 / rs13081472gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Henne, M。,Schwaiger, A., Roscher, K., and Weiss, G. (2020).基准深度学习与安全指标的不确定性评估方法gydF4y2Ba,83 - 90。SafeAI@ AAAI。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

康,J。,Fernandez-Beltran, R., Duan, P., Kang, X., and Plaza, A. J. (2020). Robust normalized softmax loss for deep metric learning-based characterization of remote sensing images with label noise.IEEE反式。地球科学远程Sens。gydF4y2Ba59岁,8798 - 8811。doi: 10.1109 / tgrs.2020.3042607gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

康,J。,Fernandez-Beltran, R., Sun, X., Ni, J., and Plaza, A. (2021). Deep learning-based building footprint extraction with missing annotations.远程参议员列托人IEEE地球科学。gydF4y2Ba19日,1 - 5。doi: 10.1109 / lgrs.2021.3072589gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Kemker, R。,Salvaggio, C., and Kanan, C. (2018). Algorithms for semantic segmentation of multispectral remote sensing imagery using deep learning.远程Sens ISPRS j .摄影测量。gydF4y2Ba145年,60 - 77。doi: 10.1016 / j.isprsjprs.2018.04.014gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Kingma, d . P。,和Ba, J. (2014).亚当:一个随机优化方法gydF4y2Ba。gydF4y2BaarXiv预印本arXiv: 1412.6980gydF4y2Ba

谷歌学术搜索gydF4y2Ba

科勒,j . M。,Autenrieth, M., and Beluch, W. H. (2019).基于不确定性的噪声图像的检测和重新标记标签gydF4y2Ba。gydF4y2BaCVPR商店工作gydF4y2Ba,33-37。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Kwon Y。,Won, J.-H., Kim, B. J., and Paik, M. C. (2020). Uncertainty quantification using bayesian neural networks in classification: Application to biomedical image segmentation.第一版。统计数据分析gydF4y2Ba142年,106816年。doi: 10.1016 / j.csda.2019.106816gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Mnih, V。,和Hinton, G. E. (2012). “Learning to label aerial images from noisy data,” in学报》第29届国际会议上机器学习gydF4y2Ba(gydF4y2BaICML-12gydF4y2Ba),567 - 574。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

Rahaman, M。,Hillas, M. M., Tuba, J., Ruma, J. F., Ahmed, N., and Rahman, R. M. (2022). Effects of label noise on performance of remote sensing and deep learning-based water body segmentation models.Cybern。系统。gydF4y2Ba53岁,581 - 606。doi: 10.1080 / 01969722.2021.1989171gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Redekop E。,和Chernyavskiy, A. (2021). “Uncertainty-based method for improving poorly labeled segmentation datasets,” in2021年IEEE 18生物医学成像(位ISBI)国际研讨会gydF4y2Ba(gydF4y2BaIEEEgydF4y2Ba),1831年。gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Rolnick D。Veit,。,Belongie, S., and Shavit, N. (2018).深入学习是健壮的大标签的噪音gydF4y2Ba。gydF4y2BaarXiv预印本arXiv: 1705.10694gydF4y2Ba。gydF4y2Ba

谷歌学术搜索gydF4y2Ba

施罗德,C。,和R一个hmann, S. (2017). A hybrid parameter estimation algorithm for beta mixtures and applications to methylation state classification.算法摩尔。生物。gydF4y2Ba12日,他以。doi: 10.1186 / s13015 - 017 - 0112 - 1gydF4y2Ba

《公共医学图书馆摘要》gydF4y2Ba|gydF4y2BaCrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

Shermeyer, J。霍根,D。、棕色、J。,V一个n Etten, A., Weir, N., Pacifici, F., et al. (2020). “Spacenet 6: Multi-sensor all weather mapping dataset,” in《IEEE CVF计算机视觉与模式识别会议/研讨会gydF4y2Ba,196年。gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

王,F。,Chen, L., Li, C., Huang, S., Chen, Y., Qian, C., et al. (2018). “The devil of face recognition is in the noise,” in欧洲计算机视觉的诉讼gydF4y2Ba(gydF4y2Ba大会gydF4y2Ba),765年。gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

张,C。,Bengio, S., Hardt, M., Recht, B., and Vinyals, O. (2021). Understanding deep learning (still) requires rethinking generalization.Commun。ACMgydF4y2Ba64年,107 - 115。doi: 10.1145 / 3446776gydF4y2Ba

CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学术搜索gydF4y2Ba

关键词:gydF4y2Ba深度学习、遥感、不确定性,标签噪音,分割gydF4y2Ba

引用:gydF4y2Ba阿尔曼H,地沟J和Niebling J(2023)的不确定性是不够的对于识别嘈杂的标签在训练数据构建二元分割的脚印。gydF4y2Ba前面。远程Sens。gydF4y2Ba3:1100012。doi: 10.3389 / frsen.2022.1100012gydF4y2Ba

收到:gydF4y2Ba2022年11月16日;gydF4y2Ba接受:gydF4y2Ba2022年12月19日;gydF4y2Ba
发表:gydF4y2Ba2023年1月10日。gydF4y2Ba

编辑:gydF4y2Ba

克劳迪娅·玛丽亚·阿尔梅达gydF4y2Ba国家空间研究所(INPE),巴西gydF4y2Ba

审核:gydF4y2Ba

剑康gydF4y2Ba苏州大学,中国gydF4y2Ba
Zenghui张gydF4y2Ba上海交通大学,中国gydF4y2Ba

版权gydF4y2Ba©2023阿尔曼,排水沟和Niebling。这是一个开放分布式根据文章gydF4y2Ba知识共享归属许可(CC)。gydF4y2Ba使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。gydF4y2Ba

*通信:gydF4y2Ba茱莉亚Niebling,gydF4y2BaJulia.Niebling@dlr.degydF4y2Ba

下载gydF4y2Ba