跳转到主要内容

原始研究的文章

前面。信号的过程。,12October 2022
秒。图像处理
卷2 - 2022 | https://doi.org/10.3389/frsip.2022.1008812

LVAC:学会了体积属性为点云压缩使用基于坐标的网络

www.雷竞技rebatfrontiersin.orgBerivan Isik 1*,www.雷竞技rebatfrontiersin.org菲利普·a·周 2,www.雷竞技rebatfrontiersin.org唱黄金2,www.雷竞技rebatfrontiersin.org尼克·约翰斯顿 2www.雷竞技rebatfrontiersin.org乔治Toderici2
  • 1斯坦福大学电机工程系,斯坦福大学,美国CA
  • 2谷歌,山景、钙、美国

我们考虑点云的属性作为向量值的样本体积函数在离散的位置。压缩属性的位置,我们压缩体积函数的参数。我们模型的体积函数瓷砖空间分成块,并代表函数在每一块基于坐标的变化,或隐式神经网络。输入到网络包括空间坐标和一个潜在的向量/块。我们代表了潜在的使用region-adaptive层次变换的系数向量(RAHT)用于MPEG几何投影点云编解码器G-PCC。是高度可压缩系数,由bp在率失真率失真优化的拉格朗日损失一个auto-decoder配置。结果优于变换在当前标准,RAHT, 2 - 4 dB和最近的一个non-volumetric方法,Deep-PCAC,由2 - 5 dB在相同的比特率。这是第一个工作压缩体积函数由局部神经网络基于坐标表示。因此,我们期望它适用之外的点云,例如压缩的高分辨率神经光辉字段。

1介绍

最近成功的隐式网络,a·基于坐标网络(cbn),在代表各种各样的信号,如神经光辉字段(米尔登霍尔et al ., 2020;a . et al ., 2021年;巴伦et al ., 2021;海德曼et al ., 2021;Knodt et al ., 2021;Srinivasan et al ., 2021;Zhang et al ., 2021),点云(藤原和桥本,2020)、网格(公园et al ., 2019;梅什德et al ., 2019;Sitzmann et al ., 2020;马特尔et al ., 2021;Takikawa et al ., 2021),图片(马特尔et al ., 2021),一个端到端的压缩框架表示使用cbn已成为不可避免的必要。出于这一点,我们首先提出了端到端学习压缩体积函数框架由cbn与其他注重点云属性表示缺乏与基线。我们叫我们的方法学会了体积属性压缩(LVAC)。潜在的3 d点云是一个基本数据类型抽样,因此发挥重要作用在地图和导航等应用,虚拟和现实增强技术,远程监控,和文化遗产保护,依靠采样3 d数据(Mekuria et al ., 2017;公园et al ., 2019;Pierdicca et al ., 2020;太阳et al ., 2020)。鉴于这样的应用程序的数据量,压缩存储和沟通是很重要的。事实上,点云压缩标准MPEG和JPEG(正在发生的施瓦兹et al ., 2019;张成泽et al ., 2019;Graziosi et al ., 2020;3 dg, 2020)。

三维点云,如所示图1,每个包含一组点{(x,y)},x的3 d位置吗th点和y是一个向量与点相关联的属性。属性通常包括颜色组件,例如,RGB,但也可能包括反射,法线,透明度,密度,球函数等等。一般(Zhang et al ., 2014;科恩et al ., 2016;德奎罗斯和周,2016年;塔et al ., 2016;德奎罗斯和周,2017年;Pavez et al ., 2018;施瓦兹et al ., 2019;周et al ., 2020;Krivokuća et al ., 2020),点云压缩分为两个步骤:点云压缩的位置,称为几何,点云的压缩属性。见图2,一旦解码器解码几何与损失(可能),编码器编码解码几何属性条件。在这项工作中,我们专注于第二步,即属性压缩解码几何条件,假设几何压缩(如Krivokuća et al ., 2020;唐et al ., 2020)的第一步。重要的是要注意,这个条件是至关重要的实现压缩好的属性。这将成为本文的主题之一。

图1
www.雷竞技rebatfrontiersin.org

图1。点云岩石,椅子,踏板车,杂耍,basketball1,basketball2,夹克

图2
www.雷竞技rebatfrontiersin.org

图2。点云编解码器:几何编码器和译码器,一个属性编码器和解码器解码几何条件。

神经网络在图像压缩中的应用成功后Balle et al ., 2016;Toderici et al ., 2016;Balle et al ., 2017;Toderici et al ., 2017;Balle 2018;Balle et al ., 2018;Minnen et al ., 2018;Balle et al ., 2020;Mentzer et al ., 2020;胡锦涛等人。,2021年),神经网络已成功地用于点云几何压缩,展示重要的收益超过传统技术(燕et al ., 2019;Quach et al ., 2019;Guarda et al ., 2019 a,b;Guarda et al ., 2020;唐et al ., 2020;Quach et al ., 2020 b)。然而,同样不能说点云压缩属性。据我们所知,我们的工作是最早使用神经网络进行点云压缩属性。先前已经因为无法正确解码几何属性压缩,从而导致不良的结果。在我们的工作中,我们表明,适当的调节改善压缩性能属性BD-rate减少了30%。这导致一个增益为2 - 4 dB在重建的颜色region-adaptive线性变换(RAHT)编码(德奎罗斯和周,2016年),这是使用的“几何”点云压缩标准MPEG G-PCC。此外,我们比较我们的方法和最近的学习框架Deep-PCAC (盛et al ., 2021),这是不是体积3 - 5 dB,超越它。

虽然学习了图像压缩系统都是基于卷积神经网络(cnn),在这项工作我们使用什么被称为基于坐标的网络(cbn),也称为隐式网络。CBN网络,如多层感知器(MLP),其输入包括空间域的坐标,例如, x R 3 。我们使用轻量级cbn mlp与一个隐藏层。保持CBN相对较小的提供(1)高效的培训/推理和(2)代表CBN的开销可以忽略不计。CBN可以直接代表一个非线性空间坐标的函数x,可能索引与潜在或特征向量z,因为y=fθ(x)或y=fθ(x;z)。cbn最近脱颖而出在准确地代表几何和空间辐射领域等现象。然而,尽管有爆炸使用cbn的工作代表特定的对象和场景(公园et al ., 2019;梅什德et al ., 2019;米尔登霍尔et al ., 2020;Sitzmann et al ., 2020;a . et al ., 2021年;巴伦et al ., 2021;海德曼et al ., 2021;Knodt et al ., 2021;马特尔et al ., 2021;Srinivasan et al ., 2021;Takikawa et al ., 2021;Zhang et al ., 2021),没有一个工作重点压缩那些表示。(两个例外可能是(鸟et al ., 2021;Isik 2021),这只是应用模型压缩cbn)。良好的有损压缩是重要的,必须忠诚之间的最优平衡的重建和使用的比特数的二进制表示。我们表明,天真的标量量化和熵编码的参数θ和/或潜在的向量z导致很差的结果,上级可以通过适当的结果标准正交化前均匀标量量化。此外,最好的率失真性能,熵模型和CBN必须共同训练减少损失函数,处罚不仅大变形(或错误),但大比特率。我们实现这一目标通过一个率失真拉格朗日损失。我们的主要贡献包括以下:

•我们是第一个体积压缩功能建模的基于网络的本地坐标通过执行一个端到端优化率失真的拉格朗日损失函数,从而提供可伸缩,高保真重建甚至在低比特率。我们表明,天真的均匀标量量化和熵编码导致糟糕的结果。

•我们应用框架来压缩点云的属性。(这也适用于其他信号如神经光辉领域,网格,和图像)。因此,我们是第一个压缩点云属性用立方氮化硼。我们的解决方案允许网络插入重建的属性不断跨空间,提供了一个2 - 5 dB改进我们的学习基线Deep-PCAC (盛et al ., 2021)和2 - 4 dB改进我们的直线基线,RAHT (德奎罗斯和周,2016年)与自适应扫描宽度Golomb-Rice (RLGR)熵编码变换在最新的MPEG G-PCC标准。

•我们展示公式orthonormalizing系数实现比特率减少30%。注意,适当的标准正交化是必不可少的(重要的)组件的所有压缩管道。

第二节简要概述我们的学习体积属性压缩(LVAC)框架没有进入细节,第三节介绍相关工作,第四节我们的框架细节,第五节报告实验结果,第六节讨论并总结。我们提供论文中使用的符号的列表补充表S1

2框架的概述

这项工作的目标是开发一种体积属性点云压缩框架,使用解码几何作为边信息。RAHT等不同标准线性变换编码方法,我们的方法进行非线性插值通过学习体积函数神经网络建模。

我们的方法了图3,我们共同训练1)变换系数V点云的块,2)量化器stepsizes, 3)一个熵编码器,CBN 4)通过通过拉格朗日损失函数反向传播D+λR。在这里D是重建的属性之间的失真和真正的属性(颜色属性在这个工作),然后呢R是量子化的变换系数的熵估计 V ̂ ,神经计算的熵模型,这是一个可微的“微分”熵编码器的代理。量子化的变换系数 V ̂ 是逆转化通过一个线性合成矩阵T年代在标准变换编码框架。不过,请注意,我们省略通常分析变换量化之前。这是因为我们直接学习转换系数V通过为每个点云优化1。这些学会了变换系数V然后量化和综合到吗潜在的向量 Z ̂ = ( z ̂ n ] 图中所示。而合成的潜在的向量 z ̂ n 块查询点驻留在可以输出为重建的属性,我们将更进一步,引入一个非线性操作:我们养活小神经网络,即CBN,合成潜在的向量和点的三维位置查询x。这个网络输出的属性,用于我们的变形计算。最后,我们计算拉格朗日损失估计率和失真,这损失是backpropagated通过所有的块图3。在第四节,我们将解释合成矩阵T年代不是学习。然而,这是一个固定几何形状的函数,如RAHT。事实上,我们合成变换可以被视为RAHT合成变换操作潜在的向量,而不是属性。因此,我们潜在的压缩向量在几何条件方面的信息。所有组件除了合成矩阵变换系数等V、量化stepsizes熵模型和CBN共同训练通过拉格朗日损失函数,优化重建和比特率。

图3
www.雷竞技rebatfrontiersin.org

图3。查询属性的位置 x R 3 。块 B n ( x ) 在目标水平l在这x是位于被遍历二叉树空间分区。“可学的”变换系数V是由舍入量化得到吗 V ̂ = V ,然后潜伏向量是重建 Z ̂ = T 年代 V ̂ V由back-propagating优化D(θ,Z)+λR(θ,Z通过图中所有组件)。管道使用量化器和熵编码器可微的代理。在图4,我们给更多细节量化和正规化的步骤,在这个数字为简单起见省略了。

当我们深入的细节图3在下面几节中,我们试图解决以下问题:

•必须确保前的系数是orthonormalized量子化。否则,量化误差会积累在不同的频道。为了达到这个目标,我们需要引入标准正交化和量化前后de-orthonormalization步骤。

•量化和熵编码都是不可微操作。因此,我们需要利用diffentiable代理期间执行反向传播训练。

3相关工作

3.1了解图像压缩

使用神经网络良好的压缩是不平凡的。简单地删除现有的潜在的向量表示一定的比特数可能会失败,如果只是因为小量化潜在的错误可能容易映射到大型量子化错误的重建。此外,量化潜在的熵是一个更重要的决定因素的比特率比系数的总数在潜在的向量或二进制表示的比特数。早期工作学习了图像压缩几乎不能超过JPEG的率失真性能在低质量的32×32缩略图(Toderici et al ., 2016)。然而,多年来,率失真性能不断改善(Balle et al ., 2016;Balle et al ., 2017;Toderici et al ., 2017;Balle 2018;Balle et al ., 2018;Minnen et al ., 2018;Balle et al ., 2020;程et al ., 2020;胡锦涛等人。,2021年),最好的学习图像编解码器比最新的视频标准)阴道假丝(致病菌种及PSNR,尽管在更大的复杂性(郭et al ., 2021),大大优于传统的图像编解码器(超过2×降低比特率)在同一知觉扭曲(Mentzer et al ., 2020)。基本上所有当前竞争学习非线性变换编码的图像编解码器版本(Balle et al ., 2020),在这种瓶颈潜伏在一个auto-encoder均匀标量量化和熵编码,传输到解码器。解码器使用卷积神经网络作为合成变换。编解码器参数θ训练的端到端通过一个可微的量化器的代理,通常建模为添加剂均匀噪声。损失函数是Lagragianl(θ)=D(θ)+λR(θ),D(θ),R(θ)预期的扭曲和比特率。在这项工作中,我们使用类似的代理均匀标量量化和熵编码用于图像压缩和训练我们使用类似的损失函数表示。

3.2协调的基础网络

早期的工作,使用基于坐标的网络(公园et al ., 2019;梅什德et al ., 2019;Sitzmann et al ., 2020),以DeepSDF (公园et al ., 2019 b),专注于代表几何隐式地,例如,c水平的设置 { x : c = f θ ( x ; z ) } R 3 的一个函数 f θ : R 3 × R C R 由神经网络建模 z R C 是一个全球潜在的向量。因此这样的网络被称为“隐式”网络。大部分工作集中在auto-decoder架构,潜伏的向量z确定为每个实例通过反向传播损失函数。的损失函数l(θ,z)测量样品之间的点态误差fθ(x;z)的网络和样本f(x)的地面真值函数,如距离函数(SDF)签署。

后来工作,cbn使用,以削弱(米尔登霍尔et al ., 2020;巴伦et al ., 2021),利用网络模型不是自卫队而是其他向量值,体积函数,包括颜色、密度、法线,双向反射参数和镜面反射特性(a . et al ., 2021年;海德曼et al ., 2021;Knodt et al ., 2021;Srinivasan et al ., 2021;Zhang et al ., 2021)。由于这些网络不再是隐式用于表示解决方案,他们的名字开始转向“基于坐标”网络,例如,(Tancik et al ., 2021)。从这个队列是一个重要的创新测量损失l(θ)的样本之间的点态fθ和一些地面实况体积函数f之间,而是体积渲染(图片)fθf,后者被地面实况图像渲染。

米尔登霍尔et al。(2020)专注于训练CBNfθ(x全球)代表的是单一的场景,没有潜在的向量z。然而,后续工作转向使用CBN与不同的潜在的向量为不同的对象(Stelzner et al ., 2021;于H.-X。et al ., 2021);茶室et al ., 2022 a,b)或不同地区(即。,块or tiles) in the scene (陈et al ., 2021;DeVries et al ., 2021;马特尔et al ., 2021;梅塔et al ., 2021;赖泽et al ., 2021;Takikawa et al ., 2021;Rematas et al ., 2022;Tancik et al ., 2022;突厥语族的et al ., 2022)。现场分割成块,使用CBN与另一个潜在的向量在每个块,同时达到更快的渲染(赖泽et al ., 2021;Takikawa et al ., 2021)、高分辨率(陈et al ., 2021;马特尔et al ., 2021;梅塔et al ., 2021),和可伸缩性的场景的大小(DeVries et al ., 2021;Rematas et al ., 2022;Tancik et al ., 2022;突厥语族的et al ., 2022)。然而,这使得大部分负担表示在当地潜在的向量,而不是CBN的参数。这是类似于常见的基于块的图像表示,在相同的基函数集(例如,8×8 DCT)是用于每一块,和激活指定的基向量的向量基础系数,为每个块不同。

在这项工作中,我们三维空间分割成块(分层次使用树,类似于(a . et al ., 2021年;马特尔et al ., 2021;Takikawa et al ., 2021)),代表的颜色在每个块使用CBN体积fθ(x;z),允许快速、高分辨率和可伸缩的重建。不像以前所有CBN的作品,然而,我们训练表示不仅适合有效的压缩通过变换编码和率失真拉格朗日损失函数。值得注意的是,(Takikawa et al ., 2022),它引用了我们的预印本Isik et al。(2021 b)最近调整我们的方法(虽然没有RD拉格朗日损失或正规化)使用固定矢量量化在变换系数频道。

3.3点云压缩

MPEG标准化两个点云编解码器:视频(V-PCC)和几何投影(G-PCC) (张成泽et al ., 2019;施瓦兹et al ., 2019;Graziosi et al ., 2020)。V-PCC是基于现有的视频编解码器,而G-PCC是基于新的,但在许多方面经典、几何方法。像以前的作品(Zhang et al ., 2014;科恩et al ., 2016;德奎罗斯和周,2016年;塔et al ., 2016;德奎罗斯和周,2017年;Pavez et al ., 2018;周et al ., 2020;Krivokuća et al ., 2020),首先V-PCC和G-PCC几何压缩,然后压缩属性在几何条件。神经网络与一些成功应用了几何压缩(燕et al ., 2019;Quach et al ., 2019;Guarda et al ., 2019 a,b;Guarda et al ., 2020;唐et al ., 2020;Quach et al ., 2020 a;米拉尼2020,2021年;Lazzarotto et al ., 2021),但不有损压缩属性。例外可能包括(Quach et al ., 2020 b),它使用学习神经3 d→2 d折叠,但与传统图像压缩编码,和Deep-PCAC (盛et al ., 2021),压缩属性使用PointNet-style体系结构,这是不是体积和表现不佳2 - 5 dB(见我们的框架图12 b补充材料)。G-PCC中的属性压缩使用线性变换,适应基于几何。一个核心变换是region-adaptive层次变换(RAHT) (德奎罗斯和周,2016年;Sandri g . p . et al ., 2019),它是一个线性变换,对离散正交测量的质量是把点云几何(Sandri et al ., 2019 a;周et al ., 2020)。因此RAHT压缩属性在几何条件。除了RAHT, G-PCC使用预测(RAHT系数)和联合熵编码获得优越的性能(Lasserre和弗林,2019年;3 dg 2020 b;Pavez et al ., 2021)。最近(方et al ., 2020)使用神经方法无损RAHT变换系数的熵编码。我们的工作超过了RD性能的经典RAHT 2 - 4 dB通过引入学习非线性体积功能的灵活性。我们的方法是正交的预测和熵编码(Lasserre和弗林,2019年;3 dg 2020 b;Pavez et al ., 2021;方et al ., 2020)和所有结果可以改善通过使用这些技术的组合。

4 LVAC框架

4.1体积表示的方法

一个实值(或真正的向量值)函数 f : R d R r 据说是体积如果d= 3。一个体积函数f可能会被另一个体积近似函数fθ在体积函数的参数家庭{fθ:θ∈Θ}通过最小化一个错误d(f,fθ)/θ∈Θ。假设 { ( x , y ) } = 1 N p 点云点位置吗 x R 3 和点属性 y R r 。点云压缩属性接近体积的函数f:xy通过寻找最优或接近最优参数θ。不同的点云是由不同的体积属性功能f。因此LVAC包括学习的编码程序参数θ对于给定的点云。

一个简单的例子是线性回归。一个仿射函数y=fθ(x)=斧头+b,θ= (一个,b),可能适合的数据通过最小化平方误差d(f,fθ)=为ffθ2=f(x)−fθ(x为每2θ。虽然一个线性或仿射体积函数可能无法充分代表颜色的点云的复杂的空间排列类似图1,两种策略可以用来改善:

1)首先是扩大fθ功能的家庭,例如,代表f有表现力的cbn。LVAC完成通过使用神经网络和通过增加网络参数的数量。我们在以下部分更详细地描述这个扩张。

2)二是现场分割成块。当限制分区,功能可能更少的复杂性和适合没有爆炸的数量可能达到在CBN网络参数。LVAC分区点云的边界框成立方体块。每一块与一个潜在的向量,这是美联储fθ作为附录,作为当地的一个参数。下一节详细介绍如何使用这些潜在的向量。

4.2潜在的向量

在LVAC, 3 d体积划分为块 B n 就像在图3。的属性y在一块 B n 在抵消n符合一个体积函数吗y=fθ(xn;zn)由一个简单的CBN,转移到抵消n。CBN参数θ学会了为每个点云。除了全球参数θ,每一块 B n 供应自己的潜在的向量zn,选择确切的体积函数fθ(⋅;z)使用的块。的作用θ是选择亚科为每个点云体积函数最好。的作用z最好是选择亚科的成员对于每个块,并作为本地参数。这个过程了图3。整体体积函数可以表示为

y = f θ , Z x = n f θ x n ; z n 1 B n x , ( 1 )

在所有块偏移量和在哪里n, 1 B n 块的指标函数吗 B n (例如, 1 B n ( x ) = 1 敌我识别 x B n ),Z= (zn矩阵的行zn块的潜在的向量。

对点云进行压缩的属性{y}由于几何{x},LVAC压缩和传输Z并有可能θ作为量化的数量 Z ̂ θ ̂ 使用 R ( θ ̂ , Z ̂ ) 位。这通信容量功能 f θ ̂ , Z ̂ 译码器。译码器可以使用 f θ ̂ , Z ̂ 重建的属性y在每一个点的位置x作为 y ̂ = f θ ̂ , Z ̂ ( x ) ,导致变形

D θ ̂ , Z ̂ = d f , f θ ̂ , Z ̂ = y f θ ̂ , Z ̂ x 2 ( 2 )

译码器也可以使用 f θ ̂ , Z ̂ ( x ) 重建的属性y在一个任意的位置 x R 3 。LVAC最小化畸变 D ( θ ̂ , Z ̂ ) 比特率的限制, R ( θ ̂ , Z ̂ ) R 0 。这是通过最小化拉格朗日 J ( θ ̂ , Z ̂ ) = D ( θ ̂ , Z ̂ ) + λ R ( θ ̂ , Z ̂ ) 对于一些拉格朗日乘子λ> 0匹配R0

在我们的工作,感兴趣的政权θ大约有250 - 10 K参数,Z大约有500 k - 8 M的参数。因此,本文的焦点是压缩的Z。我们假设简单的CBN参数化θ可以使用模型压缩的压缩工具,例如,(鸟et al ., 2021;Isik 2021),几位/参数几乎没有性能损失。另外,我们假设CBN可以训练概括在许多点云,从而消除传输的需要θ。在第5部分中,我们探讨保守每一个假设的性能界限。然而,在这一节中,我们关注的向量的压缩Z= (zn]。

我们首先描述的线性组件框架,许多传统方法份额(德奎罗斯和周,2016年;Sandri et al ., 2018,Sandri et al ., 2019 g P。;Krivokuca et al ., 2021;Pavez et al ., 2021),然后讨论如何实现先进的有额外的cbn引入的非线性压缩和端到端优化率失真的拉格朗日损失通过反向传播。

4.2.1线性组件准备

RAHT (德奎罗斯和周,2016年)和跟踪(Sandri et al ., 2018,Sandri et al ., 2019 g P。;Krivokuca et al ., 2021;Pavez et al ., 2021),属性点云压缩的问题可以建模为分段常数的压缩体积函数,

y = f Z x = n z n 1 B n x ( 3 )

这是一样的(1)用一个非常简单的CBN:fθ(x;z)=z。对于线性的情况,每一个潜在的 z n R 3 直接代表一个颜色,在块是恒定的 B n 。很明显,平方误差为ffZ2最小化通过设置每一个吗zn平均(DC)的颜色点的价值 B n 。是低效率的量化和熵编码的颜色Z= (zn)直接转换成一个域之间重要的(DC)和不重要的组件。因此,公约是首先变换N×C矩阵Z使用geometry-dependentN×N分析变换T一个,获得N×C矩阵的变换系数V=T一个Z,其中大部分可能接近于零。(N块的数量吗 B n 这是被占领的,即,that contain points, andC是潜在的数量特性。)然后V是量子化的, V ̂ 有效熵编码。最后 Z ̂ = T 年代 V ̂ 恢复使用合成变换 T 年代 = T 一个 1

分析和合成变换T一个T年代定义的层次空间分区表示为一棵二叉树。树的根(水平= 0)对应于一个大的块 B 0 , 0 包含整个点云。树的叶子(水平=l)对应N B l , n = B n 方程(3)体素的voxelized点云。之间,每一层= 0,1,…,l−1,每个占领块 B , n 在层次分为左和右子块的大小,说什么 B + 1 , n l B + 1 , n R 在水平+ 1。沿着要么分裂x,y,或z轴取决于国防部3 = 0、1或2。唯一的孩子块被任意点的点云在树上被保留。进行线性分析变换T一个Z,一个人可以从级开始=l−1和工作水平= 0,计算每一块的平均(DC)值 B , n 作为

z , n = w n l w n l + w n R z + 1 , n l + w n R w n l + w n R z + 1 , n R , ( 4 )

在哪里 w n l = w + 1 , n l w n R = w + 1 , n R 权重或者点,左和右子块 B , n 。全球直流整个点云的价值z0,0。在这个过程中,每个子块的直流值之间的差异及其母公司计算

δ z + 1 , n l = z + 1 , n l z , n δ z + 1 , n R = z + 1 , n R z , n ( 5 )

这些差异都接近于零和高效的熵编码。变换系数矩阵V=T一个Z由全球直流值z0,0在第一行N−1右子差异 δ z + 1 , n R (5)式。在剩余的行。

执行线性合成变换T年代V,一个人可以从级开始= 0和工作水平l−1计算左子差异 δ z + 1 , n l (5)式。右子差异 δ z + 1 , n R (5)式。V使用约束

0 = w n l w n l + w n R δ z + 1 , n l + w n R w n l + w n R δ z + 1 , n R , ( 6 )

这是来自(4)式。使用(5)式。。的方程(5)式。是反向的获得 z + 1 , n l z + 1 , n R z,n,最终计算的值zl,n=zn块的水平l

矩阵的表达式T一个T年代可以从上面的线性运算。特别是,它可以显示的每一行T年代计算的颜色zl,n一些叶子的体素 B l , n 通过总结颜色z0的根块颜色差异δz水平的细节= 1,…,l从根到叶子。在量化步骤的一个挑战是每个变换系数V=T一个Z需要不同的量化步骤,即。,un如果orm quantization would be suboptimal, since important coefficients should be quantized with finer precision. We can avoid this complication by orthonormalizingT一个T年代。事实上,T一个T年代可以通过由一个对角矩阵乘法orthonormalized吗年代=诊断接头(年代1、…年代N),在那里。

年代 1 = #点的点云 1 / 2 , ( 7 )
年代 = w + 1 , n l w + 1 , n l + w + 1 , n R w + 1 , n R 1 / 2 , ( 8 )

在元素年代1年代对应于行之一V(全球直流值z0,0)和元素年代年代对应于行> 1的V(右子不同 δ z + 1 , n R )。也就是说,年代−1T一个T年代年代是标准正交(和转置)。这意味着每一行的归一化系数 V ̄ = 年代 1 V 现在应该量化统一用相同的步长Δ或等价的行非规范系数V=T一个Z应该与比例量化步骤大小年代Δ。这个比例是至关重要的,因为它更精确地量化系数,更重要。更重要的系数通常与街区以更多的分。

4.2.2非线性组件

现在,我们提供更多细节在非线性组件框架和它们是如何共同优化(学)与线性组件在循环来量化和熵编码的向量 z n R C (现在C通常≫3)块 B n (1)式。

LVAC执行联合优化失真和比特率通过查询点x在一个目标水平的细节l-减少(即。,coarser) than the voxel level. Thus the blocks B l , n 不仅包含一个点说Nx×Ny×Nz体素,只占据了其中一些。的属性(通常情况下,颜色)占领了体素 B l , n 由体积函数fθ(xn;zn)CBN的水平l更好的模型属性块在特定比特率比纯粹的线性变换,如(德奎罗斯和周,2016年;Sandri et al ., 2018,Sandri et al ., 2019 g P。;Krivokuca et al ., 2021;Pavez et al ., 2021)。由于潜在的向量 z n R C 本身并不是占领了像素点的属性,它们不能直接输入编码器(看到了吗图3)。因此,编码器不能应用分析的变换T一个Z= (zn)获得变换系数V。相反,LVAC学习V通过反向传播,没有一个明确的T一个,首先通过变形测量和体积函数(2),然后通过合成变换T年代和扩展矩阵年代。系数θCBN的共同同时进行了优化。学习给LVAC优化的机会V不仅减少失真D,(我。e,优化适合模型的数据),但最终的率失真降到最低的目标D+λR,这样可以最大限度减少失真比特率限制。

图4显示了压缩管道生产 Z ̂ = ( z ̂ n ] V通过利用bp必须执行。的对角矩阵年代(定义在(方程式。7,8)尺度系数V生产 V ̄ = 年代 1 V 跨渠道,但是是恒定的c= 1,…,C。的对角矩阵Δ=诊断接头(Δ1Δ,…C大小Δ)适用不同的步骤c在每个频道 V ̄ 生产 U = V ̄ Δ 1 ,但在系数是常数。量化器轮真正的矩阵Uelementwise产生整数矩阵 U ̂ = U ,然后熵编码产生一个位串的长度R在总。整数矩阵 U ̂ 也改变了Δ,年代,T年代按顺序生产 Z ̂ = T 年代 年代 U ̂ Δ 。注意,可学的参数图4V,Δ和参数的熵编码器。如果我们优化数学并不重要V或规范化的版本 V ̄ = 年代 V 。在我们的实现中,我们优化 V ̄

图4
www.雷竞技rebatfrontiersin.org

图4。LVAC管道压缩潜伏Z= (zn]。Z由潜在的有什么区别呢V归一化的年代在获得水平和块 V ̄ 大小,除以一步Δ跨渠道获得U,舍入量化获得 U ̂ = U 和重建 Z ̂ = T 年代 年代 U ̂ Δ V(或等价 V ̄ 在实践中)通过back-propagating进行了优化D(θ,Z)+λR(θ,Z)和量化器的管道使用可微的代理和熵编码器。

量化器和熵编码器没有可微的,他们必须取而代之的是可微的代理在优化。有各种量化器可微的代理(Balle et al ., 2017;Agustsson和赛思,2020年;罗et al ., 2020),我们使用代理

U = U + W , ( 9 )

在哪里Wiid unif (−0.5, 0.5)。各种微代理的熵编码器也是可能的。在熵编码的比特数U= (u,c),我们使用代理 R ( U ) = , c 日志 2 p ϕ , c ( u , c ) ,在那里

p ϕ , c u = 提供 ϕ , c u + 0.5 提供 ϕ , c u 0.5 ( 10 )

(Balle et al ., 2017)。CDF实验组的由神经网络建模与参数ϕ,c这取决于通道c和水平(但不是偏移量n)的系数u,c。在推理时,比特率R(⌊U⌉)而不是R(U)。这些函数是连续成批的熵(所提供的cbe)模型(Balle et al ., 2021)。

Δ注意参数c以及参数ϕ,c,尽管c必须传输到解码器。然而,传输Δ的开销c是可以忽略不计,传输的开销吗ϕ,c可以通过使用backward-adaptive熵在推理时的代码。(见5.4节)。

4.3基于坐标的网络

可以使用任何CBN LVAC框架,但在我们的实验我们通常用一个两层的中长期规划,

y = f θ x ; z = σ b 3 + W 3 × H σ b H + W H × 3 + C x , z , ( 11 )

在哪里θ= (b3,WH,bH,WH×(3 +C)),H是隐藏的数量单位,σ(⋅)逐点的整改(ReLU)。(这里我们取x,y,z是列向量而不是我们使用的行向量。)注意,没有位置编码x。另外,我们使用一个两层position-attention(PA)网络,

y = f θ x ; z = b 3 + z b C + W C × 3 x , ( 12 )

在哪里θ= (b3,bC,WC×3)和⊙逐点的乘法。巴勒斯坦权力机构网络是一个简化版的调制周期激活(梅塔et al ., 2021),与许多参数少于mlp而有效的表示在低比特率。

一旦潜在的向量Z= (zn)解码的 U ̂ 作为 Z ̂ = ( z ̂ n ] θ是解码 θ ̂ 的属性 y ̂ 的任何时候 x R 3 可以查询见图3

5实验结果

5.1数据集和实验细节

数据集(我)由7个完整的人体voxelized点云来自网格中创建(郭et al ., 2019;Meka et al ., 2020所示)(图1)和(2)7点clouds-four完整的人体和三个艺术MPEG PCC数据集的对象(d 'Eon et al ., 2017;Alliez et al ., 2017)(见补充材料)。使用整数立体像素坐标点的位置x。体素(因此点位置)有10位分辨率。这导致一个八叉树深度10,或者一个二叉树的深度30,每点云。对于大多数的实验,我们训练所有变量(潜伏,一步大小,每二进制级别的熵模型,和CBN在目标水平l)在一个单一的点云,变量是特定于每个点云。然而,对于泛化实验在5.4节,我们训练只是潜在的,大小,和熵模型在给定的点云,在使用上的CBN pre-trained不同的点云。额外的实验给出的细节补充材料

整个点云构成一批。所有的配置都是训练大约25 K步骤优化器使用亚当和学习速率为0.01,较低的比特率配置通常收敛的时间更长。每一步需要0.5 - -3.0年代的NVIDIA GPU P100类急切的模式与各种调试检查到位。我们将开源的代码https://github.com/tensorflow/compression/tree/master/models/lvac/在出版。

如下实验结果显示,不同的相对性能收益LVAC配置和基线在很大程度上是一致的对所有人体点云以及对象点云。这种一致性的部分原因可能是所有变量在LVAC训练在给定的点云;因此LVAC instance-adaptive(在我们的泛化研究除外)。没有平均情况模型训练以适应所有点云。因此我们期望一致的行为在其他类型的点云,如房间扫描。然而,我们承认,某些类型的点云,如动态获取的激光雷达点云,可能有特殊的结构,不利用我们的框架。事实上,MPEG G-PCC有特殊的编码模式的点云。

5.2基线

5.2.1 RAHT

我们的第一个基线是RAHT, MPEG G-PCC核心变换,再加上自适应扫描宽度Golomb-Rice (RLGR)熵编码器(Malvar 2006)。图5一个显示了率失真(RD)的性能RAHT + RLGR在RGB PSNR (dB) vs比特率(位/点或bpp)。PSNR值是衡量质量的更高更好。在RAHT + RLGR,RAHT系数均匀标量量化。水平的量化系数是连接从根到叶子和熵编码使用RLGR,为每种颜色组件独立。RD表演使用RGB和YUV颜色空间所示(BT.709)图5一个分别用蓝色填充和空标记。在低比特率,在RGB PSNR YUV提供了一个重要的获得,但这在高比特率下降。

图5
www.雷竞技rebatfrontiersin.org

图5(一)基线。RAHT + RLGR(RGB)和(YUV)所示3×3线性模型在水平30日,27日,24日和21日优化色彩通过最小化D+λR使用cbe熵模型。自水平= 30,= cbe +线性模型(3 x3)优于RAHT + RLGR(YUV)我们丢弃了后者,使用其他作为更复杂的cbn的基线。(B)路性能(YUV PSNR和比特率)进行比较RAHT + RLGR(RGB)(德奎罗斯和周,2016年),Deep-PCAC(盛et al ., 2021)。

5.2.2 Deep-PCAC

作为一个二次基线,我们提供一个与Deep-PCAC (盛et al ., 2021),查查图5 b。如前所述,Deep-PCAC基于PointNet,这不是体积。因此,它不能用于其他场景如光辉领域还缺乏点云特征,如无限放大。我们仍然比较LVAC Deep-PCAC只是表明学点云压缩属性不是微不足道的,要求所有我们讨论了这项工作的关键步骤。

5.2.3线性LVAC

最后,水平= 30,= cbe +线性模型(3×3)图5一个显示了我们的RD性能LVAC框架三路时潜在的(C= 3)量化和熵编码使用连续成批的熵(cbe)模型与嘈杂的深刻映像之前从Tensorflow压缩(Balle et al ., 2021)紧随其后的是一个简单的3×3 CBN线性矩阵,在二进制目标30级。这个简单的线性模型的性能的同意RAHT-RLGR(YUV在低利率),优于高。因此,它是有用的作为一个伪基线,我们显示它在所有后续情节与我们的第一个基线RAHT-RLGR(RGB)。图5一个还表明,在目标水平较低(21)27日,24日,LVAC 3×3矩阵在高饱和烃,自3×3矩阵没有位置输入,因此代表了在每一块体积属性函数作为一个常数。这些常数函数作为更复杂的cbn这些基线水平,描述下一个。

可以用类似的观察的情节补充材料其他10个点云。替代基线被认为是在5.9节。

5.3协调的基础网络

我们现在比较与四个不同的cbn LVAC框架的配置:线性(3 x3)9参数(基线),延时(35 256××3)有9987个参数,延时(35 64××3)有2499个参数pa (32×3×3)有227个参数,在不同的目标水平。的延时(35 256××3)延时(35 64××3)cbn与35两层mlp输入(3位置和32的一个潜在的向量,例如,C= 32)和3输出,分别在256年和64年隐藏节点。的pa (32×3×3)CBN是Position-Attention (PA)网络也有35个输入(3位置和32一个潜在的向量)和3输出。所有配置使用连续成批的熵(cbe)模型的量化和熵编码32路潜伏。

图6 a - c显示(绿、红、紫色)这些cbn的RD性能在不同的目标水平(21)27日,24日,随着基线(蓝色、橙色)。我们首先观察到,在每个目标水平l24 = 27日,21日,cbn与更多的参数比cbn用更少的参数。特别是,尤其是在更高的比特率,延时和PA网络水平l提高5 - 10分贝以上的线性网络的水平l的RD浸透性能如前所述,每个l。其次,在每个目标水平l21 = 27日,24日,有一个范围的比特率的延时和PA网络提高了2 - 3 dB甚至水平= 30,= cbe +线性模型(3 x3)基线,不饱和。比特率的范围,这种改进是实现高水平27日反映,高质量和低水平21日需要与小blocksizes cbn。在补充材料相同,我们展示这些数据通过CBN类型而不是水平因素,再次说明,对于每个CBN类型,每一层对不同比特率范围是最优的。图5 b表明LVAC提供增益为2 - 5 dB在我们二次基线,Deep-PCAC (盛et al ., 2021)。情节比较其他提供的点云补充材料

图6
www.雷竞技rebatfrontiersin.org

图6。协调网络为基础,通过目标水平。(两者)每一个节目延时(35 256××3),延时(35 64××3),pa (32×3×3)cbn与基线水平27日,24日,21岁。更复杂的cbn表现不那么复杂。更高的水平更好更高的比特率。

一个体积函数的性质fθ(x;z)由CBN见图7。为了说明这一点,我们选择了CBN延时(35 256××3)训练的岩石点云在目标水平l= 21,我们穿过体积函数的阴谋fθ(⋅;z这个CBN)为代表。具体地说,让n是一个随机选择的节点在目标水平l,让 z ̂ n 是量子化的累积潜在的节点,并让xn= (xn,yn,zn)是一个随机选择的点的位置在该节点的块。然后我们把第一个(红色)组件的功能 f θ ( x ; z ̂ n ) ,在那里x从(0,yn,zn)(Nx,yn,zn),Nx是一个块的宽度水平l。我们这样做对许多随机选择节点n了解体积的分布函数表示在这一水平。(绿色和蓝色的组件的分布类似,和削减yz轴)。我们观察到许多的值 z ̂ n , f θ ( ; z ̂ n ) 是一个约常数函数。因此, z ̂ n 必须编码的颜色调色板用于这些函数。然而,我们也观察到的值 z ̂ n , f θ ( ; z ̂ n ) 是一个斜坡或其他非线性函数在其领域。最后,我们看到几乎没有能量频率高于奈奎斯特频率(采样率的一半),抽样发生在单位像素点的地方。我们得出这样的结论: f θ ( ; z ̂ ) 就像一个码书的体积函数上定义Nx×Ny×Nz,适合手头的点云。

图7
www.雷竞技rebatfrontiersin.org

图7。穿过体积函数(R,G,B)=fθ((x,yn,zn);zn)由CBN表示,沿x通过一个随机点设在xn= (xn,yn,zn在一个节点)的点云n,对各种节点n在目标水平21。可以看出,CBN指定密码本的体积函数上定义块,适合手头的点云。

5.4推广

我们也探讨cbn可以广义的程度在点云;,他们是否能被训练来代表一个普遍家庭体积的函数。图8下面显示cbn确实可以概括在点云在低比特率。我们提供相应的情节中的其他点云补充材料

图8
www.雷竞技rebatfrontiersin.org

图8。基于协调网络泛化,水平(两者)通过网络(D-F)。广义的cbn(即。,pre-trained on another point cloud) are able to outperform the baselines at low bit rates.

5.5方信息

潜伏时,步大小、熵模型和CBN都是针对一个特定的点云进行了优化,量化和熵编码只有潜在的向量(zn为重建点云属性)是不够的。一步的大小(Δc),熵模型参数(ϕ,c),和CBN参数θ也必须量化、熵编码和发送吗方面的信息。发送方信息带来额外的比特率和失真。注意尺寸的边信息步骤是可以忽略不计,因为只有一个步长为每个C= 32频道。

5.5.1边信息熵模型

我们首先考虑的边信息熵模型。图9显示了点球需要传送信息,点云的熵模型岩石。我们使用Tensorflow熵压缩的连续批处理(cbe)模型之前吵了深刻的映像。32通道,这个模型有23296个参数。如果每个参数是用32位表示,那么0.89位每点的点云所需的信息岩石有837个,434分。这将改变RD性能从固体绿线冲绿线在图中,中长期规划模型级别= 27日= cbe + (35×256×3)。然而,幸运的是,可以避免这个昂贵的边信息,通过使用cbe并且在培训中使用自适应扫描宽度Golomb-Rice (RLGR)熵编码器Malvar (2006)在推理时间。由于RLGR是落后的适应性,能适应Laplacian-like分布不发送任何信息。当然其编码效率会受到影响,但我们的实验表明,该降解几乎可以忽略不计。从今以后我们报告只使用RLGR RD性能。由此产生的RD性能的虚线所示空缺markers-an几乎可以忽略的退化。给出相应的情节为其他点云补充材料

图9
www.雷竞技rebatfrontiersin.org

图9。信息熵模型。发送32位/参数cbe熵模型将减少RD性能从固体冲绿线。但backward-adaptiveRLGR熵编码器(虚线,空缺)消除需要发送方信息几乎没有性能损失。

5.5.2 cbn的边信息

接下来,我们考虑cbn的边信息。对于每个点云,有一个立方,在目标水平l。分配每32位浮点参数将使最悲观的估计方面的信息。然而,很可能每32位浮点参数是多一个数量级。之前的研究表明,简单的模型压缩可以执行在8位(横幅et al ., 2018;王et al ., 2018;太阳et al ., 2019)或更积极在1 - 4位/浮点参数(汉et al ., 2015;徐et al ., 2018;Oktay et al ., 2019;股票et al ., 2019;王et al ., 2019;Isik et al ., 2021 a;Isik et al ., 2022)和非常低的性能损失,即使cbn勒夫(如鸟et al ., 2021;Isik 2021)。或者,cbn可能被训练的其他广义点云避免传递任何信息。图1032位的假设下显示RD性能以及在泛化。我们的读者补充材料为其他相应的情节点云。

图10
www.雷竞技rebatfrontiersin.org

图10。基于协调网络侧信息的影响延时(35 256××3)(两者),延时(35 64××3)(D-F),pa (32×3×3)(胃肠道)在27日的水平(A、D、G),24岁(B、E、H),21(C、F I)。发送32位/ CBN的参数会降低RD性能从固体到虚线。退化将成反比如果使用模型压缩的压缩比。另外,泛化(训练的CBN在一个或多个其他点云),工作在低比特率,将消除需要传递任何信息。泛化表示,“创”的传说。

现在,我们转向烧蚀研究的关键。

5.6标准正交化

我们的一个主要贡献是证明天真均匀标量量化和熵编码的潜在导致业绩不佳,而适当的正常化前的系数量化实现比特率减少30%。在这个烧蚀研究中,我们删除标准正交化通过设置规模矩阵年代(方程式。7,8)图4单位矩阵,从而消除压缩几何上的任何依赖项属性。这对应于一个天真的压缩方法,例如,假设每潜伏在一个固定数量的比特(Takikawa et al ., 2021)。表1表明,这种幼稚的方法相比,我们的正常化实现比特率减少30%(计算使用(Bjøntegaard 2001;Pateux荣格,2007))。这个量化比特率的降低由于几何条件属性压缩。我们给结果平均超过所有点云表1,结果岩石点云的图11,并提供结果中的每个点云补充材料

表1
www.雷竞技rebatfrontiersin.org

表1。BD-Rate减少由于正常化,平均在点云。标准化对良好的性能是至关重要的。没有标准化,没有依赖几何。

图11
www.雷竞技rebatfrontiersin.org

图11。RD性能改善由于正常化,相应的条目表1,即,columns 1, 2, 3, 4 correspond to levels 30, 27, 24, 21, respectively, and rows 1, 2, 3, 4 correspond to线性(3 x3),延时(35 256××3),延时(35 64××3),pa (32×3×3),分别。

5.7凸包

对于不同的比特率范围和不同的假设的成本方面的信息,不同的配置LVAC框架的可能是最优的。图12显示了凸包,或帕累托fontier所有配置在不同的假设0 (图12)、8日(图12 b),32(图12 c)位/浮点参数。所有配置,我们已经检查了本文中出现图12。然而,只有那些参与凸包出现在传说,用实线绘制。(其他人分布。)凸包2 - 4 dB的基线。我们观察到:首先,当信息成本(0位/参数),凸包只包含最大的CBN (延时(35 256××3)),以更高的目标水平更高的比特率。其次,随着边信息的成本增加,较小的cbn (延时(35 64××3)pa (32×3×3))开始参与凸包,特别是在低比特率。最后,以32位/参数,最大的CBN是完全排除在外。第三,归纳从未参与凸包,尽管由于侧信息不遭受任何惩罚。这可能是因为他们只在一个训练有素的其他点云在这些实验。培训更具代表性的cbn数据可能会改善他们的泛化性能,但留给未来的工作。相应的情节为其他点云是提供的补充材料

图12
www.雷竞技rebatfrontiersin.org

图12。凸包(固体黑色线)RD表演的CBN配置在所有的水平,包括侧信息使用0(一),8(B),32(C)位/ CBN参数。配置,参与列出了凸包,与基线,传说和表现为实线。其他人则点缀。在0位/参数(bpp),更复杂的cbn占主导地位。bpp更高,越复杂的cbn开始参与,尤其是在较低的比特率。cbn广义云从未参与从另一个角度。

5.8主观质量

图13显示压缩质量在0.25 bpp的假设下0位/浮点参数。额外的比特率中所示补充材料

图13
www.雷竞技rebatfrontiersin.org

图13。主观质量约0.25 bpp。(一)原创。(B)0.258 bpp, 24.6 dB。(C)0.255 bpp, 25.9 dB。(D)0.255 bpp, 28.0 dB。

5.9基线,重新审视

我们现在回到基线的问题。图14显示了我们之前的基线,RAHT + RLGR,RGB和YUV颜色空间(蓝线)。尽管RAHT MPEG G-PCC使用的变换,参考软件TMC13 v6.0(2019年7月)提供了改进的RD的性能(绿线)相比RAHT + RLGR,主要是由于更好的熵编码。特别是,TMC13使用context-adaptive二进制算术编码与各种编码模式,RAHT + RLGR使用RLGR。我们使用RAHT + RLGR作为我们的基准,因为实验用RLGR熵编码器;具体的熵编码器用于TMC13很难提取标准。最新版本,TMC13 v14.0(2021年10月),提供了更好的RD的性能,例如联合编码模式通过引入颜色通道都是零(橙色线)。它还介绍了预测RAHT, RAHT系数在每个水平预计从解码RAHT系数之前的水平(Lasserre和弗林,2019年;3 dg 2020 b;Pavez et al ., 2021)。预测残差,而不是RAHT系数,量化和熵编码。预测RAHT仅通过2 - 3分贝提高RD性能(红线)。然而,在低比特率政权,LVAC RLGR甚至没有RAHT预测性能优于TMC13 v14.0预测RAHT(固体黑线图12)。我们相信LVAC可以进一步的RD性能显著提高。特别是,TMC13的主要进步RAHT + RLGR更好的熵编码和预测RAHT-are同样适用于LVAC框架。例如,更好的熵编码可以做hyperprior (Balle et al ., 2018),预测RAHT可以应用到潜在的向量。这些探索留给未来的工作。

图14
www.雷竞技rebatfrontiersin.org

图14。基线,再现。在RGB和YUV彩色空间,MPEG G-PCC参考软件TMC13 v6.0改善结束RAHT + RLGR,主要是由于context-adaptive(即。依赖)熵编码。TMC13 v14.0进一步提高,主要是由于预测RAHT。LVAC(黑线,从图12)优于所有但TMC13 v14.0。然而,更好的熵编码(例如,hyperprior)和预测RAHT LVAC也可以应用。

6讨论和结论

这项工作是第一个压缩体积函数y=fθ(x)由当地基于坐标网络建模。虽然我们专注于RGB属性y,扩展到其他属性(签署了距离,密度,等。)很简单。另外,尽管我们关注 x R 3 (比如,扩展hyper-volumetric功能y=fθ(x,d),d是一个视图方向)也是简单的。因此LVAC应该适用于plenoptic点云(Krivokuca et al ., 2018;Sandri et al ., 2018;Zhang et al ., 2018;Sandri et al ., 2019;Zhang et al ., 2019)以及光辉字段(米尔登霍尔et al ., 2020;a . et al ., 2021年;马特尔et al ., 2021;Takikawa et al ., 2021;Zhang et al ., 2021下一个适当的距离测量。我们相信plenoptic点云和辐射领域之间的主要区别是变形测量d(f,fθ)。为点云,d(f,fθ)是测量的领域f,如3 d颜色点之间的均方误差。对于辐射字段,d(f,fθ)是测量的领域预测或效果图f在2 d图像,如效果图的颜色的像素之间的均方误差ffθ在2 d图像。在(德奎罗斯和周,2017年),前者称为变形措施匹配的扭曲,而后者被称为投影失真。变形测量的变化可能是所有所需LVAC正确适用于辐射场压缩。这个工作也是最早使用神经网络压缩点云的属性,表现优于RAHT,用于MPEG G-PCC,由2 - 4 dB和Deep-PCAC最近学会了压缩框架,由2 - 5分贝。虽然MPEG G-PCC使用额外的编码工具来进一步提高压缩,比如上下文自适应算术编码,联合熵编码的颜色,和预测RAHT,这些工具也在我们处理,并可能进一步研究的主题。应该召回,了解图像压缩进化了许多论文12年半,竞争起初只有JPEG在缩略图,然后用JPEG - 2000,先后WebP,边界网关协议。直到最近学会了图像压缩比最新的标准,VVC,在PSNR值(郭et al ., 2021)。学会了体积压缩(LVAC)属性,就像学习图像压缩,是一项正在进行中的工作。

数据可用性声明

公开的数据集进行分析。这些数据可以在这里找到:JPEG Pleno数据库:8我Voxelized身体(8 ivfb v2)——动态Voxelized点云数据集:http://plenodb.jpeg.org/pc/8ilabs/

道德声明

书面知情同意了个人(s)的出版的任何潜在的可识别的图像或数据包含在本文中。

作者的贡献

电脑提出了初步想法,BI完成拟议的框架和实施它。BI和PC写道。SH、新泽西和GT帮助实现和写作。

确认

作者要感谢Eirikur Agustsson和约翰Balle有益的讨论。

的利益冲突

作者PC, SH、新泽西和GT受雇于公司谷歌。

其余作者宣称,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。

出版商的注意

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。

补充材料

本文的补充材料在网上可以找到:https://www.雷竞技rebatfrontiersin.org/articles/10.3389/frsip.2022.1008812/full补充材料

脚注

1我们火车潜伏,量化器stepsizes,神经熵模型,为每个点云立方氮化硼。然而,我们展示了cbn可以广义跨不同的点云。

引用

Agustsson E。,的我年代,l。(2020)。“普遍量化神经压缩”先进的神经信息处理系统

谷歌学术搜索

Alliez, P。,Forge, F., De Luca, L., Pierrot-Deseilligny, M., and Preda, M. (2017). Culture 3D cloud: A cloud computing platform for 3D scanning, documentation, preservation and dissemination of cultural heritage.哈尔64年。

谷歌学术搜索

Balle, J。,周,p。,Minnen D。,年代我ngh, S., Johnston, N., Agustsson, E., et al. (2020). Nonlinear transform coding.IEEE j .选取。上面。信号的过程。1,339 - 353。doi: 10.1109 / JSTSP.2020.3034501

CrossRef全文|谷歌学术搜索

Balle, j . (2018)。高效的非线性变换的有损图像压缩。2018年图片编码计算机协会。美国旧金山,CA:个人电脑。doi: 10.1109 / PCS.2018.8456272

CrossRef全文|谷歌学术搜索

Balle, J。,Hw一个ng, S. J., and Agustsson, E. (2021).TensorFlow压缩:学会了数据压缩。Availableat:http://github.com/tensorflow/compression

谷歌学术搜索

Balle, J。,l一个p一个rr一个,V。,Simoncelli e p (2016)。端到端优化非线性变换编码感知质量。图像编码计算机协会。德国纽伦堡:个人电脑。doi: 10.1109 / PCS.2016.7906310

CrossRef全文|谷歌学术搜索

Balle, J。,l一个p一个rr一个,V。,Simoncelli e p (2017)。“端到端优化的图像压缩”第五Int。Conf.学习表示(ICLR)

谷歌学术搜索

Balle, J。,Minnen D。,年代我ngh, S., Hwang, S. J., and Johnston, N. (2018). “Variational image compression with a scale hyperprior,” in6日Int。Conf.学习表示(ICLR)

谷歌学术搜索

旗帜,R。,Hub一个r一个,I., Hoffer, E., and Soudry, D. (2018). “Scalable methods for 8-bit training of neural networks,” in美国第32国际会议上神经信息处理系统,5151 - 5159。

谷歌学术搜索

巴伦,j . T。,米尔登霍尔,B。Tancik, M。海德曼,P。,Martin-Brualla, R., and Srinivasan, P. P. (2021). Mip-nerf: A multiscale representation for anti-aliasing neural radiance fields. ArXiv. doi:10.48550/arXiv.2103.13415

CrossRef全文|谷歌学术搜索

鸟,T。,Balle, J。,年代我ngh, S., and Chou, P. A. (2021). “3d scene compression through entropy penalized neural representation functions,” in图像编码研讨会(电脑)

CrossRef全文|谷歌学术搜索

Bjøntegaard, g (2001)。计算平均PSNR RD-curves之间的差异得克萨斯州奥斯汀市。技术报告VCEG-M33, ITU-T SG16 / Q6。

谷歌学术搜索

陈,Y。,l我u,年代。,和W一个ng, X. (2021). “Learning continuous image representation with local implicit image function,” in《IEEE / CVF计算机视觉与模式识别会议,8628 - 8638。

CrossRef全文|谷歌学术搜索

程,Z。,太阳,H。,T一个keuchi, M., and Katto, J. (2020). “Learned image compression with discretized Gaussian mixture likelihoods and attention modules,” in《IEEE / CVF计算机视觉与模式识别会议,7939 - 7948。

CrossRef全文|谷歌学术搜索

周,p。,Koroteev, M., and Krivokuća, M. (2020). A volumetric approach to point cloud compression—Part i: Attribute compression.IEEE反式。图像的过程。29日,2203 - 2216。doi: 10.1109 / TIP.2019.2908095

CrossRef全文|谷歌学术搜索

科恩,r。田,D。,Vetro, A. (2016). “Attribute compression for sparse point clouds using graph transforms,” inIEEE国际会议。图像处理(ICIP)

CrossRef全文|谷歌学术搜索

德奎罗斯,r . L。,周,p。(2016)。压缩的3 d点云使用region-adaptive层次变换。IEEE反式。图像的过程。25日,3947 - 3956。doi: 10.1109 / TIP.2016.2575005

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

德奎罗斯,r . L。,周,p。(2017)。Motion-compensated压缩动态voxelized点云。IEEE反式。图像的过程。26日,3886 - 3895。doi: 10.1109 / TIP.2017.2707807

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

d 'Eon, E。,H一个rr我年代on, B., Meyers, T., and Chou, P. A. (2017).8我voxelized完整的尸体——voxelized点云数据集。输入文档M74006 & m42914。斯洛文尼亚卢布尔雅那:JPEG和MPEG。ISO / IEC JTC1 / SC29 WG1 & WG11。

谷歌学术搜索

DeVries, T。,B一个utista, M. A., Srivastava, N., Taylor, G. W., and Susskind, J. M. (2021).无约束的场景与当地条件光辉领域的一代

谷歌学术搜索

DG 3 (2020)。最后呼吁证据JPEG Pleno点云的编码。通过描写N88014 1文档。ISO / IEC MPEG JTC1 / SC29 / WG1,网上。

谷歌学术搜索

DG 3 (2020 b)。v12 G-PCC编解码器描述。通过描写N18891 11个文档日内瓦,CH。ISO / IEC MPEG JTC1 / SC29 / WG11。

谷歌学术搜索

方,G。,胡锦涛,Q。,W一个ng, H., Xu, Y., and Guo, Y. (2020). “3dac: Learning attribute compression for point clouds,” in2022年IEEE / CVF Conf.计算机视觉和模式识别(CVPR)

谷歌学术搜索

藤原,K。,H一个年代himoto, T. (2020). “Neural implicit embedding for point cloud analysis,” in《IEEE / CVF计算机视觉与模式识别会议,11734 - 11743。

CrossRef全文|谷歌学术搜索

Graziosi D。,N一个kagami, O., Kuma, S., Zaghetto, A., Suzuki, T., and Tabatabai, A. (2020). An overview of ongoing point cloud compression standardization activities: Video-based (v-pcc) and geometry-based (g-pcc).APSIPA反式。正信号。过程。9、e13。doi: 10.1017 / ATSIP.2020.12

CrossRef全文|谷歌学术搜索

Guarda, a·f·R。,Rodrigues, N. M. M., and Pereira, F. (2019a). “Deep learning-based point cloud coding: A behavior and performance study,” in2019第八届欧洲研讨会视觉信息处理(EUVIP),34-39。doi: 10.1109 / EUVIP47703.2019.8946211

CrossRef全文|谷歌学术搜索

Guarda, a·f·R。,Rodrigues, N. M. M., and Pereira, F. (2020). “Deep learning-based point cloud geometry coding: RD control through implicit and explicit quantization,” in2020年IEEE Int。Conf.多媒体& Wksps世博会。(ICMEW)。doi: 10.1109 / ICMEW46912.2020.9106022

CrossRef全文|谷歌学术搜索

Guarda, a·f·R。,Rodrigues, N. M. M., and Pereira, F. (2019b). “Point cloud coding: Adopting a deep learning-based approach,” in2019图片编码研讨会(电脑),1 - 5。doi: 10.1109 / PCS48520.2019.8954537

CrossRef全文|谷歌学术搜索

郭,K。,l我ncoln, P., Davidson, P., Busch, J., Yu, X., Whalen, M., et al. (2019). The relightables: Volumetric performance capture of humans with realistic relighting.ACM反式。图。38岁的-。doi: 10.1145/3355089.3356571

CrossRef全文|谷歌学术搜索

郭,Z。,Zhang, Z., Feng, R., and Chen, Z. (2021). Causal contextual prediction for learned image compression.IEEE反式。电路系统。视频抛光工艺。1,2329 - 2341。doi: 10.1109 / TCSVT.2021.3089491

CrossRef全文|谷歌学术搜索

汉族,S。,Mao, H., and Dally, W. J. (2015).深度压缩:压缩与修剪深层神经网络,训练有素的量化和霍夫曼编码arXiv预印本arXiv: 1510.00149

谷歌学术搜索

海德曼,P。,Srinivasan, P P。米尔登霍尔,B。巴伦,j . T。,Debevec, P. (2021). “Baking neural radiance fields for real-time view synthesis,” in《IEEE / CVF计算机视觉国际会议,5875 - 5884。

CrossRef全文|谷歌学术搜索

胡,Y。,Yang, W., Ma, Z., and Liu, J. (2021). “Learning end-to-end lossy image compression: A benchmark,” inIEEE模式分析与机器智能

CrossRef全文|谷歌学术搜索

Isik B。,Choi, K., Zheng, X., Weissman, T., Ermon, S., Wong, H.-S. P., et al. (2021a).神经网络压缩的存储设备。通过信息几何车间NeurIPS深度学习arXiv: 2102.07725

谷歌学术搜索

Isik B。,周,p。,Hw一个ng, S. J., Johnston, N., and Toderici, G. (2021b).Lvac:学会了体积属性为点云压缩使用基于坐标的网络arXiv预印本arXiv: 2111.08988

谷歌学术搜索

Isik, b (2021)。“神经3 d场景压缩压缩,通过模型”IEEE Conf.在计算机视觉和模式识别(CVPR) WiCV车间arXiv: 2105.03120

谷歌学术搜索

Isik B。,Weissman, T., and No, A. (2022). “An information-theoretic justification for model pruning,” in学报》第25届国际会议上人工智能和机器学习研究的统计程序(西班牙瓦伦西亚:PMLR),3821 - 3846。

谷歌学术搜索

张成泽,大肠。Preda, M。,Mammou, K., Tourapis, A. M., Kim, J., Graziosi, D. B., et al. (2019). Video-based point-cloud-compression standard in mpeg: From evidence collection to committee draft [standards in a nutshell].IEEE信号的过程。玛格。36岁,118 - 123。doi: 10.1109 / MSP.2019.2900721

CrossRef全文|谷歌学术搜索

Knodt, J。,B一个ek, S.-H., and Heide, F. (2021).神经的演:学习表面反射率,重新点火和视图合成arXiv预印本arXiv: 2104.13562

谷歌学术搜索

Krivokuća, M。周,p。,Koroteev, M. (2020). A volumetric approach to point cloud compression–part ii: Geometry compression.IEEE反式。图像的过程。29日,2217 - 2229。doi: 10.1109 / TIP.2019.2957853

CrossRef全文|谷歌学术搜索

Krivokuca, M。周,p。,年代一个vill, P. (2018).8我voxelized面光场(8 ivslf)数据集。输入文档m42914卢布尔雅那(斯洛文尼亚。ISO / IEC JTC1 / SC29 WG11 (MPEG)。

谷歌学术搜索

Krivokuca, M。Miandji E。,Gu我llemot, C., and Chou, P. (2021). Compression of plenoptic point cloud attributes using 6-d point clouds and 6-d transforms.IEEE反式。Multimed。1。doi: 10.1109 / tmm.2021.3129341

CrossRef全文|谷歌学术搜索

茶室,。,Genova, K., Yin, X., Fathi, A., Pantofaru, C., Guibas, L., et al. (2022a). “Panoptic neural fields: A semantic object-aware neural scene representation,” inCvpr

CrossRef全文|谷歌学术搜索

茶室,。,Genova, K., Yin, X., Fathi, A., Pantofaru, C., Guibas, L. J., et al. (2022b). “Panoptic neural fields: A semantic object-aware neural scene representation,” in《IEEE / CVF计算机视觉与模式识别会议(美国路易斯安那州的纽奥良:CVPR),12871 - 12881。

CrossRef全文|谷歌学术搜索

Lasserre, S。,Flynn, D. (2019).改进的RAHT利用属性相关性。输入文档m47378日内瓦,CH。ISO / IEC MPEG JTC1 / SC29 / WG11。

谷歌学术搜索

Lazzarotto D。Alexiou E。,Ebrahimi, T. (2021). “On block prediction for learning-based point cloud compression,” in2021年IEEE国际会议上图像处理安克雷奇,阿拉斯加,美国:ICIP),3378 - 3382。doi: 10.1109 / ICIP42928.2021.9506429

CrossRef全文|谷歌学术搜索

罗,X。,T一个lebi, H., Yang, F., Elad, M., and Milanfar, P. (2020).rate-distortion-accuracy权衡:Jpeg的案例研究arXiv预印本arXiv: 2008.00605

谷歌学术搜索

Malvar, h (2006)。“适应性运行周期/ golomb-rice编码量化广义高斯与未知的数据来源,”数据压缩会议(DCC 06年),23-32。

谷歌学术搜索

马特尔,j . N。,l我ndell, D. B., Lin, C. Z., Chan, E. R., Monteiro, M., and Wetzstein, G. (2021). Acorn: Adaptive coordinate networks for neural scene representation.arXiv预印本arXiv: 2105.02788

谷歌学术搜索

梅塔,我。,Gharbi, M., Barnes, C., Shechtman, E., Ramamoorthi, R., and Chandraker, M. (2021). “Modulated periodic activations for generalizable local functional representations,” in《IEEE / CVF计算机视觉国际会议,14214 - 14223。

CrossRef全文|谷歌学术搜索

Meka,。,Pandey, R., Haene, C., Orts-Escolano, S., Barnum, P., Davidson, P., et al. (2020). Deep relightable textures - volumetric performance capture with neural rendering.ACM反式。图。39岁,21doi: 10.1145/3414685.3417814

CrossRef全文|谷歌学术搜索

Mekuria, R。布鲁姆,K。,Cesar, P. (2017). Design, implementation, and evaluation of a point cloud codec for tele-immersive video.IEEE反式。电路系统。视频抛光工艺。27日,828 - 842。doi: 10.1109 / tcsvt.2016.2543039

CrossRef全文|谷歌学术搜索

Mentzer F。,Toderici G。D。能,M。,Agustsson E。(2020)。 High-fidelity generative image compression.放置神经Inf。过程。系统。33。

谷歌学术搜索

梅什德,L。Oechsle, M。,N我emeyer, M., Nowozin, S., and Geiger, A. (2019). “Occupancy networks: Learning 3d reconstruction in function space,” in在计算机视觉和模式识别程序IEEE Conf. (CVPR)

CrossRef全文|谷歌学术搜索

,由美国米拉尼(2020)。“syndrome-based autoencoder点云几何压缩,”2020年IEEE国际会议上图像处理(阿布扎比,阿拉伯联合酋长国:ICIP),2686 - 2690。doi: 10.1109 / ICIP40778.2020.9190647

CrossRef全文|谷歌学术搜索

,由美国米拉尼(2021)。“手斧:敌对的分布式源autoencoder点云压缩,”2021年IEEE国际会议上图像处理安克雷奇,阿拉斯加,美国:ICIP),3078 - 3082。doi: 10.1109 / ICIP42928.2021.9506750

CrossRef全文|谷歌学术搜索

米尔登霍尔,B。,Srinivasan, P P。Tancik, M。,巴伦,j . T。,R一个米一个米oorthi, R., and Ng, R. (2020). “Nerf: Representing scenes as neural radiance fields for view synthesis,” in大会

CrossRef全文|谷歌学术搜索

Minnen D。,Balle, J。,Toderici G。(2018)。联合自回归和分层先验图像压缩。放置神经Inf。过程。系统。31日。

谷歌学术搜索

Oktay D。,Balle, J。,年代我ngh, S., and Shrivastava, A. (2019). “Scalable model compression by entropy penalized reparameterization,” in学习国际会议上表示

谷歌学术搜索

公园,J。,周,p。,Hw一个ng, J. (2019a). Rate-utility optimized streaming of volumetric media for augmented reality.IEEE j .紧急情况。选取。上面。电路系统。9日,149 - 162。doi: 10.1109 / JETCAS.2019.2898622

CrossRef全文|谷歌学术搜索

公园,J。,Florence, P., Straub, J., Newcombe, R., and Lovegrove, S. (2019b). “Deepsdf: Learning continuous signed distance functions for shape representation,” in2019年IEEE / CVF计算机视觉与模式识别会议(CVPR),美国加利福尼亚州长滩,2019年6月15 - 20(IEEE),165 - 174。doi: 10.1109 / CVPR.2019.00025

CrossRef全文|谷歌学术搜索

Pateux, S。,Jung, J. (2007). An excel add-in for computing bjontegaard metric and its evolution.ITU-T SG16 Q。6 7。

谷歌学术搜索

Pavez E。,周,p。,德奎罗斯,r . L。,Ortega, A. (2018). Dynamic polygon clouds: Representation and compression for VR/AR.APSIPA反式。正信号。过程。7,e15。doi: 10.1017 / ATSIP.2018.15

CrossRef全文|谷歌学术搜索

Pavez E。,年代outo, A. L., Queiroz, R. L. D., and Ortega, A. (2021). “Multi-resolution intra-predictive coding of 3d point cloud attributes,” in2021年IEEE国际会议上图像处理(ICIP),3393 - 3397。doi: 10.1109 / ICIP42928.2021.9506641

CrossRef全文|谷歌学术搜索

Pierdicca, R。,Paolanti, M., Matrone, F., Martini, M., Morbidoni, C., Malinverni, E. S., et al. (2020). Point cloud semantic segmentation using a deep learning framework for cultural heritage.远程Sens。12日,1005年。doi: 10.3390 / rs12061005

CrossRef全文|谷歌学术搜索

Quach, M。,V一个lenzise, G., and Dufaux, F. (2020a). “Folding-based compression of point cloud attributes,” in2020年IEEE国际会议上图像处理(ICIP),3309 - 3313。doi: 10.1109 / ICIP40778.2020.9191180

CrossRef全文|谷歌学术搜索

Quach, M。,V一个lenzise, G., and Dufaux, F. (2020b2020). “Improved deep point cloud geometry compression,” inIEEE 22日国际研讨会上多媒体信号处理(MMSP),1 - 6。

CrossRef全文|谷歌学术搜索

Quach, M。,V一个lenzise, G., and Dufaux, F. (2019). “Learning convolutional transforms for lossy point cloud geometry compression,” in2019年IEEE Int。Conf.图像处理(ICIP)。doi: 10.1109 / ICIP.2019.8803413

CrossRef全文|谷歌学术搜索

赖泽C。彭,S。廖,Y。,Geiger, A. (2021). “Kilonerf: Speeding up neural radiance fields with thousands of tiny mlps,” in《IEEE / CVF计算机视觉国际会议,14335 - 14345。

CrossRef全文|谷歌学术搜索

Rematas, K。刘,。,Srinivasan, P P。巴伦,j . T。,T一个gliasacchi, A., Funkhouser, T., et al. (2022).城市光辉领域。新奥尔良,路易斯安那州,美国:CVPR

谷歌学术搜索

Sandri G。,de Queiroz, R., and Chou, P. A. (2018). “Compression of plenoptic point clouds using the region-adaptive hierarchical transform,” in25日IEEE Int。Conf.图像处理(希腊雅典:ICIP),1153 - 1157。

CrossRef全文|谷歌学术搜索

Sandri G。,德奎罗斯,r . L。,周,p。(2019)。压缩plenoptic点云。IEEE反式。图像的过程。28日,1419 - 1427。doi: 10.1109 / tip.2018.2877486

CrossRef全文|谷歌学术搜索

Sandri G。,Figueiredo, V. F., Chou, P. A., and de Queiroz, R. (2019a). “Point cloud compression incorporating region of interest coding,” in2019年IEEE国际会议上图像处理(ICIP),4370 - 4374。doi: 10.1109 / ICIP.2019.8803553

CrossRef全文|谷歌学术搜索

Sandri, g P。周,p。,Krivokuća, M。,德奎罗斯,r . L。(2019b)。整数的替代region-adaptive层次变换。IEEE信号的过程。列托人。26日,1369 - 1372。doi: 10.1109 / LSP.2019.2931425

CrossRef全文|谷歌学术搜索

施瓦兹,S。Preda, M。,B一个roncini, V., Budagavi, M., Cesar, P., Chou, P. A., et al. (2019). Emerging MPEG standards for point cloud compression.IEEE j .紧急情况。选取。上面。电路系统。9日,133 - 148。doi: 10.1109 / jetcas.2018.2885981

CrossRef全文|谷歌学术搜索

盛,X。李,L。,l我u,D。,Xiong, Z., Li, Z., and Wu, F. (2021). Deep-pcac: An end-to-end deep lossy compression framework for point cloud attributes.IEEE反式。Multimed。24岁,2617 - 2632。doi: 10.1109 / TMM.2021.3086711

CrossRef全文|谷歌学术搜索

Sitzmann, V。,Chan, E. R., Tucker, R., Snavely, N., and Wetzstein, G. (2020).Metasdf:元学习签署的距离函数

谷歌学术搜索

Srinivasan, P P。邓,B。,张X。,Tancik, M。,米尔登霍尔,B。,巴伦,j . T。(2021)。“Nerv:神经反射和可见性字段重新点火和视图合成、”《IEEE / CVF计算机视觉与模式识别会议,7495 - 7504。

CrossRef全文|谷歌学术搜索

Stelzner, K。,Kersting, K., and Kosiorek, A. R. (2021).将3 d场景分解为对象通过无监督分割体积arXiv预印本arXiv: 2104.01148

谷歌学术搜索

股票,P。,Joulin, A., Gribonval, R., Graham, B., and Jégou, H. (2019). “And the bit goes down: Revisiting the quantization of neural networks,” in学习国际会议上表示

谷歌学术搜索

太阳,P。,Kretzschmar, H., Dotiwalla, X., Chouard, A., Patnaik, V., Tsui, P., et al. (2020). “Scalability in perception for autonomous driving: Waymo open dataset,” in2020年IEEE / CVF计算机视觉与模式识别会议(美国西雅图,华盛顿州:CVPR),2443 - 2451。doi: 10.1109 / CVPR42600.2020.00252

CrossRef全文|谷歌学术搜索

太阳,X。,Choi, J., Chen, C.-Y., Wang, N., Venkataramani, S., Srinivasan, V. V., et al. (2019). Hybrid 8-bit floating point (hfp8) training and inference for deep neural networks.放置神经Inf。过程。系统。32岁,4900 - 4909。

谷歌学术搜索

Takikawa, T。埃文斯,。,Tremblay, J., Müller, T., McGuire, M., Jacobson, A., et al. (2022). “Variable bitrate neural fields,” inSIGGRAPH22会议进行特殊利益集团在计算机图形和交互技术的会议记录,纽约,纽约,美国(纽约,纽约,美国:计算机协会)。doi: 10.1145/3528233.3530727

CrossRef全文|谷歌学术搜索

Takikawa, T。,l我talien, J., Yin, K., Kreis, K., Loop, C., Nowrouzezahrai, D., et al. (2021). “Neural geometric level of detail: Real-time rendering with implicit 3d shapes,” in《IEEE / CVF计算机视觉与模式识别会议,11358 - 11367。

CrossRef全文|谷歌学术搜索

Tancik, M。,C一个年代年代er, V., Yan, X., Pradhan, S., Mildenhall, B., Srinivasan, P., et al. (2022).Block-NeRF:可伸缩的大场景视图合成神经arXiv

谷歌学术搜索

Tancik, M。,米尔登霍尔,B。王,T。,年代chmidt, D., Hedman, P., Barron, J. T., et al. (2021). Learned initializations for optimizing coordinate-based neural representations.arXiv。doi: 10.48550 / arXiv.2012.02189

CrossRef全文|谷歌学术搜索

唐,D。,年代我ngh, S., Chou, P. A., Häne, C., Dou, M., Fanello, S., et al. (2020). “Deep implicit volume compression,” in2020年IEEE / CVF Conf.计算机视觉和模式识别(CVPR)。doi: 10.1109 / CVPR42600.2020.00137

CrossRef全文|谷歌学术搜索

塔,D。,周,p。,Frossard, P. (2016). Graph-based compression of dynamic 3d point cloud sequences.IEEE反式。图像的过程。25日,1765 - 1778。doi: 10.1109 / tip.2016.2529506

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Toderici G。,O’Malley, S. M., Hwang, S. J., Vincent, D., Minnen, D., Baluja, S., et al. (2016). “Variable rate image compression with recurrent neural networks,” in4日Int。Conf.学习表示(ICLR)

谷歌学术搜索

Toderici G。,V我ncent, D., Johnston, N., Hwang, S. J., Minnen, D., Shor, J., et al. (2017). “Full resolution image compression with recurrent neural networks,” in2017年IEEE Conf.在计算机视觉和模式识别(CVPR)。doi: 10.1109 / CVPR.2017.577

CrossRef全文|谷歌学术搜索

突厥语族的,H。,R一个米一个n一个n,D。,和年代一个tyanarayanan, M. (2022). “Mega-nerf: Scalable construction of large-scale nerfs for virtual fly-throughs,” in《IEEE / CVF计算机视觉与模式识别会议(美国路易斯安那州的纽奥良:CVPR),12922 - 12931。

CrossRef全文|谷歌学术搜索

王,K。,l我u,Z。,l我n,Y., Lin, J., and Han, S. (2019). “Haq: Hardware-aware automated quantization with mixed precision,” in《IEEE / CVF计算机视觉与模式识别会议,8612 - 8620。

CrossRef全文|谷歌学术搜索

王,N。,Choi, J., Brand, D., Chen, C.-Y., and Gopalakrishnan, K. (2018). “Training deep neural networks with 8-bit floating point numbers,” in美国第32国际会议上神经信息处理系统,7686 - 7695。

谷歌学术搜索

徐,Y。,W一个ng, Y., Zhou, A., Lin, W., and Xiong, H. (2018). “Deep neural network compression with single and multiple level quantization,” in人工智能学报AAAI会议。doi: 10.1609 / aaai.v32i1.11663

CrossRef全文|谷歌学术搜索

燕,W。,年代hao, Y., Liu, S., Li, T. H., Li, Z., and Li, G. (2019).深autoencoder-based有损几何压缩为点云。CoRR abs / 1905.03691。

谷歌学术搜索

Yu,。,l我,R。,Tancik, M。李,H。Ng, R。,Kanazawa, A. (2021a). “Plenoctrees for real-time rendering of neural radiance fields,” in《IEEE / CVF计算机视觉国际会议,5752 - 5761。

CrossRef全文|谷歌学术搜索

Yu H.-X。,Gu我b作为,l。J。吴,j . (2021 b)。无监督发现对象光辉字段arXiv预印本arXiv: 2107.07905

谷歌学术搜索

张,C。,Florêncio, D., and Loop, C. (2014). “Point cloud attribute compression with graph transform,” in2014年IEEE国际会议。图像处理(ICIP)

CrossRef全文|谷歌学术搜索

张X。,周,p。,太阳,M。,T一个ng, M., Wang, S., Ma, S., et al. (2018). “A framework for surface light field compression,” inIEEE Int。Conf.图像处理(ICIP),2595 - 2599。

CrossRef全文|谷歌学术搜索

张X。,周,p。,太阳,M。,T一个ng, M., Wang, S., Ma, S., et al. (2019). Surface light field compression using a point cloud codec.IEEE j .紧急情况。选取。上面。电路系统。9日,163 - 176。doi: 10.1109 / jetcas.2018.2883479

CrossRef全文|谷歌学术搜索

张X。,Srinivasan, P P。邓,B。,Debevec, P., Freeman, W. T., and Barron, J. T. (2021). Nerfactor: Neural factorization of shape and reflectance under an unknown illumination.ACM反式。图。40岁的队。doi: 10.1145/3478513.3480496

CrossRef全文|谷歌学术搜索

关键词:属性点云压缩,体积函数,隐神经网络、基于端到端优化,协调网络

引用:Isik B,周爸,黄SJ,约翰斯顿N和Toderici G (2022) LVAC:学会了体积属性为点云压缩使用基于坐标的网络。前面。Proc团体。2:1008812。doi: 10.3389 / frsip.2022.1008812

收到:2022年8月01;接受:2022年9月26日;
发表:2022年10月12日。

编辑:

弗雷德里克Dufaux法国大学,Paris-Saclay

审核:

朱塞佩Valenzise,UMR8506 Laboratoire des Signaux等系统(比起L2S),法国
斯图亚特·佩里澳大利亚悉尼科技大学

版权©2022 Isik,周,黄,约翰斯顿和Toderici。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。

*通信:Berivan Isik,berivan.isik@stanford.edu

下载