LVAC:学会了体积属性为点云压缩使用基于坐标的网络
- 1斯坦福大学电机工程系,斯坦福大学,美国CA
- 2谷歌,山景、钙、美国
我们考虑点云的属性作为向量值的样本体积函数在离散的位置。压缩属性的位置,我们压缩体积函数的参数。我们模型的体积函数瓷砖空间分成块,并代表函数在每一块基于坐标的变化,或隐式神经网络。输入到网络包括空间坐标和一个潜在的向量/块。我们代表了潜在的使用region-adaptive层次变换的系数向量(RAHT)用于MPEG几何投影点云编解码器G-PCC。是高度可压缩系数,由bp在率失真率失真优化的拉格朗日损失一个auto-decoder配置。结果优于变换在当前标准,RAHT, 2 - 4 dB和最近的一个non-volumetric方法,Deep-PCAC,由2 - 5 dB在相同的比特率。这是第一个工作压缩体积函数由局部神经网络基于坐标表示。因此,我们期望它适用之外的点云,例如压缩的高分辨率神经光辉字段。
1介绍
最近成功的隐式网络,a·基于坐标网络(cbn),在代表各种各样的信号,如神经光辉字段(米尔登霍尔et al ., 2020;a . et al ., 2021年;巴伦et al ., 2021;海德曼et al ., 2021;Knodt et al ., 2021;Srinivasan et al ., 2021;Zhang et al ., 2021),点云(藤原和桥本,2020)、网格(公园et al ., 2019;梅什德et al ., 2019;Sitzmann et al ., 2020;马特尔et al ., 2021;Takikawa et al ., 2021),图片(马特尔et al ., 2021),一个端到端的压缩框架表示使用cbn已成为不可避免的必要。出于这一点,我们首先提出了端到端学习压缩体积函数框架由cbn与其他注重点云属性表示缺乏与基线。我们叫我们的方法学会了体积属性压缩(LVAC)。潜在的3 d点云是一个基本数据类型抽样,因此发挥重要作用在地图和导航等应用,虚拟和现实增强技术,远程监控,和文化遗产保护,依靠采样3 d数据(Mekuria et al ., 2017;公园et al ., 2019;Pierdicca et al ., 2020;太阳et al ., 2020)。鉴于这样的应用程序的数据量,压缩存储和沟通是很重要的。事实上,点云压缩标准MPEG和JPEG(正在发生的施瓦兹et al ., 2019;张成泽et al ., 2019;Graziosi et al ., 2020;3 dg, 2020)。
三维点云,如所示图1,每个包含一组点{(x我,y我)},x我的3 d位置吗我th点和y我是一个向量与点相关联的属性。属性通常包括颜色组件,例如,RGB,但也可能包括反射,法线,透明度,密度,球函数等等。一般(Zhang et al ., 2014;科恩et al ., 2016;德奎罗斯和周,2016年;塔et al ., 2016;德奎罗斯和周,2017年;Pavez et al ., 2018;施瓦兹et al ., 2019;周et al ., 2020;Krivokuća et al ., 2020),点云压缩分为两个步骤:点云压缩的位置,称为几何,点云的压缩属性。见图2,一旦解码器解码几何与损失(可能),编码器编码解码几何属性条件。在这项工作中,我们专注于第二步,即属性压缩解码几何条件,假设几何压缩(如Krivokuća et al ., 2020;唐et al ., 2020)的第一步。重要的是要注意,这个条件是至关重要的实现压缩好的属性。这将成为本文的主题之一。
神经网络在图像压缩中的应用成功后Balle et al ., 2016;Toderici et al ., 2016;Balle et al ., 2017;Toderici et al ., 2017;Balle 2018;Balle et al ., 2018;Minnen et al ., 2018;Balle et al ., 2020;Mentzer et al ., 2020;胡锦涛等人。,2021年),神经网络已成功地用于点云几何压缩,展示重要的收益超过传统技术(燕et al ., 2019;Quach et al ., 2019;Guarda et al ., 2019 a,b;Guarda et al ., 2020;唐et al ., 2020;Quach et al ., 2020 b)。然而,同样不能说点云压缩属性。据我们所知,我们的工作是最早使用神经网络进行点云压缩属性。先前已经因为无法正确解码几何属性压缩,从而导致不良的结果。在我们的工作中,我们表明,适当的调节改善压缩性能属性BD-rate减少了30%。这导致一个增益为2 - 4 dB在重建的颜色region-adaptive线性变换(RAHT)编码(德奎罗斯和周,2016年),这是使用的“几何”点云压缩标准MPEG G-PCC。此外,我们比较我们的方法和最近的学习框架Deep-PCAC (盛et al ., 2021),这是不是体积3 - 5 dB,超越它。
虽然学习了图像压缩系统都是基于卷积神经网络(cnn),在这项工作我们使用什么被称为基于坐标的网络(cbn),也称为隐式网络。CBN网络,如多层感知器(MLP),其输入包括空间域的坐标,例如,
•我们是第一个体积压缩功能建模的基于网络的本地坐标通过执行一个端到端优化率失真的拉格朗日损失函数,从而提供可伸缩,高保真重建甚至在低比特率。我们表明,天真的均匀标量量化和熵编码导致糟糕的结果。
•我们应用框架来压缩点云的属性。(这也适用于其他信号如神经光辉领域,网格,和图像)。因此,我们是第一个压缩点云属性用立方氮化硼。我们的解决方案允许网络插入重建的属性不断跨空间,提供了一个2 - 5 dB改进我们的学习基线Deep-PCAC (盛et al ., 2021)和2 - 4 dB改进我们的直线基线,RAHT (德奎罗斯和周,2016年)与自适应扫描宽度Golomb-Rice (RLGR)熵编码变换在最新的MPEG G-PCC标准。
•我们展示公式orthonormalizing系数实现比特率减少30%。注意,适当的标准正交化是必不可少的(重要的)组件的所有压缩管道。
第二节简要概述我们的学习体积属性压缩(LVAC)框架没有进入细节,第三节介绍相关工作,第四节我们的框架细节,第五节报告实验结果,第六节讨论并总结。我们提供论文中使用的符号的列表补充表S1。
2框架的概述
这项工作的目标是开发一种体积属性点云压缩框架,使用解码几何作为边信息。RAHT等不同标准线性变换编码方法,我们的方法进行非线性插值通过学习体积函数神经网络建模。
我们的方法了图3,我们共同训练1)变换系数V点云的块,2)量化器stepsizes, 3)一个熵编码器,CBN 4)通过通过拉格朗日损失函数反向传播D+λR。在这里D是重建的属性之间的失真和真正的属性(颜色属性在这个工作),然后呢R是量子化的变换系数的熵估计
图3。查询属性的位置
当我们深入的细节图3在下面几节中,我们试图解决以下问题:
•必须确保前的系数是orthonormalized量子化。否则,量化误差会积累在不同的频道。为了达到这个目标,我们需要引入标准正交化和量化前后de-orthonormalization步骤。
•量化和熵编码都是不可微操作。因此,我们需要利用diffentiable代理期间执行反向传播训练。
3相关工作
3.1了解图像压缩
使用神经网络良好的压缩是不平凡的。简单地删除现有的潜在的向量表示一定的比特数可能会失败,如果只是因为小量化潜在的错误可能容易映射到大型量子化错误的重建。此外,量化潜在的熵是一个更重要的决定因素的比特率比系数的总数在潜在的向量或二进制表示的比特数。早期工作学习了图像压缩几乎不能超过JPEG的率失真性能在低质量的32×32缩略图(Toderici et al ., 2016)。然而,多年来,率失真性能不断改善(Balle et al ., 2016;Balle et al ., 2017;Toderici et al ., 2017;Balle 2018;Balle et al ., 2018;Minnen et al ., 2018;Balle et al ., 2020;程et al ., 2020;胡锦涛等人。,2021年),最好的学习图像编解码器比最新的视频标准)阴道假丝(致病菌种及PSNR,尽管在更大的复杂性(郭et al ., 2021),大大优于传统的图像编解码器(超过2×降低比特率)在同一知觉扭曲(Mentzer et al ., 2020)。基本上所有当前竞争学习非线性变换编码的图像编解码器版本(Balle et al ., 2020),在这种瓶颈潜伏在一个auto-encoder均匀标量量化和熵编码,传输到解码器。解码器使用卷积神经网络作为合成变换。编解码器参数θ训练的端到端通过一个可微的量化器的代理,通常建模为添加剂均匀噪声。损失函数是Lagragianl(θ)=D(θ)+λR(θ),D(θ),R(θ)预期的扭曲和比特率。在这项工作中,我们使用类似的代理均匀标量量化和熵编码用于图像压缩和训练我们使用类似的损失函数表示。
3.2协调的基础网络
早期的工作,使用基于坐标的网络(公园et al ., 2019;梅什德et al ., 2019;Sitzmann et al ., 2020),以DeepSDF (公园et al ., 2019 b),专注于代表几何隐式地,例如,c水平的设置
后来工作,cbn使用,以削弱(米尔登霍尔et al ., 2020;巴伦et al ., 2021),利用网络模型不是自卫队而是其他向量值,体积函数,包括颜色、密度、法线,双向反射参数和镜面反射特性(a . et al ., 2021年;海德曼et al ., 2021;Knodt et al ., 2021;Srinivasan et al ., 2021;Zhang et al ., 2021)。由于这些网络不再是隐式用于表示解决方案,他们的名字开始转向“基于坐标”网络,例如,(Tancik et al ., 2021)。从这个队列是一个重要的创新测量损失l(θ)的样本之间的点态fθ和一些地面实况体积函数f之间,而是体积渲染(图片)fθ和f,后者被地面实况图像渲染。
米尔登霍尔et al。(2020)专注于训练CBNfθ(x全球)代表的是单一的场景,没有潜在的向量z。然而,后续工作转向使用CBN与不同的潜在的向量为不同的对象(Stelzner et al ., 2021;于H.-X。et al ., 2021);茶室et al ., 2022 a,b)或不同地区(即。,块or tiles) in the scene (陈et al ., 2021;DeVries et al ., 2021;马特尔et al ., 2021;梅塔et al ., 2021;赖泽et al ., 2021;Takikawa et al ., 2021;Rematas et al ., 2022;Tancik et al ., 2022;突厥语族的et al ., 2022)。现场分割成块,使用CBN与另一个潜在的向量在每个块,同时达到更快的渲染(赖泽et al ., 2021;Takikawa et al ., 2021)、高分辨率(陈et al ., 2021;马特尔et al ., 2021;梅塔et al ., 2021),和可伸缩性的场景的大小(DeVries et al ., 2021;Rematas et al ., 2022;Tancik et al ., 2022;突厥语族的et al ., 2022)。然而,这使得大部分负担表示在当地潜在的向量,而不是CBN的参数。这是类似于常见的基于块的图像表示,在相同的基函数集(例如,8×8 DCT)是用于每一块,和激活指定的基向量的向量基础系数,为每个块不同。
在这项工作中,我们三维空间分割成块(分层次使用树,类似于(a . et al ., 2021年;马特尔et al ., 2021;Takikawa et al ., 2021)),代表的颜色在每个块使用CBN体积fθ(x;z),允许快速、高分辨率和可伸缩的重建。不像以前所有CBN的作品,然而,我们训练表示不仅适合有效的压缩通过变换编码和率失真拉格朗日损失函数。值得注意的是,(Takikawa et al ., 2022),它引用了我们的预印本Isik et al。(2021 b)最近调整我们的方法(虽然没有RD拉格朗日损失或正规化)使用固定矢量量化在变换系数频道。
3.3点云压缩
MPEG标准化两个点云编解码器:视频(V-PCC)和几何投影(G-PCC) (张成泽et al ., 2019;施瓦兹et al ., 2019;Graziosi et al ., 2020)。V-PCC是基于现有的视频编解码器,而G-PCC是基于新的,但在许多方面经典、几何方法。像以前的作品(Zhang et al ., 2014;科恩et al ., 2016;德奎罗斯和周,2016年;塔et al ., 2016;德奎罗斯和周,2017年;Pavez et al ., 2018;周et al ., 2020;Krivokuća et al ., 2020),首先V-PCC和G-PCC几何压缩,然后压缩属性在几何条件。神经网络与一些成功应用了几何压缩(燕et al ., 2019;Quach et al ., 2019;Guarda et al ., 2019 a,b;Guarda et al ., 2020;唐et al ., 2020;Quach et al ., 2020 a;米拉尼2020,2021年;Lazzarotto et al ., 2021),但不有损压缩属性。例外可能包括(Quach et al ., 2020 b),它使用学习神经3 d→2 d折叠,但与传统图像压缩编码,和Deep-PCAC (盛et al ., 2021),压缩属性使用PointNet-style体系结构,这是不是体积和表现不佳2 - 5 dB(见我们的框架图12 b和补充材料)。G-PCC中的属性压缩使用线性变换,适应基于几何。一个核心变换是region-adaptive层次变换(RAHT) (德奎罗斯和周,2016年;Sandri g . p . et al ., 2019),它是一个线性变换,对离散正交测量的质量是把点云几何(Sandri et al ., 2019 a;周et al ., 2020)。因此RAHT压缩属性在几何条件。除了RAHT, G-PCC使用预测(RAHT系数)和联合熵编码获得优越的性能(Lasserre和弗林,2019年;3 dg 2020 b;Pavez et al ., 2021)。最近(方et al ., 2020)使用神经方法无损RAHT变换系数的熵编码。我们的工作超过了RD性能的经典RAHT 2 - 4 dB通过引入学习非线性体积功能的灵活性。我们的方法是正交的预测和熵编码(Lasserre和弗林,2019年;3 dg 2020 b;Pavez et al ., 2021;方et al ., 2020)和所有结果可以改善通过使用这些技术的组合。
4 LVAC框架
4.1体积表示的方法
一个实值(或真正的向量值)函数
一个简单的例子是线性回归。一个仿射函数y=fθ(x)=斧头+b,θ= (一个,b),可能适合的数据通过最小化平方误差d(f,fθ)=为f−fθ为2=∑我为f(x我)−fθ(x我为每2在θ。虽然一个线性或仿射体积函数可能无法充分代表颜色的点云的复杂的空间排列类似图1,两种策略可以用来改善:
1)首先是扩大fθ功能的家庭,例如,代表f有表现力的cbn。LVAC完成通过使用神经网络和通过增加网络参数的数量。我们在以下部分更详细地描述这个扩张。
2)二是现场分割成块。当限制分区,功能可能更少的复杂性和适合没有爆炸的数量可能达到在CBN网络参数。LVAC分区点云的边界框成立方体块。每一块与一个潜在的向量,这是美联储fθ作为附录,作为当地的一个参数。下一节详细介绍如何使用这些潜在的向量。
4.2潜在的向量
在LVAC, 3 d体积划分为块
在所有块偏移量和在哪里n,
对点云进行压缩的属性{y我}由于几何{x我},LVAC压缩和传输Z并有可能θ作为量化的数量
译码器也可以使用
在我们的工作,感兴趣的政权θ大约有250 - 10 K参数,Z大约有500 k - 8 M的参数。因此,本文的焦点是压缩的Z。我们假设简单的CBN参数化θ可以使用模型压缩的压缩工具,例如,(鸟et al ., 2021;Isik 2021),几位/参数几乎没有性能损失。另外,我们假设CBN可以训练概括在许多点云,从而消除传输的需要θ。在第5部分中,我们探讨保守每一个假设的性能界限。然而,在这一节中,我们关注的向量的压缩Z= (zn]。
我们首先描述的线性组件框架,许多传统方法份额(德奎罗斯和周,2016年;Sandri et al ., 2018,Sandri et al ., 2019 g P。;Krivokuca et al ., 2021;Pavez et al ., 2021),然后讨论如何实现先进的有额外的cbn引入的非线性压缩和端到端优化率失真的拉格朗日损失通过反向传播。
4.2.1线性组件准备
RAHT (德奎罗斯和周,2016年)和跟踪(Sandri et al ., 2018,Sandri et al ., 2019 g P。;Krivokuca et al ., 2021;Pavez et al ., 2021),属性点云压缩的问题可以建模为分段常数的压缩体积函数,
这是一样的(1)用一个非常简单的CBN:fθ(x;z)=z。对于线性的情况,每一个潜在的
分析和合成变换T一个和T年代定义的层次空间分区表示为一棵二叉树。树的根(水平ℓ= 0)对应于一个大的块
在哪里
这些差异都接近于零和高效的熵编码。变换系数矩阵V=T一个Z由全球直流值z0,0在第一行N−1右子差异
执行线性合成变换T年代V,一个人可以从级开始ℓ= 0和工作水平l−1计算左子差异
这是来自(4)式。使用(5)式。。的方程(5)式。是反向的获得
矩阵的表达式T一个和T年代可以从上面的线性运算。特别是,它可以显示的每一行T年代计算的颜色zl,n一些叶子的体素
在元素年代1的年代对应于行之一V(全球直流值z0,0)和元素年代米的年代对应于行米> 1的V(右子不同
4.2.2非线性组件
现在,我们提供更多细节在非线性组件框架和它们是如何共同优化(学)与线性组件在循环来量化和熵编码的向量
LVAC执行联合优化失真和比特率通过查询点x在一个目标水平的细节l-减少(即。,coarser) than the voxel level. Thus the blocks
图4显示了压缩管道生产
图4。LVAC管道压缩潜伏Z= (zn]。Z由潜在的有什么区别呢V归一化的年代在获得水平和块
量化器和熵编码器没有可微的,他们必须取而代之的是可微的代理在优化。有各种量化器可微的代理(Balle et al ., 2017;Agustsson和赛思,2020年;罗et al ., 2020),我们使用代理
在哪里Wiid unif (−0.5, 0.5)。各种微代理的熵编码器也是可能的。在熵编码的比特数U= (u米,c),我们使用代理
(Balle et al ., 2017)。CDF实验组的由神经网络建模与参数ϕℓ,c这取决于通道c和水平ℓ(但不是偏移量n)的系数u米,c。在推理时,比特率R(⌊U⌉)而不是R(U)。这些函数是连续成批的熵(所提供的cbe)模型(Balle et al ., 2021)。
Δ注意参数c以及参数ϕℓ,c,尽管ℓ和c必须传输到解码器。然而,传输Δ的开销c是可以忽略不计,传输的开销吗ϕℓ,c可以通过使用backward-adaptive熵在推理时的代码。(见5.4节)。
4.3基于坐标的网络
可以使用任何CBN LVAC框架,但在我们的实验我们通常用一个两层的中长期规划,
在哪里θ= (b3,W3×H,bH,WH×(3 +C)),H是隐藏的数量单位,σ(⋅)逐点的整改(ReLU)。(这里我们取x,y,z是列向量而不是我们使用的行向量。)注意,没有位置编码x。另外,我们使用一个两层position-attention(PA)网络,
在哪里θ= (b3,bC,WC×3)和⊙逐点的乘法。巴勒斯坦权力机构网络是一个简化版的调制周期激活(梅塔et al ., 2021),与许多参数少于mlp而有效的表示在低比特率。
一旦潜在的向量Z= (zn)解码的
5实验结果
5.1数据集和实验细节
数据集(我)由7个完整的人体voxelized点云来自网格中创建(郭et al ., 2019;Meka et al ., 2020所示)(图1)和(2)7点clouds-four完整的人体和三个艺术MPEG PCC数据集的对象(d 'Eon et al ., 2017;Alliez et al ., 2017)(见补充材料)。使用整数立体像素坐标点的位置x我。体素(因此点位置)有10位分辨率。这导致一个八叉树深度10,或者一个二叉树的深度30,每点云。对于大多数的实验,我们训练所有变量(潜伏,一步大小,每二进制级别的熵模型,和CBN在目标水平l)在一个单一的点云,变量是特定于每个点云。然而,对于泛化实验在5.4节,我们训练只是潜在的,大小,和熵模型在给定的点云,在使用上的CBN pre-trained不同的点云。额外的实验给出的细节补充材料。
整个点云构成一批。所有的配置都是训练大约25 K步骤优化器使用亚当和学习速率为0.01,较低的比特率配置通常收敛的时间更长。每一步需要0.5 - -3.0年代的NVIDIA GPU P100类急切的模式与各种调试检查到位。我们将开源的代码https://github.com/tensorflow/compression/tree/master/models/lvac/在出版。
如下实验结果显示,不同的相对性能收益LVAC配置和基线在很大程度上是一致的对所有人体点云以及对象点云。这种一致性的部分原因可能是所有变量在LVAC训练在给定的点云;因此LVAC instance-adaptive(在我们的泛化研究除外)。没有平均情况模型训练以适应所有点云。因此我们期望一致的行为在其他类型的点云,如房间扫描。然而,我们承认,某些类型的点云,如动态获取的激光雷达点云,可能有特殊的结构,不利用我们的框架。事实上,MPEG G-PCC有特殊的编码模式的点云。
5.2基线
5.2.1 RAHT
我们的第一个基线是RAHT, MPEG G-PCC核心变换,再加上自适应扫描宽度Golomb-Rice (RLGR)熵编码器(Malvar 2006)。图5一个显示了率失真(RD)的性能RAHT + RLGR在RGB PSNR (dB) vs。比特率(位/点或bpp)。PSNR值是衡量质量的更高更好。在RAHT + RLGR,RAHT系数均匀标量量化。水平的量化系数是连接从根到叶子和熵编码使用RLGR,为每种颜色组件独立。RD表演使用RGB和YUV颜色空间所示(BT.709)图5一个分别用蓝色填充和空标记。在低比特率,在RGB PSNR YUV提供了一个重要的获得,但这在高比特率下降。
图5。(一)基线。RAHT + RLGR(RGB)和(YUV)所示3×3线性模型在水平30日,27日,24日和21日优化色彩通过最小化D+λR使用cbe熵模型。自水平= 30,= cbe +线性模型(3 x3)优于RAHT + RLGR(YUV)我们丢弃了后者,使用其他作为更复杂的cbn的基线。(B)路性能(YUV PSNR和比特率)进行比较RAHT + RLGR(RGB)(德奎罗斯和周,2016年),Deep-PCAC(盛et al ., 2021)。
5.2.2 Deep-PCAC
作为一个二次基线,我们提供一个与Deep-PCAC (盛et al ., 2021),查查图5 b。如前所述,Deep-PCAC基于PointNet,这不是体积。因此,它不能用于其他场景如光辉领域还缺乏点云特征,如无限放大。我们仍然比较LVAC Deep-PCAC只是表明学点云压缩属性不是微不足道的,要求所有我们讨论了这项工作的关键步骤。
5.2.3线性LVAC
最后,水平= 30,= cbe +线性模型(3×3)图5一个显示了我们的RD性能LVAC框架三路时潜在的(C= 3)量化和熵编码使用连续成批的熵(cbe)模型与嘈杂的深刻映像之前从Tensorflow压缩(Balle et al ., 2021)紧随其后的是一个简单的3×3 CBN线性矩阵,在二进制目标30级。这个简单的线性模型的性能的同意RAHT-RLGR(YUV在低利率),优于高。因此,它是有用的作为一个伪基线,我们显示它在所有后续情节与我们的第一个基线RAHT-RLGR(RGB)。图5一个还表明,在目标水平较低(21)27日,24日,LVAC 3×3矩阵在高饱和烃,自3×3矩阵没有位置输入,因此代表了在每一块体积属性函数作为一个常数。这些常数函数作为更复杂的cbn这些基线水平,描述下一个。
可以用类似的观察的情节补充材料其他10个点云。替代基线被认为是在5.9节。
5.3协调的基础网络
我们现在比较与四个不同的cbn LVAC框架的配置:线性(3 x3)9参数(基线),延时(35 256××3)有9987个参数,延时(35 64××3)有2499个参数pa (32×3×3)有227个参数,在不同的目标水平。的延时(35 256××3)和延时(35 64××3)cbn与35两层mlp输入(3位置和32的一个潜在的向量,例如,C= 32)和3输出,分别在256年和64年隐藏节点。的pa (32×3×3)CBN是Position-Attention (PA)网络也有35个输入(3位置和32一个潜在的向量)和3输出。所有配置使用连续成批的熵(cbe)模型的量化和熵编码32路潜伏。
图6 a - c显示(绿、红、紫色)这些cbn的RD性能在不同的目标水平(21)27日,24日,随着基线(蓝色、橙色)。我们首先观察到,在每个目标水平l24 = 27日,21日,cbn与更多的参数比cbn用更少的参数。特别是,尤其是在更高的比特率,延时和PA网络水平l提高5 - 10分贝以上的线性网络的水平l的RD浸透性能如前所述,每个l。其次,在每个目标水平l21 = 27日,24日,有一个范围的比特率的延时和PA网络提高了2 - 3 dB甚至水平= 30,= cbe +线性模型(3 x3)基线,不饱和。比特率的范围,这种改进是实现高水平27日反映,高质量和低水平21日需要与小blocksizes cbn。在补充材料相同,我们展示这些数据通过CBN类型而不是水平因素,再次说明,对于每个CBN类型,每一层对不同比特率范围是最优的。图5 b表明LVAC提供增益为2 - 5 dB在我们二次基线,Deep-PCAC (盛et al ., 2021)。情节比较其他提供的点云补充材料。
图6。协调网络为基础,通过目标水平。(两者)每一个节目延时(35 256××3),延时(35 64××3),pa (32×3×3)cbn与基线水平27日,24日,21岁。更复杂的cbn表现不那么复杂。更高的水平更好更高的比特率。
一个体积函数的性质fθ(x;z)由CBN见图7。为了说明这一点,我们选择了CBN延时(35 256××3)训练的岩石点云在目标水平l= 21,我们穿过体积函数的阴谋fθ(⋅;z这个CBN)为代表。具体地说,让n是一个随机选择的节点在目标水平l,让
图7。穿过体积函数(R,G,B)=fθ((x,yn,zn);zn)由CBN表示,沿x通过一个随机点设在xn= (xn,yn,zn在一个节点)的点云n,对各种节点n在目标水平21。可以看出,CBN指定密码本的体积函数上定义块,适合手头的点云。
5.4推广
我们也探讨cbn可以广义的程度在点云;,他们是否能被训练来代表一个普遍家庭体积的函数。图8下面显示cbn确实可以概括在点云在低比特率。我们提供相应的情节中的其他点云补充材料。
图8。基于协调网络泛化,水平(两者)通过网络(D-F)。广义的cbn(即。,pre-trained on another point cloud) are able to outperform the baselines at low bit rates.
5.5方信息
潜伏时,步大小、熵模型和CBN都是针对一个特定的点云进行了优化,量化和熵编码只有潜在的向量(zn为重建点云属性)是不够的。一步的大小(Δc),熵模型参数(ϕℓ,c),和CBN参数θ也必须量化、熵编码和发送吗方面的信息。发送方信息带来额外的比特率和失真。注意尺寸的边信息步骤是可以忽略不计,因为只有一个步长为每个C= 32频道。
5.5.1边信息熵模型
我们首先考虑的边信息熵模型。图9显示了点球需要传送信息,点云的熵模型岩石。我们使用Tensorflow熵压缩的连续批处理(cbe)模型之前吵了深刻的映像。32通道,这个模型有23296个参数。如果每个参数是用32位表示,那么0.89位每点的点云所需的信息岩石有837个,434分。这将改变RD性能从固体绿线冲绿线在图中,中长期规划模型级别= 27日= cbe + (35×256×3)。然而,幸运的是,可以避免这个昂贵的边信息,通过使用cbe并且在培训中使用自适应扫描宽度Golomb-Rice (RLGR)熵编码器Malvar (2006)在推理时间。由于RLGR是落后的适应性,能适应Laplacian-like分布不发送任何信息。当然其编码效率会受到影响,但我们的实验表明,该降解几乎可以忽略不计。从今以后我们报告只使用RLGR RD性能。由此产生的RD性能的虚线所示空缺markers-an几乎可以忽略的退化。给出相应的情节为其他点云补充材料。
5.5.2 cbn的边信息
接下来,我们考虑cbn的边信息。对于每个点云,有一个立方,在目标水平l。分配每32位浮点参数将使最悲观的估计方面的信息。然而,很可能每32位浮点参数是多一个数量级。之前的研究表明,简单的模型压缩可以执行在8位(横幅et al ., 2018;王et al ., 2018;太阳et al ., 2019)或更积极在1 - 4位/浮点参数(汉et al ., 2015;徐et al ., 2018;Oktay et al ., 2019;股票et al ., 2019;王et al ., 2019;Isik et al ., 2021 a;Isik et al ., 2022)和非常低的性能损失,即使cbn勒夫(如鸟et al ., 2021;Isik 2021)。或者,cbn可能被训练的其他广义点云避免传递任何信息。图1032位的假设下显示RD性能以及在泛化。我们的读者补充材料为其他相应的情节点云。
图10。基于协调网络侧信息的影响延时(35 256××3)(两者),延时(35 64××3)(D-F),pa (32×3×3)(胃肠道)在27日的水平(A、D、G),24岁(B、E、H),21(C、F I)。发送32位/ CBN的参数会降低RD性能从固体到虚线。退化将成反比如果使用模型压缩的压缩比。另外,泛化(训练的CBN在一个或多个其他点云),工作在低比特率,将消除需要传递任何信息。泛化表示,“创”的传说。
现在,我们转向烧蚀研究的关键。
5.6标准正交化
我们的一个主要贡献是证明天真均匀标量量化和熵编码的潜在导致业绩不佳,而适当的正常化前的系数量化实现比特率减少30%。在这个烧蚀研究中,我们删除标准正交化通过设置规模矩阵年代在(方程式。7,8)和图4单位矩阵,从而消除压缩几何上的任何依赖项属性。这对应于一个天真的压缩方法,例如,假设每潜伏在一个固定数量的比特(Takikawa et al ., 2021)。表1表明,这种幼稚的方法相比,我们的正常化实现比特率减少30%(计算使用(Bjøntegaard 2001;Pateux荣格,2007))。这个量化比特率的降低由于几何条件属性压缩。我们给结果平均超过所有点云表1,结果岩石点云的图11,并提供结果中的每个点云补充材料。
图11。RD性能改善由于正常化,相应的条目表1,即,columns 1, 2, 3, 4 correspond to levels 30, 27, 24, 21, respectively, and rows 1, 2, 3, 4 correspond to线性(3 x3),延时(35 256××3),延时(35 64××3),pa (32×3×3),分别。
5.7凸包
对于不同的比特率范围和不同的假设的成本方面的信息,不同的配置LVAC框架的可能是最优的。图12显示了凸包,或帕累托fontier所有配置在不同的假设0 (图12)、8日(图12 b),32(图12 c)位/浮点参数。所有配置,我们已经检查了本文中出现图12。然而,只有那些参与凸包出现在传说,用实线绘制。(其他人分布。)凸包2 - 4 dB的基线。我们观察到:首先,当信息成本(0位/参数),凸包只包含最大的CBN (延时(35 256××3)),以更高的目标水平更高的比特率。其次,随着边信息的成本增加,较小的cbn (延时(35 64××3)和pa (32×3×3))开始参与凸包,特别是在低比特率。最后,以32位/参数,最大的CBN是完全排除在外。第三,归纳从未参与凸包,尽管由于侧信息不遭受任何惩罚。这可能是因为他们只在一个训练有素的其他点云在这些实验。培训更具代表性的cbn数据可能会改善他们的泛化性能,但留给未来的工作。相应的情节为其他点云是提供的补充材料。
图12。凸包(固体黑色线)RD表演的CBN配置在所有的水平,包括侧信息使用0(一),8(B),32(C)位/ CBN参数。配置,参与列出了凸包,与基线,传说和表现为实线。其他人则点缀。在0位/参数(bpp),更复杂的cbn占主导地位。bpp更高,越复杂的cbn开始参与,尤其是在较低的比特率。cbn广义云从未参与从另一个角度。
5.8主观质量
图13显示压缩质量在0.25 bpp的假设下0位/浮点参数。额外的比特率中所示补充材料。
5.9基线,重新审视
我们现在回到基线的问题。图14显示了我们之前的基线,RAHT + RLGR,RGB和YUV颜色空间(蓝线)。尽管RAHT MPEG G-PCC使用的变换,参考软件TMC13 v6.0(2019年7月)提供了改进的RD的性能(绿线)相比RAHT + RLGR,主要是由于更好的熵编码。特别是,TMC13使用context-adaptive二进制算术编码与各种编码模式,RAHT + RLGR使用RLGR。我们使用RAHT + RLGR作为我们的基准,因为实验用RLGR熵编码器;具体的熵编码器用于TMC13很难提取标准。最新版本,TMC13 v14.0(2021年10月),提供了更好的RD的性能,例如联合编码模式通过引入颜色通道都是零(橙色线)。它还介绍了预测RAHT, RAHT系数在每个水平预计从解码RAHT系数之前的水平(Lasserre和弗林,2019年;3 dg 2020 b;Pavez et al ., 2021)。预测残差,而不是RAHT系数,量化和熵编码。预测RAHT仅通过2 - 3分贝提高RD性能(红线)。然而,在低比特率政权,LVAC RLGR甚至没有RAHT预测性能优于TMC13 v14.0预测RAHT(固体黑线图12)。我们相信LVAC可以进一步的RD性能显著提高。特别是,TMC13的主要进步RAHT + RLGR更好的熵编码和预测RAHT-are同样适用于LVAC框架。例如,更好的熵编码可以做hyperprior (Balle et al ., 2018),预测RAHT可以应用到潜在的向量。这些探索留给未来的工作。
图14。基线,再现。在RGB和YUV彩色空间,MPEG G-PCC参考软件TMC13 v6.0改善结束RAHT + RLGR,主要是由于context-adaptive(即。依赖)熵编码。TMC13 v14.0进一步提高,主要是由于预测RAHT。LVAC(黑线,从图12)优于所有但TMC13 v14.0。然而,更好的熵编码(例如,hyperprior)和预测RAHT LVAC也可以应用。
6讨论和结论
这项工作是第一个压缩体积函数y=fθ(x)由当地基于坐标网络建模。虽然我们专注于RGB属性y,扩展到其他属性(签署了距离,密度,等。)很简单。另外,尽管我们关注
数据可用性声明
公开的数据集进行分析。这些数据可以在这里找到:JPEG Pleno数据库:8我Voxelized身体(8 ivfb v2)——动态Voxelized点云数据集:http://plenodb.jpeg.org/pc/8ilabs/。
道德声明
书面知情同意了个人(s)的出版的任何潜在的可识别的图像或数据包含在本文中。
作者的贡献
电脑提出了初步想法,BI完成拟议的框架和实施它。BI和PC写道。SH、新泽西和GT帮助实现和写作。
确认
作者要感谢Eirikur Agustsson和约翰Balle有益的讨论。
的利益冲突
作者PC, SH、新泽西和GT受雇于公司谷歌。
其余作者宣称,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。
出版商的注意
本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。
补充材料
本文的补充材料在网上可以找到:https://www.雷竞技rebatfrontiersin.org/articles/10.3389/frsip.2022.1008812/full补充材料
脚注
1我们火车潜伏,量化器stepsizes,神经熵模型,为每个点云立方氮化硼。然而,我们展示了cbn可以广义跨不同的点云。
引用
Alliez, P。,Forge, F., De Luca, L., Pierrot-Deseilligny, M., and Preda, M. (2017). Culture 3D cloud: A cloud computing platform for 3D scanning, documentation, preservation and dissemination of cultural heritage.哈尔64年。
Balle, J。,周,p。,Minnen D。,年代我ngh, S., Johnston, N., Agustsson, E., et al. (2020). Nonlinear transform coding.IEEE j .选取。上面。信号的过程。1,339 - 353。doi: 10.1109 / JSTSP.2020.3034501
Balle, J。,Hw一个ng, S. J., and Agustsson, E. (2021).TensorFlow压缩:学会了数据压缩。Availableat:http://github.com/tensorflow/compression。
Balle, J。,l一个p一个rr一个,V。,Simoncelli e p (2016)。端到端优化非线性变换编码感知质量。图像编码计算机协会。德国纽伦堡:个人电脑。doi: 10.1109 / PCS.2016.7906310
Balle, J。,Minnen D。,年代我ngh, S., Hwang, S. J., and Johnston, N. (2018). “Variational image compression with a scale hyperprior,” in6日Int。Conf.学习表示(ICLR)。
旗帜,R。,Hub一个r一个,I., Hoffer, E., and Soudry, D. (2018). “Scalable methods for 8-bit training of neural networks,” in美国第32国际会议上神经信息处理系统,5151 - 5159。
巴伦,j . T。,米尔登霍尔,B。Tancik, M。海德曼,P。,Martin-Brualla, R., and Srinivasan, P. P. (2021). Mip-nerf: A multiscale representation for anti-aliasing neural radiance fields. ArXiv. doi:10.48550/arXiv.2103.13415
鸟,T。,Balle, J。,年代我ngh, S., and Chou, P. A. (2021). “3d scene compression through entropy penalized neural representation functions,” in图像编码研讨会(电脑)。
陈,Y。,l我u,年代。,和W一个ng, X. (2021). “Learning continuous image representation with local implicit image function,” in《IEEE / CVF计算机视觉与模式识别会议,8628 - 8638。
程,Z。,太阳,H。,T一个keuchi, M., and Katto, J. (2020). “Learned image compression with discretized Gaussian mixture likelihoods and attention modules,” in《IEEE / CVF计算机视觉与模式识别会议,7939 - 7948。
周,p。,Koroteev, M., and Krivokuća, M. (2020). A volumetric approach to point cloud compression—Part i: Attribute compression.IEEE反式。图像的过程。29日,2203 - 2216。doi: 10.1109 / TIP.2019.2908095
科恩,r。田,D。,Vetro, A. (2016). “Attribute compression for sparse point clouds using graph transforms,” inIEEE国际会议。图像处理(ICIP)。
德奎罗斯,r . L。,周,p。(2016)。压缩的3 d点云使用region-adaptive层次变换。IEEE反式。图像的过程。25日,3947 - 3956。doi: 10.1109 / TIP.2016.2575005
德奎罗斯,r . L。,周,p。(2017)。Motion-compensated压缩动态voxelized点云。IEEE反式。图像的过程。26日,3886 - 3895。doi: 10.1109 / TIP.2017.2707807
d 'Eon, E。,H一个rr我年代on, B., Meyers, T., and Chou, P. A. (2017).8我voxelized完整的尸体——voxelized点云数据集。输入文档M74006 & m42914。斯洛文尼亚卢布尔雅那:JPEG和MPEG。ISO / IEC JTC1 / SC29 WG1 & WG11。
DeVries, T。,B一个utista, M. A., Srivastava, N., Taylor, G. W., and Susskind, J. M. (2021).无约束的场景与当地条件光辉领域的一代。
方,G。,胡锦涛,Q。,W一个ng, H., Xu, Y., and Guo, Y. (2020). “3dac: Learning attribute compression for point clouds,” in2022年IEEE / CVF Conf.计算机视觉和模式识别(CVPR)。
藤原,K。,H一个年代himoto, T. (2020). “Neural implicit embedding for point cloud analysis,” in《IEEE / CVF计算机视觉与模式识别会议,11734 - 11743。
Graziosi D。,N一个kagami, O., Kuma, S., Zaghetto, A., Suzuki, T., and Tabatabai, A. (2020). An overview of ongoing point cloud compression standardization activities: Video-based (v-pcc) and geometry-based (g-pcc).APSIPA反式。正信号。过程。9、e13。doi: 10.1017 / ATSIP.2020.12
Guarda, a·f·R。,Rodrigues, N. M. M., and Pereira, F. (2019a). “Deep learning-based point cloud coding: A behavior and performance study,” in2019第八届欧洲研讨会视觉信息处理(EUVIP),34-39。doi: 10.1109 / EUVIP47703.2019.8946211
Guarda, a·f·R。,Rodrigues, N. M. M., and Pereira, F. (2020). “Deep learning-based point cloud geometry coding: RD control through implicit and explicit quantization,” in2020年IEEE Int。Conf.多媒体& Wksps世博会。(ICMEW)。doi: 10.1109 / ICMEW46912.2020.9106022
Guarda, a·f·R。,Rodrigues, N. M. M., and Pereira, F. (2019b). “Point cloud coding: Adopting a deep learning-based approach,” in2019图片编码研讨会(电脑),1 - 5。doi: 10.1109 / PCS48520.2019.8954537
郭,K。,l我ncoln, P., Davidson, P., Busch, J., Yu, X., Whalen, M., et al. (2019). The relightables: Volumetric performance capture of humans with realistic relighting.ACM反式。图。38岁的-。doi: 10.1145/3355089.3356571
郭,Z。,Zhang, Z., Feng, R., and Chen, Z. (2021). Causal contextual prediction for learned image compression.IEEE反式。电路系统。视频抛光工艺。1,2329 - 2341。doi: 10.1109 / TCSVT.2021.3089491
海德曼,P。,Srinivasan, P P。米尔登霍尔,B。巴伦,j . T。,Debevec, P. (2021). “Baking neural radiance fields for real-time view synthesis,” in《IEEE / CVF计算机视觉国际会议,5875 - 5884。
胡,Y。,Yang, W., Ma, Z., and Liu, J. (2021). “Learning end-to-end lossy image compression: A benchmark,” inIEEE模式分析与机器智能。
Isik B。,Choi, K., Zheng, X., Weissman, T., Ermon, S., Wong, H.-S. P., et al. (2021a).神经网络压缩的存储设备。通过信息几何车间NeurIPS深度学习。arXiv: 2102.07725。
Isik B。,周,p。,Hw一个ng, S. J., Johnston, N., and Toderici, G. (2021b).Lvac:学会了体积属性为点云压缩使用基于坐标的网络。arXiv预印本arXiv: 2111.08988。
Isik B。,Weissman, T., and No, A. (2022). “An information-theoretic justification for model pruning,” in学报》第25届国际会议上人工智能和机器学习研究的统计程序(西班牙瓦伦西亚:PMLR),3821 - 3846。
张成泽,大肠。Preda, M。,Mammou, K., Tourapis, A. M., Kim, J., Graziosi, D. B., et al. (2019). Video-based point-cloud-compression standard in mpeg: From evidence collection to committee draft [standards in a nutshell].IEEE信号的过程。玛格。36岁,118 - 123。doi: 10.1109 / MSP.2019.2900721
Krivokuća, M。周,p。,Koroteev, M. (2020). A volumetric approach to point cloud compression–part ii: Geometry compression.IEEE反式。图像的过程。29日,2217 - 2229。doi: 10.1109 / TIP.2019.2957853
Krivokuca, M。周,p。,年代一个vill, P. (2018).8我voxelized面光场(8 ivslf)数据集。输入文档m42914。卢布尔雅那(斯洛文尼亚。ISO / IEC JTC1 / SC29 WG11 (MPEG)。
Krivokuca, M。Miandji E。,Gu我llemot, C., and Chou, P. (2021). Compression of plenoptic point cloud attributes using 6-d point clouds and 6-d transforms.IEEE反式。Multimed。1。doi: 10.1109 / tmm.2021.3129341
茶室,。,Genova, K., Yin, X., Fathi, A., Pantofaru, C., Guibas, L., et al. (2022a). “Panoptic neural fields: A semantic object-aware neural scene representation,” inCvpr。
茶室,。,Genova, K., Yin, X., Fathi, A., Pantofaru, C., Guibas, L. J., et al. (2022b). “Panoptic neural fields: A semantic object-aware neural scene representation,” in《IEEE / CVF计算机视觉与模式识别会议(美国路易斯安那州的纽奥良:CVPR),12871 - 12881。
Lazzarotto D。Alexiou E。,Ebrahimi, T. (2021). “On block prediction for learning-based point cloud compression,” in2021年IEEE国际会议上图像处理安克雷奇,阿拉斯加,美国:ICIP),3378 - 3382。doi: 10.1109 / ICIP42928.2021.9506429
罗,X。,T一个lebi, H., Yang, F., Elad, M., and Milanfar, P. (2020).rate-distortion-accuracy权衡:Jpeg的案例研究。arXiv预印本arXiv: 2008.00605。
马特尔,j . N。,l我ndell, D. B., Lin, C. Z., Chan, E. R., Monteiro, M., and Wetzstein, G. (2021). Acorn: Adaptive coordinate networks for neural scene representation.arXiv预印本arXiv: 2105.02788
梅塔,我。,Gharbi, M., Barnes, C., Shechtman, E., Ramamoorthi, R., and Chandraker, M. (2021). “Modulated periodic activations for generalizable local functional representations,” in《IEEE / CVF计算机视觉国际会议,14214 - 14223。
Meka,。,Pandey, R., Haene, C., Orts-Escolano, S., Barnum, P., Davidson, P., et al. (2020). Deep relightable textures - volumetric performance capture with neural rendering.ACM反式。图。39岁,21doi: 10.1145/3414685.3417814
Mekuria, R。布鲁姆,K。,Cesar, P. (2017). Design, implementation, and evaluation of a point cloud codec for tele-immersive video.IEEE反式。电路系统。视频抛光工艺。27日,828 - 842。doi: 10.1109 / tcsvt.2016.2543039
Mentzer F。,Toderici G。D。能,M。,Agustsson E。(2020)。 High-fidelity generative image compression.放置神经Inf。过程。系统。33。
梅什德,L。Oechsle, M。,N我emeyer, M., Nowozin, S., and Geiger, A. (2019). “Occupancy networks: Learning 3d reconstruction in function space,” in在计算机视觉和模式识别程序IEEE Conf. (CVPR)。
,由美国米拉尼(2020)。“syndrome-based autoencoder点云几何压缩,”2020年IEEE国际会议上图像处理(阿布扎比,阿拉伯联合酋长国:ICIP),2686 - 2690。doi: 10.1109 / ICIP40778.2020.9190647
,由美国米拉尼(2021)。“手斧:敌对的分布式源autoencoder点云压缩,”2021年IEEE国际会议上图像处理安克雷奇,阿拉斯加,美国:ICIP),3078 - 3082。doi: 10.1109 / ICIP42928.2021.9506750
米尔登霍尔,B。,Srinivasan, P P。Tancik, M。,巴伦,j . T。,R一个米一个米oorthi, R., and Ng, R. (2020). “Nerf: Representing scenes as neural radiance fields for view synthesis,” in大会。
Oktay D。,Balle, J。,年代我ngh, S., and Shrivastava, A. (2019). “Scalable model compression by entropy penalized reparameterization,” in学习国际会议上表示。
公园,J。,周,p。,Hw一个ng, J. (2019a). Rate-utility optimized streaming of volumetric media for augmented reality.IEEE j .紧急情况。选取。上面。电路系统。9日,149 - 162。doi: 10.1109 / JETCAS.2019.2898622
公园,J。,Florence, P., Straub, J., Newcombe, R., and Lovegrove, S. (2019b). “Deepsdf: Learning continuous signed distance functions for shape representation,” in2019年IEEE / CVF计算机视觉与模式识别会议(CVPR),美国加利福尼亚州长滩,2019年6月15 - 20(IEEE),165 - 174。doi: 10.1109 / CVPR.2019.00025
Pateux, S。,Jung, J. (2007). An excel add-in for computing bjontegaard metric and its evolution.ITU-T SG16 Q。6 7。
Pavez E。,周,p。,德奎罗斯,r . L。,Ortega, A. (2018). Dynamic polygon clouds: Representation and compression for VR/AR.APSIPA反式。正信号。过程。7,e15。doi: 10.1017 / ATSIP.2018.15
Pavez E。,年代outo, A. L., Queiroz, R. L. D., and Ortega, A. (2021). “Multi-resolution intra-predictive coding of 3d point cloud attributes,” in2021年IEEE国际会议上图像处理(ICIP),3393 - 3397。doi: 10.1109 / ICIP42928.2021.9506641
Pierdicca, R。,Paolanti, M., Matrone, F., Martini, M., Morbidoni, C., Malinverni, E. S., et al. (2020). Point cloud semantic segmentation using a deep learning framework for cultural heritage.远程Sens。12日,1005年。doi: 10.3390 / rs12061005
Quach, M。,V一个lenzise, G., and Dufaux, F. (2020a). “Folding-based compression of point cloud attributes,” in2020年IEEE国际会议上图像处理(ICIP),3309 - 3313。doi: 10.1109 / ICIP40778.2020.9191180
Quach, M。,V一个lenzise, G., and Dufaux, F. (2020b2020). “Improved deep point cloud geometry compression,” inIEEE 22日国际研讨会上多媒体信号处理(MMSP),1 - 6。
Quach, M。,V一个lenzise, G., and Dufaux, F. (2019). “Learning convolutional transforms for lossy point cloud geometry compression,” in2019年IEEE Int。Conf.图像处理(ICIP)。doi: 10.1109 / ICIP.2019.8803413
赖泽C。彭,S。廖,Y。,Geiger, A. (2021). “Kilonerf: Speeding up neural radiance fields with thousands of tiny mlps,” in《IEEE / CVF计算机视觉国际会议,14335 - 14345。
Rematas, K。刘,。,Srinivasan, P P。巴伦,j . T。,T一个gliasacchi, A., Funkhouser, T., et al. (2022).城市光辉领域。新奥尔良,路易斯安那州,美国:CVPR。
Sandri G。,de Queiroz, R., and Chou, P. A. (2018). “Compression of plenoptic point clouds using the region-adaptive hierarchical transform,” in25日IEEE Int。Conf.图像处理(希腊雅典:ICIP),1153 - 1157。
Sandri G。,德奎罗斯,r . L。,周,p。(2019)。压缩plenoptic点云。IEEE反式。图像的过程。28日,1419 - 1427。doi: 10.1109 / tip.2018.2877486
Sandri G。,Figueiredo, V. F., Chou, P. A., and de Queiroz, R. (2019a). “Point cloud compression incorporating region of interest coding,” in2019年IEEE国际会议上图像处理(ICIP),4370 - 4374。doi: 10.1109 / ICIP.2019.8803553
Sandri, g P。周,p。,Krivokuća, M。,德奎罗斯,r . L。(2019b)。整数的替代region-adaptive层次变换。IEEE信号的过程。列托人。26日,1369 - 1372。doi: 10.1109 / LSP.2019.2931425
施瓦兹,S。Preda, M。,B一个roncini, V., Budagavi, M., Cesar, P., Chou, P. A., et al. (2019). Emerging MPEG standards for point cloud compression.IEEE j .紧急情况。选取。上面。电路系统。9日,133 - 148。doi: 10.1109 / jetcas.2018.2885981
盛,X。李,L。,l我u,D。,Xiong, Z., Li, Z., and Wu, F. (2021). Deep-pcac: An end-to-end deep lossy compression framework for point cloud attributes.IEEE反式。Multimed。24岁,2617 - 2632。doi: 10.1109 / TMM.2021.3086711
Srinivasan, P P。邓,B。,张X。,Tancik, M。,米尔登霍尔,B。,巴伦,j . T。(2021)。“Nerv:神经反射和可见性字段重新点火和视图合成、”《IEEE / CVF计算机视觉与模式识别会议,7495 - 7504。
Stelzner, K。,Kersting, K., and Kosiorek, A. R. (2021).将3 d场景分解为对象通过无监督分割体积。arXiv预印本arXiv: 2104.01148。
股票,P。,Joulin, A., Gribonval, R., Graham, B., and Jégou, H. (2019). “And the bit goes down: Revisiting the quantization of neural networks,” in学习国际会议上表示。
太阳,P。,Kretzschmar, H., Dotiwalla, X., Chouard, A., Patnaik, V., Tsui, P., et al. (2020). “Scalability in perception for autonomous driving: Waymo open dataset,” in2020年IEEE / CVF计算机视觉与模式识别会议(美国西雅图,华盛顿州:CVPR),2443 - 2451。doi: 10.1109 / CVPR42600.2020.00252
太阳,X。,Choi, J., Chen, C.-Y., Wang, N., Venkataramani, S., Srinivasan, V. V., et al. (2019). Hybrid 8-bit floating point (hfp8) training and inference for deep neural networks.放置神经Inf。过程。系统。32岁,4900 - 4909。
Takikawa, T。埃文斯,。,Tremblay, J., Müller, T., McGuire, M., Jacobson, A., et al. (2022). “Variable bitrate neural fields,” inSIGGRAPH22会议进行特殊利益集团在计算机图形和交互技术的会议记录,纽约,纽约,美国(纽约,纽约,美国:计算机协会)。doi: 10.1145/3528233.3530727
Takikawa, T。,l我talien, J., Yin, K., Kreis, K., Loop, C., Nowrouzezahrai, D., et al. (2021). “Neural geometric level of detail: Real-time rendering with implicit 3d shapes,” in《IEEE / CVF计算机视觉与模式识别会议,11358 - 11367。
Tancik, M。,C一个年代年代er, V., Yan, X., Pradhan, S., Mildenhall, B., Srinivasan, P., et al. (2022).Block-NeRF:可伸缩的大场景视图合成神经。arXiv。
Tancik, M。,米尔登霍尔,B。王,T。,年代chmidt, D., Hedman, P., Barron, J. T., et al. (2021). Learned initializations for optimizing coordinate-based neural representations.arXiv。doi: 10.48550 / arXiv.2012.02189
唐,D。,年代我ngh, S., Chou, P. A., Häne, C., Dou, M., Fanello, S., et al. (2020). “Deep implicit volume compression,” in2020年IEEE / CVF Conf.计算机视觉和模式识别(CVPR)。doi: 10.1109 / CVPR42600.2020.00137
塔,D。,周,p。,Frossard, P. (2016). Graph-based compression of dynamic 3d point cloud sequences.IEEE反式。图像的过程。25日,1765 - 1778。doi: 10.1109 / tip.2016.2529506
Toderici G。,O’Malley, S. M., Hwang, S. J., Vincent, D., Minnen, D., Baluja, S., et al. (2016). “Variable rate image compression with recurrent neural networks,” in4日Int。Conf.学习表示(ICLR)。
Toderici G。,V我ncent, D., Johnston, N., Hwang, S. J., Minnen, D., Shor, J., et al. (2017). “Full resolution image compression with recurrent neural networks,” in2017年IEEE Conf.在计算机视觉和模式识别(CVPR)。doi: 10.1109 / CVPR.2017.577
突厥语族的,H。,R一个米一个n一个n,D。,和年代一个tyanarayanan, M. (2022). “Mega-nerf: Scalable construction of large-scale nerfs for virtual fly-throughs,” in《IEEE / CVF计算机视觉与模式识别会议(美国路易斯安那州的纽奥良:CVPR),12922 - 12931。
王,K。,l我u,Z。,l我n,Y., Lin, J., and Han, S. (2019). “Haq: Hardware-aware automated quantization with mixed precision,” in《IEEE / CVF计算机视觉与模式识别会议,8612 - 8620。
王,N。,Choi, J., Brand, D., Chen, C.-Y., and Gopalakrishnan, K. (2018). “Training deep neural networks with 8-bit floating point numbers,” in美国第32国际会议上神经信息处理系统,7686 - 7695。
徐,Y。,W一个ng, Y., Zhou, A., Lin, W., and Xiong, H. (2018). “Deep neural network compression with single and multiple level quantization,” in人工智能学报AAAI会议。doi: 10.1609 / aaai.v32i1.11663
燕,W。,年代hao, Y., Liu, S., Li, T. H., Li, Z., and Li, G. (2019).深autoencoder-based有损几何压缩为点云。CoRR abs / 1905.03691。
Yu,。,l我,R。,Tancik, M。李,H。Ng, R。,Kanazawa, A. (2021a). “Plenoctrees for real-time rendering of neural radiance fields,” in《IEEE / CVF计算机视觉国际会议,5752 - 5761。
张,C。,Florêncio, D., and Loop, C. (2014). “Point cloud attribute compression with graph transform,” in2014年IEEE国际会议。图像处理(ICIP)。
张X。,周,p。,太阳,M。,T一个ng, M., Wang, S., Ma, S., et al. (2018). “A framework for surface light field compression,” inIEEE Int。Conf.图像处理(ICIP),2595 - 2599。
张X。,周,p。,太阳,M。,T一个ng, M., Wang, S., Ma, S., et al. (2019). Surface light field compression using a point cloud codec.IEEE j .紧急情况。选取。上面。电路系统。9日,163 - 176。doi: 10.1109 / jetcas.2018.2883479
关键词:属性点云压缩,体积函数,隐神经网络、基于端到端优化,协调网络
引用:Isik B,周爸,黄SJ,约翰斯顿N和Toderici G (2022) LVAC:学会了体积属性为点云压缩使用基于坐标的网络。前面。Proc团体。2:1008812。doi: 10.3389 / frsip.2022.1008812
收到:2022年8月01;接受:2022年9月26日;
发表:2022年10月12日。
编辑:
弗雷德里克Dufaux法国大学,Paris-Saclay版权©2022 Isik,周,黄,约翰斯顿和Toderici。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。
*通信:Berivan Isik,berivan.isik@stanford.edu