基于神经网络的端到端图像压缩技术
编者按:2023年3月,《中国图象图形学学会通讯》第2卷第1期发表了由多媒体专委会选送的多篇专题文章。CSIG-MM公众号将逐一整理并推送这些文章。本期推送由北京大学助理教授贾川民,中国科学技术大学特任教授李礼和刘东合作撰写的《基于神经网络的端到端图像压缩技术及其标准化》一文。阅读完整论文请点击文末的“阅读原文”。
背景介绍
图像压缩在多媒体信号处理领域中属于信源编码范畴,其理论基础为20世纪40、50年代建立的信息论与编码理论。20世纪70年代是图像压缩技术的飞速发展时期,出现了变换编码以及预测与变换相结合的混合框架。在此后40年,混合框架不断更迭,支持了更多精细化编码工具,显著提升了压缩效率,形成了一系列编码标准和格式,带动了超高清数字电视、IPTV、沉浸媒体以及互联网媒体等应用发展。20世纪最后一个十年开启了图像视频压缩标准研究的飞速发展,至今不过三十余年,国内外标准组织先后发布了AVS系列、MPEG系列、H.26x系列等标准,其发展历程如图1所示。
图1 编码标准发展历史
当前图像压缩面临全新挑战,亟需更高效、通用性强、健壮性高的方法。随着算力和数据规模的提升,图像压缩从局部优化迁移至端到端整体优化取得了许多突破性进展,大幅超越传统基于波形编码的压缩方法,为图像压缩技术的发展注入了新活力。
图像压缩技术
图像压缩,或称图像编码,是对图像数据按一定的规则进行变换和组合,以尽可能少的代码(符号)来表示尽可能多的图像信息。源图像中常常存在各种各样的冗余:空间冗余、时间冗余、信息熵冗余、结构冗余、知识冗余等,这就使得通过编码来进行压缩成为了可能。一个典型的JPEG编码流程如图2所示。根据技术类型,图像压缩技术可分为预测编码、变换编码、统计编码等。
图2 传统图像编码流程
不同于传统编码,神经网络变换编码具备强大的非线性处理能力,在图像压缩中应用神经网络技术最早起源于20世纪80年代,其发展历程总结如图3。通过数据训练的方法进行端到端优化,可以实现更高的内容自适应性,同时从大规模数据集中学习先验知识,适配更复杂的纹理内容编码。不仅如此,端到端优化的图像编码模型可以通过调整重建目标,实现优化目标的动态调整,适配广泛多样的任务,例如信号保真、人类观看和机器分析等。
图3 基于神经网络的图像视频编码技术发展历程
IEEE 1857.11标准
IEEE 1857.11标准是IEEE 1857工作组正在制定的神经网络图像编码标准。工作组隶属于IEEE计算机学会下设的数据压缩标准化委员会(Data Compression Standard Committee, DCSC)。与标准制定同步,IEEE 1857工作组开发并维护了一套参考软件,旨在展示符合标准的图像码流格式,并给出操作该特定格式码流的编码器、解码器的一种可能的软件实现方式。当前,参考软件中包含了三种网络结构,分别是NIC、BEE、iWave,对应的参考软件也已开源(https://gitlab.com/NIC_software/NIC)。
参考软件NIC结构中主要包含非线性注意力模块、三维掩码熵模型、多级超先验模块、熵解码加速模块等。非线性注意力模块可以充分获取原始图像中像素和潜在特征之间的局部和全局相关性;三维掩码相比于二维掩码可以改进熵模型的上下文建模从而更好地实现隐变量概率估计和高效压缩;多级超先验模块通过两层超分析变换,可以更准确地进行潜在特征的概率估计,如图4所示;熵编码加速模块利用潜在空间中的通道稀疏性实现加速。
图4 多级超先验模块
参考软件BEE结构主要包括波前并行处理(Wavefront Parallel Processing,WPP)、自适应量化(Adaptive Quantization,AQ)、特征放缩等技术。图5是WPP模块。为了提高GPU的利用率,在隐变量样本预测过程中引入了并行处理机制,一行样本可以与上面的样本行并行处理,但延迟一个样本。自适应量化和特征放缩技术可实现多码率功能。
图5 波前并行处理编码模块
在参考软件的iWave结构中,主要包括iWave变换,量化和反量化,上下文模型和后处理模块。图6展示了iWave结构的变换模块,分别代表正变换和反变换模块。在仿射iWave变换中,每个P/U块进一步预测一个仿射映射,根据上下文调整小波基。仿射iWave的反变换严格地说是正变换的逆变换,使用这种变换可以更好地进行特征压缩。
图6 iWave变换模块
截至2022年12月,IEEE 1857.11参考软件的三种结构各自的图像压缩效率和编解码时间复杂度如表1所示,以BPG的压缩效率和编解码时间为基准,针对不同质量评价指标计算平均编码性能,负号表示码率节省,复杂度以基准方案的倍数百分比表示。
表1 IEEE 1857.11标准参考软件的压缩性能与复杂度对比
JPEG AI标准
JPEG AI 是由JPEG标准组织正在研制的基于学习的图像编码标准。该标准提供一种单流的、紧凑的压缩域表示,以人类视觉为目标,在同等主观质量下与常用的图像编码标准相比,具有显著的压缩效率提升,并且可以有效地执行图像处理及计算机视觉任务。JPEG AI标准的核心框架如图7所示,着重展示了框架最终的三个核心分支:图像处理任务,标准重建及计算机视觉任务。
图7 JPEG AI 核心框架
JPEG委员会同时进行了JPEG AI的提案征集(Call for Proposal, CFP),共针对10个有效编解码方案进行了最终的结果评估。评测方式包括主观压缩性能、客观压缩性能以及算法复杂度。以J2K、HEVC/H.265、VVC/H.266客观质量为基准的测试结果如表2所示,其中复杂度以基准方案的倍数百分比表示,NA表示未提供。最终,Team14与Team24两个方案共同组成当前JPEG AI标准的验证模型。
表2 JPEG AI标准提案征集方案的压缩性能
结论
端到端优化的神经网络图像压缩取得了显著的性能提升,可以满足全新的产业需求。过去几年,神经图像编解码器的研究正不断缩小与传统编解码器的差距。在可以预见的未来,轻量级的端到端图像编解码器将会结合神经处理单元等硬件平台为多媒体领域带来更多现象级应用。
贾川民,北京大学王选计算机研究所,助理教授,研究方向为视频编码与处理
李礼,中国科学技术大学,特任教授,研究方向为多媒体编码
刘东,中国科学技术大学,特任教授,研究方向为多媒体信息处理
阅读原文https://book.yunzhan365.com/azuuh/kzvl/mobile/index.html