马思伟:当我谈AVS时,我谈些什么
2022年8月21日上午,由中国图象图形学学会(CSIG)主办的CCIG 2022大会,CSIG多媒体专委会承办的 “下一代图像/视频智能编码” 学术论坛在四川省成都成功举办。本次论坛由北京大学刘家瑛和中国科学技术大学刘东主持。
论坛介绍
视频编码是多媒体学术研究与产业依赖的基础共性技术,其通过对视频数据进行编码压缩以适配存储容量和传输带宽的需求,是数字影视、安防监控、远程教育、远程医疗等产业的核心技术。从高效编码方面看,视频编码将不再仅面向人眼视觉信号失真进行率失真优化,需要同时面向机器视觉语义失真提升编码效率;从适配编码方面看,视频适配编码将不仅包括码率控制技术以适配异构网络的带宽变化,还需同时适配多样化机器的不同层次语义任务。论坛多位讲者介绍了视频编码技术的各个方向的发展历程,对面向下一代图像/视频智能压缩技术前沿问题展开了学术研讨。
讲者介绍
马思伟,北京大学博雅特聘教授,国家杰青。主要研究方向视频处理与编码,已发表国际期刊论文100余篇,授权发明专利80多项。(曾)担任IEEE Transactions on Circuits and System for Video Technology, Journal of Visual Communication and Representation期刊编委,IEEE VCIP-2017 程序委员会联合主席,IEEE ISM-2015领域主席。自2002年起,陆续参与组织AVS1、AVS+、AVS2一系列国家标准的制定,目前担任AVS视频组长,组织制定了新一代AVS3视频编码标准,研制的AVS2/AVS3超高清编解码器,支撑了央视CCTV-4K/CCTV-8K超高清频道的开播,获2020年国家技术发明奖一等奖(排名2)。
报告实录
本文根据马思伟老师在CCIG2022“下一代图像/视频智能编码”论坛上的报告整理。报告从AVS标准出发,回顾了视频编码标准30年来的发展历程,介绍了传统视频编码的关键技术演进过程,并对基于神经网络的智能编码的发展进行了回顾和展望。
一、回顾“技术-标准”之争 视频是最主要的视觉信息的载体之一,而视频编码是数字视频产业的核心技术。由于产品的封闭性,早期各个厂商的视频编码技术并不统一,为了促进数字视频在世界范围内的互联互通,有必要对各个系统接口的定义统一进行标准化,MPEG由此开启了视频编码标准技术竞争的时代。
2002年,面对外国专利费坐地起价、国内DVD行业走向沦陷的冲击,香山科学会议提出制定我国自己的音视频标准。至此,我国具备独立自主知识产权的AVS信源编码标准应运而生并逐渐发展壮大。
二、从变换技术演进看创新 视频编码技术以像素、块为表示基础,通过变换编码、预测编码、熵编码、环路滤波等核心技术和率失真优化理论实现视频的压缩和重建。以变换编码技术为例,为了得到更适应残差分布的能量聚集方法,近年来变换编码技术的创新层出不穷,有对传统DCT,KLT的延伸和改进,也有利用深度学习技术,用神经网络对视频信号进行非线性变换,在隐空间内对失真D和码流R建模优化。
三、个体/整体技术性思考 传统编码框架主要依赖人工设置的变换和预测方法进行特征提取,随着编码技术的发展平均技术性能提升越来越慢,人们对超高分辨率视频等原始数据量极大的信源需求不断增强,因此需要更高效更智能的编码方法,大量公司在最新的JVET VVC标准基础上继续工作,力求提高编码效率。
四、看智能编码的前生今世 神经网络编码历史起源于上世纪八十年代末,与神经网络发展同步。近十年来神经网络技术发展如火如荼,在编码领域也有越来越多的目光投向了神经网络编码这一方向,传统编码框架中的线性变换预测方法也开始逐步让位于基于神经网络的非线性变换预测方法。
全神经网络编码可以直接依据视觉失真优化编码码率,计算高度并行,能在已部署硬件上高效运行,符合对未来编解码器的需求。近年,基于神经网络的编码也开始逐步建立起来。AVS3智能编码标准首次将智能编码标准工具标准化,定义智能编码语法元素及操作规范;IEEE1857.11标准是首个全神经网络图像压缩标准,率失真性能优于JVET VVC图像编码。
总结 智能编码技术面临很多挑战,但也拥有广阔应用场景,在AVS未来发展的道路上,需要构建产学研用命运同体,建立自主可控的生态体系。