介绍

● 一幅图像内邻近像素之间有着较强的空间相关性,相邻图像之间也有很强的时间相关性;
● 预测编码(Prediction Coding)是指利用已编码的一个或几个样本值,根据某种模型或者方法,对当前的样本值进行预测,并对样本真实值和预测值之间的差值进行编码;
● 将视频中的每一个像素堪称一个信源符号,它通常与空域上或时域上邻近的像素均具有较强的相关性,因此视频是一种有记忆信源;
● 预测编码技术可以理解成一种特定的条件编码,其利用特定的预测模型反应像素间的依赖关系;

帧内预测编码

● 帧内预测编码是指利用视频空间域的相关性,使用当前图像己编码的像素预测当前像素,以达到去除视频空域冗余的目的,然后将预测残差作为后续编码模块的输入,进行下一 步编码处理;

● 为了选择最合适的帧内预测模式,h264使用拉格朗日率失真优化RDO进行模式选择;4x4和8x8包含9种预测模式,16x16包含4种预测模式;
○ 4种模式:水平、垂直、DC(所有参考像素的均值)、Plane(水平、垂直的线性滤波器)

帧间预测编码

● 帧间预测是指利用视频时间域的相关性,使用邻近己编码图像像素预测当前图像的像素 , 以达到有效去除视频时域冗余的目的;

● 视频序列通常包括较理的时城相关性,因此预测残差通常是“ 平坦的”,即很多残差值接近于“0” 。将残差信号作为后续模块的输入进行变换、量化、 扫描及熵编码,可实现对视频信号的高效压缩;

● 运动估计ME
○ 为当前图像的每个像素块在之前已编码图像中寻找一个最佳匹配块,该过程称为运动估计(Motion Estimation,ME);
○ 用于预测的图像就称为参考图像(reference frame);
○ 运动估计准则:最小均方误差MSE、最小平均绝对误差MAD、最大匹配像素数MPC、绝对误差和SAD、最小变换域绝对误差和SATD

● 运动向量MV
○ 参考块到当前像素块的位移称为运动向量(Motion Vector,MV);
○ 当前像素块鱼参考块的差值称为预测残差(Prediction Residual);
○ MVD = MVc - MVp,MVc表示当前编码块,MVp表示已编码块,MVD二者的差值;
○ MVp(MV预测)
■ 使用相邻已编码块对当前块MV进行预测,将二者差值进行编码,将会大幅节省编码MV所需要的比特数;
■ 主要分为空域预测、时域预测(主要针对B slice);
● h264规定了7种大小的运动补偿块:16x16、16x8、8x16、8x8、8x4、4x8、4x4;
HEVC预测编码介绍

● 搜索算法
○ ME的运算复杂度通常较高,寻找高性能、低复杂度的运动搜索算法显得尤为重要;
○ 还需要亚像素搜索,1/2、1/4、1/8等,所以需要对参考像素进行性插值;
○ 半像素用了6抽头滤波器,1/4在半像素基础上得到;

● 多参考图像和加权预测
○ 权衡编码效率和编码时间,采用4~6个参考图像;
○ 加权预测表示预测像素可以用一个或两个参考图像中像素通过与加权系数相乘;

h265帧内预测

● 亮度帧内预测模式
○ 5种大小的PU:4x4、8x8、16x16、32x32、64x64;
○ 每种PU都对应35种预测模式,Planar模式、DC模式和33种角度模式;
○ h265新增左下方块的边界像素作为当前块的参考,因为h265以四叉树形的编码结构使得这一区域称为可用像素;
○ 帧内编号0:planar模式、帧内编号1:DC模式、2~17:水平类模式、18~34:垂直类模式;
○ planar模式适用于像素值缓慢变化的区域,DC模式适用于大面积平坦区域;

● 亮度模式的编码
○ 相邻块的帧内预测模式相同或者相似的概率较大,如果将每个PU的预测模式独立进行编码则会带来不必要的冗余;
○ h265建立帧内预测模式候选列表candModeList,表中有3个候选预测模式,用来存储相邻PU的预测模式,如果当前PU最优模式在候选列表里,只需要编码在列表里位置即可,若不在,需要遍历比较,编码最终值;

● 色度帧内预测模式
○ 5种模式:Planar模式、垂直模式、水平模式、DC模式以及对应亮度分量的预测模式;

● 帧内预测过程
○ 35种预测模式是在PU的基础上定义,而具体帧内预测过程的实现则是以TU为单位;
○ h265标注规定PU可以以四叉树形式划分TU,且一个PU内的所有TU共享同一种预测模式;
○ 预测过程:判断当前TU相邻参考像素是否可用并做相应的处理、对参考像素进行滤波、根据滤波后的参考像素计算当前TU的预测像素值;
○ Planar模式下,对于4x4 TU,参考像素不需要进行滤波,其他情况,参考像素都需要进行滤波;

h265帧间预测

HEVC预测编码介绍

● 运动估计
○ 基于块运动补偿的视频编码框架中,运动搜索是最为重要的环节之一,同时也是编码端最耗时的模块;
○ TZSearch算法是h265中出现的新技术;
○ 以AMVP技术来计算起搜点;

● 亚像素精度运动估计
○ h265中亮度的半像素采用基于DCT的8抽头滤波器生成;
○ 亮度的1/4、3/4像素采用基于DCT的7抽头滤波器生成;
○ 色度需要达到1/8精度,采用基于DCT的4抽头滤波器生成;

● MV预测技术
○ h265在MV的预测方面提出两种新技术— Merge技术和AMVP技术;
○ 二者区别:
■ Merge可以看成一种编码模式 ,在该模式下,当前PU的MV直接由空域 (或时域)上邻近的PU预测得到,不存在MVD;
■ AMVP可以看成一种MV预测技术,编码器只需要对实际MV与预测MV的差值进行编码,因此是存在MVD的;
■ 二者候选MV列表长度不同, 构建候选MV列表的方式也有所区别;

○ Merge模式
■ 为当前PU建立一个MV候选表,表中存在5个候选MV及对应的参考图像,遍历5个候选MV并进行率失真代价计算,选择最小作为该模式下最优MV;
■ 编码器只需要传输最优MV在候选列表中的索引即可,大幅节省了运动信息的编码比特数;
■ MV候选列表包含空域和时域,空域提供最多4个候选MV,时域最多提供一个候选MV,时域候选列表不能直接使用候选块的运动信息,需要根据于参考图像的位置关系做相应的比例伸缩调整;
■ 候选列表不够5个的时候,需要使用(0,0)进行填补达到规定的数目;

○ AMVP模式
■ 高级运动向量预测(Advanced Motion Vector Prediction,AMVP)利用空域、时域上运动向量的相关性,为当前PU建立候选预测MV列表,选择最优预测MV,进行差分编码;
■ 解码端通过建立相同的列表,仅需要运动向量残差MVD与预测MV在该列表中的序号即可计算出当前PU的MV;
■ AMVP候选MV列表包含空域和时域,列表长度为2;
■ 过程:空域MV列表5个里选择2个,时域MV列表2个里选择1个,再合并相同的MV,填补(0,0),保留候选列表中的前2个MV,选择最优MV;

○ 加权预测
■ 修正P slice或B slice中运动补偿预测像素;
■ 两种加权预测方法:默认加权预测、Explicit加权预测;

PCM模式

● 该模式下,编码器直接传输一个CU的像素值,不经过预测、变换等操作,同理,解码端可以直接恢复当前CU的像素值;
● 主要适用于图像内容及其不规则或量化参数非常小,该模式与传统的帧内-变换=量化=熵编码相比,编码效率可能会更高;

发表回复