关于视频

图像连续播放形成视频,单个的图像称为一帧(Frame),帧的播放速度称为帧率(Frame Rate),一般用FPS描述帧率,指每秒播放多少帧图像(Frame per Second)。

一般来说,人眼能感觉到视频卡顿的帧率为15帧,低于15帧时,人眼能察觉出画面的不连贯,高于15帧时,人眼的主观感受差别不大。由于视觉滞留效应(指人眼看到的图像消失后,图像仍会在大脑中停留一段时间,约为1/24秒),当视频帧率高于24帧每秒时,人眼就已经无法感知了。为了实现立体视觉,两只眼睛的看到的画面要不一样,这样双眼的立体视觉帧率就至少需要达到48FPS。游戏显卡输出的FPS可以高达几百帧,但这与显卡、显示器帧率不同步导致的撕裂效应有关,参考:画面撕裂、卡顿、垂直同步

关于视频通信延时,当延时小于200ms时质量为优秀,此时类似于面对面聊天,基本无法察觉。延时200ms~500ms,类似于打电话,可以察觉,但基本不影响通信。延时500ms~800ms则可以明显察觉。当延时大于800ms时,就已经不适合实时通信了。

关于视频压缩

分辨率640x480,帧率15,采样格式YUV420,量化深度8bit,其码率为:

640*x480*3/2*15*8bit = 55.296Mbps

参考设置视频编码属性 - 视频通话 - 文档中心 - 声网Agora,该视频属性下推荐的码率约为500kbps,压缩率为1/100。

视频压缩原理

视频数据中的冗余信息

  • 时间冗余:视频中的相邻两帧之间内容相似,存在运动关系。
  • 空间冗余:视频中的某一帧内部的相邻像素存在相似性。
  • 编码冗余:视频中不同的数据出现的概率不同。
  • 视觉冗余:观众的视觉系统对视频中的不同部分敏感程序不同。

视频压缩办法

预测编码

主要包括两种方法:

  • 帧内预测:根据当前帧已编码的数据进行预测,利用图像内相邻像素之间的相关性去除视频中的空间冗余。(比如可以在某个较小的图像区域内,用最左边一列的像素和最上面一列的像素来预测该区域的全部像素,方法可以是用这两部分已知的像素求平均值作为剩余像素的值,或是指定某种规则,以最左边或最上面一列的像素通过渐变的方式填充剩余像素。)
  • 帧间预测:将部分已编码的图像作为参考帧,利用前后帧之间的时间相关性去除视频中的时间冗余,比如视频编码中常见的I/P/B帧。

变换编码

熵编码

关于视频压缩的发展历史

参考链接:即时通讯音视频开发(十九):零基础,史上最通俗视频编码技术入门-实时音视频/专项技术区 - 即时通讯开发者社区!

关于视频编码

H264

H265















  • 无标签