一、视频的播放过程?
视频的播放过程可以简单理解为一帧一帧的画面按照时间顺序呈现出来的过程,就像在一个本子的每一页画上画,然后快速翻动的感觉。但是在实际应用中,并不是每一帧都是完整的画面,因为如果每一帧画面都是完整的图片,那么一个视频的体积就会很大,这样对于网络传输或者视频数据存储来说成本太高,所以通常会对视频流中的一部分画面进行压缩(编码)处理。由于压缩处理的方式不同,视频中的画面帧就分为了不同的类别,其中包括:I 帧、P 帧、B 帧。
二、I、P、B 帧的区别
- I 帧( 帧内编码帧 ):I 帧图像采用帧内编码方式,即只利用了单帧图像内的空间相关性,而没有利用时间相关性。I帧使用帧内压缩,不使用运动补偿,由于 I 帧不依赖其它帧,所以是随机存取的入点,同时是解码的基准帧。I帧主要用于接收机的初始化和信道的获取,以及节目的切换和插入,I 帧图像的压缩倍数相对较低。I帧图像是周期性出现在图像序列中的,出现频率可由编码器选择。
- P 帧(前向预测编码帧 ):P 帧和 B 帧图像采用帧间编码方式,即同时利用了空间和时间上的相关性。P帧图像只采用前向时间预测,可以提高压缩效率和图像质量。P 帧图像中可以包含帧内编码的部分,即 P帧中的每一个宏块可以是前向预测,也可以是帧内编码。
- B 帧(双向预测内插编码帧 ):B帧图像采用双向时间预测,可以大大提高压缩倍数。值得注意的是,由于 B 帧图像采用了未来帧作为参考,因此 MPEG-2编码码流中图像帧的传输顺序和显示顺序是不同的。
也就是说,一个 I 帧可以不依赖其他帧就解码出一幅完整的图像,而 P 帧、B 帧不行。P 帧需要依赖视频流中排在它前面的帧才能解码出图像。B 帧则需要依赖视频流中排在它前面或后面的帧才能解码出图像。
这就带来一个问题:在视频流中,先到来的 B 帧无法立即解码,需要等待它依赖的后面的 I、P 帧先解码完成,这样一来播放时间与解码时间不一致了,顺序打乱了,那这些帧该如何播放呢?这时就需要我们来了解另外两个概念:DTS 和 PTS。
三、DTS、PTS 的概念
- DTS(Decoding Time Stamp):即解码时间戳,这个时间戳的意义在于告诉播放器该在什么时候解码这一帧的数据。
- PTS(Presentation Time Stamp):即显示时间戳,这个时间戳用来告诉播放器该在什么时候显示这一帧的数据。
需要注意的是: 虽然 DTS、PTS 是用于指导播放端的行为,但它们是在编码的时候由编码器生成的。
当视频流中没有 B 帧时,通常 DTS 和 PTS 的顺序是一致的。但如果有 B 帧时,就回到了我们前面说的问题:解码顺序和播放顺序不一致了。
比如一个视频中,帧的显示顺序是:I B B P,现在我们需要在解码 B 帧时知道 P 帧中信息,因此这几帧在视频流中的顺序可能是:I P B B,这时候就体现出每帧都有 DTS 和 PTS 的作用了。DTS 告诉我们该按什么顺序解码这几帧图像,PTS 告诉我们该按什么顺序显示这几帧图像。顺序大概如下:
PTS: 1 4 2 3
DTS: 1 2 3 4
Stream: I P B B
四、PTS和DTS的时间基
PST和DTS的单位是什么?
FFmpeg中时间基的概念,也就是time_base。它也是用来度量时间的。 如果把1秒分为25等份,你可以理解就是一把尺,那么每一格表示的就是1/25秒。此时的time_base={1,25} pts的值就是占多少个时间刻度(占多少个格子)。它的单位不是秒,而是时间刻度。只有pts加上time_base两者同时在一起,才能表达出时间是多少。
pts=20个刻度
time_base={1,10} 每一个刻度是1/10厘米
所以物体的长度=pts*time_base=20*1/10 厘米
我们当前的时间是 100, 时间基是 1/25,那么转成秒的时间是多少呢? 100*时音基(1/25),也就是100 * 1/25 = 4秒。
duration和pts单位一样,duration表示当前帧的持续时间占多少格。或者理解是两帧的间隔时间是占多少格。
五、FFMPEG的AVRational time_base
内部时间基 AV_TIME_BASE
#define AV_TIME_BASE 1000000
#define AV_TIME_BASE_Q (AVRational){1, AV_TIME_BASE}
typedef struct AVRational{
int num;
int den;
} AVRational;
AVRational这个结构标识一个分数,num为分数,den为分母。 pts:格子数
av_q2d(st->time_base): 秒/格
计算视频长度
time(秒) = st->duration * av_q2d(st->time_base)
帧的显示时间戳
pts*av_q2d(time_base)
时间值形式转换
av_q2d()将时间从 AVRational 形式转换为 double 形式。AVRational 是分数类型,double 是双精度浮点数类型,转换的结果单位是秒。
static inline double av_q2d(AVRational a){
return a.num / (double) a.den;
}
av_q2d()使用方法如下:
AVStream stream;
AVPacket packet;
packet 播放时刻值:timestamp(单位秒) = packet.pts × av_q2d(stream.time_base);
packet 播放时长值:duration(单位秒) = packet.duration × av_q2d(stream.time_base);
转码过程中的时间基转换
视频解码过程中的时间基转换处理:
AVFormatContext *ifmt_ctx;
AVStream *in_stream;
AVCodecContext *dec_ctx;
AVPacket packet;
AVFrame *frame;
av_read_frame(ifmt_ctx, &packet);
int raw_video_time_base = av_inv_q(dec_ctx->framerate);
av_packet_rescale_ts(packet, in_stream->time_base, raw_video_time_base);
avcodec_send_packet(dec_ctx, packet)
avcodec_receive_frame(dec_ctx, frame);
视频编码过程中的时间基转换处理:
AVFormatContext *ofmt_ctx;
AVStream *out_stream;
AVCodecContext *dec_ctx;
AVCodecContext *enc_ctx;
AVPacket packet;
AVFrame *frame;
avcodec_send_frame(enc_ctx, frame);
avcodec_receive_packet(enc_ctx, packet);
packet.stream_index = out_stream_idx;
enc_ctx->time_base = av_inv_q(dec_ctx->framerate);
av_packet_rescale_ts(&opacket, enc_ctx->time_base, out_stream->time_base);
av_interleaved_write_frame(o_fmt_ctx, &packet);
案例
#include <libavcodec/avcodec.h>
#include <libavformat/avformat.h>
#include <libavfilter/avfiltergraph.h>
#include <libavfilter/buffersink.h>
#include <libavfilter/buffersrc.h>
#include <libavutil/time.h>
#include <stdlib.h>
#include <unistd.h>
int main(int argc, char **argv)
{
int i = 0;
av_register_all();
int64_t start = av_gettime_relative();
AVRational tb = (AVRational){1,90000};
for(i=1; i < 100; i++)
{
#if 1
usleep(1000*40);
int64_t time = av_gettime_relative();
int64_t timestamp = time - start;
#else
int64_t timestamp = i*0.04 * AV_TIME_BASE;
#endif
int64_t pts = av_rescale_q(timestamp, AV_TIME_BASE_Q, tb);
printf("timestamp:%"PRId64" pts:%"PRId64"\n", timestamp, pts);
}
return 0;
}
|