[人工智能] 解决复现video-feature-extractor过程中的问题2

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 解决复现video-feature-extractor过程中的问题2 -> 正文阅读

[人工智能]解决复现video-feature-extractor过程中的问题2

video_feature_extractor1
在复现video-extractor中，我需要的是一个统一尺寸的特征图，但是它的输出大小不一样。后来整了很长时间，一直以为是sampler中存在的问题，改了很多，一点用没有，最后发现是video-loader中存在的问题。
1、之前提取的特征尺寸老是不一样，特征shape和视频长短相关。经过仔细阅读源码，发现是是ffmpeg中关于提取视频帧设置有一定的问题。
在这里插入图片描述
在videoLoader中ffmpeg默认参数抽取频率为1fps

为了将不同长度的视频提取相同数目的帧，将提取视频的帧率保存到input.csv中
将每段视频的视频地址，保存特征地址、帧率
video-path，feature-path，framerate

import csv
import os
import numpy as np
import cv2
video_path = "../cnn-lstm-master/data/video_data/WritingOnBoard/"
# n = [["/home/t123/projects/cnn-lstm-master/data/video_data/WritingOnBoard/v_WritingOnBoard_g25_c07.avi", "/home/t123/projects/video_feature_extractor-master/tools/A.npy"]]
b = ["video_path", "feature_path", "framerate"]
feature_path = "../video_feature_extractor-master/tools/feature1/"
n1 = []
videos = os.listdir(video_path)
for v in videos:
    v_path = os.path.join(video_path, v)
    # print(v[:-4])
    f_path = os.path.join(feature_path, v[:-4]+".npy")
    try:
        cap = cv2.VideoCapture(v_path)
        fps = int(round(cap.get(cv2.CAP_PROP_FPS)))
    except:
        print('Can not open %s.' % video_path)
        pass
    frames = []
    frame_count = 0

    while True:
        ret, frame = cap.read()
        if ret is False:
            break
        frame = frame[:, :, ::-1]
        frames.append(frame)
        frame_count += 1
    num_features = 16
    framerate = float(num_features* fps/ frame_count)
    print(framerate)
    # np.save(f_path,[])
    n1.append([v_path, f_path, framerate])

with open("input.csv", 'w', newline='') as t:  # numline是来控制空的行数的
    writer = csv.writer(t)  # 这一步是创建一个csv的写入器
    writer.writerow(b)  # 写入标签
    writer.writerows(n1)  # 写入样本数据

其中farmerate = num_features[提取多少帧的特征]*fps[帧率] / frame_count[视频的总帧数]

video-loder.py修改之后的代码

import torch as th
from torch.utils.data import Dataset
import pandas as pd
import os
import numpy as np
import ffmpeg
import cv2

class VideoLoader(Dataset):
    """Pytorch video loader."""

    def __init__(
            self,
            csv,
            size=112,
            centercrop=False,
    ):
        """
        Args:
        """
        self.csv = pd.read_csv(csv)
        self.centercrop = centercrop
        self.size = size

    def __len__(self):
        return len(self.csv)

    def _get_video_dim(self, video_path): # 解析视频信息,讲视频分解成图片流 #这里好像提取的是每秒一帧
        probe = ffmpeg.probe(video_path)
        video_stream = next((stream for stream in probe['streams']
                             if stream['codec_type'] == 'video'), None)
        width = int(video_stream['width'])
        height = int(video_stream['height'])
        return height, width

    def _get_output_dim(self, h, w): #讲视频转换成项目需要的大小
        if isinstance(self.size, tuple) and len(self.size) == 2:
            return self.size
        elif h >= w:
            return int(h * self.size / w), self.size
        else:
            return self.size, int(w * self.size / h)

    def __getitem__(self, idx):
        video_path = self.csv['video_path'].values[idx]
        output_file = self.csv['feature_path'].values[idx]
        framerate = self.csv['framerate'].values[idx]

        if not(os.path.isfile(output_file)) and os.path.isfile(video_path):
            print('Decoding video: {}'.format(video_path))
            try:
                h, w = self._get_video_dim(video_path)
            except:
                print('ffprobe failed at: {}'.format(video_path))
                return {'video': th.zeros(1), 'input': video_path,
                        'output': output_file}
            height, width = self._get_output_dim(h, w)
            cmd = (
                ffmpeg
                .input(video_path)
                .filter('fps', fps=framerate)
                .filter('scale', width, height)
            )
            out,_  = (
                cmd.output('pipe:', format='rawvideo', pix_fmt='rgb24')
                .run(capture_stdout=True)#quiet=True
            )
            if self.centercrop:
                x = int((width - self.size) / 2.0)
                y = int((height - self.size) / 2.0)
                cmd = cmd.crop(x, y, self.size, self.size)

            if self.centercrop and isinstance(self.size, int):
                height, width = self.size, self.size
            video = np.frombuffer(out, np.uint8).reshape([-1, height, width, 3])
            video = th.from_numpy(video.astype('float32'))
            video = video.permute(0, 3, 1, 2)
        else:
            video = th.zeros(1)
            
        return {'video': video, 'input': video_path, 'output': output_file}

其中将videoloader文件默认的self.framerate删掉了，将帧率用预先处理的数据作为输入。
这样处理的原因，我不知道ffmpeg有没有自带的方法。
最后将extract.py中VideoLoader（）中framerate删掉就可以用了。
在这里插入图片描述
最后得到了我想要的结果了。