import decord import numpy as np import torch from PIL import Image import random from eva_clip.transform import image_transform image_processor = image_transform(image_size=448, is_train=False) def preprocess_multimodal(sources, num_segments): for source in sources: for sentence in source: X_token = '