DAMO-NLP-SG
/

VideoLLaMA2.1-7B-AV

Visual Question Answering

videollama2_qwen2

text-generation

Audio-visual Question Answering

Audio Question Answering

multimodal large language model

Inference Endpoints

Model card Files Files and versions Community

YifeiXin commited on Oct 25

Commit

d944d42

•

1 Parent(s): b9c58e1

Update README.md

Files changed (1) hide show

README.md +6 -5

README.md CHANGED Viewed

@@ -103,10 +103,10 @@ def inference(args):
         audio_video_tensor = preprocess(audio_video_path)
     else:
         audio_video_tensor = preprocess(audio_video_path, va=True if args.modal_type == "av" else False)
-    question = f"Please describe the video with visual and audio information."
     # Audio Inference
-    audio_video_path = "assets/Traffic and pedestrians.wav"
     preprocess = processor['audio' if args.modal_type == "a" else "video"]
     if args.modal_type == "a":
         audio_video_tensor = preprocess(audio_video_path)
@@ -115,13 +115,13 @@ def inference(args):
     question = f"Please describe the audio."
     # Video Inference
-    audio_video_path = "assets/WBS4I.mp4"
     preprocess = processor['audio' if args.modal_type == "a" else "video"]
     if args.modal_type == "a":
         audio_video_tensor = preprocess(audio_video_path)
     else:
         audio_video_tensor = preprocess(audio_video_path, va=True if args.modal_type == "av" else False)
-    question = f"Please describe the video."
     output = mm_infer(
         audio_video_tensor,
@@ -138,11 +138,12 @@ def inference(args):
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
-    parser.add_argument('--model-path', help='', required=True)
     parser.add_argument('--modal-type', choices=["a", "v", "av"], help='', required=True)
     args = parser.parse_args()
     inference(args)
 ```

         audio_video_tensor = preprocess(audio_video_path)
     else:
         audio_video_tensor = preprocess(audio_video_path, va=True if args.modal_type == "av" else False)
+    question = f"Please describe the video with audio information."
     # Audio Inference
+    audio_video_path = "assets/bird-twitter-car.wav"
     preprocess = processor['audio' if args.modal_type == "a" else "video"]
     if args.modal_type == "a":
         audio_video_tensor = preprocess(audio_video_path)
     question = f"Please describe the audio."
     # Video Inference
+    audio_video_path = "assets/output_v_1jgsRbGzCls.mp4"
     preprocess = processor['audio' if args.modal_type == "a" else "video"]
     if args.modal_type == "a":
         audio_video_tensor = preprocess(audio_video_path)
     else:
         audio_video_tensor = preprocess(audio_video_path, va=True if args.modal_type == "av" else False)
+    question = f"What activity are the people practicing in the video?"
     output = mm_infer(
         audio_video_tensor,
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
+    parser.add_argument('--model-path', help='', , required=False, default='DAMO-NLP-SG/VideoLLaMA2.1-7B-AV')
     parser.add_argument('--modal-type', choices=["a", "v", "av"], help='', required=True)
     args = parser.parse_args()
     inference(args)
 ```