AlexHung29629
/

test_mllama_v12

Feature Extraction

Model card Files Files and versions Community

AlexHung29629 commited on 24 days ago

Commit

2c3c2d2

•

1 Parent(s): f29a23c

Update ultravox_processing.py

Files changed (1) hide show

ultravox_processing.py +4 -1

ultravox_processing.py CHANGED Viewed

@@ -150,8 +150,11 @@ class UltravoxProcessor(transformers.ProcessorMixin):
             data["audio_len"] = x.attention_mask.sum(-1) - 1
             def cnn_out_len(in_len, kernel, stride=1, padding=1, dilation=1):
                 return np.floor((in_len + (2*padding) - (dilation * (kernel - 1)) - 1)/stride + 1)
             nb_encoder_frames = [cnn_out_len(cnn_out_len(feat_len, kernel=3), kernel=3, stride=2) for feat_len in data["audio_len"]]
-            data["audio_token_len"] = [int(x//self.stack_factor) for x in nb_encoder_frames]
         if text is not None:
             assert isinstance(

             data["audio_len"] = x.attention_mask.sum(-1) - 1
             def cnn_out_len(in_len, kernel, stride=1, padding=1, dilation=1):
                 return np.floor((in_len + (2*padding) - (dilation * (kernel - 1)) - 1)/stride + 1)
+            def stack_frame_len(T):
+                T_pad = (T + self.stack_factor - 1) // self.stack_factor * self.stack_factor
+                return int((T_pad + self.stack_factor) // self.stack_factor)
             nb_encoder_frames = [cnn_out_len(cnn_out_len(feat_len, kernel=3), kernel=3, stride=2) for feat_len in data["audio_len"]]
+            data["audio_token_len"] = [stack_frame_len(x) for x in nb_encoder_frames]
         if text is not None:
             assert isinstance(