Spaces:

jhtonyKoo
/

ITO-Master

Running

jhtonyKoo commited on Oct 15, 2024

Commit

6f16821

1 Parent(s): 35a672a

modify fx norm

Files changed (1) hide show

inference.py CHANGED Viewed

@@ -112,7 +112,7 @@ class MasteringStyleTransfer:
         return all_results, min_loss_step
-    def preprocess_audio(self, audio, target_sample_rate=44100, is_input=False):
         sample_rate, data = audio
         # Normalize audio to -1 to 1 range
@@ -141,7 +141,7 @@ class MasteringStyleTransfer:
             data = julius.resample_frac(torch.from_numpy(data), sample_rate, target_sample_rate).numpy()
         # Apply fx normalization for input audio during mastering style transfer
-        if is_input:
             data = self.fx_normalizer.normalize_audio(data, 'mixture')
         # Convert to torch tensor
@@ -150,8 +150,12 @@ class MasteringStyleTransfer:
         return data_tensor.to(self.device)
     def process_audio(self, input_audio, reference_audio):
-        input_tensor = self.preprocess_audio(input_audio, self.args.sample_rate, is_input=True)
         reference_tensor = self.preprocess_audio(reference_audio, self.args.sample_rate)
         reference_feature = self.get_reference_embedding(reference_tensor)

         return all_results, min_loss_step
+    def preprocess_audio(self, audio, target_sample_rate=44100, normalize=False):
         sample_rate, data = audio
         # Normalize audio to -1 to 1 range
             data = julius.resample_frac(torch.from_numpy(data), sample_rate, target_sample_rate).numpy()
         # Apply fx normalization for input audio during mastering style transfer
+        if normalize:
             data = self.fx_normalizer.normalize_audio(data, 'mixture')
         # Convert to torch tensor
         return data_tensor.to(self.device)
     def process_audio(self, input_audio, reference_audio):
+        print(f"input: {input_audio}")
+        print(f"reference: {reference_audio}")
+        input_tensor = self.preprocess_audio(input_audio, self.args.sample_rate, normalize=True)
         reference_tensor = self.preprocess_audio(reference_audio, self.args.sample_rate)
+        print(f"input_tensor: {input_tensor.shape}")
+        print(f"reference_tensor: {reference_tensor.shape}")
         reference_feature = self.get_reference_embedding(reference_tensor)