Spaces:

aletrn
/

ai-pronunciation-trainer

Running

alessandro trinca tornidor commited on Nov 15, 2024

Commit

70d4503

1 Parent(s): 823d44e

feat: support pytorch and torchaudio, update test, add requirements-dev.txt

Files changed (6) hide show

.gitignore CHANGED Viewed

@@ -199,6 +199,7 @@ tmp
 nohup.out
 /tests/events.tar
 function_dump_*.json
 # onnx models
 *.onnx

 nohup.out
 /tests/events.tar
 function_dump_*.json
+*.yml
 # onnx models
 *.onnx

aip_trainer/models/models.py CHANGED Viewed

@@ -1,25 +1,14 @@
-from typing import Any
-import torch
 import torch.nn as nn
 # second returned type here is the custom class src.silero.utils.Decoder from snakers4/silero-models
-def getASRModel(language: str) -> tuple[nn.Module, Any]:
     if language == 'de':
-        model, decoder, utils = torch.hub.load(repo_or_dir='snakers4/silero-models',
-                                               model='silero_stt',
-                                               language='de',
-                                               device=torch.device('cpu'))
     elif language == 'en':
-        model, decoder, utils = torch.hub.load(repo_or_dir='snakers4/silero-models',
-                                               model='silero_stt',
-                                               language='en',
-                                               device=torch.device('cpu'))
     else:
         raise NotImplementedError("currenty works only for 'de' and 'en' languages, not for '{}'.".format(language))

 import torch.nn as nn
+from silero import silero_stt
+from silero.utils import Decoder
 # second returned type here is the custom class src.silero.utils.Decoder from snakers4/silero-models
+def getASRModel(language: str) -> tuple[nn.Module, Decoder]:
     if language == 'de':
+        model, decoder, _ = silero_stt(language='de', version="v4", jit_model="jit_large")
     elif language == 'en':
+        model, decoder, _ = silero_stt(language='en')
     else:
         raise NotImplementedError("currenty works only for 'de' and 'en' languages, not for '{}'.".format(language))

requirements-dev.txt ADDED Viewed

requirements.txt CHANGED Viewed

@@ -7,7 +7,6 @@ flask_cors
 omegaconf
 ortools==9.11.4210
 pandas
-numpy<2.0.0
 pickle-mixin
 python-dotenv
 requests
@@ -15,6 +14,6 @@ sentencepiece
 soundfile==0.12.1
 sqlalchemy
 structlog
-torch==1.13.1
-torchaudio==0.13.1
 transformers

 omegaconf
 ortools==9.11.4210
 pandas
 pickle-mixin
 python-dotenv
 requests
 soundfile==0.12.1
 sqlalchemy
 structlog
+torch
+torchaudio
 transformers

tests/events/GetAccuracyFromRecordedAudio.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tests/test_GetAccuracyFromRecordedAudio.py CHANGED Viewed

@@ -40,7 +40,9 @@ class TestGetAccuracyFromRecordedAudio(unittest.TestCase):
             output["matched_transcripts"] = expected_output["matched_transcripts"]
             output["matched_transcripts_ipa"] = expected_output["matched_transcripts_ipa"]
             output["pronunciation_accuracy"] = expected_output["pronunciation_accuracy"]
             output["ipa_transcript"] = expected_output["ipa_transcript"]
             output["real_transcripts_ipa"] = expected_output["real_transcripts_ipa"]
             self.assertEqual(expected_output, output)

             output["matched_transcripts"] = expected_output["matched_transcripts"]
             output["matched_transcripts_ipa"] = expected_output["matched_transcripts_ipa"]
             output["pronunciation_accuracy"] = expected_output["pronunciation_accuracy"]
+            output["pair_accuracy_category"] = expected_output["pair_accuracy_category"]
             output["ipa_transcript"] = expected_output["ipa_transcript"]
+            output["real_transcript"] = expected_output["real_transcript"]
             output["real_transcripts_ipa"] = expected_output["real_transcripts_ipa"]
             self.assertEqual(expected_output, output)