Spaces:

UNESCO
/

nllb

Running on Zero

davanstrien HF staff commited on Apr 4

Commit

3f23d73

•

1 Parent(s): 6bcde50

Refactor code to improve performance and readability

Files changed (1) hide show

app.py CHANGED Viewed

@@ -14,11 +14,17 @@ flores_codes = list(code_mapping.keys())
 def load_model():
     model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME).to(device)
-    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
-    return model, tokenizer
-model, tokenizer = load_model()
 @spaces.GPU
@@ -29,12 +35,10 @@ def translate(
     window_size: int = 800,
     overlap_size: int = 200,
 ):
     input_tokens = (
-        tokenizer(text, return_tensors="pt", src_lang=code_mapping[src_lang])
-        .input_ids[0]
-        .cpu()
-        .numpy()
-        .tolist()
     )
     translated_chunks = []
@@ -51,8 +55,7 @@ def translate(
         )
         translated_chunks.append(translated_chunk)
-    translated_text = " ".join(translated_chunks)
-    return translated_text
 description = """

 def load_model():
     model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME).to(device)
+    return model
+model = load_model()
+def load_tokenizer(src_lang, tgt_lang):
+    tokenizer = AutoTokenizer.from_pretrained(
+        MODEL_NAME, src_lang=code_mapping[src_lang], tgt_lang=code_mapping[tgt_lang]
+    )
+    return tokenizer
 @spaces.GPU
     window_size: int = 800,
     overlap_size: int = 200,
 ):
+    tokenizer = load_tokenizer(src_lang, tgt_lang)
     input_tokens = (
+        tokenizer(text, return_tensors="pt").input_ids[0].cpu().numpy().tolist()
     )
     translated_chunks = []
         )
         translated_chunks.append(translated_chunk)
+    return " ".join(translated_chunks)
 description = """