calbors
/

PhyloGPN

calbors commited on Nov 8, 2024

Commit

8f0220d

verified ·

1 Parent(s): a723648

Upload tokenizer

Files changed (1) hide show

tokenization_phylogpn.py CHANGED Viewed

@@ -1,5 +1,5 @@
-from transformers import PreTrainedTokenizer
 from typing import List, Dict, Optional, Tuple
 class PhyloGPNTokenizer(PreTrainedTokenizer):
     model_input_names = ["input_ids"]
@@ -24,7 +24,10 @@ class PhyloGPNTokenizer(PreTrainedTokenizer):
             **kwargs,
         )
     def _tokenize(self, seq: str) -> List[str]:
         return list(seq)
     def _convert_token_to_id(self, token: str) -> int:

 from typing import List, Dict, Optional, Tuple
+from transformers import PreTrainedTokenizer
 class PhyloGPNTokenizer(PreTrainedTokenizer):
     model_input_names = ["input_ids"]
             **kwargs,
         )
+        self._receptive_field_size = 1
     def _tokenize(self, seq: str) -> List[str]:
+        assert len(seq) >= 481, "Input must be at least 481 bp long"
         return list(seq)
     def _convert_token_to_id(self, token: str) -> int: