calbors
/

PhyloGPN

Model card Files Files and versions Community

calbors commited on Nov 8, 2024

Commit

c3ae6b4

·

verified ·

1 Parent(s): 8f0220d

Upload tokenizer

Files changed (2) hide show

tokenization_phylogpn.py +1 -3
tokenizer_config.json +1 -1

tokenization_phylogpn.py CHANGED Viewed

@@ -9,7 +9,7 @@ class PhyloGPNTokenizer(PreTrainedTokenizer):
         self._vocab = {k: v for v, k in enumerate("ACGTN-")}
         add_prefix_space = kwargs.pop("add_prefix_space", False)
-        padding_side = kwargs.pop("padding_side", "left")
         super().__init__(
             model_max_length=model_max_length,
             unk_token=unk_token,
@@ -24,8 +24,6 @@ class PhyloGPNTokenizer(PreTrainedTokenizer):
             **kwargs,
         )
-        self._receptive_field_size = 1
     def _tokenize(self, seq: str) -> List[str]:
         assert len(seq) >= 481, "Input must be at least 481 bp long"
         return list(seq)

         self._vocab = {k: v for v, k in enumerate("ACGTN-")}
         add_prefix_space = kwargs.pop("add_prefix_space", False)
+        padding_side = kwargs.pop("padding_side", "right")
         super().__init__(
             model_max_length=model_max_length,
             unk_token=unk_token,
             **kwargs,
         )
     def _tokenize(self, seq: str) -> List[str]:
         assert len(seq) >= 481, "Input must be at least 481 bp long"
         return list(seq)

tokenizer_config.json CHANGED Viewed

@@ -32,7 +32,7 @@
   "mask_token": null,
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "-",
-  "padding_side": "left",
   "sep_token": null,
   "tokenizer_class": "PhyloGPNTokenizer",
   "unk_token": "N"

   "mask_token": null,
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "-",
+  "padding_side": "right",
   "sep_token": null,
   "tokenizer_class": "PhyloGPNTokenizer",
   "unk_token": "N"