finnstrom3693
/

mini-sun-init-bert-tf-110m

Model card Files Files and versions Community

finnstrom3693 commited on Oct 1

Commit

1a0de96

•

1 Parent(s): 0bf0be0

change to numpy

Files changed (1) hide show

tokenizer_make2.py +7 -6

tokenizer_make2.py CHANGED Viewed

@@ -1,3 +1,4 @@
 from transformers import BertTokenizerFast
 import os
 import tensorflow as tf
@@ -36,11 +37,11 @@ class MiniSunTokenizer:
             padding='max_length' if padding else False,
             truncation=truncation,
             return_attention_mask=True,
-            return_tensors='tf'
         )
         return {
-            'input_ids': encoded['input_ids'].numpy().tolist(),
-            'attention_mask': encoded['attention_mask'].numpy().tolist()
         }
     def _encode_batch(self, texts, max_length=512, padding=True, truncation=True):
@@ -52,11 +53,11 @@ class MiniSunTokenizer:
             padding='max_length' if padding else False,
             truncation=truncation,
             return_attention_mask=True,
-            return_tensors='tf'
         )
         return {
-            'input_ids': encoded_batch['input_ids'].numpy().tolist(),
-            'attention_mask': encoded_batch['attention_mask'].numpy().tolist()
         }
     def decode(self, token_ids):

+# @title Model Tokenizer
 from transformers import BertTokenizerFast
 import os
 import tensorflow as tf
             padding='max_length' if padding else False,
             truncation=truncation,
             return_attention_mask=True,
+            return_tensors='np'
         )
         return {
+            'input_ids': encoded['input_ids'],
+            'attention_mask': encoded['attention_mask']
         }
     def _encode_batch(self, texts, max_length=512, padding=True, truncation=True):
             padding='max_length' if padding else False,
             truncation=truncation,
             return_attention_mask=True,
+            return_tensors='np'
         )
         return {
+            'input_ids': encoded_batch['input_ids'],
+            'attention_mask': encoded_batch['attention_mask']
         }
     def decode(self, token_ids):