add tokenizer

Files changed (4) hide show

added_tokens.json ADDED Viewed

+{
+  "</s>": 32001,
+  "<s>": 32000
+}

special_tokens_map.json CHANGED Viewed

@@ -7,7 +7,7 @@
     "single_word": false
   },
   "cls_token": {
-    "content": "<s>",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,
@@ -21,21 +21,21 @@
     "single_word": false
   },
   "mask_token": {
-    "content": "<mask>",
     "lstrip": true,
     "normalized": true,
     "rstrip": false,
     "single_word": false
   },
   "pad_token": {
-    "content": "<pad>",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,
     "single_word": false
   },
   "sep_token": {
-    "content": "</s>",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,

     "single_word": false
   },
   "cls_token": {
+    "content": "[CLS]",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,
     "single_word": false
   },
   "mask_token": {
+    "content": "[MASK]",
     "lstrip": true,
     "normalized": true,
     "rstrip": false,
     "single_word": false
   },
   "pad_token": {
+    "content": "[PAD]",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,
     "single_word": false
   },
   "sep_token": {
+    "content": "[SEP]",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,

tokenizer_config.json CHANGED Viewed

@@ -9,7 +9,7 @@
   },
   "cls_token": {
     "__type": "AddedToken",
-    "content": "<s>",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,
@@ -27,7 +27,7 @@
   },
   "mask_token": {
     "__type": "AddedToken",
-    "content": "<mask>",
     "lstrip": true,
     "normalized": true,
     "rstrip": false,
@@ -37,7 +37,7 @@
   "never_split": null,
   "pad_token": {
     "__type": "AddedToken",
-    "content": "<pad>",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,
@@ -45,7 +45,7 @@
   },
   "sep_token": {
     "__type": "AddedToken",
-    "content": "</s>",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,

   },
   "cls_token": {
     "__type": "AddedToken",
+    "content": "[CLS]",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,
   },
   "mask_token": {
     "__type": "AddedToken",
+    "content": "[MASK]",
     "lstrip": true,
     "normalized": true,
     "rstrip": false,
   "never_split": null,
   "pad_token": {
     "__type": "AddedToken",
+    "content": "[PAD]",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,
   },
   "sep_token": {
     "__type": "AddedToken",
+    "content": "[SEP]",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,

vocab.txt CHANGED Viewed

@@ -1,8 +1,8 @@
-<pad>
 [UNK]
-<s>
-</s>
-<mask>
 0
 1
 2

+[PAD]
 [UNK]
+[CLS]
+[SEP]
+[MASK]
 0
 1
 2