BioTokenizer-BFD-BPE-400 / tokenizer.json
dotan1111's picture
Upload 2 files
c8d6cdc
{
"version": "1.0",
"truncation": null,
"padding": null,
"added_tokens": [
{
"id": 0,
"content": "<UNK>",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
}
],
"normalizer": {
"type": "Lowercase"
},
"pre_tokenizer": {
"type": "Whitespace"
},
"post_processor": null,
"decoder": null,
"model": {
"type": "BPE",
"dropout": null,
"unk_token": "<UNK>",
"continuing_subword_prefix": null,
"end_of_word_suffix": null,
"fuse_unk": false,
"vocab": {
"<UNK>": 0,
"a": 1,
"b": 2,
"c": 3,
"d": 4,
"e": 5,
"f": 6,
"g": 7,
"h": 8,
"i": 9,
"k": 10,
"l": 11,
"m": 12,
"n": 13,
"o": 14,
"p": 15,
"q": 16,
"r": 17,
"s": 18,
"t": 19,
"u": 20,
"v": 21,
"w": 22,
"x": 23,
"y": 24,
"z": 25,
"aa": 26,
"ll": 27,
"la": 28,
"gg": 29,
"rr": 30,
"va": 31,
"ga": 32,
"ra": 33,
"lv": 34,
"pa": 35,
"lg": 36,
"sa": 37,
"lr": 38,
"ea": 39,
"vv": 40,
"da": 41,
"ta": 42,
"ls": 43,
"lp": 44,
"ia": 45,
"gr": 46,
"ld": 47,
"le": 48,
"ss": 49,
"gv": 50,
"lt": 51,
"gs": 52,
"er": 53,
"gt": 54,
"gd": 55,
"pp": 56,
"li": 57,
"vr": 58,
"ge": 59,
"qa": 60,
"fa": 61,
"lk": 62,
"vt": 63,
"vs": 64,
"gi": 65,
"vd": 66,
"ve": 67,
"lf": 68,
"pr": 69,
"ka": 70,
"dr": 71,
"ps": 72,
"lq": 73,
"ee": 74,
"tt": 75,
"gk": 76,
"na": 77,
"sr": 78,
"pd": 79,
"vi": 80,
"pe": 81,
"gf": 82,
"ln": 83,
"pt": 84,
"gq": 85,
"ha": 86,
"st": 87,
"dd": 88,
"qr": 89,
"gp": 90,
"ei": 91,
"ya": 92,
"kk": 93,
"gn": 94,
"lh": 95,
"vp": 96,
"tr": 97,
"vf": 98,
"si": 99,
"ma": 100,
"de": 101,
"ly": 102,
"aaa": 103,
"ir": 104,
"vk": 105,
"gy": 106,
"ts": 107,
"ti": 108,
"kr": 109,
"vn": 110,
"gh": 111,
"vq": 112,
"sd": 113,
"se": 114,
"sf": 115,
"ie": 116,
"id": 117,
"lm": 118,
"hr": 119,
"fr": 120,
"laa": 121,
"sp": 122,
"td": 123,
"ke": 124,
"te": 125,
"nr": 126,
"fd": 127,
"tp": 128,
"yr": 129,
"gm": 130,
"ki": 131,
"qq": 132,
"pi": 133,
"ff": 134,
"pv": 135,
"kd": 136,
"ca": 137,
"sn": 138,
"ed": 139,
"gw": 140,
"sq": 141,
"sv": 142,
"lw": 143,
"tf": 144,
"pq": 145,
"re": 146,
"lla": 147,
"tv": 148,
"sk": 149,
"pf": 150,
"ii": 151,
"eq": 152,
"tn": 153,
"lc": 154,
"rd": 155,
"vh": 156,
"pn": 157,
"vy": 158,
"vg": 159,
"kn": 160,
"di": 161,
"tq": 162,
"fe": 163,
"wa": 164,
"mr": 165,
"sy": 166,
"qi": 167,
"pk": 168,
"ek": 169,
"gc": 170,
"gaa": 171,
"ni": 172,
"vm": 173,
"th": 174,
"tk": 175,
"yd": 176,
"fi": 177,
"nd": 178,
"sh": 179,
"ri": 180,
"ph": 181,
"lrr": 182,
"qe": 183,
"lva": 184,
"vaa": 185,
"ty": 186,
"gga": 187,
"qd": 188,
"sg": 189,
"wr": 190,
"lga": 191,
"py": 192,
"pg": 193,
"lra": 194,
"vc": 195,
"nn": 196,
"sm": 197,
"hd": 198,
"rra": 199,
"lar": 200,
"ne": 201,
"kq": 202,
"cr": 203,
"lgg": 204,
"tg": 205,
"df": 206,
"tm": 207,
"aar": 208,
"ye": 209,
"rrr": 210,
"fs": 211,
"he": 212,
"lpa": 213,
"pm": 214,
"if": 215,
"dq": 216,
"is": 217,
"gla": 218,
"lsa": 219,
"vla": 220,
"nf": 221,
"lda": 222,
"vw": 223,
"rs": 224,
"paa": 225,
"ks": 226,
"ef": 227,
"kt": 228,
"rq": 229,
"et": 230,
"yf": 231,
"kf": 232,
"lea": 233,
"in": 234,
"gll": 235,
"dv": 236,
"en": 237,
"es": 238,
"lta": 239,
"it": 240,
"ev": 241,
"eh": 242,
"dp": 243,
"iv": 244,
"qf": 245,
"rf": 246,
"qs": 247,
"ky": 248,
"ep": 249,
"ds": 250,
"qt": 251,
"rp": 252,
"hh": 253,
"qn": 254,
"gva": 255,
"gra": 256,
"dy": 257,
"qp": 258,
"kp": 259,
"dt": 260,
"em": 261,
"lia": 262,
"vva": 263,
"vll": 264,
"dh": 265,
"rt": 266,
"dn": 267,
"qk": 268,
"iy": 269,
"grr": 270,
"sw": 271,
"ft": 272,
"glv": 273,
"glg": 274,
"fn": 275,
"sc": 276,
"mi": 277,
"rh": 278,
"qh": 279,
"rv": 280,
"ey": 281,
"dk": 282,
"ip": 283,
"ik": 284,
"qv": 285,
"pw": 286,
"saa": 287,
"gvv": 288,
"km": 289,
"fy": 290,
"rn": 291,
"tw": 292,
"ih": 293,
"qy": 294,
"taa": 295,
"kh": 296,
"ny": 297,
"rar": 298,
"llr": 299,
"gsa": 300,
"vlv": 301,
"vga": 302,
"qm": 303,
"glr": 304,
"gls": 305,
"ggr": 306,
"ns": 307,
"np": 308,
"dm": 309,
"glp": 310,
"kv": 311,
"iq": 312,
"fv": 313,
"nt": 314,
"yy": 315,
"fh": 316,
"lfa": 317,
"gar": 318,
"gta": 319,
"eaa": 320,
"dw": 321,
"lka": 322,
"lqa": 323,
"hp": 324,
"tc": 325,
"vlg": 326,
"gpa": 327,
"iaa": 328,
"daa": 329,
"gia": 330,
"var": 331,
"lae": 332,
"vgg": 333,
"ler": 334,
"gld": 335,
"gda": 336,
"pc": 337,
"glt": 338,
"gea": 339,
"nq": 340,
"im": 341,
"hf": 342,
"sll": 343,
"lgr": 344,
"lad": 345,
"vra": 346,
"nk": 347,
"gss": 348,
"fp": 349,
"fq": 350,
"xm": 351,
"yi": 352,
"sla": 353,
"par": 354,
"hi": 355,
"yt": 356,
"mt": 357,
"ys": 358,
"rk": 359,
"pga": 360,
"yn": 361,
"me": 362,
"fk": 363,
"pll": 364,
"md": 365,
"sga": 366,
"sgg": 367,
"gle": 368,
"vrr": 369,
"vlr": 370,
"ger": 371,
"vld": 372,
"tla": 373,
"ew": 374,
"vsa": 375,
"vda": 376,
"vea": 377,
"yq": 378,
"vta": 379,
"nh": 380,
"vpa": 381,
"cd": 382,
"lld": 383,
"pla": 384,
"mk": 385,
"tga": 386,
"lna": 387,
"ms": 388,
"pgg": 389,
"lvr": 390,
"hq": 391,
"wi": 392,
"ppa": 393,
"vls": 394,
"ldr": 395,
"pva": 396,
"gli": 397,
"ela": 398,
"ell": 399
},
"merges": [
"a a",
"l l",
"l a",
"g g",
"r r",
"v a",
"g a",
"r a",
"l v",
"p a",
"l g",
"s a",
"l r",
"e a",
"v v",
"d a",
"t a",
"l s",
"l p",
"i a",
"g r",
"l d",
"l e",
"s s",
"g v",
"l t",
"g s",
"e r",
"g t",
"g d",
"p p",
"l i",
"v r",
"g e",
"q a",
"f a",
"l k",
"v t",
"v s",
"g i",
"v d",
"v e",
"l f",
"p r",
"k a",
"d r",
"p s",
"l q",
"e e",
"t t",
"g k",
"n a",
"s r",
"p d",
"v i",
"p e",
"g f",
"l n",
"p t",
"g q",
"h a",
"s t",
"d d",
"q r",
"g p",
"e i",
"y a",
"k k",
"g n",
"l h",
"v p",
"t r",
"v f",
"s i",
"m a",
"d e",
"l y",
"aa a",
"i r",
"v k",
"g y",
"t s",
"t i",
"k r",
"v n",
"g h",
"v q",
"s d",
"s e",
"s f",
"i e",
"i d",
"l m",
"h r",
"f r",
"l aa",
"s p",
"t d",
"k e",
"t e",
"n r",
"f d",
"t p",
"y r",
"g m",
"k i",
"q q",
"p i",
"f f",
"p v",
"k d",
"c a",
"s n",
"e d",
"g w",
"s q",
"s v",
"l w",
"t f",
"p q",
"r e",
"ll a",
"t v",
"s k",
"p f",
"i i",
"e q",
"t n",
"l c",
"r d",
"v h",
"p n",
"v y",
"v g",
"k n",
"d i",
"t q",
"f e",
"w a",
"m r",
"s y",
"q i",
"p k",
"e k",
"g c",
"g aa",
"n i",
"v m",
"t h",
"t k",
"y d",
"f i",
"n d",
"s h",
"r i",
"p h",
"l rr",
"q e",
"l va",
"v aa",
"t y",
"gg a",
"q d",
"s g",
"w r",
"l ga",
"p y",
"p g",
"l ra",
"v c",
"n n",
"s m",
"h d",
"rr a",
"la r",
"n e",
"k q",
"c r",
"l gg",
"t g",
"d f",
"t m",
"aa r",
"y e",
"rr r",
"f s",
"h e",
"l pa",
"p m",
"i f",
"d q",
"i s",
"g la",
"l sa",
"v la",
"n f",
"l da",
"v w",
"r s",
"p aa",
"k s",
"e f",
"k t",
"r q",
"e t",
"y f",
"k f",
"l ea",
"i n",
"g ll",
"d v",
"e n",
"e s",
"l ta",
"i t",
"e v",
"e h",
"d p",
"i v",
"q f",
"r f",
"q s",
"k y",
"e p",
"d s",
"q t",
"r p",
"h h",
"q n",
"g va",
"g ra",
"d y",
"q p",
"k p",
"d t",
"e m",
"l ia",
"v va",
"v ll",
"d h",
"r t",
"d n",
"q k",
"i y",
"g rr",
"s w",
"f t",
"g lv",
"g lg",
"f n",
"s c",
"m i",
"r h",
"q h",
"r v",
"e y",
"d k",
"i p",
"i k",
"q v",
"p w",
"s aa",
"g vv",
"k m",
"f y",
"r n",
"t w",
"i h",
"q y",
"t aa",
"k h",
"n y",
"ra r",
"ll r",
"g sa",
"v lv",
"v ga",
"q m",
"g lr",
"g ls",
"gg r",
"n s",
"n p",
"d m",
"g lp",
"k v",
"i q",
"f v",
"n t",
"y y",
"f h",
"l fa",
"ga r",
"g ta",
"e aa",
"d w",
"lk a",
"l qa",
"h p",
"t c",
"v lg",
"g pa",
"i aa",
"d aa",
"g ia",
"va r",
"la e",
"v gg",
"le r",
"g ld",
"g da",
"p c",
"g lt",
"g ea",
"n q",
"i m",
"h f",
"s ll",
"lg r",
"la d",
"v ra",
"n k",
"g ss",
"f p",
"f q",
"x m",
"y i",
"s la",
"pa r",
"h i",
"y t",
"m t",
"y s",
"r k",
"p ga",
"y n",
"m e",
"f k",
"p ll",
"m d",
"s ga",
"s gg",
"g le",
"v rr",
"v lr",
"g er",
"v ld",
"t la",
"e w",
"v sa",
"v da",
"v ea",
"y q",
"v ta",
"n h",
"v pa",
"c d",
"ll d",
"p la",
"m k",
"t ga",
"l na",
"m s",
"p gg",
"lv r",
"h q",
"w i",
"p pa",
"v ls",
"ld r",
"p va",
"g li",
"e la",
"e ll"
]
}
}