BanglaLM / tokenizer_mappings.json
Kowshik24's picture
tokenikzer added
b20bc7d
{
"stoi": {
"\n": 0,
" ": 1,
"!": 2,
"\"": 3,
"#": 4,
"$": 5,
"%": 6,
"'": 7,
"(": 8,
")": 9,
"*": 10,
"+": 11,
",": 12,
"-": 13,
".": 14,
"/": 15,
"0": 16,
"1": 17,
"2": 18,
"3": 19,
"4": 20,
"5": 21,
"6": 22,
"7": 23,
"8": 24,
"9": 25,
":": 26,
";": 27,
"=": 28,
">": 29,
"?": 30,
"@": 31,
"A": 32,
"B": 33,
"C": 34,
"D": 35,
"E": 36,
"F": 37,
"G": 38,
"H": 39,
"I": 40,
"J": 41,
"K": 42,
"L": 43,
"M": 44,
"N": 45,
"O": 46,
"P": 47,
"Q": 48,
"R": 49,
"S": 50,
"T": 51,
"U": 52,
"V": 53,
"W": 54,
"X": 55,
"Y": 56,
"Z": 57,
"[": 58,
"]": 59,
"_": 60,
"`": 61,
"a": 62,
"b": 63,
"c": 64,
"d": 65,
"e": 66,
"f": 67,
"g": 68,
"h": 69,
"i": 70,
"j": 71,
"k": 72,
"l": 73,
"m": 74,
"n": 75,
"o": 76,
"p": 77,
"q": 78,
"r": 79,
"s": 80,
"t": 81,
"u": 82,
"v": 83,
"w": 84,
"x": 85,
"y": 86,
"z": 87,
"{": 88,
"|": 89,
"}": 90,
"~": 91,
"”": 92,
"£": 93,
"­": 94,
"°": 95,
"²": 96,
"´": 97,
"·": 98,
"é": 99,
"ï": 100,
"М": 101,
"П": 102,
"а": 103,
"б": 104,
"в": 105,
"г": 106,
"е": 107,
"ж": 108,
"з": 109,
"и": 110,
"й": 111,
"к": 112,
"л": 113,
"м": 114,
"н": 115,
"о": 116,
"п": 117,
"р": 118,
"с": 119,
"т": 120,
"у": 121,
"ф": 122,
"х": 123,
"ч": 124,
"ш": 125,
"ы": 126,
"ь": 127,
"ю": 128,
"я": 129,
"।": 130,
"ঁ": 131,
"ং": 132,
"ঃ": 133,
"অ": 134,
"আ": 135,
"ই": 136,
"ঈ": 137,
"উ": 138,
"ঊ": 139,
"ঋ": 140,
"এ": 141,
"ঐ": 142,
"ও": 143,
"ঔ": 144,
"ক": 145,
"খ": 146,
"গ": 147,
"ঘ": 148,
"ঙ": 149,
"চ": 150,
"ছ": 151,
"জ": 152,
"ঝ": 153,
"ঞ": 154,
"ট": 155,
"ঠ": 156,
"ড": 157,
"ঢ": 158,
"ণ": 159,
"ত": 160,
"থ": 161,
"দ": 162,
"ধ": 163,
"ন": 164,
"প": 165,
"ফ": 166,
"ব": 167,
"ভ": 168,
"ম": 169,
"য": 170,
"র": 171,
"ল": 172,
"শ": 173,
"ষ": 174,
"স": 175,
"হ": 176,
"়": 177,
"া": 178,
"ি": 179,
"ী": 180,
"ু": 181,
"ূ": 182,
"ৃ": 183,
"ে": 184,
"ৈ": 185,
"ো": 186,
"ৌ": 187,
"্": 188,
"ৎ": 189,
"ৗ": 190,
"ড়": 191,
"য়": 192,
"ৠ": 193,
"০": 194,
"১": 195,
"২": 196,
"৩": 197,
"৪": 198,
"৫": 199,
"৬": 200,
"৭": 201,
"৮": 202,
"৯": 203,
"ৰ": 204,
"ৱ": 205,
"৷": 206,
"৻": 207,
"‌": 208,
"‍": 209,
"‏": 210,
"–": 211,
"—": 212,
"‘": 213,
"’": 214,
"“": 215,
"”": 216,
"•": 217,
"…": 218,
"": 219,
"😂": 220,
"😅": 221,
"😜": 222,
"😡": 223,
"😰": 224
},
"itos": {
"0": "\n",
"1": " ",
"2": "!",
"3": "\"",
"4": "#",
"5": "$",
"6": "%",
"7": "'",
"8": "(",
"9": ")",
"10": "*",
"11": "+",
"12": ",",
"13": "-",
"14": ".",
"15": "/",
"16": "0",
"17": "1",
"18": "2",
"19": "3",
"20": "4",
"21": "5",
"22": "6",
"23": "7",
"24": "8",
"25": "9",
"26": ":",
"27": ";",
"28": "=",
"29": ">",
"30": "?",
"31": "@",
"32": "A",
"33": "B",
"34": "C",
"35": "D",
"36": "E",
"37": "F",
"38": "G",
"39": "H",
"40": "I",
"41": "J",
"42": "K",
"43": "L",
"44": "M",
"45": "N",
"46": "O",
"47": "P",
"48": "Q",
"49": "R",
"50": "S",
"51": "T",
"52": "U",
"53": "V",
"54": "W",
"55": "X",
"56": "Y",
"57": "Z",
"58": "[",
"59": "]",
"60": "_",
"61": "`",
"62": "a",
"63": "b",
"64": "c",
"65": "d",
"66": "e",
"67": "f",
"68": "g",
"69": "h",
"70": "i",
"71": "j",
"72": "k",
"73": "l",
"74": "m",
"75": "n",
"76": "o",
"77": "p",
"78": "q",
"79": "r",
"80": "s",
"81": "t",
"82": "u",
"83": "v",
"84": "w",
"85": "x",
"86": "y",
"87": "z",
"88": "{",
"89": "|",
"90": "}",
"91": "~",
"92": "”",
"93": "£",
"94": "­",
"95": "°",
"96": "²",
"97": "´",
"98": "·",
"99": "é",
"100": "ï",
"101": "М",
"102": "П",
"103": "а",
"104": "б",
"105": "в",
"106": "г",
"107": "е",
"108": "ж",
"109": "з",
"110": "и",
"111": "й",
"112": "к",
"113": "л",
"114": "м",
"115": "н",
"116": "о",
"117": "п",
"118": "р",
"119": "с",
"120": "т",
"121": "у",
"122": "ф",
"123": "х",
"124": "ч",
"125": "ш",
"126": "ы",
"127": "ь",
"128": "ю",
"129": "я",
"130": "।",
"131": "ঁ",
"132": "ং",
"133": "ঃ",
"134": "অ",
"135": "আ",
"136": "ই",
"137": "ঈ",
"138": "উ",
"139": "ঊ",
"140": "ঋ",
"141": "এ",
"142": "ঐ",
"143": "ও",
"144": "ঔ",
"145": "ক",
"146": "খ",
"147": "গ",
"148": "ঘ",
"149": "ঙ",
"150": "চ",
"151": "ছ",
"152": "জ",
"153": "ঝ",
"154": "ঞ",
"155": "ট",
"156": "ঠ",
"157": "ড",
"158": "ঢ",
"159": "ণ",
"160": "ত",
"161": "থ",
"162": "দ",
"163": "ধ",
"164": "ন",
"165": "প",
"166": "ফ",
"167": "ব",
"168": "ভ",
"169": "ম",
"170": "য",
"171": "র",
"172": "ল",
"173": "শ",
"174": "ষ",
"175": "স",
"176": "হ",
"177": "়",
"178": "া",
"179": "ি",
"180": "ী",
"181": "ু",
"182": "ূ",
"183": "ৃ",
"184": "ে",
"185": "ৈ",
"186": "ো",
"187": "ৌ",
"188": "্",
"189": "ৎ",
"190": "ৗ",
"191": "ড়",
"192": "য়",
"193": "ৠ",
"194": "০",
"195": "১",
"196": "২",
"197": "৩",
"198": "৪",
"199": "৫",
"200": "৬",
"201": "৭",
"202": "৮",
"203": "৯",
"204": "ৰ",
"205": "ৱ",
"206": "৷",
"207": "৻",
"208": "‌",
"209": "‍",
"210": "‏",
"211": "–",
"212": "—",
"213": "‘",
"214": "’",
"215": "“",
"216": "”",
"217": "•",
"218": "…",
"219": "",
"220": "😂",
"221": "😅",
"222": "😜",
"223": "😡",
"224": "😰"
}
}