Spaces:
Running
Running
add more tokenizers
Browse files- stats/character_stats.json +114 -0
- stats/compression_rate.json +648 -0
- vocab.py +12 -2
stats/character_stats.json
CHANGED
@@ -1803,5 +1803,119 @@
|
|
1803 |
"len(ja-kana)": "1,4,16",
|
1804 |
"num(ko)": 384,
|
1805 |
"len(ko)": "1,1,1"
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1806 |
}
|
1807 |
}
|
|
|
1803 |
"len(ja-kana)": "1,4,16",
|
1804 |
"num(ko)": 384,
|
1805 |
"len(ko)": "1,1,1"
|
1806 |
+
},
|
1807 |
+
"01-ai/Yi-1.5-34B": {
|
1808 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/01-ai/Yi-1.5-34B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Yi-1.5-34B</a>",
|
1809 |
+
"organization": "Yi",
|
1810 |
+
"vocab_size": 63992,
|
1811 |
+
"num(digit)": 195,
|
1812 |
+
"len(digit)": "1,13,13",
|
1813 |
+
"num(space)": 43,
|
1814 |
+
"len(space)": "1,2,15",
|
1815 |
+
"num(ar)": 18,
|
1816 |
+
"len(ar)": "1,1,4",
|
1817 |
+
"num(zh)": 21350,
|
1818 |
+
"len(zh)": "1,2,12",
|
1819 |
+
"num(ja)": 21401,
|
1820 |
+
"len(ja)": "1,2,12",
|
1821 |
+
"num(ja-kana)": 51,
|
1822 |
+
"len(ja-kana)": "1,1,2",
|
1823 |
+
"num(ko)": 28,
|
1824 |
+
"len(ko)": "1,1,2"
|
1825 |
+
},
|
1826 |
+
"Qwen/Qwen2-72B": {
|
1827 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-72B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-72B</a>",
|
1828 |
+
"organization": "Alibaba",
|
1829 |
+
"vocab_size": 151646,
|
1830 |
+
"num(digit)": 10,
|
1831 |
+
"len(digit)": "1,1,1",
|
1832 |
+
"num(space)": 55883,
|
1833 |
+
"len(space)": "1,6,128",
|
1834 |
+
"num(ar)": 4018,
|
1835 |
+
"len(ar)": "1,3,12",
|
1836 |
+
"num(zh)": 25557,
|
1837 |
+
"len(zh)": "1,2,7",
|
1838 |
+
"num(ja)": 27206,
|
1839 |
+
"len(ja)": "1,2,11",
|
1840 |
+
"num(ja-kana)": 2089,
|
1841 |
+
"len(ja-kana)": "1,3,11",
|
1842 |
+
"num(ko)": 3495,
|
1843 |
+
"len(ko)": "1,1,5"
|
1844 |
+
},
|
1845 |
+
"apple/DCLM-7B": {
|
1846 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/apple/DCLM-7B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DCLM-7B</a>",
|
1847 |
+
"organization": "Apple",
|
1848 |
+
"vocab_size": 50277,
|
1849 |
+
"num(digit)": 2036,
|
1850 |
+
"len(digit)": "1,3,35",
|
1851 |
+
"num(space)": 28996,
|
1852 |
+
"len(space)": "1,7,512",
|
1853 |
+
"num(ar)": 94,
|
1854 |
+
"len(ar)": "1,2,4",
|
1855 |
+
"num(zh)": 313,
|
1856 |
+
"len(zh)": "1,1,2",
|
1857 |
+
"num(ja)": 480,
|
1858 |
+
"len(ja)": "1,1,4",
|
1859 |
+
"num(ja-kana)": 167,
|
1860 |
+
"len(ja-kana)": "1,1,4",
|
1861 |
+
"num(ko)": 25,
|
1862 |
+
"len(ko)": "1,1,2"
|
1863 |
+
},
|
1864 |
+
"google/gemma-2-9b": {
|
1865 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/google/gemma-2-9b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gemma-2-9b</a>",
|
1866 |
+
"organization": "Google",
|
1867 |
+
"vocab_size": 256000,
|
1868 |
+
"num(digit)": 134,
|
1869 |
+
"len(digit)": "1,10,12",
|
1870 |
+
"num(space)": 125662,
|
1871 |
+
"len(space)": "1,7,31",
|
1872 |
+
"num(ar)": 6274,
|
1873 |
+
"len(ar)": "1,4,15",
|
1874 |
+
"num(zh)": 23767,
|
1875 |
+
"len(zh)": "1,2,12",
|
1876 |
+
"num(ja)": 28852,
|
1877 |
+
"len(ja)": "1,2,12",
|
1878 |
+
"num(ja-kana)": 7061,
|
1879 |
+
"len(ja-kana)": "1,3,12",
|
1880 |
+
"num(ko)": 2295,
|
1881 |
+
"len(ko)": "1,1,5"
|
1882 |
+
},
|
1883 |
+
"meta-llama/Meta-Llama-3.1-405B": {
|
1884 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/meta-llama/Meta-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">llama3.1</a>",
|
1885 |
+
"organization": "Meta",
|
1886 |
+
"vocab_size": 128256,
|
1887 |
+
"num(digit)": 1110,
|
1888 |
+
"len(digit)": "1,3,3",
|
1889 |
+
"num(space)": 60860,
|
1890 |
+
"len(space)": "1,6,128",
|
1891 |
+
"num(ar)": 3810,
|
1892 |
+
"len(ar)": "1,4,11",
|
1893 |
+
"num(zh)": 4424,
|
1894 |
+
"len(zh)": "1,1,7",
|
1895 |
+
"num(ja)": 5387,
|
1896 |
+
"len(ja)": "1,2,8",
|
1897 |
+
"num(ja-kana)": 1086,
|
1898 |
+
"len(ja-kana)": "1,2,8",
|
1899 |
+
"num(ko)": 2281,
|
1900 |
+
"len(ko)": "1,2,6"
|
1901 |
+
},
|
1902 |
+
"mistralai/Mistral-Large-Instruct-2407": {
|
1903 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/mistralai/Mistral-Large-Instruct-2407\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Mistral-Large-Instruct-2407</a>",
|
1904 |
+
"organization": "Mistral",
|
1905 |
+
"vocab_size": 32768,
|
1906 |
+
"num(digit)": 775,
|
1907 |
+
"len(digit)": "1,13,18",
|
1908 |
+
"num(space)": 15823,
|
1909 |
+
"len(space)": "1,6,16",
|
1910 |
+
"num(ar)": 71,
|
1911 |
+
"len(ar)": "1,1,3",
|
1912 |
+
"num(zh)": 1459,
|
1913 |
+
"len(zh)": "1,1,2",
|
1914 |
+
"num(ja)": 1593,
|
1915 |
+
"len(ja)": "1,1,2",
|
1916 |
+
"num(ja-kana)": 134,
|
1917 |
+
"len(ja-kana)": "1,1,1",
|
1918 |
+
"num(ko)": 346,
|
1919 |
+
"len(ko)": "1,1,1"
|
1920 |
}
|
1921 |
}
|
stats/compression_rate.json
CHANGED
@@ -9610,5 +9610,653 @@
|
|
9610 |
"oov_ratio": 0.7118713655580824,
|
9611 |
"_oov_charset": "[\"윈\", \"드\", \"싣\", \"譯\", \"칵\", \"섯\", \"🥁\", \"미\", \"을\", \"펌\", \"싶\", \"퀘\", \"뭇\", \"묘\", \"폭\", \"룡\", \"^\", \"훔\", \"츈\", \"😗\", \"ㅙ\", \"Ⅲ\", \"잣\", \"른\", \"밀\", \"및\", \"근\", \"붉\", \"훑\", \"액\", \"껍\", \"參\", \"샴\", \"린\", \"업\", \"맙\", \"빵\", \"힐\", \"쫀\", \"푹\", \"꺽\", \"얻\", \"└\", \"Ⅹ\", \"믐\", \"쁨\", \"궤\", \"남\", \"햇\", \"숲\", \"밋\", \"ㅁ\", \"유\", \"늘\", \"뵙\", \"돼\", \"네\", \"쥔\", \"은\", \"넨\", \"듭\", \"륜\", \"특\", \"룹\", \"댈\", \"ㅕ\", \"️\", \"힘\", \"핏\", \"억\", \"겁\", \"딜\", \"榮\", \"🍞\", \"깥\", \"ᴄ\", \"앨\", \"위\", \"푼\", \"툼\", \"콩\", \"왼\", \"뗀\", \"음\", \"결\", \"專\", \"낮\", \"ㄱ\", \"구\", \"⁴\", \"작\", \"눔\", \"♣\", \"金\", \"禮\", \"◦\", \"팀\", \"\", \"넓\", \"☞\", \"쬐\", \"ㅇ\", \"경\", \"득\", \"덥\", \"쩌\", \"㉰\", \"벚\", \"쪄\", \"얍\", \"켓\", \"닫\", \"송\", \"💸\", \"톤\", \"혀\", \"卽\", \"폼\", \"듯\", \"팥\", \"멜\", \"포\", \"읽\", \"맵\", \"굉\", \"껏\", \"괄\", \"셀\", \"속\", \"잎\", \"촨\", \"다\", \"례\", \"킵\", \"듣\", \"펀\", \"⋅\", \"컴\", \"?\", \"친\", \"풀\", \"ã\", \"챗\", \"짱\", \"목\", \"겟\", \"넣\", \"랬\", \"🤕\", \"란\", \"온\", \"튿\", \"ㅓ\", \"쌍\", \"같\", \"본\", \"Ⅰ\", \"벨\", \"이\", \"승\", \"죤\", \"앰\", \"밧\", \"칫\", \"쓰\", \"먼\", \"뿔\", \"픈\", \"투\", \"련\", \"로\", \"즙\", \"객\", \"뻔\", \"잇\", \"놓\", \"콰\", \"캄\", \"륭\", \"팡\", \"맴\", \"긁\", \"싱\", \"좋\", \"👍\", \"북\", \"쉘\", \"틋\", \"갖\", \"증\", \"쌀\", \"뒷\", \"캔\", \"펩\", \"뵐\", \"풋\", \"➎\", \"밍\", \"렘\", \"👋\", \"표\", \"럼\", \"쐐\", \"손\", \"덴\", \"묻\", \"훠\", \"꺼\", \"밌\", \"뛰\", \"마\", \"협\", \"맨\", \"잊\", \"휘\", \"격\", \"②\", \"➊\", \"눕\", \"낍\", \"벳\", \"ㅈ\", \"냄\", \"햄\", \"펑\", \"♧\", \"갭\", \"멤\", \"디\", \"캣\", \"춘\", \"뜯\", \"팟\", \"낱\", \"각\", \"◆\", \"뽐\", \"뭘\", \"깽\", \"뉘\", \"빕\", \"텔\", \"용\", \"준\", \"빔\", \"쾅\", \"ㅜ\", \"에\", \"밝\", \"뜹\", \"며\", \"록\", \"눌\", \"왜\", \"ㅎ\", \"ㅍ\", \"념\", \"뭐\", \"그\", \"러\", \"텍\", \"옷\", \"곳\", \"테\", \"엇\", \"믿\", \"룩\", \"뭔\", \"💰\", \"만\", \"燭\", \"즘\", \"끄\", \"섬\", \"염\", \"럭\", \"명\", \"왁\", \"엡\", \"섣\", \"↓\", \"슨\", \"랄\", \"ㅠ\", \"눅\", \"즉\", \"빛\", \"치\", \"호\", \"찰\", \"별\", \"성\", \"핸\", \"씌\", \"식\", \"촘\", \"♀\", \"떤\", \"딱\", \"완\", \"⑥\", \"왕\", \"샷\", \"꾸\", \"시\", \"섰\", \"설\", \"씨\", \"얇\", \"냐\", \"뽀\", \"♥\", \"힉\", \"슝\", \"듬\", \"최\", \"🦄\", \"향\", \"숫\", \"잴\", \"케\", \"떄\", \"팎\", \"합\", \"몸\", \"ㅊ\", \"옥\", \"애\", \"춤\", \"쾨\", \"찜\", \"맞\", \"현\", \"수\", \"카\", \"땐\", \"암\", \"갱\", \"꺄\", \"힌\", \"볕\", \"戌\", \"뜩\", \"낌\", \"짙\", \"삿\", \"짖\", \"💡\", \"베\", \"져\", \"뜬\", \"삘\", \"∮\", \"씹\", \"웨\", \"횡\", \"팅\", \"막\", \"떳\", \"끊\", \"웁\", \"딛\", \"보\", \"챌\", \"롯\", \"♡\", \"릿\", \"눴\", \"난\", \"력\", \"곶\", \"패\", \"많\", \"바\", \"센\", \"캉\", \"게\", \"춧\", \"창\", \"탰\", \"」\", \"병\", \"므\", \"없\", \"깜\", \"黃\", \"쏟\", \"쳇\", \"맡\", \"홉\", \"안\", \"당\", \"언\", \"겐\", \"찔\", \"궜\", \"좆\", \"꽂\", \"홈\", \"돌\", \"쉴\", \"둔\", \"광\", \"렐\", \"緞\", \"몽\", \"죄\", \"습\", \"루\", \"좁\", \"상\", \"濟\", \"솜\", \"틈\", \"€\", \"워\", \"닐\", \"퀵\", \"댄\", \"낳\", \"밟\", \"⑸\", \"쥰\", \"플\", \"튬\", \"뷰\", \"겸\", \"괜\", \"굿\", \"줬\", \"휙\", \"역\", \"»\", \"≤\", \"∙\", \"끌\", \"吳\", \"텅\", \"채\", \"렴\", \"겨\", \"곽\", \"파\", \"첫\", \"공\", \"겹\", \"야\", \"藥\", \"對\", \"짚\", \"기\", \"뎀\", \"屠\", \"끼\", \"짠\", \"슬\", \"쏭\", \"깁\", \"또\", \"콕\", \"티\", \"꿨\", \"션\", \"첼\", \"싹\", \"🦅\", \"◼\", \"김\", \"뉜\", \"얕\", \"뒀\", \"롱\", \"둬\", \"휠\", \"ㅞ\", \"삽\", \"①\", \"렸\", \"�\", \"\", \"④\", \"함\", \"✔\", \"썸\", \"곱\", \"께\", \"똥\", \"늦\", \"ᴀ\", \"비\", \"중\", \"류\", \"웰\", \"將\", \"융\", \"환\", \"췄\", \"해\", \"콘\", \"女\", \"새\", \"💌\", \"쥐\", \"뻑\", \"섞\", \"홋\", \"ω\", \"쎄\", \"굶\", \"껑\", \"튜\", \"큰\", \"㎥\", \"잦\", \"폿\", \"멕\", \"샌\", \"듀\", \"척\", \"🗺\", \"쿵\", \"받\", \"밤\", \"▶\", \"걍\", \"썹\", \"빼\", \"았\", \"백\", \"런\", \"敎\", \"품\", \"길\", \"름\", \"원\", \"킨\", \"빤\", \"까\", \"랩\", \"ᴛ\", \"⑴\", \"걷\", \"섭\", \"릎\", \"짝\", \"꿰\", \"③\", \"⑨\", \"틱\", \"혐\", \"했\", \"는\", \"툴\", \"劍\", \"짭\", \"씩\", \"덮\", \"교\", \"문\", \"한\", \"딤\", \"끝\", \"취\", \"활\", \"琪\", \"큼\", \"탈\", \"빚\", \"옐\", \"☀\", \"ㄷ\", \"림\", \"둡\", \"군\", \"능\", \"롤\", \"빅\", \"불\", \"…\", \"촬\", \"전\", \"Ⅳ\", \"높\", \"셈\", \"샹\", \"淨\", \"흉\", \"뜰\", \"딴\", \"💕\", \"앱\", \"觸\", \"흩\", \"퇴\", \"켐\", \"들\", \"냥\", \"꿍\", \"➋\", \"족\", \"롬\", \"둥\", \"←\", \"끽\", \"고\", \"끙\", \"꼴\", \"갚\", \"ㅒ\", \"찮\", \"쇼\", \"항\", \"ㅔ\", \"양\", \"쎈\", \"燦\", \"무\", \"롸\", \"행\", \"말\", \"□\", \"ㅚ\", \"브\", \"둠\", \"때\", \"꿔\", \"뤄\", \"쿠\", \"셋\", \"익\", \"릴\", \"깨\", \"빴\", \"經\", \"꿈\", \"궁\", \"쫓\", \"槪\", \"대\", \"묶\", \"렬\", \"든\", \"낀\", \"셨\", \"內\", \"🔹\", \"램\", \"쩔\", \"레\", \"밸\", \"앎\", \"윌\", \"평\", \"뀔\", \"곧\", \"앤\", \"씀\", \"텐\", \"좀\", \"셔\", \"쉼\", \"략\", \"범\", \"횟\", \"낭\", \"쟤\", \"옌\", \"납\", \"려\", \"퍙\", \"쁠\", \"악\", \"웖\", \"\", \"숭\", \"〮\", \"썰\", \"탭\", \"트\", \"졸\", \"띈\", \"긋\", \"릇\", \"아\", \"랭\", \"됐\", \"예\", \"갤\", \"찬\", \"초\", \"假\", \"켰\", \"민\", \"쨌\", \"홍\", \"않\", \"갯\", \"갑\", \"켠\", \"ㅑ\", \"悧\", \"🍕\", \"리\", \"거\", \"렜\", \"뺐\", \"귈\", \"혼\", \"숱\", \"첨\", \"➍\", \"간\", \"녜\", \"덩\", \"얘\", \"허\", \"딪\", \"뮐\", \"캠\", \"꼭\", \"賣\", \"🤔\", \"똑\", \"🏫\", \"래\", \"💥\", \"훗\", \"㉿\", \"곡\", \"킁\", \"돠\", \"👨\", \"뻗\", \"낡\", \"탓\", \"關\", \"회\", \"됩\", \"댔\", \"젠\", \"열\", \"훌\", \"價\", \"혔\", \"섹\", \"펼\", \"핵\", \"숍\", \"법\", \"빌\", \"릅\", \"임\", \"꾼\", \"탑\", \"휩\", \"데\", \"理\", \"된\", \"헨\", \"옹\", \"ㅖ\", \"앵\", \"짬\", \"쁜\", \"뿍\", \"쩐\", \"옛\", \"㉠\", \"쯤\", \"좌\", \"ㅟ\", \"ㅆ\", \"땅\", \"❏\", \"녕\", \"흑\", \"⬇\", \"어\", \"씬\", \"관\", \"솥\", \"發\", \"닙\", \"돈\", \"팝\", \"累\", \"퓰\", \"봤\", \"홀\", \"냉\", \"움\", \"좇\", \"욱\", \"쫑\", \"컷\", \"캘\", \"탐\", \"s\", \"굽\", \"응\", \"앉\", \"휴\", \"큽\", \"싫\", \"줘\", \"톨\", \"識\", \"님\", \"퀄\", \"라\", \"헝\", \"짧\", \"참\", \"흠\", \"ᴇ\", \"생\", \"뚜\", \"컵\", \"꿕\", \"ᴍ\", \"맑\", \"「\", \"췌\", \"희\", \"왘\", \"戮\", \"닷\", \"넉\", \"渴\", \"감\", \"²\", \"킥\", \"눈\", \"댁\", \"힙\", \"꺾\", \"겠\", \"🤗\", \"클\", \"폄\", \"쫒\", \"꽁\", \"첸\", \"빠\", \"박\", \"뤘\", \"켜\", \"跏\", \"샬\", \"곁\", \"릉\", \"동\", \"번\", \"랍\", \"측\", \"뮬\", \"띠\", \"\", \"저\", \"빈\", \"뾱\", \"궈\", \"훼\", \"😊\", \"ⅲ\", \"얏\", \"퓨\", \"℃\", \"꿀\", \"컨\", \"듐\", \"배\", \"갈\", \"났\", \"몇\", \"뛴\", \"처\", \"폰\", \"*\", \"렌\", \"\", \"땡\", \"잘\", \"턱\", \"픔\", \"꽉\", \"샤\", \"⑵\", \"🙆\", \"균\", \"獻\", \"낄\", \"뱃\", \"즐\", \"닭\", \"청\", \"숙\", \"悖\", \"붐\", \"연\", \"쁘\", \"➌\", \"옆\", \"락\", \"낚\", \"켈\", \"크\", \"삭\", \"▼\", \"죽\", \"쓸\", \"제\", \"택\", \"븐\", \"질\", \"팔\", \"확\", \"🏻\", \"요\", \"流\", \"직\", \"턴\", \"뺑\", \"깝\", \"울\", \"핑\", \"`\", \"앗\", \"곰\", \"껴\", \"적\", \"놨\", \"여\", \"◎\", \"엠\", \"맷\", \"歲\", \"퍼\", \"%\", \"피\", \"ɪ\", \"커\", \"|\", \"땠\", \"끓\", \"꿇\", \"💅\", \"헉\", \"깐\", \"웅\", \"◀\", \"헤\", \"땀\", \"앓\", \"맹\", \"띄\", \"닮\", \"춥\", \"ㅢ\", \"깊\", \"세\", \"일\", \"뿌\", \"됬\", \"璣\", \"룬\", \"실\", \"귀\", \"鎭\", \"툭\", \"면\", \"촉\", \"층\", \"ᴡ\", \"믄\", \"샀\", \"찼\", \"폐\", \"못\", \"낫\", \"쵸\", \"봬\", \"닳\", \"였\", \"멍\", \"헬\", \"팁\", \"퀸\", \"딩\", \"멈\", \"낸\", \"◐\", \"톰\", \"봄\", \"쌩\", \"더\", \"💦\", \"몫\", \"윙\", \"ᴏ\", \"튼\", \"쭉\", \"넷\", \"獨\", \"뿜\", \"튀\", \"쭈\", \"Ⅵ\", \"맘\", \"벅\", \"읍\", \"맥\", \"•\", \"탁\", \"얽\", \"➏\", \"소\", \"떻\", \"두\", \"렉\", \"봇\", \"잤\", \"韜\", \"탕\", \"홑\", \"히\", \"정\", \"늑\", \"걱\", \"쿤\", \"를\", \"닦\", \"썅\", \"쿨\", \"페\", \"헛\", \"살\", \"녘\", \"헐\", \"즈\", \"삼\", \"느\", \"톱\", \"됨\", \"릭\", \"괌\", \"💣\", \"주\", \"뢰\", \"뇌\", \"블\", \"㏊\", \"검\", \"돔\", \"률\", \"달\", \"흥\", \"ㆍ\", \"칭\", \"멘\", \"🤟\", \"건\", \"ㅅ\", \"🌵\", \"칼\", \"황\", \"ⓔ\", \"긍\", \"끗\", \"버\", \"쏙\", \"쐬\", \"앙\", \"댓\", \"흐\", \"끔\", \"樂\", \"ㅣ\", \"☎\", \"뀌\", \"쉽\", \"룸\", \"짢\", \"재\", \"웬\", \"德\", \"륨\", \"럿\", \"蟄\", \"등\", \"샵\", \"팩\", \"ㅘ\", \"변\", \"넬\", \"탄\", \"발\", \"🍟\", \"촌\", \"벤\", \"있\", \"썼\", \"흘\", \"랜\", \"諒\", \"줏\", \"딥\", \"😭\", \"조\", \"잔\", \"볍\", \"❤\", \"엔\", \"흰\", \"👏\", \"뎅\", \":\", \"육\", \"혹\", \"흡\", \"뤼\", \"꽤\", \"쌈\", \"룰\", \"㎡\", \"숏\", \"셸\", \"캐\", \"춰\", \"쭙\", \"꽝\", \"녹\", \"쏜\", \"◾\", \"후\", \"삣\", \"몬\", \"튄\", \"텝\", \"깅\", \"징\", \"널\", \"틴\", \"쑥\", \"혜\", \"것\", \"옮\", \"킹\", \"싼\", \"§\", \"권\", \"틀\", \"인\", \"슴\", \"렛\", \"툰\", \"뼈\", \"펜\", \"믹\", \"샐\", \"찍\", \"앞\", \"靑\", \"✈\", \"순\", \"🙇\", \"할\", \"®\", \"뛸\", \"쉰\", \"챔\", \"렀\", \"젖\", \"雙\", \"딘\", \"깡\", \"킬\", \"榜\", \"尤\", \"벙\", \"으\", \"옴\", \"찾\", \"월\", \"싸\", \"쪽\", \"픕\", \"몹\", \"날\", \"키\", \"立\", \"엄\", \"엌\", \"⑧\", \"탱\", \"뮌\", \"계\", \"칸\", \"닥\", \"따\", \"렵\", \"삶\", \"챨\", \"슈\", \"峴\", \"냠\", \"욜\", \"뇨\", \"⑦\", \"밖\", \"델\", \"흙\", \"떨\", \"뺏\", \"점\", \"의\", \"반\", \"통\", \"윤\", \"變\", \"터\", \"臺\", \"녀\", \"㎍\", \"쌓\", \"약\", \"↕\", \"넵\", \"젊\", \"오\", \"줄\", \"필\", \"‧\", \"잉\", \"도\", \"총\", \"쩍\", \"陸\", \"가\", \"졌\", \"형\", \"욕\", \"뚝\", \"ⅰ\", \"꽃\", \"돕\", \"쥬\", \"과\", \"넹\", \"착\", \"▣\", \"년\", \"梁\", \"🙌\", \"탠\", \"윗\", \"\", \"팹\", \"논\", \"르\", \"숯\", \"닿\", \"쉬\", \"ń\", \"훈\", \"방\", \"잃\", \"접\", \"Ⅷ\", \"혁\", \"쌉\", \"캇\", \"태\", \"론\", \"벵\", \"맺\", \"갔\", \"럴\", \"값\", \"옵\", \"편\", \"뼘\", \"ㅐ\", \"진\", \"흔\", \"켄\", \"겼\", \"효\", \"침\", \"쾌\", \"뮈\", \"쏘\", \"젝\", \"잰\", \"뮤\", \"🍔\", \"똘\", \"갛\", \"텨\", \"엿\", \"쫗\", \"템\", \"@\", \"힜\", \"핫\", \"솔\", \"젓\", \"엘\", \"‘\", \"떠\", \"↑\", \"절\", \"츄\", \"농\", \"딸\", \"옳\", \"팰\", \"볼\", \"너\", \"흄\", \"귤\", \"놔\", \"Ⅶ\", \"낯\", \"🌿\", \"던\", \"캡\", \"🤭\", \"부\", \"출\", \"얼\", \"럽\", \"픽\", \"팜\", \"칠\", \"딧\", \"웠\", \"멋\", \"▷\", \"켤\", \"넘\", \"⚀\", \"핀\", \"펄\", \"찌\", \"쳤\", \"ⓒ\", \"氣\", \"數\", \"뷔\", \"팠\", \"랴\", \"심\", \"올\", \"쨍\", \"쓕\", \"⇒\", \"솨\", \"종\", \"붓\", \"알\", \"핥\", \"ㅡ\", \"메\", \"극\", \"걔\", \"료\", \"飮\", \"壞\", \"먹\", \"돋\", \"타\", \"렷\", \"골\", \"짜\", \"쏠\", \"랑\", \"넥\", \"곤\", \"뭥\", \"떴\", \"독\", \"◑\", \"▒\", \"≫\", \"뜨\", \"선\", \"듈\", \"璿\", \"쟁\", \"蚩\", \"될\", \"樂\", \"굵\", \"닝\", \"띕\", \"붕\", \"틔\", \"걀\", \"誡\", \"엉\", \"曆\", \"🙋\", \"不\", \"큐\", \"떼\", \"❍\", \"ㅗ\", \"철\", \"맬\", \"늙\", \"싯\", \"국\", \"렁\", \"⑹\", \"밥\", \"망\", \"석\", \"뉴\", \"율\", \"贖\", \"둘\", \"나\", \"봉\", \"링\", \"산\", \"Ⅱ\", \"쳐\", \"趺\", \"쟈\", \"량\", \"텁\", \"엽\", \"㎞\", \"규\", \"🚿\", \"사\", \"깃\", \"밭\", \"靈\", \"코\", \"弛\", \"쫄\", \"차\", \"웹\", \"분\", \"뚫\", \"매\", \"쿄\", \"댐\", \"개\", \"욥\", \"줌\", \"닛\", \"🍎\", \"Ⅸ\", \"킌\", \"줍\", \"◇\", \"峙\", \"🍰\", \"노\", \"와\", \"龍\", \"쓴\", \"렇\", \"즌\", \"팬\", \"🚨\", \"셉\", \"돗\", \"술\", \"내\", \"🍭\", \"v\", \"↔\", \"었\", \"죠\", \"짤\", \"끈\", \"얹\", \"장\", \"스\", \"롭\", \"촛\", \"😂\", \"털\", \"풍\", \"칙\", \"◈\", \"쩡\", \"녔\", \"£\", \"넌\", \"훨\", \"꼬\", \"답\", \"벽\", \"ⅱ\", \"멀\", \"쪼\", \"몰\", \"모\", \"놈\", \"폈\", \"㉣\", \"천\", \"갓\", \"섦\", \"물\", \"찢\", \"잠\", \"콜\", \"험\", \"령\", \"륙\", \"셌\", \"\", \"겉\", \"눠\", \"빙\", \"셜\", \"십\", \"킷\", \"떡\", \"추\", \"츠\", \"외\", \"푸\", \"⊙\", \"›\", \"갉\", \"하\", \"덕\", \"폴\", \"띤\", \"누\", \"😣\", \"컬\", \"금\", \" \", \"낼\", \"덧\", \"괴\", \"밉\", \"뽑\", \"©\", \"헌\", \"뱀\", \"깔\", \"색\", \"짐\", \"잭\", \"걸\", \"쇠\", \"쿡\", \"숨\", \"俠\", \"읊\", \"낙\", \"說\", \"슐\", \"綃\", \"🌳\", \"토\", \"엣\", \"압\", \"첩\", \"꼽\", \"짊\", \"體\", \"擒\", \"벌\", \"ʏ\", \"ㅏ\", \"펙\", \"닌\", \"뒤\", \"충\", \"뜻\", \"︎\", \"퍽\", \"Ⅴ\", \"강\", \"쒀\", \"쿰\", \"늄\", \"지\", \"봐\", \"솟\", \"굴\", \"굳\", \"뻤\", \"⑤\", \"콤\", \"급\", \"뱉\", \"콥\", \"왠\", \"쇄\", \"≪\", \"봅\", \"단\", \"랐\", \"텀\", \"펠\", \"쯔\", \"화\", \"벼\", \"축\", \"良\", \"륵\", \"혈\", \"째\", \"핍\", \"폍\", \"뻐\", \"∼\", \"\", \"뜸\", \"뫼\", \"벗\", \"겔\", \"뿐\", \"훅\", \"ⅳ\", \"꼈\", \"람\", \"판\", \"견\", \"칩\", \"😱\", \"프\", \"퀀\", \"臀\", \"복\", \"겪\", \"잖\", \"운\", \"․\", \"궐\", \"집\", \"젤\", \"놀\", \"‥\", \"잡\", \" \", \"뺀\", \"존\", \"랙\", \"냈\", \"묵\", \"얀\", \"빳\", \"숟\", \"흗\", \"슷\", \"니\", \"웃\", \"립\", \"뀐\", \"샘\", \"녁\", \"엑\", \"컸\", \"긴\", \"왔\", \"획\", \"밴\", \"㈜\", \"\", \"¹\", \"빗\", \"튠\", \"붙\", \"뱅\", \"멸\", \"ㄹ\", \"劫\", \"덜\", \"⑶\", \"써\", \"삐\", \"잼\", \"덟\", \"뭉\", \"팍\", \"자\", \"탬\", \"♤\", \"ㅛ\", \"닉\", \"체\", \"틸\", \"서\", \"슛\", \"킴\", \"우\", \"글\", \"되\", \"짓\", \"맛\", \"담\", \"웍\", \"셰\", \"꾀\", \"썬\", \"학\", \"씽\", \"랫\", \"빡\", \"ʟ\", \"냅\", \"갇\", \"덤\", \"펴\", \"둑\", \"엮\", \"입\", \"퀴\", \"팽\", \"챙\", \"밑\", \"왓\", \"씻\", \"ㅋ\", \"拜\", \"넛\", \"퉁\", \"썩\", \"쑤\", \"🏷\", \"책\", \"엎\", \"ㄴ\", \"늬\", \"신\", \"볶\", \"머\", \"껀\", \"ㅝ\", \"쿼\", \"영\", \"빨\", \"얄\", \"톡\"]",
|
9612 |
"lossless": false
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
9613 |
}
|
9614 |
}
|
|
|
9610 |
"oov_ratio": 0.7118713655580824,
|
9611 |
"_oov_charset": "[\"윈\", \"드\", \"싣\", \"譯\", \"칵\", \"섯\", \"🥁\", \"미\", \"을\", \"펌\", \"싶\", \"퀘\", \"뭇\", \"묘\", \"폭\", \"룡\", \"^\", \"훔\", \"츈\", \"😗\", \"ㅙ\", \"Ⅲ\", \"잣\", \"른\", \"밀\", \"및\", \"근\", \"붉\", \"훑\", \"액\", \"껍\", \"參\", \"샴\", \"린\", \"업\", \"맙\", \"빵\", \"힐\", \"쫀\", \"푹\", \"꺽\", \"얻\", \"└\", \"Ⅹ\", \"믐\", \"쁨\", \"궤\", \"남\", \"햇\", \"숲\", \"밋\", \"ㅁ\", \"유\", \"늘\", \"뵙\", \"돼\", \"네\", \"쥔\", \"은\", \"넨\", \"듭\", \"륜\", \"특\", \"룹\", \"댈\", \"ㅕ\", \"️\", \"힘\", \"핏\", \"억\", \"겁\", \"딜\", \"榮\", \"🍞\", \"깥\", \"ᴄ\", \"앨\", \"위\", \"푼\", \"툼\", \"콩\", \"왼\", \"뗀\", \"음\", \"결\", \"專\", \"낮\", \"ㄱ\", \"구\", \"⁴\", \"작\", \"눔\", \"♣\", \"金\", \"禮\", \"◦\", \"팀\", \"\", \"넓\", \"☞\", \"쬐\", \"ㅇ\", \"경\", \"득\", \"덥\", \"쩌\", \"㉰\", \"벚\", \"쪄\", \"얍\", \"켓\", \"닫\", \"송\", \"💸\", \"톤\", \"혀\", \"卽\", \"폼\", \"듯\", \"팥\", \"멜\", \"포\", \"읽\", \"맵\", \"굉\", \"껏\", \"괄\", \"셀\", \"속\", \"잎\", \"촨\", \"다\", \"례\", \"킵\", \"듣\", \"펀\", \"⋅\", \"컴\", \"?\", \"친\", \"풀\", \"ã\", \"챗\", \"짱\", \"목\", \"겟\", \"넣\", \"랬\", \"🤕\", \"란\", \"온\", \"튿\", \"ㅓ\", \"쌍\", \"같\", \"본\", \"Ⅰ\", \"벨\", \"이\", \"승\", \"죤\", \"앰\", \"밧\", \"칫\", \"쓰\", \"먼\", \"뿔\", \"픈\", \"투\", \"련\", \"로\", \"즙\", \"객\", \"뻔\", \"잇\", \"놓\", \"콰\", \"캄\", \"륭\", \"팡\", \"맴\", \"긁\", \"싱\", \"좋\", \"👍\", \"북\", \"쉘\", \"틋\", \"갖\", \"증\", \"쌀\", \"뒷\", \"캔\", \"펩\", \"뵐\", \"풋\", \"➎\", \"밍\", \"렘\", \"👋\", \"표\", \"럼\", \"쐐\", \"손\", \"덴\", \"묻\", \"훠\", \"꺼\", \"밌\", \"뛰\", \"마\", \"협\", \"맨\", \"잊\", \"휘\", \"격\", \"②\", \"➊\", \"눕\", \"낍\", \"벳\", \"ㅈ\", \"냄\", \"햄\", \"펑\", \"♧\", \"갭\", \"멤\", \"디\", \"캣\", \"춘\", \"뜯\", \"팟\", \"낱\", \"각\", \"◆\", \"뽐\", \"뭘\", \"깽\", \"뉘\", \"빕\", \"텔\", \"용\", \"준\", \"빔\", \"쾅\", \"ㅜ\", \"에\", \"밝\", \"뜹\", \"며\", \"록\", \"눌\", \"왜\", \"ㅎ\", \"ㅍ\", \"념\", \"뭐\", \"그\", \"러\", \"텍\", \"옷\", \"곳\", \"테\", \"엇\", \"믿\", \"룩\", \"뭔\", \"💰\", \"만\", \"燭\", \"즘\", \"끄\", \"섬\", \"염\", \"럭\", \"명\", \"왁\", \"엡\", \"섣\", \"↓\", \"슨\", \"랄\", \"ㅠ\", \"눅\", \"즉\", \"빛\", \"치\", \"호\", \"찰\", \"별\", \"성\", \"핸\", \"씌\", \"식\", \"촘\", \"♀\", \"떤\", \"딱\", \"완\", \"⑥\", \"왕\", \"샷\", \"꾸\", \"시\", \"섰\", \"설\", \"씨\", \"얇\", \"냐\", \"뽀\", \"♥\", \"힉\", \"슝\", \"듬\", \"최\", \"🦄\", \"향\", \"숫\", \"잴\", \"케\", \"떄\", \"팎\", \"합\", \"몸\", \"ㅊ\", \"옥\", \"애\", \"춤\", \"쾨\", \"찜\", \"맞\", \"현\", \"수\", \"카\", \"땐\", \"암\", \"갱\", \"꺄\", \"힌\", \"볕\", \"戌\", \"뜩\", \"낌\", \"짙\", \"삿\", \"짖\", \"💡\", \"베\", \"져\", \"뜬\", \"삘\", \"∮\", \"씹\", \"웨\", \"횡\", \"팅\", \"막\", \"떳\", \"끊\", \"웁\", \"딛\", \"보\", \"챌\", \"롯\", \"♡\", \"릿\", \"눴\", \"난\", \"력\", \"곶\", \"패\", \"많\", \"바\", \"센\", \"캉\", \"게\", \"춧\", \"창\", \"탰\", \"」\", \"병\", \"므\", \"없\", \"깜\", \"黃\", \"쏟\", \"쳇\", \"맡\", \"홉\", \"안\", \"당\", \"언\", \"겐\", \"찔\", \"궜\", \"좆\", \"꽂\", \"홈\", \"돌\", \"쉴\", \"둔\", \"광\", \"렐\", \"緞\", \"몽\", \"죄\", \"습\", \"루\", \"좁\", \"상\", \"濟\", \"솜\", \"틈\", \"€\", \"워\", \"닐\", \"퀵\", \"댄\", \"낳\", \"밟\", \"⑸\", \"쥰\", \"플\", \"튬\", \"뷰\", \"겸\", \"괜\", \"굿\", \"줬\", \"휙\", \"역\", \"»\", \"≤\", \"∙\", \"끌\", \"吳\", \"텅\", \"채\", \"렴\", \"겨\", \"곽\", \"파\", \"첫\", \"공\", \"겹\", \"야\", \"藥\", \"對\", \"짚\", \"기\", \"뎀\", \"屠\", \"끼\", \"짠\", \"슬\", \"쏭\", \"깁\", \"또\", \"콕\", \"티\", \"꿨\", \"션\", \"첼\", \"싹\", \"🦅\", \"◼\", \"김\", \"뉜\", \"얕\", \"뒀\", \"롱\", \"둬\", \"휠\", \"ㅞ\", \"삽\", \"①\", \"렸\", \"�\", \"\", \"④\", \"함\", \"✔\", \"썸\", \"곱\", \"께\", \"똥\", \"늦\", \"ᴀ\", \"비\", \"중\", \"류\", \"웰\", \"將\", \"융\", \"환\", \"췄\", \"해\", \"콘\", \"女\", \"새\", \"💌\", \"쥐\", \"뻑\", \"섞\", \"홋\", \"ω\", \"쎄\", \"굶\", \"껑\", \"튜\", \"큰\", \"㎥\", \"잦\", \"폿\", \"멕\", \"샌\", \"듀\", \"척\", \"🗺\", \"쿵\", \"받\", \"밤\", \"▶\", \"걍\", \"썹\", \"빼\", \"았\", \"백\", \"런\", \"敎\", \"품\", \"길\", \"름\", \"원\", \"킨\", \"빤\", \"까\", \"랩\", \"ᴛ\", \"⑴\", \"걷\", \"섭\", \"릎\", \"짝\", \"꿰\", \"③\", \"⑨\", \"틱\", \"혐\", \"했\", \"는\", \"툴\", \"劍\", \"짭\", \"씩\", \"덮\", \"교\", \"문\", \"한\", \"딤\", \"끝\", \"취\", \"활\", \"琪\", \"큼\", \"탈\", \"빚\", \"옐\", \"☀\", \"ㄷ\", \"림\", \"둡\", \"군\", \"능\", \"롤\", \"빅\", \"불\", \"…\", \"촬\", \"전\", \"Ⅳ\", \"높\", \"셈\", \"샹\", \"淨\", \"흉\", \"뜰\", \"딴\", \"💕\", \"앱\", \"觸\", \"흩\", \"퇴\", \"켐\", \"들\", \"냥\", \"꿍\", \"➋\", \"족\", \"롬\", \"둥\", \"←\", \"끽\", \"고\", \"끙\", \"꼴\", \"갚\", \"ㅒ\", \"찮\", \"쇼\", \"항\", \"ㅔ\", \"양\", \"쎈\", \"燦\", \"무\", \"롸\", \"행\", \"말\", \"□\", \"ㅚ\", \"브\", \"둠\", \"때\", \"꿔\", \"뤄\", \"쿠\", \"셋\", \"익\", \"릴\", \"깨\", \"빴\", \"經\", \"꿈\", \"궁\", \"쫓\", \"槪\", \"대\", \"묶\", \"렬\", \"든\", \"낀\", \"셨\", \"內\", \"🔹\", \"램\", \"쩔\", \"레\", \"밸\", \"앎\", \"윌\", \"평\", \"뀔\", \"곧\", \"앤\", \"씀\", \"텐\", \"좀\", \"셔\", \"쉼\", \"략\", \"범\", \"횟\", \"낭\", \"쟤\", \"옌\", \"납\", \"려\", \"퍙\", \"쁠\", \"악\", \"웖\", \"\", \"숭\", \"〮\", \"썰\", \"탭\", \"트\", \"졸\", \"띈\", \"긋\", \"릇\", \"아\", \"랭\", \"됐\", \"예\", \"갤\", \"찬\", \"초\", \"假\", \"켰\", \"민\", \"쨌\", \"홍\", \"않\", \"갯\", \"갑\", \"켠\", \"ㅑ\", \"悧\", \"🍕\", \"리\", \"거\", \"렜\", \"뺐\", \"귈\", \"혼\", \"숱\", \"첨\", \"➍\", \"간\", \"녜\", \"덩\", \"얘\", \"허\", \"딪\", \"뮐\", \"캠\", \"꼭\", \"賣\", \"🤔\", \"똑\", \"🏫\", \"래\", \"💥\", \"훗\", \"㉿\", \"곡\", \"킁\", \"돠\", \"👨\", \"뻗\", \"낡\", \"탓\", \"關\", \"회\", \"됩\", \"댔\", \"젠\", \"열\", \"훌\", \"價\", \"혔\", \"섹\", \"펼\", \"핵\", \"숍\", \"법\", \"빌\", \"릅\", \"임\", \"꾼\", \"탑\", \"휩\", \"데\", \"理\", \"된\", \"헨\", \"옹\", \"ㅖ\", \"앵\", \"짬\", \"쁜\", \"뿍\", \"쩐\", \"옛\", \"㉠\", \"쯤\", \"좌\", \"ㅟ\", \"ㅆ\", \"땅\", \"❏\", \"녕\", \"흑\", \"⬇\", \"어\", \"씬\", \"관\", \"솥\", \"發\", \"닙\", \"돈\", \"팝\", \"累\", \"퓰\", \"봤\", \"홀\", \"냉\", \"움\", \"좇\", \"욱\", \"쫑\", \"컷\", \"캘\", \"탐\", \"s\", \"굽\", \"응\", \"앉\", \"휴\", \"큽\", \"싫\", \"줘\", \"톨\", \"識\", \"님\", \"퀄\", \"라\", \"헝\", \"짧\", \"참\", \"흠\", \"ᴇ\", \"생\", \"뚜\", \"컵\", \"꿕\", \"ᴍ\", \"맑\", \"「\", \"췌\", \"희\", \"왘\", \"戮\", \"닷\", \"넉\", \"渴\", \"감\", \"²\", \"킥\", \"눈\", \"댁\", \"힙\", \"꺾\", \"겠\", \"🤗\", \"클\", \"폄\", \"쫒\", \"꽁\", \"첸\", \"빠\", \"박\", \"뤘\", \"켜\", \"跏\", \"샬\", \"곁\", \"릉\", \"동\", \"번\", \"랍\", \"측\", \"뮬\", \"띠\", \"\", \"저\", \"빈\", \"뾱\", \"궈\", \"훼\", \"😊\", \"ⅲ\", \"얏\", \"퓨\", \"℃\", \"꿀\", \"컨\", \"듐\", \"배\", \"갈\", \"났\", \"몇\", \"뛴\", \"처\", \"폰\", \"*\", \"렌\", \"\", \"땡\", \"잘\", \"턱\", \"픔\", \"꽉\", \"샤\", \"⑵\", \"🙆\", \"균\", \"獻\", \"낄\", \"뱃\", \"즐\", \"닭\", \"청\", \"숙\", \"悖\", \"붐\", \"연\", \"쁘\", \"➌\", \"옆\", \"락\", \"낚\", \"켈\", \"크\", \"삭\", \"▼\", \"죽\", \"쓸\", \"제\", \"택\", \"븐\", \"질\", \"팔\", \"확\", \"🏻\", \"요\", \"流\", \"직\", \"턴\", \"뺑\", \"깝\", \"울\", \"핑\", \"`\", \"앗\", \"곰\", \"껴\", \"적\", \"놨\", \"여\", \"◎\", \"엠\", \"맷\", \"歲\", \"퍼\", \"%\", \"피\", \"ɪ\", \"커\", \"|\", \"땠\", \"끓\", \"꿇\", \"💅\", \"헉\", \"깐\", \"웅\", \"◀\", \"헤\", \"땀\", \"앓\", \"맹\", \"띄\", \"닮\", \"춥\", \"ㅢ\", \"깊\", \"세\", \"일\", \"뿌\", \"됬\", \"璣\", \"룬\", \"실\", \"귀\", \"鎭\", \"툭\", \"면\", \"촉\", \"층\", \"ᴡ\", \"믄\", \"샀\", \"찼\", \"폐\", \"못\", \"낫\", \"쵸\", \"봬\", \"닳\", \"였\", \"멍\", \"헬\", \"팁\", \"퀸\", \"딩\", \"멈\", \"낸\", \"◐\", \"톰\", \"봄\", \"쌩\", \"더\", \"💦\", \"몫\", \"윙\", \"ᴏ\", \"튼\", \"쭉\", \"넷\", \"獨\", \"뿜\", \"튀\", \"쭈\", \"Ⅵ\", \"맘\", \"벅\", \"읍\", \"맥\", \"•\", \"탁\", \"얽\", \"➏\", \"소\", \"떻\", \"두\", \"렉\", \"봇\", \"잤\", \"韜\", \"탕\", \"홑\", \"히\", \"정\", \"늑\", \"걱\", \"쿤\", \"를\", \"닦\", \"썅\", \"쿨\", \"페\", \"헛\", \"살\", \"녘\", \"헐\", \"즈\", \"삼\", \"느\", \"톱\", \"됨\", \"릭\", \"괌\", \"💣\", \"주\", \"뢰\", \"뇌\", \"블\", \"㏊\", \"검\", \"돔\", \"률\", \"달\", \"흥\", \"ㆍ\", \"칭\", \"멘\", \"🤟\", \"건\", \"ㅅ\", \"🌵\", \"칼\", \"황\", \"ⓔ\", \"긍\", \"끗\", \"버\", \"쏙\", \"쐬\", \"앙\", \"댓\", \"흐\", \"끔\", \"樂\", \"ㅣ\", \"☎\", \"뀌\", \"쉽\", \"룸\", \"짢\", \"재\", \"웬\", \"德\", \"륨\", \"럿\", \"蟄\", \"등\", \"샵\", \"팩\", \"ㅘ\", \"변\", \"넬\", \"탄\", \"발\", \"🍟\", \"촌\", \"벤\", \"있\", \"썼\", \"흘\", \"랜\", \"諒\", \"줏\", \"딥\", \"😭\", \"조\", \"잔\", \"볍\", \"❤\", \"엔\", \"흰\", \"👏\", \"뎅\", \":\", \"육\", \"혹\", \"흡\", \"뤼\", \"꽤\", \"쌈\", \"룰\", \"㎡\", \"숏\", \"셸\", \"캐\", \"춰\", \"쭙\", \"꽝\", \"녹\", \"쏜\", \"◾\", \"후\", \"삣\", \"몬\", \"튄\", \"텝\", \"깅\", \"징\", \"널\", \"틴\", \"쑥\", \"혜\", \"것\", \"옮\", \"킹\", \"싼\", \"§\", \"권\", \"틀\", \"인\", \"슴\", \"렛\", \"툰\", \"뼈\", \"펜\", \"믹\", \"샐\", \"찍\", \"앞\", \"靑\", \"✈\", \"순\", \"🙇\", \"할\", \"®\", \"뛸\", \"쉰\", \"챔\", \"렀\", \"젖\", \"雙\", \"딘\", \"깡\", \"킬\", \"榜\", \"尤\", \"벙\", \"으\", \"옴\", \"찾\", \"월\", \"싸\", \"쪽\", \"픕\", \"몹\", \"날\", \"키\", \"立\", \"엄\", \"엌\", \"⑧\", \"탱\", \"뮌\", \"계\", \"칸\", \"닥\", \"따\", \"렵\", \"삶\", \"챨\", \"슈\", \"峴\", \"냠\", \"욜\", \"뇨\", \"⑦\", \"밖\", \"델\", \"흙\", \"떨\", \"뺏\", \"점\", \"의\", \"반\", \"통\", \"윤\", \"變\", \"터\", \"臺\", \"녀\", \"㎍\", \"쌓\", \"약\", \"↕\", \"넵\", \"젊\", \"오\", \"줄\", \"필\", \"‧\", \"잉\", \"도\", \"총\", \"쩍\", \"陸\", \"가\", \"졌\", \"형\", \"욕\", \"뚝\", \"ⅰ\", \"꽃\", \"돕\", \"쥬\", \"과\", \"넹\", \"착\", \"▣\", \"년\", \"梁\", \"🙌\", \"탠\", \"윗\", \"\", \"팹\", \"논\", \"르\", \"숯\", \"닿\", \"쉬\", \"ń\", \"훈\", \"방\", \"잃\", \"접\", \"Ⅷ\", \"혁\", \"쌉\", \"캇\", \"태\", \"론\", \"벵\", \"맺\", \"갔\", \"럴\", \"값\", \"옵\", \"편\", \"뼘\", \"ㅐ\", \"진\", \"흔\", \"켄\", \"겼\", \"효\", \"침\", \"쾌\", \"뮈\", \"쏘\", \"젝\", \"잰\", \"뮤\", \"🍔\", \"똘\", \"갛\", \"텨\", \"엿\", \"쫗\", \"템\", \"@\", \"힜\", \"핫\", \"솔\", \"젓\", \"엘\", \"‘\", \"떠\", \"↑\", \"절\", \"츄\", \"농\", \"딸\", \"옳\", \"팰\", \"볼\", \"너\", \"흄\", \"귤\", \"놔\", \"Ⅶ\", \"낯\", \"🌿\", \"던\", \"캡\", \"🤭\", \"부\", \"출\", \"얼\", \"럽\", \"픽\", \"팜\", \"칠\", \"딧\", \"웠\", \"멋\", \"▷\", \"켤\", \"넘\", \"⚀\", \"핀\", \"펄\", \"찌\", \"쳤\", \"ⓒ\", \"氣\", \"數\", \"뷔\", \"팠\", \"랴\", \"심\", \"올\", \"쨍\", \"쓕\", \"⇒\", \"솨\", \"종\", \"붓\", \"알\", \"핥\", \"ㅡ\", \"메\", \"극\", \"걔\", \"료\", \"飮\", \"壞\", \"먹\", \"돋\", \"타\", \"렷\", \"골\", \"짜\", \"쏠\", \"랑\", \"넥\", \"곤\", \"뭥\", \"떴\", \"독\", \"◑\", \"▒\", \"≫\", \"뜨\", \"선\", \"듈\", \"璿\", \"쟁\", \"蚩\", \"될\", \"樂\", \"굵\", \"닝\", \"띕\", \"붕\", \"틔\", \"걀\", \"誡\", \"엉\", \"曆\", \"🙋\", \"不\", \"큐\", \"떼\", \"❍\", \"ㅗ\", \"철\", \"맬\", \"늙\", \"싯\", \"국\", \"렁\", \"⑹\", \"밥\", \"망\", \"석\", \"뉴\", \"율\", \"贖\", \"둘\", \"나\", \"봉\", \"링\", \"산\", \"Ⅱ\", \"쳐\", \"趺\", \"쟈\", \"량\", \"텁\", \"엽\", \"㎞\", \"규\", \"🚿\", \"사\", \"깃\", \"밭\", \"靈\", \"코\", \"弛\", \"쫄\", \"차\", \"웹\", \"분\", \"뚫\", \"매\", \"쿄\", \"댐\", \"개\", \"욥\", \"줌\", \"닛\", \"🍎\", \"Ⅸ\", \"킌\", \"줍\", \"◇\", \"峙\", \"🍰\", \"노\", \"와\", \"龍\", \"쓴\", \"렇\", \"즌\", \"팬\", \"🚨\", \"셉\", \"돗\", \"술\", \"내\", \"🍭\", \"v\", \"↔\", \"었\", \"죠\", \"짤\", \"끈\", \"얹\", \"장\", \"스\", \"롭\", \"촛\", \"😂\", \"털\", \"풍\", \"칙\", \"◈\", \"쩡\", \"녔\", \"£\", \"넌\", \"훨\", \"꼬\", \"답\", \"벽\", \"ⅱ\", \"멀\", \"쪼\", \"몰\", \"모\", \"놈\", \"폈\", \"㉣\", \"천\", \"갓\", \"섦\", \"물\", \"찢\", \"잠\", \"콜\", \"험\", \"령\", \"륙\", \"셌\", \"\", \"겉\", \"눠\", \"빙\", \"셜\", \"십\", \"킷\", \"떡\", \"추\", \"츠\", \"외\", \"푸\", \"⊙\", \"›\", \"갉\", \"하\", \"덕\", \"폴\", \"띤\", \"누\", \"😣\", \"컬\", \"금\", \" \", \"낼\", \"덧\", \"괴\", \"밉\", \"뽑\", \"©\", \"헌\", \"뱀\", \"깔\", \"색\", \"짐\", \"잭\", \"걸\", \"쇠\", \"쿡\", \"숨\", \"俠\", \"읊\", \"낙\", \"說\", \"슐\", \"綃\", \"🌳\", \"토\", \"엣\", \"압\", \"첩\", \"꼽\", \"짊\", \"體\", \"擒\", \"벌\", \"ʏ\", \"ㅏ\", \"펙\", \"닌\", \"뒤\", \"충\", \"뜻\", \"︎\", \"퍽\", \"Ⅴ\", \"강\", \"쒀\", \"쿰\", \"늄\", \"지\", \"봐\", \"솟\", \"굴\", \"굳\", \"뻤\", \"⑤\", \"콤\", \"급\", \"뱉\", \"콥\", \"왠\", \"쇄\", \"≪\", \"봅\", \"단\", \"랐\", \"텀\", \"펠\", \"쯔\", \"화\", \"벼\", \"축\", \"良\", \"륵\", \"혈\", \"째\", \"핍\", \"폍\", \"뻐\", \"∼\", \"\", \"뜸\", \"뫼\", \"벗\", \"겔\", \"뿐\", \"훅\", \"ⅳ\", \"꼈\", \"람\", \"판\", \"견\", \"칩\", \"😱\", \"프\", \"퀀\", \"臀\", \"복\", \"겪\", \"잖\", \"운\", \"․\", \"궐\", \"집\", \"젤\", \"놀\", \"‥\", \"잡\", \" \", \"뺀\", \"존\", \"랙\", \"냈\", \"묵\", \"얀\", \"빳\", \"숟\", \"흗\", \"슷\", \"니\", \"웃\", \"립\", \"뀐\", \"샘\", \"녁\", \"엑\", \"컸\", \"긴\", \"왔\", \"획\", \"밴\", \"㈜\", \"\", \"¹\", \"빗\", \"튠\", \"붙\", \"뱅\", \"멸\", \"ㄹ\", \"劫\", \"덜\", \"⑶\", \"써\", \"삐\", \"잼\", \"덟\", \"뭉\", \"팍\", \"자\", \"탬\", \"♤\", \"ㅛ\", \"닉\", \"체\", \"틸\", \"서\", \"슛\", \"킴\", \"우\", \"글\", \"되\", \"짓\", \"맛\", \"담\", \"웍\", \"셰\", \"꾀\", \"썬\", \"학\", \"씽\", \"랫\", \"빡\", \"ʟ\", \"냅\", \"갇\", \"덤\", \"펴\", \"둑\", \"엮\", \"입\", \"퀴\", \"팽\", \"챙\", \"밑\", \"왓\", \"씻\", \"ㅋ\", \"拜\", \"넛\", \"퉁\", \"썩\", \"쑤\", \"🏷\", \"책\", \"엎\", \"ㄴ\", \"늬\", \"신\", \"볶\", \"머\", \"껀\", \"ㅝ\", \"쿼\", \"영\", \"빨\", \"얄\", \"톡\"]",
|
9612 |
"lossless": false
|
9613 |
+
},
|
9614 |
+
"01-ai/Yi-1.5-34B @ cc100/ar": {
|
9615 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/01-ai/Yi-1.5-34B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Yi-1.5-34B</a>",
|
9616 |
+
"organization": "Yi",
|
9617 |
+
"vocab_size": 63992,
|
9618 |
+
"_n_bytes": 2813283,
|
9619 |
+
"_n_tokens": 1795801,
|
9620 |
+
"_n_chars": 1560987,
|
9621 |
+
"_n_oov_chars": 0,
|
9622 |
+
"oov_ratio": 0.0,
|
9623 |
+
"_oov_charset": "[]",
|
9624 |
+
"lossless": true
|
9625 |
+
},
|
9626 |
+
"01-ai/Yi-1.5-34B @ cc100/de": {
|
9627 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/01-ai/Yi-1.5-34B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Yi-1.5-34B</a>",
|
9628 |
+
"organization": "Yi",
|
9629 |
+
"vocab_size": 63992,
|
9630 |
+
"_n_bytes": 1814876,
|
9631 |
+
"_n_tokens": 698366,
|
9632 |
+
"_n_chars": 1784021,
|
9633 |
+
"_n_oov_chars": 0,
|
9634 |
+
"oov_ratio": 0.0,
|
9635 |
+
"_oov_charset": "[]",
|
9636 |
+
"lossless": true
|
9637 |
+
},
|
9638 |
+
"01-ai/Yi-1.5-34B @ cc100/en": {
|
9639 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/01-ai/Yi-1.5-34B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Yi-1.5-34B</a>",
|
9640 |
+
"organization": "Yi",
|
9641 |
+
"vocab_size": 63992,
|
9642 |
+
"_n_bytes": 1124813,
|
9643 |
+
"_n_tokens": 270399,
|
9644 |
+
"_n_chars": 1121360,
|
9645 |
+
"_n_oov_chars": 0,
|
9646 |
+
"oov_ratio": 0.0,
|
9647 |
+
"_oov_charset": "[]",
|
9648 |
+
"lossless": true
|
9649 |
+
},
|
9650 |
+
"01-ai/Yi-1.5-34B @ cc100/es": {
|
9651 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/01-ai/Yi-1.5-34B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Yi-1.5-34B</a>",
|
9652 |
+
"organization": "Yi",
|
9653 |
+
"vocab_size": 63992,
|
9654 |
+
"_n_bytes": 1664455,
|
9655 |
+
"_n_tokens": 577018,
|
9656 |
+
"_n_chars": 1630297,
|
9657 |
+
"_n_oov_chars": 0,
|
9658 |
+
"oov_ratio": 0.0,
|
9659 |
+
"_oov_charset": "[]",
|
9660 |
+
"lossless": true
|
9661 |
+
},
|
9662 |
+
"01-ai/Yi-1.5-34B @ cc100/fa": {
|
9663 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/01-ai/Yi-1.5-34B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Yi-1.5-34B</a>",
|
9664 |
+
"organization": "Yi",
|
9665 |
+
"vocab_size": 63992,
|
9666 |
+
"_n_bytes": 2054052,
|
9667 |
+
"_n_tokens": 1337264,
|
9668 |
+
"_n_chars": 1145876,
|
9669 |
+
"_n_oov_chars": 0,
|
9670 |
+
"oov_ratio": 0.0,
|
9671 |
+
"_oov_charset": "[]",
|
9672 |
+
"lossless": true
|
9673 |
+
},
|
9674 |
+
"01-ai/Yi-1.5-34B @ cc100/fr": {
|
9675 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/01-ai/Yi-1.5-34B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Yi-1.5-34B</a>",
|
9676 |
+
"organization": "Yi",
|
9677 |
+
"vocab_size": 63992,
|
9678 |
+
"_n_bytes": 1540504,
|
9679 |
+
"_n_tokens": 533106,
|
9680 |
+
"_n_chars": 1484970,
|
9681 |
+
"_n_oov_chars": 0,
|
9682 |
+
"oov_ratio": 0.0,
|
9683 |
+
"_oov_charset": "[]",
|
9684 |
+
"lossless": true
|
9685 |
+
},
|
9686 |
+
"01-ai/Yi-1.5-34B @ cc100/ja": {
|
9687 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/01-ai/Yi-1.5-34B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Yi-1.5-34B</a>",
|
9688 |
+
"organization": "Yi",
|
9689 |
+
"vocab_size": 63992,
|
9690 |
+
"_n_bytes": 1774770,
|
9691 |
+
"_n_tokens": 740791,
|
9692 |
+
"_n_chars": 603065,
|
9693 |
+
"_n_oov_chars": 0,
|
9694 |
+
"oov_ratio": 0.0,
|
9695 |
+
"_oov_charset": "[]",
|
9696 |
+
"lossless": true
|
9697 |
+
},
|
9698 |
+
"01-ai/Yi-1.5-34B @ cc100/ko": {
|
9699 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/01-ai/Yi-1.5-34B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Yi-1.5-34B</a>",
|
9700 |
+
"organization": "Yi",
|
9701 |
+
"vocab_size": 63992,
|
9702 |
+
"_n_bytes": 1524839,
|
9703 |
+
"_n_tokens": 1203134,
|
9704 |
+
"_n_chars": 655190,
|
9705 |
+
"_n_oov_chars": 0,
|
9706 |
+
"oov_ratio": 0.0,
|
9707 |
+
"_oov_charset": "[]",
|
9708 |
+
"lossless": true
|
9709 |
+
},
|
9710 |
+
"01-ai/Yi-1.5-34B @ cc100/zh-Hans": {
|
9711 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/01-ai/Yi-1.5-34B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Yi-1.5-34B</a>",
|
9712 |
+
"organization": "Yi",
|
9713 |
+
"vocab_size": 63992,
|
9714 |
+
"_n_bytes": 2633047,
|
9715 |
+
"_n_tokens": 588729,
|
9716 |
+
"_n_chars": 927311,
|
9717 |
+
"_n_oov_chars": 0,
|
9718 |
+
"oov_ratio": 0.0,
|
9719 |
+
"_oov_charset": "[]",
|
9720 |
+
"lossless": true
|
9721 |
+
},
|
9722 |
+
"Qwen/Qwen2-72B @ cc100/ar": {
|
9723 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-72B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-72B</a>",
|
9724 |
+
"organization": "Alibaba",
|
9725 |
+
"vocab_size": 151646,
|
9726 |
+
"_n_bytes": 2813283,
|
9727 |
+
"_n_tokens": 614959,
|
9728 |
+
"_n_chars": 1560987,
|
9729 |
+
"_n_oov_chars": 0,
|
9730 |
+
"oov_ratio": 0.0,
|
9731 |
+
"_oov_charset": "[]",
|
9732 |
+
"lossless": false
|
9733 |
+
},
|
9734 |
+
"Qwen/Qwen2-72B @ cc100/de": {
|
9735 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-72B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-72B</a>",
|
9736 |
+
"organization": "Alibaba",
|
9737 |
+
"vocab_size": 151646,
|
9738 |
+
"_n_bytes": 1814876,
|
9739 |
+
"_n_tokens": 503561,
|
9740 |
+
"_n_chars": 1784021,
|
9741 |
+
"_n_oov_chars": 0,
|
9742 |
+
"oov_ratio": 0.0,
|
9743 |
+
"_oov_charset": "[]",
|
9744 |
+
"lossless": false
|
9745 |
+
},
|
9746 |
+
"Qwen/Qwen2-72B @ cc100/en": {
|
9747 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-72B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-72B</a>",
|
9748 |
+
"organization": "Alibaba",
|
9749 |
+
"vocab_size": 151646,
|
9750 |
+
"_n_bytes": 1124813,
|
9751 |
+
"_n_tokens": 257983,
|
9752 |
+
"_n_chars": 1121360,
|
9753 |
+
"_n_oov_chars": 0,
|
9754 |
+
"oov_ratio": 0.0,
|
9755 |
+
"_oov_charset": "[]",
|
9756 |
+
"lossless": true
|
9757 |
+
},
|
9758 |
+
"Qwen/Qwen2-72B @ cc100/es": {
|
9759 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-72B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-72B</a>",
|
9760 |
+
"organization": "Alibaba",
|
9761 |
+
"vocab_size": 151646,
|
9762 |
+
"_n_bytes": 1664455,
|
9763 |
+
"_n_tokens": 434264,
|
9764 |
+
"_n_chars": 1630297,
|
9765 |
+
"_n_oov_chars": 0,
|
9766 |
+
"oov_ratio": 0.0,
|
9767 |
+
"_oov_charset": "[]",
|
9768 |
+
"lossless": true
|
9769 |
+
},
|
9770 |
+
"Qwen/Qwen2-72B @ cc100/fa": {
|
9771 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-72B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-72B</a>",
|
9772 |
+
"organization": "Alibaba",
|
9773 |
+
"vocab_size": 151646,
|
9774 |
+
"_n_bytes": 2054052,
|
9775 |
+
"_n_tokens": 643421,
|
9776 |
+
"_n_chars": 1145876,
|
9777 |
+
"_n_oov_chars": 0,
|
9778 |
+
"oov_ratio": 0.0,
|
9779 |
+
"_oov_charset": "[]",
|
9780 |
+
"lossless": false
|
9781 |
+
},
|
9782 |
+
"Qwen/Qwen2-72B @ cc100/fr": {
|
9783 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-72B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-72B</a>",
|
9784 |
+
"organization": "Alibaba",
|
9785 |
+
"vocab_size": 151646,
|
9786 |
+
"_n_bytes": 1540504,
|
9787 |
+
"_n_tokens": 413637,
|
9788 |
+
"_n_chars": 1484970,
|
9789 |
+
"_n_oov_chars": 0,
|
9790 |
+
"oov_ratio": 0.0,
|
9791 |
+
"_oov_charset": "[]",
|
9792 |
+
"lossless": false
|
9793 |
+
},
|
9794 |
+
"Qwen/Qwen2-72B @ cc100/ja": {
|
9795 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-72B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-72B</a>",
|
9796 |
+
"organization": "Alibaba",
|
9797 |
+
"vocab_size": 151646,
|
9798 |
+
"_n_bytes": 1774770,
|
9799 |
+
"_n_tokens": 377144,
|
9800 |
+
"_n_chars": 603065,
|
9801 |
+
"_n_oov_chars": 0,
|
9802 |
+
"oov_ratio": 0.0,
|
9803 |
+
"_oov_charset": "[]",
|
9804 |
+
"lossless": false
|
9805 |
+
},
|
9806 |
+
"Qwen/Qwen2-72B @ cc100/ko": {
|
9807 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-72B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-72B</a>",
|
9808 |
+
"organization": "Alibaba",
|
9809 |
+
"vocab_size": 151646,
|
9810 |
+
"_n_bytes": 1524839,
|
9811 |
+
"_n_tokens": 457492,
|
9812 |
+
"_n_chars": 655190,
|
9813 |
+
"_n_oov_chars": 25,
|
9814 |
+
"oov_ratio": 3.815687052610693e-05,
|
9815 |
+
"_oov_charset": "[\"立\", \"樂\", \"陸\", \"累\", \"龍\", \"梁\", \"金\", \"識\", \"女\", \"樂\", \"流\", \"良\", \"不\", \"靈\", \"理\"]",
|
9816 |
+
"lossless": false
|
9817 |
+
},
|
9818 |
+
"Qwen/Qwen2-72B @ cc100/zh-Hans": {
|
9819 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/Qwen/Qwen2-72B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Qwen2-72B</a>",
|
9820 |
+
"organization": "Alibaba",
|
9821 |
+
"vocab_size": 151646,
|
9822 |
+
"_n_bytes": 2633047,
|
9823 |
+
"_n_tokens": 589211,
|
9824 |
+
"_n_chars": 927311,
|
9825 |
+
"_n_oov_chars": 0,
|
9826 |
+
"oov_ratio": 0.0,
|
9827 |
+
"_oov_charset": "[]",
|
9828 |
+
"lossless": true
|
9829 |
+
},
|
9830 |
+
"apple/DCLM-7B @ cc100/ar": {
|
9831 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/apple/DCLM-7B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DCLM-7B</a>",
|
9832 |
+
"organization": "Apple",
|
9833 |
+
"vocab_size": 50277,
|
9834 |
+
"_n_bytes": 2813283,
|
9835 |
+
"_n_tokens": 1106277,
|
9836 |
+
"_n_chars": 1560987,
|
9837 |
+
"_n_oov_chars": 0,
|
9838 |
+
"oov_ratio": 0.0,
|
9839 |
+
"_oov_charset": "[]",
|
9840 |
+
"lossless": false
|
9841 |
+
},
|
9842 |
+
"apple/DCLM-7B @ cc100/de": {
|
9843 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/apple/DCLM-7B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DCLM-7B</a>",
|
9844 |
+
"organization": "Apple",
|
9845 |
+
"vocab_size": 50277,
|
9846 |
+
"_n_bytes": 1814876,
|
9847 |
+
"_n_tokens": 583628,
|
9848 |
+
"_n_chars": 1784021,
|
9849 |
+
"_n_oov_chars": 0,
|
9850 |
+
"oov_ratio": 0.0,
|
9851 |
+
"_oov_charset": "[]",
|
9852 |
+
"lossless": false
|
9853 |
+
},
|
9854 |
+
"apple/DCLM-7B @ cc100/en": {
|
9855 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/apple/DCLM-7B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DCLM-7B</a>",
|
9856 |
+
"organization": "Apple",
|
9857 |
+
"vocab_size": 50277,
|
9858 |
+
"_n_bytes": 1124813,
|
9859 |
+
"_n_tokens": 259357,
|
9860 |
+
"_n_chars": 1121360,
|
9861 |
+
"_n_oov_chars": 0,
|
9862 |
+
"oov_ratio": 0.0,
|
9863 |
+
"_oov_charset": "[]",
|
9864 |
+
"lossless": false
|
9865 |
+
},
|
9866 |
+
"apple/DCLM-7B @ cc100/es": {
|
9867 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/apple/DCLM-7B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DCLM-7B</a>",
|
9868 |
+
"organization": "Apple",
|
9869 |
+
"vocab_size": 50277,
|
9870 |
+
"_n_bytes": 1664455,
|
9871 |
+
"_n_tokens": 494577,
|
9872 |
+
"_n_chars": 1630297,
|
9873 |
+
"_n_oov_chars": 0,
|
9874 |
+
"oov_ratio": 0.0,
|
9875 |
+
"_oov_charset": "[]",
|
9876 |
+
"lossless": false
|
9877 |
+
},
|
9878 |
+
"apple/DCLM-7B @ cc100/fa": {
|
9879 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/apple/DCLM-7B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DCLM-7B</a>",
|
9880 |
+
"organization": "Apple",
|
9881 |
+
"vocab_size": 50277,
|
9882 |
+
"_n_bytes": 2054052,
|
9883 |
+
"_n_tokens": 866434,
|
9884 |
+
"_n_chars": 1145876,
|
9885 |
+
"_n_oov_chars": 0,
|
9886 |
+
"oov_ratio": 0.0,
|
9887 |
+
"_oov_charset": "[]",
|
9888 |
+
"lossless": false
|
9889 |
+
},
|
9890 |
+
"apple/DCLM-7B @ cc100/fr": {
|
9891 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/apple/DCLM-7B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DCLM-7B</a>",
|
9892 |
+
"organization": "Apple",
|
9893 |
+
"vocab_size": 50277,
|
9894 |
+
"_n_bytes": 1540504,
|
9895 |
+
"_n_tokens": 458961,
|
9896 |
+
"_n_chars": 1484970,
|
9897 |
+
"_n_oov_chars": 0,
|
9898 |
+
"oov_ratio": 0.0,
|
9899 |
+
"_oov_charset": "[]",
|
9900 |
+
"lossless": false
|
9901 |
+
},
|
9902 |
+
"apple/DCLM-7B @ cc100/ja": {
|
9903 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/apple/DCLM-7B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DCLM-7B</a>",
|
9904 |
+
"organization": "Apple",
|
9905 |
+
"vocab_size": 50277,
|
9906 |
+
"_n_bytes": 1774770,
|
9907 |
+
"_n_tokens": 605168,
|
9908 |
+
"_n_chars": 603065,
|
9909 |
+
"_n_oov_chars": 0,
|
9910 |
+
"oov_ratio": 0.0,
|
9911 |
+
"_oov_charset": "[]",
|
9912 |
+
"lossless": false
|
9913 |
+
},
|
9914 |
+
"apple/DCLM-7B @ cc100/ko": {
|
9915 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/apple/DCLM-7B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DCLM-7B</a>",
|
9916 |
+
"organization": "Apple",
|
9917 |
+
"vocab_size": 50277,
|
9918 |
+
"_n_bytes": 1524839,
|
9919 |
+
"_n_tokens": 973288,
|
9920 |
+
"_n_chars": 655190,
|
9921 |
+
"_n_oov_chars": 25,
|
9922 |
+
"oov_ratio": 3.815687052610693e-05,
|
9923 |
+
"_oov_charset": "[\"立\", \"樂\", \"陸\", \"累\", \"龍\", \"梁\", \"金\", \"識\", \"女\", \"樂\", \"流\", \"良\", \"不\", \"靈\", \"理\"]",
|
9924 |
+
"lossless": false
|
9925 |
+
},
|
9926 |
+
"apple/DCLM-7B @ cc100/zh-Hans": {
|
9927 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/apple/DCLM-7B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">DCLM-7B</a>",
|
9928 |
+
"organization": "Apple",
|
9929 |
+
"vocab_size": 50277,
|
9930 |
+
"_n_bytes": 2633047,
|
9931 |
+
"_n_tokens": 1220529,
|
9932 |
+
"_n_chars": 927311,
|
9933 |
+
"_n_oov_chars": 0,
|
9934 |
+
"oov_ratio": 0.0,
|
9935 |
+
"_oov_charset": "[]",
|
9936 |
+
"lossless": false
|
9937 |
+
},
|
9938 |
+
"google/gemma-2-9b @ cc100/ar": {
|
9939 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/google/gemma-2-9b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gemma-2-9b</a>",
|
9940 |
+
"organization": "Google",
|
9941 |
+
"vocab_size": 256000,
|
9942 |
+
"_n_bytes": 2813283,
|
9943 |
+
"_n_tokens": 563788,
|
9944 |
+
"_n_chars": 1560987,
|
9945 |
+
"_n_oov_chars": 0,
|
9946 |
+
"oov_ratio": 0.0,
|
9947 |
+
"_oov_charset": "[]",
|
9948 |
+
"lossless": true
|
9949 |
+
},
|
9950 |
+
"google/gemma-2-9b @ cc100/de": {
|
9951 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/google/gemma-2-9b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gemma-2-9b</a>",
|
9952 |
+
"organization": "Google",
|
9953 |
+
"vocab_size": 256000,
|
9954 |
+
"_n_bytes": 1814876,
|
9955 |
+
"_n_tokens": 406876,
|
9956 |
+
"_n_chars": 1784021,
|
9957 |
+
"_n_oov_chars": 0,
|
9958 |
+
"oov_ratio": 0.0,
|
9959 |
+
"_oov_charset": "[]",
|
9960 |
+
"lossless": true
|
9961 |
+
},
|
9962 |
+
"google/gemma-2-9b @ cc100/en": {
|
9963 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/google/gemma-2-9b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gemma-2-9b</a>",
|
9964 |
+
"organization": "Google",
|
9965 |
+
"vocab_size": 256000,
|
9966 |
+
"_n_bytes": 1124813,
|
9967 |
+
"_n_tokens": 258010,
|
9968 |
+
"_n_chars": 1121360,
|
9969 |
+
"_n_oov_chars": 0,
|
9970 |
+
"oov_ratio": 0.0,
|
9971 |
+
"_oov_charset": "[]",
|
9972 |
+
"lossless": true
|
9973 |
+
},
|
9974 |
+
"google/gemma-2-9b @ cc100/es": {
|
9975 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/google/gemma-2-9b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gemma-2-9b</a>",
|
9976 |
+
"organization": "Google",
|
9977 |
+
"vocab_size": 256000,
|
9978 |
+
"_n_bytes": 1664455,
|
9979 |
+
"_n_tokens": 361321,
|
9980 |
+
"_n_chars": 1630297,
|
9981 |
+
"_n_oov_chars": 0,
|
9982 |
+
"oov_ratio": 0.0,
|
9983 |
+
"_oov_charset": "[]",
|
9984 |
+
"lossless": true
|
9985 |
+
},
|
9986 |
+
"google/gemma-2-9b @ cc100/fa": {
|
9987 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/google/gemma-2-9b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gemma-2-9b</a>",
|
9988 |
+
"organization": "Google",
|
9989 |
+
"vocab_size": 256000,
|
9990 |
+
"_n_bytes": 2054052,
|
9991 |
+
"_n_tokens": 363762,
|
9992 |
+
"_n_chars": 1145876,
|
9993 |
+
"_n_oov_chars": 0,
|
9994 |
+
"oov_ratio": 0.0,
|
9995 |
+
"_oov_charset": "[]",
|
9996 |
+
"lossless": true
|
9997 |
+
},
|
9998 |
+
"google/gemma-2-9b @ cc100/fr": {
|
9999 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/google/gemma-2-9b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gemma-2-9b</a>",
|
10000 |
+
"organization": "Google",
|
10001 |
+
"vocab_size": 256000,
|
10002 |
+
"_n_bytes": 1540504,
|
10003 |
+
"_n_tokens": 364551,
|
10004 |
+
"_n_chars": 1484970,
|
10005 |
+
"_n_oov_chars": 0,
|
10006 |
+
"oov_ratio": 0.0,
|
10007 |
+
"_oov_charset": "[]",
|
10008 |
+
"lossless": true
|
10009 |
+
},
|
10010 |
+
"google/gemma-2-9b @ cc100/ja": {
|
10011 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/google/gemma-2-9b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gemma-2-9b</a>",
|
10012 |
+
"organization": "Google",
|
10013 |
+
"vocab_size": 256000,
|
10014 |
+
"_n_bytes": 1774770,
|
10015 |
+
"_n_tokens": 307873,
|
10016 |
+
"_n_chars": 603065,
|
10017 |
+
"_n_oov_chars": 0,
|
10018 |
+
"oov_ratio": 0.0,
|
10019 |
+
"_oov_charset": "[]",
|
10020 |
+
"lossless": true
|
10021 |
+
},
|
10022 |
+
"google/gemma-2-9b @ cc100/ko": {
|
10023 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/google/gemma-2-9b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gemma-2-9b</a>",
|
10024 |
+
"organization": "Google",
|
10025 |
+
"vocab_size": 256000,
|
10026 |
+
"_n_bytes": 1524839,
|
10027 |
+
"_n_tokens": 454410,
|
10028 |
+
"_n_chars": 655190,
|
10029 |
+
"_n_oov_chars": 0,
|
10030 |
+
"oov_ratio": 0.0,
|
10031 |
+
"_oov_charset": "[]",
|
10032 |
+
"lossless": true
|
10033 |
+
},
|
10034 |
+
"google/gemma-2-9b @ cc100/zh-Hans": {
|
10035 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/google/gemma-2-9b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">gemma-2-9b</a>",
|
10036 |
+
"organization": "Google",
|
10037 |
+
"vocab_size": 256000,
|
10038 |
+
"_n_bytes": 2633047,
|
10039 |
+
"_n_tokens": 631795,
|
10040 |
+
"_n_chars": 927311,
|
10041 |
+
"_n_oov_chars": 0,
|
10042 |
+
"oov_ratio": 0.0,
|
10043 |
+
"_oov_charset": "[]",
|
10044 |
+
"lossless": true
|
10045 |
+
},
|
10046 |
+
"meta-llama/Meta-Llama-3.1-405B @ cc100/ar": {
|
10047 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/meta-llama/Meta-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">llama3.1</a>",
|
10048 |
+
"organization": "Meta",
|
10049 |
+
"vocab_size": 128256,
|
10050 |
+
"_n_bytes": 2813283,
|
10051 |
+
"_n_tokens": 614186,
|
10052 |
+
"_n_chars": 1560987,
|
10053 |
+
"_n_oov_chars": 0,
|
10054 |
+
"oov_ratio": 0.0,
|
10055 |
+
"_oov_charset": "[]",
|
10056 |
+
"lossless": false
|
10057 |
+
},
|
10058 |
+
"meta-llama/Meta-Llama-3.1-405B @ cc100/de": {
|
10059 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/meta-llama/Meta-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">llama3.1</a>",
|
10060 |
+
"organization": "Meta",
|
10061 |
+
"vocab_size": 128256,
|
10062 |
+
"_n_bytes": 1814876,
|
10063 |
+
"_n_tokens": 499766,
|
10064 |
+
"_n_chars": 1784021,
|
10065 |
+
"_n_oov_chars": 0,
|
10066 |
+
"oov_ratio": 0.0,
|
10067 |
+
"_oov_charset": "[]",
|
10068 |
+
"lossless": false
|
10069 |
+
},
|
10070 |
+
"meta-llama/Meta-Llama-3.1-405B @ cc100/en": {
|
10071 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/meta-llama/Meta-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">llama3.1</a>",
|
10072 |
+
"organization": "Meta",
|
10073 |
+
"vocab_size": 128256,
|
10074 |
+
"_n_bytes": 1124813,
|
10075 |
+
"_n_tokens": 254944,
|
10076 |
+
"_n_chars": 1121360,
|
10077 |
+
"_n_oov_chars": 0,
|
10078 |
+
"oov_ratio": 0.0,
|
10079 |
+
"_oov_charset": "[]",
|
10080 |
+
"lossless": false
|
10081 |
+
},
|
10082 |
+
"meta-llama/Meta-Llama-3.1-405B @ cc100/es": {
|
10083 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/meta-llama/Meta-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">llama3.1</a>",
|
10084 |
+
"organization": "Meta",
|
10085 |
+
"vocab_size": 128256,
|
10086 |
+
"_n_bytes": 1664455,
|
10087 |
+
"_n_tokens": 433286,
|
10088 |
+
"_n_chars": 1630297,
|
10089 |
+
"_n_oov_chars": 0,
|
10090 |
+
"oov_ratio": 0.0,
|
10091 |
+
"_oov_charset": "[]",
|
10092 |
+
"lossless": false
|
10093 |
+
},
|
10094 |
+
"meta-llama/Meta-Llama-3.1-405B @ cc100/fa": {
|
10095 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/meta-llama/Meta-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">llama3.1</a>",
|
10096 |
+
"organization": "Meta",
|
10097 |
+
"vocab_size": 128256,
|
10098 |
+
"_n_bytes": 2054052,
|
10099 |
+
"_n_tokens": 384591,
|
10100 |
+
"_n_chars": 1145876,
|
10101 |
+
"_n_oov_chars": 0,
|
10102 |
+
"oov_ratio": 0.0,
|
10103 |
+
"_oov_charset": "[]",
|
10104 |
+
"lossless": false
|
10105 |
+
},
|
10106 |
+
"meta-llama/Meta-Llama-3.1-405B @ cc100/fr": {
|
10107 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/meta-llama/Meta-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">llama3.1</a>",
|
10108 |
+
"organization": "Meta",
|
10109 |
+
"vocab_size": 128256,
|
10110 |
+
"_n_bytes": 1540504,
|
10111 |
+
"_n_tokens": 412141,
|
10112 |
+
"_n_chars": 1484970,
|
10113 |
+
"_n_oov_chars": 0,
|
10114 |
+
"oov_ratio": 0.0,
|
10115 |
+
"_oov_charset": "[]",
|
10116 |
+
"lossless": false
|
10117 |
+
},
|
10118 |
+
"meta-llama/Meta-Llama-3.1-405B @ cc100/ja": {
|
10119 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/meta-llama/Meta-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">llama3.1</a>",
|
10120 |
+
"organization": "Meta",
|
10121 |
+
"vocab_size": 128256,
|
10122 |
+
"_n_bytes": 1774770,
|
10123 |
+
"_n_tokens": 414715,
|
10124 |
+
"_n_chars": 603065,
|
10125 |
+
"_n_oov_chars": 0,
|
10126 |
+
"oov_ratio": 0.0,
|
10127 |
+
"_oov_charset": "[]",
|
10128 |
+
"lossless": false
|
10129 |
+
},
|
10130 |
+
"meta-llama/Meta-Llama-3.1-405B @ cc100/ko": {
|
10131 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/meta-llama/Meta-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">llama3.1</a>",
|
10132 |
+
"organization": "Meta",
|
10133 |
+
"vocab_size": 128256,
|
10134 |
+
"_n_bytes": 1524839,
|
10135 |
+
"_n_tokens": 412433,
|
10136 |
+
"_n_chars": 655190,
|
10137 |
+
"_n_oov_chars": 0,
|
10138 |
+
"oov_ratio": 0.0,
|
10139 |
+
"_oov_charset": "[]",
|
10140 |
+
"lossless": false
|
10141 |
+
},
|
10142 |
+
"meta-llama/Meta-Llama-3.1-405B @ cc100/zh-Hans": {
|
10143 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/meta-llama/Meta-Llama-3.1-405B\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">llama3.1</a>",
|
10144 |
+
"organization": "Meta",
|
10145 |
+
"vocab_size": 128256,
|
10146 |
+
"_n_bytes": 2633047,
|
10147 |
+
"_n_tokens": 747405,
|
10148 |
+
"_n_chars": 927311,
|
10149 |
+
"_n_oov_chars": 0,
|
10150 |
+
"oov_ratio": 0.0,
|
10151 |
+
"_oov_charset": "[]",
|
10152 |
+
"lossless": false
|
10153 |
+
},
|
10154 |
+
"mistralai/Mistral-Large-Instruct-2407 @ cc100/ar": {
|
10155 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/mistralai/Mistral-Large-Instruct-2407\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Mistral-Large-Instruct-2407</a>",
|
10156 |
+
"organization": "Mistral",
|
10157 |
+
"vocab_size": 32768,
|
10158 |
+
"_n_bytes": 2813283,
|
10159 |
+
"_n_tokens": 1388980,
|
10160 |
+
"_n_chars": 1560987,
|
10161 |
+
"_n_oov_chars": 0,
|
10162 |
+
"oov_ratio": 0.0,
|
10163 |
+
"_oov_charset": "[]",
|
10164 |
+
"lossless": true
|
10165 |
+
},
|
10166 |
+
"mistralai/Mistral-Large-Instruct-2407 @ cc100/de": {
|
10167 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/mistralai/Mistral-Large-Instruct-2407\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Mistral-Large-Instruct-2407</a>",
|
10168 |
+
"organization": "Mistral",
|
10169 |
+
"vocab_size": 32768,
|
10170 |
+
"_n_bytes": 1814876,
|
10171 |
+
"_n_tokens": 570172,
|
10172 |
+
"_n_chars": 1784021,
|
10173 |
+
"_n_oov_chars": 0,
|
10174 |
+
"oov_ratio": 0.0,
|
10175 |
+
"_oov_charset": "[]",
|
10176 |
+
"lossless": true
|
10177 |
+
},
|
10178 |
+
"mistralai/Mistral-Large-Instruct-2407 @ cc100/en": {
|
10179 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/mistralai/Mistral-Large-Instruct-2407\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Mistral-Large-Instruct-2407</a>",
|
10180 |
+
"organization": "Mistral",
|
10181 |
+
"vocab_size": 32768,
|
10182 |
+
"_n_bytes": 1124813,
|
10183 |
+
"_n_tokens": 276803,
|
10184 |
+
"_n_chars": 1121360,
|
10185 |
+
"_n_oov_chars": 0,
|
10186 |
+
"oov_ratio": 0.0,
|
10187 |
+
"_oov_charset": "[]",
|
10188 |
+
"lossless": true
|
10189 |
+
},
|
10190 |
+
"mistralai/Mistral-Large-Instruct-2407 @ cc100/es": {
|
10191 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/mistralai/Mistral-Large-Instruct-2407\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Mistral-Large-Instruct-2407</a>",
|
10192 |
+
"organization": "Mistral",
|
10193 |
+
"vocab_size": 32768,
|
10194 |
+
"_n_bytes": 1664455,
|
10195 |
+
"_n_tokens": 504711,
|
10196 |
+
"_n_chars": 1630297,
|
10197 |
+
"_n_oov_chars": 0,
|
10198 |
+
"oov_ratio": 0.0,
|
10199 |
+
"_oov_charset": "[]",
|
10200 |
+
"lossless": true
|
10201 |
+
},
|
10202 |
+
"mistralai/Mistral-Large-Instruct-2407 @ cc100/fa": {
|
10203 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/mistralai/Mistral-Large-Instruct-2407\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Mistral-Large-Instruct-2407</a>",
|
10204 |
+
"organization": "Mistral",
|
10205 |
+
"vocab_size": 32768,
|
10206 |
+
"_n_bytes": 2054052,
|
10207 |
+
"_n_tokens": 1114580,
|
10208 |
+
"_n_chars": 1145876,
|
10209 |
+
"_n_oov_chars": 0,
|
10210 |
+
"oov_ratio": 0.0,
|
10211 |
+
"_oov_charset": "[]",
|
10212 |
+
"lossless": true
|
10213 |
+
},
|
10214 |
+
"mistralai/Mistral-Large-Instruct-2407 @ cc100/fr": {
|
10215 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/mistralai/Mistral-Large-Instruct-2407\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Mistral-Large-Instruct-2407</a>",
|
10216 |
+
"organization": "Mistral",
|
10217 |
+
"vocab_size": 32768,
|
10218 |
+
"_n_bytes": 1540504,
|
10219 |
+
"_n_tokens": 467708,
|
10220 |
+
"_n_chars": 1484970,
|
10221 |
+
"_n_oov_chars": 0,
|
10222 |
+
"oov_ratio": 0.0,
|
10223 |
+
"_oov_charset": "[]",
|
10224 |
+
"lossless": true
|
10225 |
+
},
|
10226 |
+
"mistralai/Mistral-Large-Instruct-2407 @ cc100/ja": {
|
10227 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/mistralai/Mistral-Large-Instruct-2407\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Mistral-Large-Instruct-2407</a>",
|
10228 |
+
"organization": "Mistral",
|
10229 |
+
"vocab_size": 32768,
|
10230 |
+
"_n_bytes": 1774770,
|
10231 |
+
"_n_tokens": 665746,
|
10232 |
+
"_n_chars": 603065,
|
10233 |
+
"_n_oov_chars": 0,
|
10234 |
+
"oov_ratio": 0.0,
|
10235 |
+
"_oov_charset": "[]",
|
10236 |
+
"lossless": true
|
10237 |
+
},
|
10238 |
+
"mistralai/Mistral-Large-Instruct-2407 @ cc100/ko": {
|
10239 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/mistralai/Mistral-Large-Instruct-2407\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Mistral-Large-Instruct-2407</a>",
|
10240 |
+
"organization": "Mistral",
|
10241 |
+
"vocab_size": 32768,
|
10242 |
+
"_n_bytes": 1524839,
|
10243 |
+
"_n_tokens": 711304,
|
10244 |
+
"_n_chars": 655190,
|
10245 |
+
"_n_oov_chars": 0,
|
10246 |
+
"oov_ratio": 0.0,
|
10247 |
+
"_oov_charset": "[]",
|
10248 |
+
"lossless": true
|
10249 |
+
},
|
10250 |
+
"mistralai/Mistral-Large-Instruct-2407 @ cc100/zh-Hans": {
|
10251 |
+
"tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/mistralai/Mistral-Large-Instruct-2407\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">Mistral-Large-Instruct-2407</a>",
|
10252 |
+
"organization": "Mistral",
|
10253 |
+
"vocab_size": 32768,
|
10254 |
+
"_n_bytes": 2633047,
|
10255 |
+
"_n_tokens": 1022751,
|
10256 |
+
"_n_chars": 927311,
|
10257 |
+
"_n_oov_chars": 0,
|
10258 |
+
"oov_ratio": 0.0,
|
10259 |
+
"_oov_charset": "[]",
|
10260 |
+
"lossless": true
|
10261 |
}
|
10262 |
}
|
vocab.py
CHANGED
@@ -238,6 +238,7 @@ _all_tokenizer_config = [
|
|
238 |
TokenizerConfig("Qwen/Qwen1.5-14B", impl=TokenizerImpl.SentencePiece, org="Alibaba"), # 15万,速度有点慢
|
239 |
TokenizerConfig("Qwen/Qwen1.5-110B", impl=TokenizerImpl.SentencePiece, org="Alibaba"),
|
240 |
TokenizerConfig("Qwen/Qwen1.5-1.8B", impl=TokenizerImpl.SentencePiece, org="Alibaba"),
|
|
|
241 |
TokenizerConfig("HuggingFaceH4/starchat-alpha", impl=TokenizerImpl.SentencePiece, org="-"),
|
242 |
|
243 |
####### google/sentencepiece tokenizer:
|
@@ -254,14 +255,19 @@ _all_tokenizer_config = [
|
|
254 |
|
255 |
TokenizerConfig("ClueAI/ChatYuan-large-v2", impl=TokenizerImpl.SentencePiece, org="CLUE"),
|
256 |
TokenizerConfig("ClueAI/PromptCLUE-base", impl=TokenizerImpl.SentencePiece, org="CLUE"),
|
|
|
|
|
|
|
|
|
|
|
257 |
TokenizerConfig("gradientai/Llama-3-8B-Instruct-Gradient-1048k", name_display="Meta/llama3",
|
258 |
impl=TokenizerImpl.SentencePiece, org="Meta",
|
259 |
desc="llama split all numbers into individual digits, and fallback to bytes to decompose unknown UTF-8 characters"),
|
260 |
-
# byte-level BPE
|
261 |
-
# '中文单字': 700, '中文多字': 0
|
262 |
TokenizerConfig("NousResearch/Llama-2-7b-chat-hf", name_display="Meta/llama2", impl=TokenizerImpl.SentencePiece,
|
263 |
org="Meta"),
|
264 |
TokenizerConfig("huggyllama/llama-7b", name_display="Meta/llama", impl=TokenizerImpl.SentencePiece, org="Meta"),
|
|
|
|
|
265 |
TokenizerConfig("hpcai-tech/grok-1", name_display="xai-org/grok-1", impl=TokenizerImpl.SentencePiece, org="xAI"),
|
266 |
# 由.model文件转化为了
|
267 |
TokenizerConfig("hfl/chinese-llama-lora-7b", impl=TokenizerImpl.SentencePiece, org="-",
|
@@ -328,14 +334,17 @@ _all_tokenizer_config = [
|
|
328 |
# 未分类
|
329 |
# ("amber", ""),
|
330 |
TokenizerConfig("LLM360/CrystalCoder", org="MBZUAI"),
|
|
|
331 |
TokenizerConfig("mistralai/Mistral-7B-v0.1", org="Mistral"),
|
332 |
TokenizerConfig("mistralai/Mixtral-8x7B-v0.1", org="Mistral"),
|
|
|
333 |
|
334 |
TokenizerConfig("paust/pko-t5-large", org="PAUST"),
|
335 |
|
336 |
TokenizerConfig("01-ai/Yi-6B", org="Yi"),
|
337 |
TokenizerConfig("01-ai/Yi-34B", org="Yi"),
|
338 |
TokenizerConfig("01-ai/Yi-VL-34B", org="Yi"),
|
|
|
339 |
TokenizerConfig("OrionStarAI/Orion-14B-Chat", org="OrionStar"),
|
340 |
TokenizerConfig("microsoft/phi-1", org="Microsoft"),
|
341 |
TokenizerConfig("microsoft/phi-2", org="Microsoft"),
|
@@ -356,6 +365,7 @@ _all_tokenizer_config = [
|
|
356 |
TokenizerConfig("deepseek-ai/deepseek-llm-7b-base", org="DeepSeek"),
|
357 |
TokenizerConfig("deepseek-ai/DeepSeek-V2", org="DeepSeek"),
|
358 |
TokenizerConfig("google/gemma-7b", org="Google"),
|
|
|
359 |
TokenizerConfig("allenai/OLMo-7B", org="Allen AI"),
|
360 |
TokenizerConfig("HuggingFaceH4/zephyr-7b-beta", org="HuggingFace"),
|
361 |
TokenizerConfig("ai21labs/Jamba-v0.1", org="AI21"),
|
|
|
238 |
TokenizerConfig("Qwen/Qwen1.5-14B", impl=TokenizerImpl.SentencePiece, org="Alibaba"), # 15万,速度有点慢
|
239 |
TokenizerConfig("Qwen/Qwen1.5-110B", impl=TokenizerImpl.SentencePiece, org="Alibaba"),
|
240 |
TokenizerConfig("Qwen/Qwen1.5-1.8B", impl=TokenizerImpl.SentencePiece, org="Alibaba"),
|
241 |
+
TokenizerConfig("Qwen/Qwen2-72B", impl=TokenizerImpl.SentencePiece, org="Alibaba"),
|
242 |
TokenizerConfig("HuggingFaceH4/starchat-alpha", impl=TokenizerImpl.SentencePiece, org="-"),
|
243 |
|
244 |
####### google/sentencepiece tokenizer:
|
|
|
255 |
|
256 |
TokenizerConfig("ClueAI/ChatYuan-large-v2", impl=TokenizerImpl.SentencePiece, org="CLUE"),
|
257 |
TokenizerConfig("ClueAI/PromptCLUE-base", impl=TokenizerImpl.SentencePiece, org="CLUE"),
|
258 |
+
|
259 |
+
# byte-level BPE
|
260 |
+
# '中文单字': 700, '中文多字': 0 meta-llama/Meta-Llama-3.1-405B
|
261 |
+
TokenizerConfig("meta-llama/Meta-Llama-3.1-405B", name_display="Meta/llama3.1", impl=TokenizerImpl.SentencePiece,
|
262 |
+
org="Meta"),
|
263 |
TokenizerConfig("gradientai/Llama-3-8B-Instruct-Gradient-1048k", name_display="Meta/llama3",
|
264 |
impl=TokenizerImpl.SentencePiece, org="Meta",
|
265 |
desc="llama split all numbers into individual digits, and fallback to bytes to decompose unknown UTF-8 characters"),
|
|
|
|
|
266 |
TokenizerConfig("NousResearch/Llama-2-7b-chat-hf", name_display="Meta/llama2", impl=TokenizerImpl.SentencePiece,
|
267 |
org="Meta"),
|
268 |
TokenizerConfig("huggyllama/llama-7b", name_display="Meta/llama", impl=TokenizerImpl.SentencePiece, org="Meta"),
|
269 |
+
|
270 |
+
|
271 |
TokenizerConfig("hpcai-tech/grok-1", name_display="xai-org/grok-1", impl=TokenizerImpl.SentencePiece, org="xAI"),
|
272 |
# 由.model文件转化为了
|
273 |
TokenizerConfig("hfl/chinese-llama-lora-7b", impl=TokenizerImpl.SentencePiece, org="-",
|
|
|
334 |
# 未分类
|
335 |
# ("amber", ""),
|
336 |
TokenizerConfig("LLM360/CrystalCoder", org="MBZUAI"),
|
337 |
+
TokenizerConfig("apple/DCLM-7B", org="Apple"),
|
338 |
TokenizerConfig("mistralai/Mistral-7B-v0.1", org="Mistral"),
|
339 |
TokenizerConfig("mistralai/Mixtral-8x7B-v0.1", org="Mistral"),
|
340 |
+
TokenizerConfig("mistralai/Mistral-Large-Instruct-2407", org="Mistral"),
|
341 |
|
342 |
TokenizerConfig("paust/pko-t5-large", org="PAUST"),
|
343 |
|
344 |
TokenizerConfig("01-ai/Yi-6B", org="Yi"),
|
345 |
TokenizerConfig("01-ai/Yi-34B", org="Yi"),
|
346 |
TokenizerConfig("01-ai/Yi-VL-34B", org="Yi"),
|
347 |
+
TokenizerConfig("01-ai/Yi-1.5-34B", org="Yi"),
|
348 |
TokenizerConfig("OrionStarAI/Orion-14B-Chat", org="OrionStar"),
|
349 |
TokenizerConfig("microsoft/phi-1", org="Microsoft"),
|
350 |
TokenizerConfig("microsoft/phi-2", org="Microsoft"),
|
|
|
365 |
TokenizerConfig("deepseek-ai/deepseek-llm-7b-base", org="DeepSeek"),
|
366 |
TokenizerConfig("deepseek-ai/DeepSeek-V2", org="DeepSeek"),
|
367 |
TokenizerConfig("google/gemma-7b", org="Google"),
|
368 |
+
TokenizerConfig("google/gemma-2-9b", org="Google"),
|
369 |
TokenizerConfig("allenai/OLMo-7B", org="Allen AI"),
|
370 |
TokenizerConfig("HuggingFaceH4/zephyr-7b-beta", org="HuggingFace"),
|
371 |
TokenizerConfig("ai21labs/Jamba-v0.1", org="AI21"),
|