🇷🇺 Russian Unigram Tokenizer 16k

Russian Unigram Tokenizer 16k — subword токенизатор, обученный с нуля на корпусе русскоязычных новостных текстов.


🧠 Описание модели

  • Тип модели: Subword токенизатор (Unigram)
  • Язык: Русский
  • Алгоритм: Unigram
  • Размер словаря: 16 000
  • Минимальная частота: 3
  • Нормализация: NFKC
  • Пре-токенизация: Whitespace

📚 Корпус

Токенизатор обучен на корпусе из 55 000+ слов, собранных с русскоязычных новостных сайтов:

(Корпус собран в 2025 году и включает тексты новостных статей разных тематик.)


📊 Метрики

Метрика Значение Описание
OOV rate 1% Доля слов, отсутствующих в словаре
Reconstruction accuracy 0% Точность восстановления исходного текста после токенизации
Compression ratio 0.5 Коэффициент сжатия корпуса

🚀 Пример использования

from tokenizers import Tokenizer

tokenizer = Tokenizer.from_pretrained("Shu-vi/Russian_Unigram_Tokenizer_16k")

# Пример
text = "В Казани в 2024 прошёл БРИКС."
encoded = tokenizer.encode(text)

print("Токены:", encoded.tokens)
print("IDs:", encoded.ids)
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support