🇷🇺 Russian Unigram Tokenizer 16k

Russian Unigram Tokenizer 16k — subword токенизатор, обученный с нуля на корпусе русскоязычных новостных текстов.

🧠 Описание модели

Тип модели: Subword токенизатор (Unigram)
Язык: Русский
Алгоритм: Unigram
Размер словаря: 16 000
Минимальная частота: 3
Нормализация: NFKC
Пре-токенизация: Whitespace

📚 Корпус

Токенизатор обучен на корпусе из 55 000+ слов, собранных с русскоязычных новостных сайтов:

(Корпус собран в 2025 году и включает тексты новостных статей разных тематик.)

📊 Метрики

Метрика	Значение	Описание
OOV rate	1%	Доля слов, отсутствующих в словаре
Reconstruction accuracy	0%	Точность восстановления исходного текста после токенизации
Compression ratio	0.5	Коэффициент сжатия корпуса

🚀 Пример использования

from tokenizers import Tokenizer

tokenizer = Tokenizer.from_pretrained("Shu-vi/Russian_Unigram_Tokenizer_16k")

# Пример
text = "В Казани в 2024 прошёл БРИКС."
encoded = tokenizer.encode(text)

print("Токены:", encoded.tokens)
print("IDs:", encoded.ids)

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support