🇷🇺 Russian Unigram Tokenizer 16k
Russian Unigram Tokenizer 16k — subword токенизатор, обученный с нуля на корпусе русскоязычных новостных текстов.
🧠 Описание модели
- Тип модели: Subword токенизатор (Unigram)
- Язык: Русский
- Алгоритм: Unigram
- Размер словаря: 16 000
- Минимальная частота: 3
- Нормализация: NFKC
- Пре-токенизация: Whitespace
📚 Корпус
Токенизатор обучен на корпусе из 55 000+ слов, собранных с русскоязычных новостных сайтов:
(Корпус собран в 2025 году и включает тексты новостных статей разных тематик.)
📊 Метрики
| Метрика | Значение | Описание | 
|---|---|---|
| OOV rate | 1% | Доля слов, отсутствующих в словаре | 
| Reconstruction accuracy | 0% | Точность восстановления исходного текста после токенизации | 
| Compression ratio | 0.5 | Коэффициент сжатия корпуса | 
🚀 Пример использования
from tokenizers import Tokenizer
tokenizer = Tokenizer.from_pretrained("Shu-vi/Russian_Unigram_Tokenizer_16k")
# Пример
text = "В Казани в 2024 прошёл БРИКС."
encoded = tokenizer.encode(text)
print("Токены:", encoded.tokens)
print("IDs:", encoded.ids)
	Inference Providers
	NEW
	
	
	This model isn't deployed by any Inference Provider.
	🙋
			
		Ask for provider support
