🌌 RuGPT-5-small (v1.0)
!!!АХТУНГ!!! Данная модель не создана компанией "СБЕР" это кастомный LM.
Подробнее:
⚙️ Детали модели
- Архитектура: используется GPT + DeepSeek, но модель своя.
- Параметры: 320M
- Язык: Русский, только русский.
- Лицения: Apache 2.0
🏋️ Детали Тренировки
- Датасет: ``
- Железо: ОДНА NVIDIA GEFORCE RTX 5060 TI (16GB VRAM)
- Эпохи: ...
- Шагов: - 115 тысяч
- СРЕДНИЙ LOSS: 3.501953
- Оптимизатор: lr = 2e-4
- Контекст: 2048 токенов
- Downloads last month
- 11