FRED-T5-large-instruct
🚧 WIP, still training...
Модель ai-forever/FRED-T5-large, обучаемая на инструктивном датасете. Пока что инструкциям следует не очень.
Веса лежат вместе с состоянием оптимизатора, шедулера и Trainer'а. Можно почти спокойно "продолжать" обучение на своих данных.
Usage
Basic
from transformers import pipeline
pipe = pipeline('text2text-generation', model='d0rj/FRED-T5-large-instruct')
pipe('<SC6>Придумай сказку про красную лягушку<extra_id_0>')
Training
Пока что можно следить за обучением здесь на WandB.
Учится в fp32.
Data
Сконкатенировано из разных переведённых инструктивных датасетов.
Всего 1.1B токенов (1133146852) в обучающем сете, 7506075 примеров system_prompt-question-answer. По Chinchilla статье это ~ в 15 раз меньше, чем нужно (но Chinchilla про претрейн).
Resources
Учится в Kaggle на одной P100. Медленно, но верно (лосс падает, а большего мне и не надо).
- Downloads last month
- 8
Inference Providers
NEW
This model is not currently available via any of the supported third-party Inference Providers, and
the model is not deployed on the HF Inference API.
Model tree for d0rj/FRED-T5-large-instruct
Base model
ai-forever/FRED-T5-large