Edit model card

Модель openllama_3b_v2, secondstage pre-trained на датасете OSCAR (4k sequence length) и на вики датасете (8k sequence length). В сумме получилось 10-12B токенов. Достигает 3.2 значения перплексии на вики+оскар датасетах (на той части, которая не была показана модели).

Был осуществлен тест на mmlu-ru. Результаты таковы (справа - моя модель, слева - изначальная версия):

accuracy_total: 26.04 / 27.28 STEM: 25.51699654022026 / 26.910630806469058 humanities: 28.404847276301254 / 24.290275834763932 "other (business, health, misc.)": 25.39168024941998 / 29.81126559385235 social sciences: 24.83523489382067 / 28.101196261261098

Файлы с результатами sub_categories.csv (sub_categories_my.csv) тут.

Результаты показывают, что модель действительно чему-то научилась и лучше понимает русский язык. Будет осуществлено дальнейшее тестирование, а также обучение чатбота на датасетах Ильи Гусева (saiga).

Послеобучение было осуществлено на Google TPU v4-32 (TRC) с использованием EasyLM, на JAX/Flax.

Downloads last month
322
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Datasets used to train Defetya/ru-3b-openllama-transformers