kirv
/

Mistral-7b-tokens4b-v1

Model card Files Files and versions Community

kirv commited on May 5

Commit

d170b0b

•

1 Parent(s): 42b85d1

Update README.md

Files changed (1) hide show

README.md +23 -1

README.md CHANGED Viewed

@@ -8,4 +8,26 @@ datasets:
 - IlyaGusev/rulm
 base_model:
 - mistralai/Mistral-7B-v0.1
----

 - IlyaGusev/rulm
 base_model:
 - mistralai/Mistral-7B-v0.1
+---
+Модель mistralai/Mistral-7B-v0.1, обучение всех слоев с ~4млрд токенов из датасета.
+130 часов 2xTesla H100.
+```
+batch_size: 20
+epochs: 1
+optimizer:
+  _component_: torch.optim.AdamW
+  lr: 5e-6
+  weight_decay: 0.01
+loss:
+  _component_: torch.nn.CrossEntropyLoss
+max_steps_per_epoch: null
+gradient_accumulation_steps: 5
+```
+Размер последовательности 1024 токенов.
+loss: 2.03
+По https://github.com/NLP-Core-Team/mmlu_ru
+Квантизация в 4b: accuracy_total=41.86218134391028