Vikhrmodels
/

Vikhr-Nemo-12B-Instruct-R-21-09-24

Model card Files Files and versions Community

hivaze commited on 2 days ago

Commit

3791712

•

1 Parent(s): a16509b

Updates I nREADME

Files changed (1) hide show

README.md +28 -0

README.md CHANGED Viewed

@@ -28,6 +28,34 @@ base_model:
 ### Метрики и оценка качества
 ### Как эта модель создавалась
 ### Как работать с RAG

 ### Метрики и оценка качества
+Модель оценивалась на нашем русскоязычном опен-сорс SBS бенчмарке [ru-arena-general](https://github.com/VikhrModels/ru_llm_arena) (50 вопросов по 10 топикам), где судьей выступает gpt-4-1106-preview и [бенчмарке]() для RAG на основе тестового сета [Grounded-RAG-v2](https://huggingface.co/datasets/Vikhrmodels/Grounded-RAG-RU-v2), где судей выступа gpt-4o.
+#### Результаты на Ru-Arena-General
+В качестве референсых отвеов, с которыми сравниваются модели выступают ответы от gpt-3.5-turbo-0125, поэтому она имеет винрейт 50%.
+Здесь приведена лишь часть лидерборда, подробнее смотрите в репозитории бенчмарка.
+| Model Name                                       | Winrate  | 95% CI             | Average # Tokens |
+|--------------------------------------------------|--------|--------------------|------------------|
+| gpt-4-1106-preview                               | 90.9   | (-1.3, 1.0)        | 541              |
+| gpt-4o-mini                                      | 83.9   | (-1.8, 1.1)        | 448              |
+| **vikhr-nemo-12b-instruct-r-21-09-24**               | **79.8**   | (-2.2, 1.9)        | **627**              |
+| gemma-2-9b-it-sppo-iter3                         | 73.6   | (-1.6, 2.2)        | 509              |
+| gemma-2-9b-it                                    | 69.2   | (-2.5, 1.9)        | 459              |
+| t-lite-instruct-0.1                              | 64.7   | (-2.1, 1.7)        | 810              |
+| vikhr-llama3.1-8b-instruct-r-21-09-24            | 63.4   | (-2.1, 2.5)        | 618              |
+| suzume-llama-3-8B-multilingual-orpo-borda-half   | 57.1   | (-1.9, 2.2)        | 682              |
+| mistral-nemo-instruct-2407                       | 50.5   | (-2.7, 2.6)        | 403              |
+| gpt-3.5-turbo-0125                               | 50.0   | (0.0, 0.0)         | 220              |
+| c4ai-command-r-v01                               | 49.0   | (-1.7, 2.2)        | 529              |
+#### Результаты на бенчмарке RAG
+Тут в для оценки качества модель-судья была проинструктирована учитывать релеватность и фактологичкскую полноту ответов исходя из документов и реферсного ответа от gpt-4-1106-preview.
+...
 ### Как эта модель создавалась
 ### Как работать с RAG