Update README.md
Browse files
README.md
CHANGED
@@ -18,7 +18,7 @@ base_model:
|
|
18 |
|
19 |
Модель оптимизированна для различных вариантов использования, включая ризонинг, суммаризацию, код, roleplay, поддержание диалога. Vikhr-Nemo обладает возможностью многоязычной генерации, и высокопроизводительными возможностями RAG. Модель иммет лучшие оценки среди прочих на наших инструктивных и RAG бенчарках и, поэтому, мы верим, что в некоторых задачах (например, RAG) может быть не хуже gpt-4o-mini от OpenAI.
|
20 |
|
21 |
-
Весь использованный код для обучения доступен в нашем репозитории [effective_llm_alignment](https://github.com/VikhrModels/effective_llm_alignment/) на GitHub, а
|
22 |
|
23 |
### Особенности
|
24 |
1. Высокое качество генераций на русском и английском языках, а также некоторых других языках, благодаря датасету [Grandmaster-PRO-MAX](https://huggingface.co/datasets/Vikhrmodels/GrandMaster-PRO-MAX) и исходной модели
|
@@ -55,7 +55,10 @@ base_model:
|
|
55 |
|
56 |
Тут для оценки качества модель-судья gpt-4o была проинструктирована учитывать релеватность и фактологичкскую полноту ответов исходя из документов и реферсного ответа от gpt-4-1106-preview.
|
57 |
|
58 |
-
Подробности промптов и оценок смотрите в коде бенчмарка
|
|
|
|
|
|
|
59 |
|
60 |
<table>
|
61 |
<thead>
|
@@ -117,7 +120,7 @@ base_model:
|
|
117 |
<thead>
|
118 |
<tr>
|
119 |
<th style="visibility: hidden;" rowspan="2">question_type</th>
|
120 |
-
<th colspan="3">gpt-
|
121 |
</tr>
|
122 |
<tr>
|
123 |
<th style="visibility: hidden;">judge_correct_percent</th>
|
@@ -175,7 +178,7 @@ base_model:
|
|
175 |
|
176 |
Для SFT этапа обучения модели мы подготовили большой (150к инструкций) инструктивный синтетический датасет [Vikhrmodels/GrandMaster-PRO-MAX](https://huggingface.co/datasets/Vikhrmodels/GrandMaster-PRO-MAX). Его особенностью является встроеный CoT (Chain-Of-Thought), для сбора которого мы использовали модифицированный промет для gpt-4-turbo, подробности в карточке датасета.
|
177 |
|
178 |
-
Кроме
|
179 |
|
180 |
#### Этап алайнмента с SMPO
|
181 |
|
@@ -204,6 +207,8 @@ base_model:
|
|
204 |
|
205 |
#### Пример правильного использования с OpenAI-like API
|
206 |
|
|
|
|
|
207 |
```python
|
208 |
GROUNDED_SYSTEM_PROMPT = "Your task is to answer the user's questions using only the information from the provided documents. Give two answers to each question: one with a list of relevant document identifiers and the second with the answer to the question itself, using documents with these identifiers."
|
209 |
|
|
|
18 |
|
19 |
Модель оптимизированна для различных вариантов использования, включая ризонинг, суммаризацию, код, roleplay, поддержание диалога. Vikhr-Nemo обладает возможностью многоязычной генерации, и высокопроизводительными возможностями RAG. Модель иммет лучшие оценки среди прочих на наших инструктивных и RAG бенчарках и, поэтому, мы верим, что в некоторых задачах (например, RAG) может быть не хуже gpt-4o-mini от OpenAI.
|
20 |
|
21 |
+
Весь использованный код для обучения доступен в нашем репозитории [effective_llm_alignment](https://github.com/VikhrModels/effective_llm_alignment/) на GitHub, а основные датасеты доступны в нашем [профиле на HF](https://huggingface.co/Vikhrmodels).
|
22 |
|
23 |
### Особенности
|
24 |
1. Высокое качество генераций на русском и английском языках, а также некоторых других языках, благодаря датасету [Grandmaster-PRO-MAX](https://huggingface.co/datasets/Vikhrmodels/GrandMaster-PRO-MAX) и исходной модели
|
|
|
55 |
|
56 |
Тут для оценки качества модель-судья gpt-4o была проинструктирована учитывать релеватность и фактологичкскую полноту ответов исходя из документов и реферсного ответа от gpt-4-1106-preview.
|
57 |
|
58 |
+
Подробности промптов и оценок смотрите в коде бенчмарка на [коллабе](https://colab.research.google.com/drive/16730rWQ4-yGqWoooLs0Ece_16frmOniP?usp=sharing)
|
59 |
+
|
60 |
+
in_domain - вопросы которые связаны с содержанием предоставленных документов в той или иной степени \
|
61 |
+
out_of_domain - вопросы которые специально никак не связаны с содержанием предоставленных документов
|
62 |
|
63 |
<table>
|
64 |
<thead>
|
|
|
120 |
<thead>
|
121 |
<tr>
|
122 |
<th style="visibility: hidden;" rowspan="2">question_type</th>
|
123 |
+
<th colspan="3">gpt-4o-mini</th>
|
124 |
</tr>
|
125 |
<tr>
|
126 |
<th style="visibility: hidden;">judge_correct_percent</th>
|
|
|
178 |
|
179 |
Для SFT этапа обучения модели мы подготовили большой (150к инструкций) инструктивный синтетический датасет [Vikhrmodels/GrandMaster-PRO-MAX](https://huggingface.co/datasets/Vikhrmodels/GrandMaster-PRO-MAX). Его особенностью является встроеный CoT (Chain-Of-Thought), для сбора которого мы использовали модифицированный промет для gpt-4-turbo, подробности в карточке датасета.
|
180 |
|
181 |
+
Кроме того, для того чтобы сделать RAG Grounding, мы подготовили другой синтетический датасет - [Vikhrmodels/Grounded-RAG-RU-v2](https://huggingface.co/datasets/Vikhrmodels/Grounded-RAG-RU-v2) (50k диалогов), его пайплайн сборки достаточно сложный для короткого описания и полробнее об этом вы можете прочитать в его карточке.
|
182 |
|
183 |
#### Этап алайнмента с SMPO
|
184 |
|
|
|
207 |
|
208 |
#### Пример правильного использования с OpenAI-like API
|
209 |
|
210 |
+
Запуск vLLM сервера: `vllm serve --dtype half --max-model-len 32000 -tp 1 Vikhrmodels/Vikhr-Nemo-12B-Instruct-R-21-09-24 --api-key token-abc123`
|
211 |
+
|
212 |
```python
|
213 |
GROUNDED_SYSTEM_PROMPT = "Your task is to answer the user's questions using only the information from the provided documents. Give two answers to each question: one with a list of relevant document identifiers and the second with the answer to the question itself, using documents with these identifiers."
|
214 |
|