Vikhrmodels
/

Vikhr-Nemo-12B-Instruct-R-21-09-24

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

hivaze commited on Sep 23

Commit

ed927b2

•

1 Parent(s): 94f2606

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -192,7 +192,7 @@ out_of_domain - вопросы которые специально никак н
 Реализацию SMPO, rejection sampling и тд можно найти в нашей библиотеке [effective_llm_alignment](https://github.com/VikhrModels/effective_llm_alignment/) на GitHub
-Идея использования именно SMPO, а не другого PO метода, возникла в результате проведения большого количества экспериментов с классическими методами, при необходимости лучшего контроля процесса сходимости. При использовании разных гиперпараметров в разных методах, можно добится почти одинакового результата оптимизации, однако мы постарались упростить этот процесс и объединить лучшие практики из других методов.
 ### Как работать с RAG

 Реализацию SMPO, rejection sampling и тд можно найти в нашей библиотеке [effective_llm_alignment](https://github.com/VikhrModels/effective_llm_alignment/) на GitHub
+Идея использования именно SMPO, а не другого PO метода, возникла в результате проведения большого количества экспериментов с классическими методами, при необходимости лучшего контроля процесса сходимости. При тщательной настройке других методов (например SimPO), можно добится похожего результата, однако мы постарались стаблизировать этот процесс и объединить лучшие практики из других методов.
 ### Как работать с RAG