GGUF версия стрелы.

Файл Токенов/Секунда* Скорость Качество Описание
strela-q8_0.gguf 5 Медленная Отличное Лучше всего подходит для Cuda
strela-q4_k_m.gguf 9 Средняя Хорошое Отлично работает на CPU, рекомендуется для использования на слабых устройствах
strela-q2_k.gguf 13 Быстрая Плохое Использовать только для английского языка с задачей, связанной с русскими словами

*Протестированно на Intel(R) Core(TM) i5-10300H CPU @ 2.50GHz

Downloads last month
10
GGUF
Model size
3.02B params
Architecture
llama

2-bit

4-bit

8-bit

Inference Examples
Inference API (serverless) does not yet support GGUF models for this pipeline type.