Запуск модели.
Какие требования к оборудованию?
Как запустить эту модель на локальном компьютере?
Как запустить модель на видеокарте?
It's 52 gb of weights... I mean. Maybe. If we quantize it, a lot.
13*4 (fp32) = 52gb, если бы веса были в фп16 - 13*2 = 26gb. Требования такие же как и у любой другой MHA модели на 13б, возможно чуть выше в связи с возрастом имплементации ГПТ2 в библиотеке трансформерс (мемные аппроксимации и конв1д замедлят инференс). Интересно что в качестве архитектуры была выбрана GPT2, а не скажем NeoX...
Вот мой репо с fp16 реализацией модели и гайдом как ее использовать) Gaivoronsky/ruGPT-3.5-13B-fp16
Да блин, она даже в 3090(24Гб) не влазит. Я не понимаю, что у всех тут a6000 или A100? Куча моделей есть нормальных, но мало того что СБ выпустил какаху, да ещё и попробовать никому не даёт нормально. В чём смысл этой модели? Чтобы 2 человека ждали пока она через пол часа напечатает ответ чем Крым? :) СБ позорники! Гигачат - просрали, ruGPT - просрали. Это РоссииИя! Один яндекс что-то там трепыхается с горем пополам и то вот-вот помрёт :) НУ реально, стыдно даже слегка за наше ИТ
@valanchik
в 4090 или оффлоад/квант влезет, также т.к. эта модель на арке гпт2, то есть куча относительно быстрых либ для инференса на проце либо проц+карта. А так. подобные модели делают чтобы влезли на "дешёвые" карты по типу а40.
З.Ы. ниже 13б интеллекта как такого можно не ждать.
Вот мой репо с fp16 реализацией модели и гайдом как ее использовать) Gaivoronsky/ruGPT-3.5-13B-fp16
Да блин, она даже в 3090(24Гб) не влазит. Я не понимаю, что у всех тут a6000 или A100? Куча моделей есть нормальных, но мало того что СБ выпустил какаху, да ещё и попробовать никому не даёт нормально. В чём смысл этой модели? Чтобы 2 человека ждали пока она через пол часа напечатает ответ чем Крым? :) СБ позорники! Гигачат - просрали, ruGPT - просрали. Это РоссииИя! Один яндекс что-то там трепыхается с горем пополам и то вот-вот помрёт :) НУ реально, стыдно даже слегка за наше ИТ
На 3090 в самый раз LLaMa-2 от Meta. Там как раз есть реализация на 7 ярдов meta-llama/Llama-2-7b-chat-hf, русский язык там более менее
Для тех, кто говорит о том, что не лезет в fp16 13б на 24гб . Посчитайте пожалуйста сколько нужно по 2 байта на 13б. Получите 26 а не 24гб. Чтобы влезло надо в int8 квантануть и будет ок.
Вот реализация которая запустится на 3090 (24 ГБ) Gaivoronsky/ruGPT-3.5-13B-8bit
Colab для запуска (4bit version).
https://colab.research.google.com/drive/1KyDX_D-rsKN8qpIvo3YMXSYmT3poaBGN
Сереж а давай в описание карточки модели добавим?
Ждем 13b 2bit GGML и ruGPT-3.5-13B-Chat-q2
Модель запустилась с помощью text-generation-webui (https://github.com/oobabooga/text-generation-webui), но работает медленно на моём железе.
Я про инференс на странице модели. Видимо торопился, не указал. На самой странице HF модели нужно инференс починить.
у меня влезает 16b в 4090 и запускается, правда что бы выдача была более менее нормальная по инпуту с клавы надо чуть пошаманить
Какие требования к оборудованию?
Как запустить эту модель на локальном компьютере?
Как запустить модель на видеокарте?
Прекрасно запускается модель и на text-generation-webui и на koboldcpp ..
Я запускаю на процессоре, вполне себе работает с любым квантованием модели (выше - думает дольше). Аналогично учитывать объем оперативки, для ruGPT-3.5-13B нужно от 16Гб при старте на CPU. Чем и хорош проц, можно задвинуть модели и на 70b и выше в зависимости от оперативки
Прекрасно запускается модель и на text-generation-webui и на koboldcpp ..
Я запускаю на процессоре, вполне себе работает с любым квантованием модели (выше - думает дольше). Аналогично учитывать объем оперативки, для ruGPT-3.5-13B нужно от 16Гб при старте на CPU. Чем и хорош проц, можно задвинуть модели и на 70b и выше в зависимости от оперативки
Какую конкретно модель ты смог запустить на кобольде?
На кобольде: ruGPT-3.5-13B-Q4_0.gguf, процессоре.
На мой взгляд шустро и более менее без лютой кривой орфографии хорошо работает вообще другая, вот эта: silicon-masha-7b.Q5_0.gguf
И самый быстрый всеядный и прожорливый по форматам софт это chat4all программуля. Например альпака электрон - запускает модели через один, не ясно почему не может загрузить некоторые модели..
Я уже штук 15 различных моделей оттестировал. По уму самая хорошая для РУ сектора: IlyaGusev_saiga2_13b_gguf_model-q8_0.gguf но медленная совсем
для ру юзайте openchat-3.5, моделька на 7б параметров, при том поумнее многих 70б моделей
По уму самая хорошая для РУ сектора: IlyaGusev_saiga2_13b_gguf_model-q8_0.gguf но медленная совсем
+1 Сайга - это пока что лучшее, что удалось затестить на русском.
@Dimanjy @Dword а Вихрь пробовали? @Vikhrmodels
@Dimanjy @Dword а Вихрь пробовали? @Vikhrmodels
Это что, шутка? Там в описании маты-перематы. Такое даже трогать не хочется.
а можно инструкцию как запускать?