Запуск модели
Доброго времени суток!
Пожалуйста подскажите в чём можно запустить данную модель на windows?
Попробовал в оллама выдало ошибку
C:\Windows\System32>ollama create mymodel -f "D:\OllamaModels\Modelfile"
gathering model components
copying file sha256:cc80a80481cd2a5ec1040954b954742c05bcb75904149aac87772fc3780cfcef 100%
Error: unknown type
Здравствуйте, @Svyatoblood . ARMT -- новая архитектура, находится на этапе исследований и пока не может быть запущена с помощью ollama и других сервисах эффективного запуска моделей. Для запуска необходимо воспользоваться скриптом из репозитория на гитхабе: https://github.com/RodkinIvan/associative-recurrent-memory-transformer/blob/llama_armt/scripts/pg19/finetune_armt_llama3.2_pg19.sh. Параметры зависят от того, какой именно чекпоинт Вы будете запускать. За этими параметрами нужно обращаться ко мне.
Такое неудобство использования связано в первую очередь с тем, что этот архив служит пока лишь удобным хранилищем весов для обмена ими внутри нашей исследовательской группы. Прошу прощения за неудобства и спасибо за интерес к нашей модели. Ознакомиться с архитектурой вы можете в статье: https://arxiv.org/abs/2407.04841
Спасибо за объяснение, ещё такой вопрос, наткнулся на вашу работу пока изучал подобное решение от Гугл, репозиторий на гитхабе https://github.com/lucidrains/titans-pytorch возможно вам пригодится.
И по поводу параметров для последней версии можете скинуть? Если проблемно опубликовать в открытом доступе можно в тг или дискорде ник тот же @svyatoblood
Воспользуйтесь параметрами в этом скрипте (https://github.com/RodkinIvan/associative-recurrent-memory-transformer/blob/llama_armt/scripts/pg19/finetune_armt_llama3.2_pg19.sh) для запуска этого чекпоинта (https://huggingface.co/irodkin/ARMT-llama3.2-1B/blob/main/armt_llama3.2-1B_step19500.bin)
Однако имейте в виду, что это не инструктивная модель и она лишь немного запретрейнена на относительно маленьком текстовом датасете. Она не предназначена для диалога и выполнения запросов
В статье https://arxiv.org/abs/2407.04841 использовались более маленькие модели под специфичные задачи