FLAMA: Model 3B ChatML en Català i Castellà. Versió 0.5
FLAMA és el primer model petit 3B bilingüe en català i castellà. És el resultat de finetunejar el model open_llama_3b_v2 amb les instruccions d'OpenAssistant v2 traduïdes automàticament al català i al castellà amb recursos de Helsinki-NLP i tractades en format ChatML.
Novetats de la versió 0.5
- Català millorat
- Afegit el Castellà
Prompt Template
FLAMA usa ChatML com a prompt template:
<|im_start|>user
Qui va ser Isaac Newton?<|im_end|>
<|im_start|>assistant\n
<|im_start|>user
Quien fué Isaac Newton?<|im_end|>
<|im_start|>assistant\n
Referències
@software{xaviviro2023flama,
author = {xaviviro},
title = {FLAMA: Model 3B ChatML en Català. Versió 0.5},
month = January,
year = 2024,
url = {https://huggingface.co/xaviviro/FLAMA-0.5-3B}
}
@software{openlm2023openllama,
author = {Geng, Xinyang and Liu, Hao},
title = {OpenLLaMA: An Open Reproduction of LLaMA},
month = May,
year = 2023,
url = {https://github.com/openlm-research/open_llama}
}
@software{together2023redpajama,
author = {Together Computer},
title = {RedPajama-Data: An Open Source Recipe to Reproduce LLaMA training dataset},
month = April,
year = 2023,
url = {https://github.com/togethercomputer/RedPajama-Data}
}
@article{touvron2023llama,
title={Llama: Open and efficient foundation language models},
author={Touvron, Hugo and Lavril, Thibaut and Izacard, Gautier and Martinet, Xavier and Lachaux, Marie-Anne and Lacroix, Timoth{\'e}e and Rozi{\`e}re, Baptiste and Goyal, Naman and Hambro, Eric and Azhar, Faisal and others},
journal={arXiv preprint arXiv:2302.13971},
year={2023}
}
Open LLM Leaderboard Evaluation Results
Detailed results can be found here
Metric | Value |
---|---|
Avg. | 39.23 |
AI2 Reasoning Challenge (25-Shot) | 37.97 |
HellaSwag (10-Shot) | 67.65 |
MMLU (5-Shot) | 25.73 |
TruthfulQA (0-shot) | 41.11 |
Winogrande (5-shot) | 62.12 |
GSM8k (5-shot) | 0.83 |
- Downloads last month
- 17
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social
visibility and check back later, or deploy to Inference Endpoints (dedicated)
instead.