lucianosb
/

sabia-7b-GGUF

lucianosb commited on Nov 9, 2023

Commit

e257fcd

•

1 Parent(s): 0f7df42

atualiza tamanho dos modelos

Files changed (1) hide show

README.md CHANGED Viewed

@@ -20,11 +20,11 @@ pipeline_tag: text-generation
 | Nome | Método Quant | Bits | Tamanho  | Desc |
 | ---- | ---- | ---- | ---- | ----- |
-| [sabia7b-q4_0.gguf](https://huggingface.co/lucianosb/sabia-7b-GGUF/blob/main/sabia7b-q4_0.gguf) | q4_0 | 4 | 1.94 GB | Quantização em 4-bit. |
-| [sabia7b-q4_1.gguf](https://huggingface.co/lucianosb/sabia-7b-GGUF/blob/main/sabia7b-q4_1.gguf) | q4_1 | 4 | 2.14 GB | Quantização em 4-bit. Acurácia maior que q4_0 mas não tão boa quanto q5_0. Inferência mais rápida que os modelos q5. |
-| [sabia7b-q5_0.gguf](https://huggingface.co/lucianosb/sabia-7b-GGUF/blob/main/sabia7b-q5_0.gguf) | q5_0 | 5 | 2.34 GB | Quantização em 5-bit. Melhor acurácia, maior uso de recursos, inferência mais lenta. |
-| [sabia7b-q5_1.gguf](https://huggingface.co/lucianosb/sabia-7b-GGUF/blob/main/sabia7b-q5_1.gguf) | q5_1 | 5 | 2.53 GB | Quantização em 5-bit. Ainda Melhor acurácia, maior uso de recursos, inferência mais lenta. |
-| [sabia7b-q8_0.gguf](https://huggingface.co/lucianosb/sabia-7b-GGUF/blob/main/sabia7b-q8_0.gguf) | q8_0 | 8 | 3.52 GB | Quantização em 8-bit. Quase indistinguível do float16. Usa muitos recursos e é mais lento. |
 **Observação**: os valores de RAM acima não pressupõem descarregamento de GPU. Se as camadas forem descarregadas para a GPU, isso reduzirá o uso de RAM e usará VRAM.

 | Nome | Método Quant | Bits | Tamanho  | Desc |
 | ---- | ---- | ---- | ---- | ----- |
+| [sabia7b-q4_0.gguf](https://huggingface.co/lucianosb/sabia-7b-GGUF/blob/main/sabia7b-q4_0.gguf) | q4_0 | 4 | 3.83 GB | Quantização em 4-bit. |
+| [sabia7b-q4_1.gguf](https://huggingface.co/lucianosb/sabia-7b-GGUF/blob/main/sabia7b-q4_1.gguf) | q4_1 | 4 | 4.24 GB | Quantização em 4-bit. Acurácia maior que q4_0 mas não tão boa quanto q5_0. Inferência mais rápida que os modelos q5. |
+| [sabia7b-q5_0.gguf](https://huggingface.co/lucianosb/sabia-7b-GGUF/blob/main/sabia7b-q5_0.gguf) | q5_0 | 5 | 4.65 GB | Quantização em 5-bit. Melhor acurácia, maior uso de recursos, inferência mais lenta. |
+| [sabia7b-q5_1.gguf](https://huggingface.co/lucianosb/sabia-7b-GGUF/blob/main/sabia7b-q5_1.gguf) | q5_1 | 5 | 5.06 GB | Quantização em 5-bit. Ainda Melhor acurácia, maior uso de recursos, inferência mais lenta. |
+| [sabia7b-q8_0.gguf](https://huggingface.co/lucianosb/sabia-7b-GGUF/blob/main/sabia7b-q8_0.gguf) | q8_0 | 8 | 7.16 GB | Quantização em 8-bit. Quase indistinguível do float16. Usa muitos recursos e é mais lento. |
 **Observação**: os valores de RAM acima não pressupõem descarregamento de GPU. Se as camadas forem descarregadas para a GPU, isso reduzirá o uso de RAM e usará VRAM.