nicolasdec commited on
Commit
3b73bb3
·
verified ·
1 Parent(s): 9f82682

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +58 -1
README.md CHANGED
@@ -1,6 +1,63 @@
1
  ---
2
  language:
3
  - pt
 
4
  ---
5
 
6
- Em Breve
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
  language:
3
  - pt
4
+ license: apache-2.0
5
  ---
6
 
7
+ # Cabra Mistral 7b v3 - 32k
8
+ <img src="https://uploads-ssl.webflow.com/65f77c0240ae1c68f8192771/660b1a4d574293d8a1ce48ca_cabra1.png" width="400" height="400">
9
+
10
+ Esse modelo é um finetune do [Mistral 7b Instruct 0.3](https://huggingface.co/mistralai/mistral-7b-instruct-v0.3) com o dataset BotBot Cabra 10k. Esse modelo é optimizado para português.
11
+
12
+ **Conheça os nossos outros modelos: [Cabra](https://huggingface.co/collections/botbot-ai/models-6604c2069ceef04f834ba99b).**
13
+
14
+ ## Detalhes do Modelo
15
+
16
+ ### Modelo: Mistral 7b Instruct 0.3
17
+
18
+ Mistral-7B-v0.3 é um modelo de transformador, com as seguintes escolhas arquitetônicas:
19
+
20
+ - Grouped-Query Attention
21
+ - Sliding-Window Attention
22
+ - Byte-fallback BPE tokenizer
23
+
24
+ ### dataset: Cabra 10k
25
+
26
+ Dataset interno para finetuning. Vamos lançar em breve.
27
+
28
+ ### Quantização / GGUF
29
+
30
+ Colocamos diversas versões (GGUF) quantanizadas no branch "quantanization".
31
+
32
+ ### Exemplo
33
+
34
+ ```
35
+ <s> [INST] who is Elon Musk? [/INST]Elon Musk é um empreendedor, inventor e capitalista americano. Ele é o fundador, CEO e CTO da SpaceX, CEO da Neuralink e fundador do The Boring Company. Musk também é o proprietário do Twitter.</s>
36
+ ```
37
+
38
+ ### Paramentros de trainamento
39
+
40
+ ```
41
+ - learning_rate: 1e-05
42
+ - train_batch_size: 4
43
+ - eval_batch_size: 4
44
+ - seed: 42
45
+ - distributed_type: multi-GPU
46
+ - num_devices: 2
47
+ - gradient_accumulation_steps: 8
48
+ - total_train_batch_size: 64
49
+ - total_eval_batch_size: 8
50
+ - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
51
+ - lr_scheduler_type: cosine
52
+ - lr_scheduler_warmup_ratio: 0.01
53
+ - num_epochs: 3
54
+ ```
55
+
56
+ ### Framework
57
+
58
+ - Transformers 4.39.0.dev0
59
+ - Pytorch 2.1.2+cu118
60
+ - Datasets 2.14.6
61
+ - Tokenizers 0.15.2
62
+
63
+ ### Evals