Parabéns pelo trabalho
Ótimo modelo para uso pessoal e estudar, fiz uns testes até de role-play ele faz bem sem começar a falar inglês do nada( comum no llama 3 normal, esse modelo tá bem intrínseco a falar pt-br mesmo). Pelo menos alguns testes de python que faço nos llama 3 em inglês, ele não degradou nada é da bem as respostas (até traduzindo o código para português sem você pedir no prompt, fazendo até os mesmos erros que o llama3 8b sem tá treinado na framework já faz).
Aparentemente o modelo não tá censurado ( o llama 3 puro em si é bem fácil enganar no prompt). É pra quem gosta de Tavern AI tá interessante já que ele lidou bem com meus personagens super aleatórios e que estavam com contexto em inglês (não sou aficionado pra testar aponto de ver se ele ia entrar no personagem).
Rodei ele com 8k de contexto na quantização q6. ( não achei na pagina de vcs, peguei pelo mradermacher, ele fez quantização imatrix que é legal, depois testo)
Novamente parabéns pelo trabalho a comunidade.
Oi Alex, Tudo bem?
Muito obrigado pelo elogio! Fico feliz que gostou, estou rolando mais um treinamento para dar uma melhorada nele,. Depois da uma olhada nos outros modelos nossos. Vou fazer o Llama3 72b depois.
O Cabra 72b é incrível para roleplay.
Verdade!! Esqueci de incluir os modelos com quantização. Vou fazer amanha.
Grande abraço
Gostei do modelo, tem poucos erros de português, principalmente relacionados ao português de portugal.
Fiquei curioso, você fez o finetuning com qual método? QLoRA? Qual fator R utilizou ?
Valeu
Oi @cnmoro
Tudo bem? Quais erros você percebeu mais? Queria tentar resolver; Um que estava bem comum e acontecia com o nosso modelo Qwen também é usar milhas em vez de quilômetros. Era uma falha no nosso dataset, já corrigimos e nos próximos treinamentos (llama 3 72b) não devem ocorrer mais.
Geralmente fazemos um finetune completo, resultados melhores (custo maior também) que LoRA. Segue todos os parâmetros de treinamento:
Abcs
Model arguments
model_name_or_path: meta-llama/Meta-Llama-3-8B-Instruct
model_revision: main
torch_dtype: bfloat16
use_flash_attention_2: true
Data training arguments
dataset_mixer:
/home/ubuntu/llm_finetune/alignment-handbook/merge_translate_21_04: 1.0
dataset_splits:
- train
preprocessing_num_workers: 12
SFT trainer config
bf16: true
dataset_kwargs:
add_special_tokens: false # We already wrap and in the chat template
append_concat_token: false # No need to add across samples
do_eval: false
gradient_accumulation_steps: 4
gradient_checkpointing: true
gradient_checkpointing_kwargs:
use_reentrant: false
learning_rate: 1.0e-05
log_level: info
logging_steps: 5
logging_strategy: steps
lr_scheduler_type: cosine
max_seq_length: 2048
max_steps: -1
num_train_epochs: 3
output_dir: llama3-8b-it-sft-v2
overwrite_output_dir: true
per_device_eval_batch_size: 4
per_device_train_batch_size: 4
#push_to_hub: true
remove_unused_columns: true
report_to:
- wandb
save_strategy: "no"
seed: 42
warmup_ratio: 0.01
Assim que puder eu executo os testes novamente e coloco aqui os resultados.
Agradeço muito pelas informações !
Parabéns pelos modelos :)