zephyr-7b-dpo-lora-pubmedqa-ultrafeedback-mix

This model is a fine-tuned version of EllieS/zephyr-7b-dpo-lora-pubmedqa-mix2 on the HuggingFaceH4/ultrafeedback_binarized dataset. It achieves the following results on the evaluation set:

Loss: 0.5344
Rewards/chosen: -2.6374
Rewards/rejected: -3.7727
Rewards/accuracies: 0.7460
Rewards/margins: 1.1353
Logps/rejected: -652.6792
Logps/chosen: -559.1896
Logits/rejected: -1.8319
Logits/chosen: -2.0104

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 5e-06
train_batch_size: 1
eval_batch_size: 1
seed: 42
distributed_type: multi-GPU
num_devices: 2
gradient_accumulation_steps: 2
total_train_batch_size: 4
total_eval_batch_size: 2
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: cosine
lr_scheduler_warmup_ratio: 0.1
num_epochs: 1

Training results

Training Loss	Epoch	Step	Validation Loss	Rewards/chosen	Rewards/rejected	Rewards/accuracies	Rewards/margins	Logps/rejected	Logps/chosen	Logits/rejected	Logits/chosen
0.5795	0.2	3000	0.5888	-0.7760	-1.1691	0.6830	0.3931	-392.3199	-373.0482	-2.3689	-2.4472
0.4501	0.39	6000	0.5437	-2.1190	-3.1229	0.7420	1.0038	-587.6927	-507.3499	-1.8484	-2.0210
0.3399	0.59	9000	0.5425	-2.4666	-3.6163	0.7410	1.1497	-637.0340	-542.1045	-1.8202	-2.0023
0.4636	0.79	12000	0.5347	-2.6445	-3.7774	0.7450	1.1329	-653.1429	-559.8973	-1.8326	-2.0102
0.544	0.98	15000	0.5346	-2.6384	-3.7732	0.7450	1.1348	-652.7231	-559.2841	-1.8322	-2.0103

Framework versions

PEFT 0.7.1
Transformers 4.36.2
Pytorch 2.1.2+cu121
Datasets 2.14.6
Tokenizers 0.15.2

EllieS
/

zephyr-7b-dpo-lora-pubmedqa-ultrafeedback-mix

zephyr-7b-dpo-lora-pubmedqa-ultrafeedback-mix

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Model tree for EllieS/zephyr-7b-dpo-lora-pubmedqa-ultrafeedback-mix

Dataset used to train EllieS/zephyr-7b-dpo-lora-pubmedqa-ultrafeedback-mix

Evaluation results