IE_M2_1000steps_1e5rate_05beta_cSFTDPO

This model is a fine-tuned version of tsavage68/IE_M2_1000steps_1e7rate_SFT on an unknown dataset. It achieves the following results on the evaluation set:

Loss: 0.3743
Rewards/chosen: 0.3568
Rewards/rejected: -10.3713
Rewards/accuracies: 0.4600
Rewards/margins: 10.7281
Logps/rejected: -61.7645
Logps/chosen: -41.4919
Logits/rejected: -2.8824
Logits/chosen: -2.8255

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 1e-05
train_batch_size: 2
eval_batch_size: 1
seed: 42
gradient_accumulation_steps: 2
total_train_batch_size: 4
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: cosine
lr_scheduler_warmup_steps: 100
training_steps: 1000

Training results

Training Loss	Epoch	Step	Validation Loss	Rewards/chosen	Rewards/rejected	Rewards/accuracies	Rewards/margins	Logps/rejected	Logps/chosen	Logits/rejected	Logits/chosen
0.4505	0.4	50	0.3743	0.0148	-10.0517	0.4600	10.0665	-61.1252	-42.1759	-2.8838	-2.8273
0.3812	0.8	100	0.3743	0.2632	-10.3292	0.4600	10.5924	-61.6802	-41.6790	-2.8826	-2.8259
0.3119	1.2	150	0.3743	0.2569	-10.3314	0.4600	10.5883	-61.6846	-41.6916	-2.8827	-2.8260
0.3639	1.6	200	0.3743	0.2727	-10.3235	0.4600	10.5962	-61.6688	-41.6601	-2.8826	-2.8258
0.4332	2.0	250	0.3743	0.2813	-10.3480	0.4600	10.6293	-61.7178	-41.6430	-2.8826	-2.8259
0.3986	2.4	300	0.3743	0.3178	-10.3414	0.4600	10.6592	-61.7047	-41.5699	-2.8827	-2.8259
0.3986	2.8	350	0.3743	0.3154	-10.3544	0.4600	10.6698	-61.7306	-41.5747	-2.8826	-2.8259
0.4505	3.2	400	0.3743	0.3159	-10.3613	0.4600	10.6772	-61.7444	-41.5738	-2.8825	-2.8258
0.4505	3.6	450	0.3743	0.3246	-10.3624	0.4600	10.6870	-61.7467	-41.5564	-2.8825	-2.8258
0.4332	4.0	500	0.3743	0.3249	-10.3692	0.4600	10.6941	-61.7602	-41.5557	-2.8822	-2.8254
0.3292	4.4	550	0.3743	0.3363	-10.3624	0.4600	10.6987	-61.7466	-41.5329	-2.8823	-2.8256
0.3639	4.8	600	0.3743	0.3417	-10.3678	0.4600	10.7095	-61.7575	-41.5221	-2.8824	-2.8256
0.4505	5.2	650	0.3743	0.3404	-10.3639	0.4600	10.7044	-61.7497	-41.5247	-2.8822	-2.8254
0.4505	5.6	700	0.3743	0.3556	-10.3816	0.4600	10.7372	-61.7850	-41.4942	-2.8822	-2.8254
0.3639	6.0	750	0.3743	0.3640	-10.3765	0.4600	10.7405	-61.7749	-41.4776	-2.8823	-2.8255
0.2426	6.4	800	0.3743	0.3528	-10.3704	0.4600	10.7232	-61.7626	-41.4999	-2.8821	-2.8253
0.5025	6.8	850	0.3743	0.3564	-10.3721	0.4600	10.7285	-61.7660	-41.4928	-2.8822	-2.8254
0.3119	7.2	900	0.3743	0.3552	-10.3719	0.4600	10.7271	-61.7656	-41.4952	-2.8824	-2.8255
0.3466	7.6	950	0.3743	0.3568	-10.3713	0.4600	10.7281	-61.7645	-41.4919	-2.8824	-2.8255
0.3812	8.0	1000	0.3743	0.3568	-10.3713	0.4600	10.7281	-61.7645	-41.4919	-2.8824	-2.8255

Framework versions

Transformers 4.44.2
Pytorch 2.0.0+cu117
Datasets 3.0.0
Tokenizers 0.19.1

tsavage68
/

IE_M2_1000steps_1e5rate_05beta_cSFTDPO

IE_M2_1000steps_1e5rate_05beta_cSFTDPO

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Model tree for tsavage68/IE_M2_1000steps_1e5rate_05beta_cSFTDPO

Evaluation results