RedaAlami
/

zephyr-7b-gemma-dpo

alignment-handbook

Generated from Trainer

4-bit precision

Model card Files Files and versions Metrics Training metrics Community

zephyr-7b-gemma-dpo / eval_results.json

RedaAlami's picture

End of training

3a9c5a4 verified 4 months ago

history blame contribute delete

587 Bytes

	{
	"epoch": 1.9969834087481146,
	"eval_logits/chosen": 412.54827880859375,
	"eval_logits/rejected": 384.53924560546875,
	"eval_logps/chosen": -2.328974485397339,
	"eval_logps/rejected": -2.3880226612091064,
	"eval_loss": 97.23818969726562,
	"eval_rewards/accuracies": 0.6061643958091736,
	"eval_rewards/chosen": 0.042412400245666504,
	"eval_rewards/margins": 0.00826968066394329,
	"eval_rewards/rejected": 0.034142717719078064,
	"eval_runtime": 96.0326,
	"eval_samples": 4656,
	"eval_samples_per_second": 48.484,
	"eval_steps_per_second": 1.52
	}