tanliboy
/

lambda-llama-3-8b-ipo-test

Text Generation

alignment-handbook

Generated from Trainer

text-generation-inference

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

lambda-llama-3-8b-ipo-test / all_results.json

tanliboy's picture

End of training

070dabb verified about 2 months ago

history blame contribute delete

788 Bytes

	{
	"epoch": 0.9995638901003053,
	"eval_logits/chosen": -2.924424171447754,
	"eval_logits/rejected": -2.9938888549804688,
	"eval_logps/chosen": -2.5334479808807373,
	"eval_logps/rejected": -3.1372740268707275,
	"eval_loss": 0.8931147456169128,
	"eval_rewards/accuracies": 0.7921686768531799,
	"eval_rewards/chosen": -0.36102983355522156,
	"eval_rewards/margins": 0.22724701464176178,
	"eval_rewards/rejected": -0.5882768034934998,
	"eval_runtime": 114.5732,
	"eval_samples": 2643,
	"eval_samples_per_second": 23.068,
	"eval_steps_per_second": 0.724,
	"total_flos": 0.0,
	"train_loss": 1.0578667073141634,
	"train_runtime": 8389.7514,
	"train_samples": 73350,
	"train_samples_per_second": 8.743,
	"train_steps_per_second": 0.068
	}