0.0001_withdpo_3iters_bs256_511lr_iter_1 / trainer_state.json

Model save

3632931 verified 7 months ago

4.47 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9905956112852664,
	"eval_steps": 500,
	"global_step": 79,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01,
	"learning_rate": 6.25e-08,
	"logits/chosen": -2.903411865234375,
	"logits/rejected": -2.9185478687286377,
	"logps/chosen": -358.677001953125,
	"logps/rejected": -304.1064147949219,
	"loss": 0.6931,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.13,
	"learning_rate": 4.990217055187362e-07,
	"logits/chosen": -2.8053393363952637,
	"logits/rejected": -2.7965915203094482,
	"logps/chosen": -263.0384521484375,
	"logps/rejected": -252.10650634765625,
	"loss": 0.6921,
	"rewards/accuracies": 0.5243055820465088,
	"rewards/chosen": 0.0014568159822374582,
	"rewards/margins": 0.0028856326825916767,
	"rewards/rejected": -0.0014288168167695403,
	"step": 10
	},
	{
	"epoch": 0.25,
	"learning_rate": 4.655786431300069e-07,
	"logits/chosen": -2.811448335647583,
	"logits/rejected": -2.793362617492676,
	"logps/chosen": -276.836181640625,
	"logps/rejected": -251.5447235107422,
	"loss": 0.6772,
	"rewards/accuracies": 0.659375011920929,
	"rewards/chosen": 0.029580000787973404,
	"rewards/margins": 0.03599635511636734,
	"rewards/rejected": -0.0064163520000875,
	"step": 20
	},
	{
	"epoch": 0.38,
	"learning_rate": 3.9061232191019517e-07,
	"logits/chosen": -2.7584967613220215,
	"logits/rejected": -2.755288600921631,
	"logps/chosen": -261.2607421875,
	"logps/rejected": -263.68487548828125,
	"loss": 0.6542,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -0.034566882997751236,
	"rewards/margins": 0.07634096592664719,
	"rewards/rejected": -0.11090785264968872,
	"step": 30
	},
	{
	"epoch": 0.5,
	"learning_rate": 2.8856223324132555e-07,
	"logits/chosen": -2.76475191116333,
	"logits/rejected": -2.7666561603546143,
	"logps/chosen": -279.80926513671875,
	"logps/rejected": -270.8001708984375,
	"loss": 0.6295,
	"rewards/accuracies": 0.721875011920929,
	"rewards/chosen": -0.14598490297794342,
	"rewards/margins": 0.18713520467281342,
	"rewards/rejected": -0.3331201374530792,
	"step": 40
	},
	{
	"epoch": 0.63,
	"learning_rate": 1.7908455541642582e-07,
	"logits/chosen": -2.7629075050354004,
	"logits/rejected": -2.7455806732177734,
	"logps/chosen": -316.5531311035156,
	"logps/rejected": -301.55743408203125,
	"loss": 0.6111,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -0.26032739877700806,
	"rewards/margins": 0.25766921043395996,
	"rewards/rejected": -0.517996609210968,
	"step": 50
	},
	{
	"epoch": 0.75,
	"learning_rate": 8.32661172908373e-08,
	"logits/chosen": -2.762693405151367,
	"logits/rejected": -2.748161792755127,
	"logps/chosen": -270.93939208984375,
	"logps/rejected": -294.34466552734375,
	"loss": 0.5964,
	"rewards/accuracies": 0.721875011920929,
	"rewards/chosen": -0.27937284111976624,
	"rewards/margins": 0.3220180571079254,
	"rewards/rejected": -0.6013908386230469,
	"step": 60
	},
	{
	"epoch": 0.88,
	"learning_rate": 1.956279997278043e-08,
	"logits/chosen": -2.765657424926758,
	"logits/rejected": -2.7370893955230713,
	"logps/chosen": -308.8651428222656,
	"logps/rejected": -304.91033935546875,
	"loss": 0.5938,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -0.30938825011253357,
	"rewards/margins": 0.29292166233062744,
	"rewards/rejected": -0.6023099422454834,
	"step": 70
	},
	{
	"epoch": 0.99,
	"step": 79,
	"total_flos": 0.0,
	"train_loss": 0.6337358317797697,
	"train_runtime": 2585.4134,
	"train_samples_per_second": 7.882,
	"train_steps_per_second": 0.031
	}
	],
	"logging_steps": 10,
	"max_steps": 79,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"total_flos": 0.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}