qwen2_coder_adamw_iter1 / trainer_state.json

End of training

23a0146 verified 24 days ago

44.2 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 100,
	"global_step": 51,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"debug/policy_chosen_logits": -3.131476879119873,
	"debug/policy_chosen_logps": -223.49798583984375,
	"debug/policy_rejected_logits": -3.0218234062194824,
	"debug/policy_rejected_logps": -181.94036865234375,
	"debug/reference_chosen_logps": -223.49798583984375,
	"debug/reference_rejected_logps": -181.94036865234375,
	"epoch": 0.0196078431372549,
	"grad_norm": 9.59268936350444,
	"learning_rate": 1e-06,
	"logits/chosen": -3.131476879119873,
	"logits/rejected": -3.0218234062194824,
	"logps/chosen": -223.49798583984375,
	"logps/rejected": -181.94036865234375,
	"loss": 0.5,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"debug/policy_chosen_logits": -3.1443662643432617,
	"debug/policy_chosen_logps": -209.216552734375,
	"debug/policy_rejected_logits": -3.076768159866333,
	"debug/policy_rejected_logps": -170.2884521484375,
	"debug/reference_chosen_logps": -209.07872009277344,
	"debug/reference_rejected_logps": -169.68731689453125,
	"epoch": 0.0392156862745098,
	"grad_norm": 8.71018223332819,
	"learning_rate": 1e-06,
	"logits/chosen": -3.1443662643432617,
	"logits/rejected": -3.076768159866333,
	"logps/chosen": -209.216552734375,
	"logps/rejected": -170.2884521484375,
	"loss": 0.4974,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.001378459855914116,
	"rewards/margins": 0.004632873460650444,
	"rewards/rejected": -0.00601133331656456,
	"step": 2
	},
	{
	"debug/policy_chosen_logits": -3.135432243347168,
	"debug/policy_chosen_logps": -203.98123168945312,
	"debug/policy_rejected_logits": -3.058173179626465,
	"debug/policy_rejected_logps": -171.8382568359375,
	"debug/reference_chosen_logps": -206.17086791992188,
	"debug/reference_rejected_logps": -172.7147216796875,
	"epoch": 0.058823529411764705,
	"grad_norm": 11.448652871780954,
	"learning_rate": 1e-06,
	"logits/chosen": -3.135432243347168,
	"logits/rejected": -3.058173179626465,
	"logps/chosen": -203.98123168945312,
	"logps/rejected": -171.8382568359375,
	"loss": 0.4898,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.02189634181559086,
	"rewards/margins": 0.013131675310432911,
	"rewards/rejected": 0.008764667436480522,
	"step": 3
	},
	{
	"debug/policy_chosen_logits": -3.0565543174743652,
	"debug/policy_chosen_logps": -206.8490447998047,
	"debug/policy_rejected_logits": -2.9550375938415527,
	"debug/policy_rejected_logps": -174.601318359375,
	"debug/reference_chosen_logps": -206.09422302246094,
	"debug/reference_rejected_logps": -172.06332397460938,
	"epoch": 0.0784313725490196,
	"grad_norm": 8.681717474563778,
	"learning_rate": 1e-06,
	"logits/chosen": -3.0565543174743652,
	"logits/rejected": -2.9550375938415527,
	"logps/chosen": -206.8490447998047,
	"logps/rejected": -174.601318359375,
	"loss": 0.4855,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.007548102643340826,
	"rewards/margins": 0.017831895500421524,
	"rewards/rejected": -0.025379998609423637,
	"step": 4
	},
	{
	"debug/policy_chosen_logits": -3.0399742126464844,
	"debug/policy_chosen_logps": -206.2752227783203,
	"debug/policy_rejected_logits": -2.9232938289642334,
	"debug/policy_rejected_logps": -156.70419311523438,
	"debug/reference_chosen_logps": -205.56788635253906,
	"debug/reference_rejected_logps": -150.99920654296875,
	"epoch": 0.09803921568627451,
	"grad_norm": 8.125347499138313,
	"learning_rate": 1e-06,
	"logits/chosen": -3.0399742126464844,
	"logits/rejected": -2.9232938289642334,
	"logps/chosen": -206.2752227783203,
	"logps/rejected": -156.70419311523438,
	"loss": 0.4648,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -0.00707334466278553,
	"rewards/margins": 0.04997648298740387,
	"rewards/rejected": -0.05704982578754425,
	"step": 5
	},
	{
	"debug/policy_chosen_logits": -3.2029356956481934,
	"debug/policy_chosen_logps": -206.69122314453125,
	"debug/policy_rejected_logits": -3.122507095336914,
	"debug/policy_rejected_logps": -199.9852752685547,
	"debug/reference_chosen_logps": -210.3363494873047,
	"debug/reference_rejected_logps": -200.11654663085938,
	"epoch": 0.11764705882352941,
	"grad_norm": 10.6811806285762,
	"learning_rate": 1e-06,
	"logits/chosen": -3.2029356956481934,
	"logits/rejected": -3.122507095336914,
	"logps/chosen": -206.69122314453125,
	"logps/rejected": -199.9852752685547,
	"loss": 0.4523,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.03645110875368118,
	"rewards/margins": 0.03513820841908455,
	"rewards/rejected": 0.0013129040598869324,
	"step": 6
	},
	{
	"debug/policy_chosen_logits": -3.202118396759033,
	"debug/policy_chosen_logps": -198.13885498046875,
	"debug/policy_rejected_logits": -2.9787750244140625,
	"debug/policy_rejected_logps": -169.29666137695312,
	"debug/reference_chosen_logps": -199.79531860351562,
	"debug/reference_rejected_logps": -164.98037719726562,
	"epoch": 0.13725490196078433,
	"grad_norm": 7.511392268060962,
	"learning_rate": 1e-06,
	"logits/chosen": -3.202118396759033,
	"logits/rejected": -2.9787750244140625,
	"logps/chosen": -198.13885498046875,
	"logps/rejected": -169.29666137695312,
	"loss": 0.4439,
	"rewards/accuracies": 0.875,
	"rewards/chosen": 0.01656484603881836,
	"rewards/margins": 0.05972753465175629,
	"rewards/rejected": -0.04316268861293793,
	"step": 7
	},
	{
	"debug/policy_chosen_logits": -3.1585052013397217,
	"debug/policy_chosen_logps": -209.9014892578125,
	"debug/policy_rejected_logits": -3.147646427154541,
	"debug/policy_rejected_logps": -184.0531005859375,
	"debug/reference_chosen_logps": -213.74742126464844,
	"debug/reference_rejected_logps": -184.40182495117188,
	"epoch": 0.1568627450980392,
	"grad_norm": 9.384905399946895,
	"learning_rate": 1e-06,
	"logits/chosen": -3.1585052013397217,
	"logits/rejected": -3.147646427154541,
	"logps/chosen": -209.9014892578125,
	"logps/rejected": -184.0531005859375,
	"loss": 0.4553,
	"rewards/accuracies": 0.75,
	"rewards/chosen": 0.03845922276377678,
	"rewards/margins": 0.03497195988893509,
	"rewards/rejected": 0.00348726287484169,
	"step": 8
	},
	{
	"debug/policy_chosen_logits": -3.219722032546997,
	"debug/policy_chosen_logps": -204.11474609375,
	"debug/policy_rejected_logits": -3.0252864360809326,
	"debug/policy_rejected_logps": -165.35894775390625,
	"debug/reference_chosen_logps": -207.07034301757812,
	"debug/reference_rejected_logps": -154.7605438232422,
	"epoch": 0.17647058823529413,
	"grad_norm": 6.128726988165846,
	"learning_rate": 1e-06,
	"logits/chosen": -3.219722032546997,
	"logits/rejected": -3.0252864360809326,
	"logps/chosen": -204.11474609375,
	"logps/rejected": -165.35894775390625,
	"loss": 0.4068,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.02955583482980728,
	"rewards/margins": 0.1355399787425995,
	"rewards/rejected": -0.1059841513633728,
	"step": 9
	},
	{
	"debug/policy_chosen_logits": -3.3743577003479004,
	"debug/policy_chosen_logps": -182.16360473632812,
	"debug/policy_rejected_logits": -2.9649839401245117,
	"debug/policy_rejected_logps": -173.23670959472656,
	"debug/reference_chosen_logps": -190.21826171875,
	"debug/reference_rejected_logps": -162.2075958251953,
	"epoch": 0.19607843137254902,
	"grad_norm": 6.364236944929035,
	"learning_rate": 1e-06,
	"logits/chosen": -3.3743577003479004,
	"logits/rejected": -2.9649839401245117,
	"logps/chosen": -182.16360473632812,
	"logps/rejected": -173.23670959472656,
	"loss": 0.3573,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.08054651319980621,
	"rewards/margins": 0.19083772599697113,
	"rewards/rejected": -0.11029121279716492,
	"step": 10
	},
	{
	"debug/policy_chosen_logits": -3.173790454864502,
	"debug/policy_chosen_logps": -203.52264404296875,
	"debug/policy_rejected_logits": -2.949070692062378,
	"debug/policy_rejected_logps": -178.64117431640625,
	"debug/reference_chosen_logps": -212.055908203125,
	"debug/reference_rejected_logps": -169.71719360351562,
	"epoch": 0.21568627450980393,
	"grad_norm": 5.353556279413172,
	"learning_rate": 1e-06,
	"logits/chosen": -3.173790454864502,
	"logits/rejected": -2.949070692062378,
	"logps/chosen": -203.52264404296875,
	"logps/rejected": -178.64117431640625,
	"loss": 0.3634,
	"rewards/accuracies": 0.875,
	"rewards/chosen": 0.08533257991075516,
	"rewards/margins": 0.1745723932981491,
	"rewards/rejected": -0.08923980593681335,
	"step": 11
	},
	{
	"debug/policy_chosen_logits": -3.277130126953125,
	"debug/policy_chosen_logps": -199.06358337402344,
	"debug/policy_rejected_logits": -3.132725954055786,
	"debug/policy_rejected_logps": -179.83506774902344,
	"debug/reference_chosen_logps": -208.1540985107422,
	"debug/reference_rejected_logps": -177.0548095703125,
	"epoch": 0.23529411764705882,
	"grad_norm": 5.672030188679155,
	"learning_rate": 1e-06,
	"logits/chosen": -3.277130126953125,
	"logits/rejected": -3.132725954055786,
	"logps/chosen": -199.06358337402344,
	"logps/rejected": -179.83506774902344,
	"loss": 0.3502,
	"rewards/accuracies": 0.875,
	"rewards/chosen": 0.09090512990951538,
	"rewards/margins": 0.11870768666267395,
	"rewards/rejected": -0.027802541851997375,
	"step": 12
	},
	{
	"debug/policy_chosen_logits": -3.1242167949676514,
	"debug/policy_chosen_logps": -191.25042724609375,
	"debug/policy_rejected_logits": -2.9863691329956055,
	"debug/policy_rejected_logps": -175.88369750976562,
	"debug/reference_chosen_logps": -196.898193359375,
	"debug/reference_rejected_logps": -166.8399658203125,
	"epoch": 0.2549019607843137,
	"grad_norm": 5.205320381513838,
	"learning_rate": 1e-06,
	"logits/chosen": -3.1242167949676514,
	"logits/rejected": -2.9863691329956055,
	"logps/chosen": -191.25042724609375,
	"logps/rejected": -175.88369750976562,
	"loss": 0.37,
	"rewards/accuracies": 0.75,
	"rewards/chosen": 0.056477658450603485,
	"rewards/margins": 0.14691495895385742,
	"rewards/rejected": -0.09043729305267334,
	"step": 13
	},
	{
	"debug/policy_chosen_logits": -3.144406318664551,
	"debug/policy_chosen_logps": -218.8365478515625,
	"debug/policy_rejected_logits": -2.8921687602996826,
	"debug/policy_rejected_logps": -180.90426635742188,
	"debug/reference_chosen_logps": -229.2056884765625,
	"debug/reference_rejected_logps": -170.25051879882812,
	"epoch": 0.27450980392156865,
	"grad_norm": 5.1865412600469725,
	"learning_rate": 1e-06,
	"logits/chosen": -3.144406318664551,
	"logits/rejected": -2.8921687602996826,
	"logps/chosen": -218.8365478515625,
	"logps/rejected": -180.90426635742188,
	"loss": 0.3456,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.10369150340557098,
	"rewards/margins": 0.21022894978523254,
	"rewards/rejected": -0.10653746128082275,
	"step": 14
	},
	{
	"debug/policy_chosen_logits": -3.2248146533966064,
	"debug/policy_chosen_logps": -201.5963134765625,
	"debug/policy_rejected_logits": -2.995159149169922,
	"debug/policy_rejected_logps": -184.41653442382812,
	"debug/reference_chosen_logps": -210.53994750976562,
	"debug/reference_rejected_logps": -177.02459716796875,
	"epoch": 0.29411764705882354,
	"grad_norm": 5.281953187102778,
	"learning_rate": 1e-06,
	"logits/chosen": -3.2248146533966064,
	"logits/rejected": -2.995159149169922,
	"logps/chosen": -201.5963134765625,
	"logps/rejected": -184.41653442382812,
	"loss": 0.3298,
	"rewards/accuracies": 0.75,
	"rewards/chosen": 0.08943626284599304,
	"rewards/margins": 0.163355752825737,
	"rewards/rejected": -0.07391948252916336,
	"step": 15
	},
	{
	"debug/policy_chosen_logits": -3.152334213256836,
	"debug/policy_chosen_logps": -203.98538208007812,
	"debug/policy_rejected_logits": -3.0059425830841064,
	"debug/policy_rejected_logps": -174.17031860351562,
	"debug/reference_chosen_logps": -212.34693908691406,
	"debug/reference_rejected_logps": -161.72183227539062,
	"epoch": 0.3137254901960784,
	"grad_norm": 4.990441768681764,
	"learning_rate": 1e-06,
	"logits/chosen": -3.152334213256836,
	"logits/rejected": -3.0059425830841064,
	"logps/chosen": -203.98538208007812,
	"logps/rejected": -174.17031860351562,
	"loss": 0.3315,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.08361560851335526,
	"rewards/margins": 0.2081003040075302,
	"rewards/rejected": -0.12448470294475555,
	"step": 16
	},
	{
	"debug/policy_chosen_logits": -3.3237087726593018,
	"debug/policy_chosen_logps": -197.6831512451172,
	"debug/policy_rejected_logits": -3.1152756214141846,
	"debug/policy_rejected_logps": -185.88690185546875,
	"debug/reference_chosen_logps": -209.38027954101562,
	"debug/reference_rejected_logps": -171.8429412841797,
	"epoch": 0.3333333333333333,
	"grad_norm": 3.847170282499073,
	"learning_rate": 1e-06,
	"logits/chosen": -3.3237087726593018,
	"logits/rejected": -3.1152756214141846,
	"logps/chosen": -197.6831512451172,
	"logps/rejected": -185.88690185546875,
	"loss": 0.3262,
	"rewards/accuracies": 0.625,
	"rewards/chosen": 0.11697111278772354,
	"rewards/margins": 0.25741061568260193,
	"rewards/rejected": -0.14043951034545898,
	"step": 17
	},
	{
	"debug/policy_chosen_logits": -3.423741102218628,
	"debug/policy_chosen_logps": -197.50125122070312,
	"debug/policy_rejected_logits": -3.0541563034057617,
	"debug/policy_rejected_logps": -194.04254150390625,
	"debug/reference_chosen_logps": -214.143310546875,
	"debug/reference_rejected_logps": -176.38931274414062,
	"epoch": 0.35294117647058826,
	"grad_norm": 4.6640459530058145,
	"learning_rate": 1e-06,
	"logits/chosen": -3.423741102218628,
	"logits/rejected": -3.0541563034057617,
	"logps/chosen": -197.50125122070312,
	"logps/rejected": -194.04254150390625,
	"loss": 0.2745,
	"rewards/accuracies": 0.875,
	"rewards/chosen": 0.16642045974731445,
	"rewards/margins": 0.3429526686668396,
	"rewards/rejected": -0.17653217911720276,
	"step": 18
	},
	{
	"debug/policy_chosen_logits": -3.1585283279418945,
	"debug/policy_chosen_logps": -205.2724151611328,
	"debug/policy_rejected_logits": -2.9066219329833984,
	"debug/policy_rejected_logps": -190.3876953125,
	"debug/reference_chosen_logps": -227.2172088623047,
	"debug/reference_rejected_logps": -159.18490600585938,
	"epoch": 0.37254901960784315,
	"grad_norm": 4.373436851253389,
	"learning_rate": 1e-06,
	"logits/chosen": -3.1585283279418945,
	"logits/rejected": -2.9066219329833984,
	"logps/chosen": -205.2724151611328,
	"logps/rejected": -190.3876953125,
	"loss": 0.2051,
	"rewards/accuracies": 0.875,
	"rewards/chosen": 0.2194480001926422,
	"rewards/margins": 0.5314759016036987,
	"rewards/rejected": -0.3120279312133789,
	"step": 19
	},
	{
	"debug/policy_chosen_logits": -3.3925397396087646,
	"debug/policy_chosen_logps": -182.79222106933594,
	"debug/policy_rejected_logits": -2.9614052772521973,
	"debug/policy_rejected_logps": -192.5382843017578,
	"debug/reference_chosen_logps": -208.93617248535156,
	"debug/reference_rejected_logps": -170.37913513183594,
	"epoch": 0.39215686274509803,
	"grad_norm": 7.041418694876974,
	"learning_rate": 1e-06,
	"logits/chosen": -3.3925397396087646,
	"logits/rejected": -2.9614052772521973,
	"logps/chosen": -182.79222106933594,
	"logps/rejected": -192.5382843017578,
	"loss": 0.2688,
	"rewards/accuracies": 0.75,
	"rewards/chosen": 0.2614395320415497,
	"rewards/margins": 0.48303085565567017,
	"rewards/rejected": -0.22159132361412048,
	"step": 20
	},
	{
	"debug/policy_chosen_logits": -3.3081858158111572,
	"debug/policy_chosen_logps": -170.76687622070312,
	"debug/policy_rejected_logits": -2.9337339401245117,
	"debug/policy_rejected_logps": -190.08706665039062,
	"debug/reference_chosen_logps": -194.40255737304688,
	"debug/reference_rejected_logps": -161.28668212890625,
	"epoch": 0.4117647058823529,
	"grad_norm": 5.913800772738065,
	"learning_rate": 1e-06,
	"logits/chosen": -3.3081858158111572,
	"logits/rejected": -2.9337339401245117,
	"logps/chosen": -170.76687622070312,
	"logps/rejected": -190.08706665039062,
	"loss": 0.2346,
	"rewards/accuracies": 0.875,
	"rewards/chosen": 0.2363569736480713,
	"rewards/margins": 0.5243606567382812,
	"rewards/rejected": -0.28800368309020996,
	"step": 21
	},
	{
	"debug/policy_chosen_logits": -3.262423276901245,
	"debug/policy_chosen_logps": -174.46621704101562,
	"debug/policy_rejected_logits": -2.9751062393188477,
	"debug/policy_rejected_logps": -194.79879760742188,
	"debug/reference_chosen_logps": -195.777587890625,
	"debug/reference_rejected_logps": -166.50228881835938,
	"epoch": 0.43137254901960786,
	"grad_norm": 3.6878540395392996,
	"learning_rate": 1e-06,
	"logits/chosen": -3.262423276901245,
	"logits/rejected": -2.9751062393188477,
	"logps/chosen": -174.46621704101562,
	"logps/rejected": -194.79879760742188,
	"loss": 0.1804,
	"rewards/accuracies": 0.75,
	"rewards/chosen": 0.21311378479003906,
	"rewards/margins": 0.4960786700248718,
	"rewards/rejected": -0.28296488523483276,
	"step": 22
	},
	{
	"debug/policy_chosen_logits": -3.284288167953491,
	"debug/policy_chosen_logps": -201.29129028320312,
	"debug/policy_rejected_logits": -3.055243730545044,
	"debug/policy_rejected_logps": -189.35101318359375,
	"debug/reference_chosen_logps": -227.23031616210938,
	"debug/reference_rejected_logps": -170.58262634277344,
	"epoch": 0.45098039215686275,
	"grad_norm": 3.4160494981935057,
	"learning_rate": 1e-06,
	"logits/chosen": -3.284288167953491,
	"logits/rejected": -3.055243730545044,
	"logps/chosen": -201.29129028320312,
	"logps/rejected": -189.35101318359375,
	"loss": 0.2467,
	"rewards/accuracies": 0.75,
	"rewards/chosen": 0.2593901753425598,
	"rewards/margins": 0.44707390666007996,
	"rewards/rejected": -0.18768377602100372,
	"step": 23
	},
	{
	"debug/policy_chosen_logits": -3.3582632541656494,
	"debug/policy_chosen_logps": -180.80130004882812,
	"debug/policy_rejected_logits": -2.9310052394866943,
	"debug/policy_rejected_logps": -198.58038330078125,
	"debug/reference_chosen_logps": -208.0858917236328,
	"debug/reference_rejected_logps": -156.55642700195312,
	"epoch": 0.47058823529411764,
	"grad_norm": 4.3584453143571515,
	"learning_rate": 1e-06,
	"logits/chosen": -3.3582632541656494,
	"logits/rejected": -2.9310052394866943,
	"logps/chosen": -180.80130004882812,
	"logps/rejected": -198.58038330078125,
	"loss": 0.1894,
	"rewards/accuracies": 0.875,
	"rewards/chosen": 0.2728460729122162,
	"rewards/margins": 0.6930855512619019,
	"rewards/rejected": -0.42023950815200806,
	"step": 24
	},
	{
	"debug/policy_chosen_logits": -3.294647455215454,
	"debug/policy_chosen_logps": -200.66555786132812,
	"debug/policy_rejected_logits": -2.9623827934265137,
	"debug/policy_rejected_logps": -209.60763549804688,
	"debug/reference_chosen_logps": -226.37498474121094,
	"debug/reference_rejected_logps": -175.77857971191406,
	"epoch": 0.49019607843137253,
	"grad_norm": 5.190786042631128,
	"learning_rate": 1e-06,
	"logits/chosen": -3.294647455215454,
	"logits/rejected": -2.9623827934265137,
	"logps/chosen": -200.66555786132812,
	"logps/rejected": -209.60763549804688,
	"loss": 0.2067,
	"rewards/accuracies": 0.875,
	"rewards/chosen": 0.257094144821167,
	"rewards/margins": 0.5953845977783203,
	"rewards/rejected": -0.3382904529571533,
	"step": 25
	},
	{
	"debug/policy_chosen_logits": -3.303532123565674,
	"debug/policy_chosen_logps": -172.21371459960938,
	"debug/policy_rejected_logits": -3.037935495376587,
	"debug/policy_rejected_logps": -192.28829956054688,
	"debug/reference_chosen_logps": -197.53707885742188,
	"debug/reference_rejected_logps": -173.1179656982422,
	"epoch": 0.5098039215686274,
	"grad_norm": 3.424028522129365,
	"learning_rate": 1e-06,
	"logits/chosen": -3.303532123565674,
	"logits/rejected": -3.037935495376587,
	"logps/chosen": -172.21371459960938,
	"logps/rejected": -192.28829956054688,
	"loss": 0.2072,
	"rewards/accuracies": 0.75,
	"rewards/chosen": 0.25323352217674255,
	"rewards/margins": 0.44493675231933594,
	"rewards/rejected": -0.19170325994491577,
	"step": 26
	},
	{
	"debug/policy_chosen_logits": -3.2078473567962646,
	"debug/policy_chosen_logps": -185.5386199951172,
	"debug/policy_rejected_logits": -3.058324098587036,
	"debug/policy_rejected_logps": -181.49124145507812,
	"debug/reference_chosen_logps": -216.10214233398438,
	"debug/reference_rejected_logps": -166.07806396484375,
	"epoch": 0.5294117647058824,
	"grad_norm": 3.2542715272608427,
	"learning_rate": 1e-06,
	"logits/chosen": -3.2078473567962646,
	"logits/rejected": -3.058324098587036,
	"logps/chosen": -185.5386199951172,
	"logps/rejected": -181.49124145507812,
	"loss": 0.1898,
	"rewards/accuracies": 0.75,
	"rewards/chosen": 0.3056352138519287,
	"rewards/margins": 0.45976707339286804,
	"rewards/rejected": -0.15413185954093933,
	"step": 27
	},
	{
	"debug/policy_chosen_logits": -3.1834847927093506,
	"debug/policy_chosen_logps": -189.82064819335938,
	"debug/policy_rejected_logits": -3.0259480476379395,
	"debug/policy_rejected_logps": -192.5255126953125,
	"debug/reference_chosen_logps": -225.47145080566406,
	"debug/reference_rejected_logps": -174.45132446289062,
	"epoch": 0.5490196078431373,
	"grad_norm": 5.011972117551199,
	"learning_rate": 1e-06,
	"logits/chosen": -3.1834847927093506,
	"logits/rejected": -3.0259480476379395,
	"logps/chosen": -189.82064819335938,
	"logps/rejected": -192.5255126953125,
	"loss": 0.2206,
	"rewards/accuracies": 0.75,
	"rewards/chosen": 0.3565079867839813,
	"rewards/margins": 0.5372498631477356,
	"rewards/rejected": -0.18074187636375427,
	"step": 28
	},
	{
	"debug/policy_chosen_logits": -3.439246416091919,
	"debug/policy_chosen_logps": -161.62721252441406,
	"debug/policy_rejected_logits": -2.9180073738098145,
	"debug/policy_rejected_logps": -201.15945434570312,
	"debug/reference_chosen_logps": -197.59341430664062,
	"debug/reference_rejected_logps": -162.81692504882812,
	"epoch": 0.5686274509803921,
	"grad_norm": 2.4188165120482044,
	"learning_rate": 1e-06,
	"logits/chosen": -3.439246416091919,
	"logits/rejected": -2.9180073738098145,
	"logps/chosen": -161.62721252441406,
	"logps/rejected": -201.15945434570312,
	"loss": 0.1577,
	"rewards/accuracies": 0.875,
	"rewards/chosen": 0.35966184735298157,
	"rewards/margins": 0.7430870532989502,
	"rewards/rejected": -0.38342520594596863,
	"step": 29
	},
	{
	"debug/policy_chosen_logits": -3.3921971321105957,
	"debug/policy_chosen_logps": -167.86477661132812,
	"debug/policy_rejected_logits": -3.1083662509918213,
	"debug/policy_rejected_logps": -186.5076141357422,
	"debug/reference_chosen_logps": -202.75399780273438,
	"debug/reference_rejected_logps": -165.93167114257812,
	"epoch": 0.5882352941176471,
	"grad_norm": 5.111153930194959,
	"learning_rate": 1e-06,
	"logits/chosen": -3.3921971321105957,
	"logits/rejected": -3.1083662509918213,
	"logps/chosen": -167.86477661132812,
	"logps/rejected": -186.5076141357422,
	"loss": 0.2254,
	"rewards/accuracies": 0.875,
	"rewards/chosen": 0.3488922417163849,
	"rewards/margins": 0.5546516180038452,
	"rewards/rejected": -0.20575937628746033,
	"step": 30
	},
	{
	"debug/policy_chosen_logits": -3.296841621398926,
	"debug/policy_chosen_logps": -186.3404541015625,
	"debug/policy_rejected_logits": -3.0427982807159424,
	"debug/policy_rejected_logps": -189.97247314453125,
	"debug/reference_chosen_logps": -225.02894592285156,
	"debug/reference_rejected_logps": -176.0540771484375,
	"epoch": 0.6078431372549019,
	"grad_norm": 5.753832158358882,
	"learning_rate": 1e-06,
	"logits/chosen": -3.296841621398926,
	"logits/rejected": -3.0427982807159424,
	"logps/chosen": -186.3404541015625,
	"logps/rejected": -189.97247314453125,
	"loss": 0.2514,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.3868849575519562,
	"rewards/margins": 0.5260686874389648,
	"rewards/rejected": -0.13918372988700867,
	"step": 31
	},
	{
	"debug/policy_chosen_logits": -3.241013765335083,
	"debug/policy_chosen_logps": -183.28062438964844,
	"debug/policy_rejected_logits": -3.004754066467285,
	"debug/policy_rejected_logps": -206.055419921875,
	"debug/reference_chosen_logps": -215.31048583984375,
	"debug/reference_rejected_logps": -162.4297637939453,
	"epoch": 0.6274509803921569,
	"grad_norm": 2.9239290358904837,
	"learning_rate": 1e-06,
	"logits/chosen": -3.241013765335083,
	"logits/rejected": -3.004754066467285,
	"logps/chosen": -183.28062438964844,
	"logps/rejected": -206.055419921875,
	"loss": 0.1757,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.32029855251312256,
	"rewards/margins": 0.7565551996231079,
	"rewards/rejected": -0.43625661730766296,
	"step": 32
	},
	{
	"debug/policy_chosen_logits": -3.3382985591888428,
	"debug/policy_chosen_logps": -180.47259521484375,
	"debug/policy_rejected_logits": -3.019533395767212,
	"debug/policy_rejected_logps": -206.90989685058594,
	"debug/reference_chosen_logps": -214.73683166503906,
	"debug/reference_rejected_logps": -155.3048095703125,
	"epoch": 0.6470588235294118,
	"grad_norm": 3.2393949291557003,
	"learning_rate": 1e-06,
	"logits/chosen": -3.3382985591888428,
	"logits/rejected": -3.019533395767212,
	"logps/chosen": -180.47259521484375,
	"logps/rejected": -206.90989685058594,
	"loss": 0.2186,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.3426423668861389,
	"rewards/margins": 0.8586931228637695,
	"rewards/rejected": -0.5160508155822754,
	"step": 33
	},
	{
	"debug/policy_chosen_logits": -3.25339412689209,
	"debug/policy_chosen_logps": -177.0988006591797,
	"debug/policy_rejected_logits": -2.986337900161743,
	"debug/policy_rejected_logps": -201.41714477539062,
	"debug/reference_chosen_logps": -204.36630249023438,
	"debug/reference_rejected_logps": -173.47714233398438,
	"epoch": 0.6666666666666666,
	"grad_norm": 4.241231231386345,
	"learning_rate": 1e-06,
	"logits/chosen": -3.25339412689209,
	"logits/rejected": -2.986337900161743,
	"logps/chosen": -177.0988006591797,
	"logps/rejected": -201.41714477539062,
	"loss": 0.1937,
	"rewards/accuracies": 0.875,
	"rewards/chosen": 0.2726749777793884,
	"rewards/margins": 0.5520750284194946,
	"rewards/rejected": -0.2794000804424286,
	"step": 34
	},
	{
	"debug/policy_chosen_logits": -3.251969337463379,
	"debug/policy_chosen_logps": -190.11709594726562,
	"debug/policy_rejected_logits": -3.0741655826568604,
	"debug/policy_rejected_logps": -194.2032470703125,
	"debug/reference_chosen_logps": -217.17962646484375,
	"debug/reference_rejected_logps": -160.67848205566406,
	"epoch": 0.6862745098039216,
	"grad_norm": 4.744228039712321,
	"learning_rate": 1e-06,
	"logits/chosen": -3.251969337463379,
	"logits/rejected": -3.0741655826568604,
	"logps/chosen": -190.11709594726562,
	"logps/rejected": -194.2032470703125,
	"loss": 0.1497,
	"rewards/accuracies": 0.75,
	"rewards/chosen": 0.2706252336502075,
	"rewards/margins": 0.6058727502822876,
	"rewards/rejected": -0.3352475166320801,
	"step": 35
	},
	{
	"debug/policy_chosen_logits": -3.3483757972717285,
	"debug/policy_chosen_logps": -179.4599609375,
	"debug/policy_rejected_logits": -3.1370773315429688,
	"debug/policy_rejected_logps": -190.57760620117188,
	"debug/reference_chosen_logps": -211.63006591796875,
	"debug/reference_rejected_logps": -169.59912109375,
	"epoch": 0.7058823529411765,
	"grad_norm": 3.186431463787634,
	"learning_rate": 1e-06,
	"logits/chosen": -3.3483757972717285,
	"logits/rejected": -3.1370773315429688,
	"logps/chosen": -179.4599609375,
	"logps/rejected": -190.57760620117188,
	"loss": 0.2442,
	"rewards/accuracies": 0.75,
	"rewards/chosen": 0.32170116901397705,
	"rewards/margins": 0.531485915184021,
	"rewards/rejected": -0.20978482067584991,
	"step": 36
	},
	{
	"debug/policy_chosen_logits": -3.2231926918029785,
	"debug/policy_chosen_logps": -172.751220703125,
	"debug/policy_rejected_logits": -3.042171001434326,
	"debug/policy_rejected_logps": -192.6194610595703,
	"debug/reference_chosen_logps": -204.07984924316406,
	"debug/reference_rejected_logps": -162.96307373046875,
	"epoch": 0.7254901960784313,
	"grad_norm": 3.76917946103672,
	"learning_rate": 1e-06,
	"logits/chosen": -3.2231926918029785,
	"logits/rejected": -3.042171001434326,
	"logps/chosen": -172.751220703125,
	"logps/rejected": -192.6194610595703,
	"loss": 0.222,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.31328636407852173,
	"rewards/margins": 0.609850287437439,
	"rewards/rejected": -0.29656392335891724,
	"step": 37
	},
	{
	"debug/policy_chosen_logits": -3.370556116104126,
	"debug/policy_chosen_logps": -179.37933349609375,
	"debug/policy_rejected_logits": -2.9038238525390625,
	"debug/policy_rejected_logps": -197.517333984375,
	"debug/reference_chosen_logps": -211.8248291015625,
	"debug/reference_rejected_logps": -159.6433563232422,
	"epoch": 0.7450980392156863,
	"grad_norm": 3.7765583713304034,
	"learning_rate": 1e-06,
	"logits/chosen": -3.370556116104126,
	"logits/rejected": -2.9038238525390625,
	"logps/chosen": -179.37933349609375,
	"logps/rejected": -197.517333984375,
	"loss": 0.214,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.3244548439979553,
	"rewards/margins": 0.7031944990158081,
	"rewards/rejected": -0.3787396550178528,
	"step": 38
	},
	{
	"debug/policy_chosen_logits": -3.253465414047241,
	"debug/policy_chosen_logps": -188.2485809326172,
	"debug/policy_rejected_logits": -3.051933526992798,
	"debug/policy_rejected_logps": -186.41270446777344,
	"debug/reference_chosen_logps": -218.99688720703125,
	"debug/reference_rejected_logps": -167.86203002929688,
	"epoch": 0.7647058823529411,
	"grad_norm": 3.533915411617125,
	"learning_rate": 1e-06,
	"logits/chosen": -3.253465414047241,
	"logits/rejected": -3.051933526992798,
	"logps/chosen": -188.2485809326172,
	"logps/rejected": -186.41270446777344,
	"loss": 0.2102,
	"rewards/accuracies": 0.875,
	"rewards/chosen": 0.3074829876422882,
	"rewards/margins": 0.492989718914032,
	"rewards/rejected": -0.18550674617290497,
	"step": 39
	},
	{
	"debug/policy_chosen_logits": -3.397189140319824,
	"debug/policy_chosen_logps": -184.84124755859375,
	"debug/policy_rejected_logits": -2.951024055480957,
	"debug/policy_rejected_logps": -205.2071533203125,
	"debug/reference_chosen_logps": -216.28897094726562,
	"debug/reference_rejected_logps": -167.5351104736328,
	"epoch": 0.7843137254901961,
	"grad_norm": 4.343119675678065,
	"learning_rate": 1e-06,
	"logits/chosen": -3.397189140319824,
	"logits/rejected": -2.951024055480957,
	"logps/chosen": -184.84124755859375,
	"logps/rejected": -205.2071533203125,
	"loss": 0.1484,
	"rewards/accuracies": 0.875,
	"rewards/chosen": 0.3144773840904236,
	"rewards/margins": 0.6911977529525757,
	"rewards/rejected": -0.3767203688621521,
	"step": 40
	},
	{
	"debug/policy_chosen_logits": -3.4680333137512207,
	"debug/policy_chosen_logps": -174.45204162597656,
	"debug/policy_rejected_logits": -3.177816867828369,
	"debug/policy_rejected_logps": -200.5006103515625,
	"debug/reference_chosen_logps": -201.8401641845703,
	"debug/reference_rejected_logps": -168.33837890625,
	"epoch": 0.803921568627451,
	"grad_norm": 4.7398844072134,
	"learning_rate": 1e-06,
	"logits/chosen": -3.4680333137512207,
	"logits/rejected": -3.177816867828369,
	"logps/chosen": -174.45204162597656,
	"logps/rejected": -200.5006103515625,
	"loss": 0.1898,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.273881196975708,
	"rewards/margins": 0.595503568649292,
	"rewards/rejected": -0.3216223418712616,
	"step": 41
	},
	{
	"debug/policy_chosen_logits": -3.3945956230163574,
	"debug/policy_chosen_logps": -172.79193115234375,
	"debug/policy_rejected_logits": -3.0443050861358643,
	"debug/policy_rejected_logps": -194.8880615234375,
	"debug/reference_chosen_logps": -198.82882690429688,
	"debug/reference_rejected_logps": -170.7233123779297,
	"epoch": 0.8235294117647058,
	"grad_norm": 5.166045026790051,
	"learning_rate": 1e-06,
	"logits/chosen": -3.3945956230163574,
	"logits/rejected": -3.0443050861358643,
	"logps/chosen": -172.79193115234375,
	"logps/rejected": -194.8880615234375,
	"loss": 0.1759,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.26036909222602844,
	"rewards/margins": 0.5020167827606201,
	"rewards/rejected": -0.24164767563343048,
	"step": 42
	},
	{
	"debug/policy_chosen_logits": -3.366682291030884,
	"debug/policy_chosen_logps": -174.59375,
	"debug/policy_rejected_logits": -3.141162157058716,
	"debug/policy_rejected_logps": -200.96633911132812,
	"debug/reference_chosen_logps": -205.5618438720703,
	"debug/reference_rejected_logps": -192.6947021484375,
	"epoch": 0.8431372549019608,
	"grad_norm": 3.316025693224064,
	"learning_rate": 1e-06,
	"logits/chosen": -3.366682291030884,
	"logits/rejected": -3.141162157058716,
	"logps/chosen": -174.59375,
	"logps/rejected": -200.96633911132812,
	"loss": 0.1598,
	"rewards/accuracies": 0.875,
	"rewards/chosen": 0.3096809387207031,
	"rewards/margins": 0.3923972249031067,
	"rewards/rejected": -0.08271628618240356,
	"step": 43
	},
	{
	"debug/policy_chosen_logits": -3.4701032638549805,
	"debug/policy_chosen_logps": -172.69961547851562,
	"debug/policy_rejected_logits": -3.0816352367401123,
	"debug/policy_rejected_logps": -192.14527893066406,
	"debug/reference_chosen_logps": -203.4981231689453,
	"debug/reference_rejected_logps": -165.00967407226562,
	"epoch": 0.8627450980392157,
	"grad_norm": 5.732457245614043,
	"learning_rate": 1e-06,
	"logits/chosen": -3.4701032638549805,
	"logits/rejected": -3.0816352367401123,
	"logps/chosen": -172.69961547851562,
	"logps/rejected": -192.14527893066406,
	"loss": 0.2551,
	"rewards/accuracies": 0.875,
	"rewards/chosen": 0.30798494815826416,
	"rewards/margins": 0.5793408155441284,
	"rewards/rejected": -0.27135586738586426,
	"step": 44
	},
	{
	"debug/policy_chosen_logits": -3.3291234970092773,
	"debug/policy_chosen_logps": -170.3388671875,
	"debug/policy_rejected_logits": -2.937793493270874,
	"debug/policy_rejected_logps": -192.89581298828125,
	"debug/reference_chosen_logps": -202.19802856445312,
	"debug/reference_rejected_logps": -159.46893310546875,
	"epoch": 0.8823529411764706,
	"grad_norm": 5.771805579285295,
	"learning_rate": 1e-06,
	"logits/chosen": -3.3291234970092773,
	"logits/rejected": -2.937793493270874,
	"logps/chosen": -170.3388671875,
	"logps/rejected": -192.89581298828125,
	"loss": 0.2151,
	"rewards/accuracies": 0.875,
	"rewards/chosen": 0.31859153509140015,
	"rewards/margins": 0.6528602242469788,
	"rewards/rejected": -0.334268718957901,
	"step": 45
	},
	{
	"debug/policy_chosen_logits": -3.226428270339966,
	"debug/policy_chosen_logps": -187.73739624023438,
	"debug/policy_rejected_logits": -2.986654043197632,
	"debug/policy_rejected_logps": -192.33885192871094,
	"debug/reference_chosen_logps": -220.32342529296875,
	"debug/reference_rejected_logps": -167.2851104736328,
	"epoch": 0.9019607843137255,
	"grad_norm": 2.8823875670773695,
	"learning_rate": 1e-06,
	"logits/chosen": -3.226428270339966,
	"logits/rejected": -2.986654043197632,
	"logps/chosen": -187.73739624023438,
	"logps/rejected": -192.33885192871094,
	"loss": 0.1605,
	"rewards/accuracies": 0.875,
	"rewards/chosen": 0.32586026191711426,
	"rewards/margins": 0.5763977766036987,
	"rewards/rejected": -0.2505374550819397,
	"step": 46
	},
	{
	"debug/policy_chosen_logits": -3.5862808227539062,
	"debug/policy_chosen_logps": -182.93630981445312,
	"debug/policy_rejected_logits": -3.0501527786254883,
	"debug/policy_rejected_logps": -197.54100036621094,
	"debug/reference_chosen_logps": -213.4707794189453,
	"debug/reference_rejected_logps": -172.90322875976562,
	"epoch": 0.9215686274509803,
	"grad_norm": 2.720609192674643,
	"learning_rate": 1e-06,
	"logits/chosen": -3.5862808227539062,
	"logits/rejected": -3.0501527786254883,
	"logps/chosen": -182.93630981445312,
	"logps/rejected": -197.54100036621094,
	"loss": 0.1686,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.30534470081329346,
	"rewards/margins": 0.5517222881317139,
	"rewards/rejected": -0.2463776171207428,
	"step": 47
	},
	{
	"debug/policy_chosen_logits": -3.3840320110321045,
	"debug/policy_chosen_logps": -175.84884643554688,
	"debug/policy_rejected_logits": -3.043017625808716,
	"debug/policy_rejected_logps": -202.57257080078125,
	"debug/reference_chosen_logps": -203.88320922851562,
	"debug/reference_rejected_logps": -172.34735107421875,
	"epoch": 0.9411764705882353,
	"grad_norm": 2.309188784503618,
	"learning_rate": 1e-06,
	"logits/chosen": -3.3840320110321045,
	"logits/rejected": -3.043017625808716,
	"logps/chosen": -175.84884643554688,
	"logps/rejected": -202.57257080078125,
	"loss": 0.1666,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.28034350275993347,
	"rewards/margins": 0.5825955271720886,
	"rewards/rejected": -0.30225205421447754,
	"step": 48
	},
	{
	"debug/policy_chosen_logits": -3.3747286796569824,
	"debug/policy_chosen_logps": -185.90341186523438,
	"debug/policy_rejected_logits": -3.0797741413116455,
	"debug/policy_rejected_logps": -202.92413330078125,
	"debug/reference_chosen_logps": -221.17340087890625,
	"debug/reference_rejected_logps": -154.19923400878906,
	"epoch": 0.9607843137254902,
	"grad_norm": 2.7307344297698157,
	"learning_rate": 1e-06,
	"logits/chosen": -3.3747286796569824,
	"logits/rejected": -3.0797741413116455,
	"logps/chosen": -185.90341186523438,
	"logps/rejected": -202.92413330078125,
	"loss": 0.1461,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.3527000844478607,
	"rewards/margins": 0.8399491310119629,
	"rewards/rejected": -0.48724907636642456,
	"step": 49
	},
	{
	"debug/policy_chosen_logits": -3.4781532287597656,
	"debug/policy_chosen_logps": -177.86842346191406,
	"debug/policy_rejected_logits": -3.0594165325164795,
	"debug/policy_rejected_logps": -195.89004516601562,
	"debug/reference_chosen_logps": -203.58407592773438,
	"debug/reference_rejected_logps": -161.39697265625,
	"epoch": 0.9803921568627451,
	"grad_norm": 3.3901490209041247,
	"learning_rate": 1e-06,
	"logits/chosen": -3.4781532287597656,
	"logits/rejected": -3.0594165325164795,
	"logps/chosen": -177.86842346191406,
	"logps/rejected": -195.89004516601562,
	"loss": 0.1895,
	"rewards/accuracies": 0.875,
	"rewards/chosen": 0.2571565508842468,
	"rewards/margins": 0.6020870208740234,
	"rewards/rejected": -0.3449305295944214,
	"step": 50
	},
	{
	"debug/policy_chosen_logits": -3.4821436405181885,
	"debug/policy_chosen_logps": -177.99000549316406,
	"debug/policy_rejected_logits": -3.0359578132629395,
	"debug/policy_rejected_logps": -203.94029235839844,
	"debug/reference_chosen_logps": -212.01348876953125,
	"debug/reference_rejected_logps": -166.06936645507812,
	"epoch": 1.0,
	"grad_norm": 3.0238129167739807,
	"learning_rate": 1e-06,
	"logits/chosen": -3.4821436405181885,
	"logits/rejected": -3.0359578132629395,
	"logps/chosen": -177.99000549316406,
	"logps/rejected": -203.94029235839844,
	"loss": 0.1383,
	"rewards/accuracies": 0.875,
	"rewards/chosen": 0.3402349352836609,
	"rewards/margins": 0.7189440727233887,
	"rewards/rejected": -0.37870916724205017,
	"step": 51
	},
	{
	"epoch": 1.0,
	"step": 51,
	"total_flos": 0.0,
	"train_loss": 0.26999635322421206,
	"train_runtime": 166.8574,
	"train_samples_per_second": 19.31,
	"train_steps_per_second": 0.306
	}
	],
	"logging_steps": 1,
	"max_steps": 51,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}