File size: 37,589 Bytes
{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 100,
  "global_step": 43,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "debug/policy_chosen_logits": -1.5687581300735474,
      "debug/policy_chosen_logps": -240.2513427734375,
      "debug/policy_rejected_logits": -1.6221139430999756,
      "debug/policy_rejected_logps": -264.4752197265625,
      "debug/reference_chosen_logps": -240.2513427734375,
      "debug/reference_rejected_logps": -264.4752197265625,
      "epoch": 0.023255813953488372,
      "grad_norm": 14.314275545525218,
      "learning_rate": 1e-06,
      "logits/chosen": -1.5687581300735474,
      "logits/rejected": -1.6221139430999756,
      "logps/chosen": -240.2513427734375,
      "logps/rejected": -264.4752197265625,
      "loss": 0.5,
      "rewards/accuracies": 0.0,
      "rewards/chosen": 0.0,
      "rewards/margins": 0.0,
      "rewards/rejected": 0.0,
      "step": 1
    },
    {
      "debug/policy_chosen_logits": -1.4775172472000122,
      "debug/policy_chosen_logps": -235.343994140625,
      "debug/policy_rejected_logits": -1.3492165803909302,
      "debug/policy_rejected_logps": -283.1033935546875,
      "debug/reference_chosen_logps": -234.93467712402344,
      "debug/reference_rejected_logps": -283.2170104980469,
      "epoch": 0.046511627906976744,
      "grad_norm": 18.67922014806989,
      "learning_rate": 1e-06,
      "logits/chosen": -1.4775172472000122,
      "logits/rejected": -1.3492165803909302,
      "logps/chosen": -235.343994140625,
      "logps/rejected": -283.1033935546875,
      "loss": 0.4959,
      "rewards/accuracies": 0.25,
      "rewards/chosen": -0.004093170166015625,
      "rewards/margins": -0.005229205824434757,
      "rewards/rejected": 0.0011360361240804195,
      "step": 2
    },
    {
      "debug/policy_chosen_logits": -1.6865235567092896,
      "debug/policy_chosen_logps": -230.66635131835938,
      "debug/policy_rejected_logits": -1.6258912086486816,
      "debug/policy_rejected_logps": -228.0758514404297,
      "debug/reference_chosen_logps": -225.64306640625,
      "debug/reference_rejected_logps": -223.4805908203125,
      "epoch": 0.06976744186046512,
      "grad_norm": 25.946369831783773,
      "learning_rate": 1e-06,
      "logits/chosen": -1.6865235567092896,
      "logits/rejected": -1.6258912086486816,
      "logps/chosen": -230.66635131835938,
      "logps/rejected": -228.0758514404297,
      "loss": 0.5069,
      "rewards/accuracies": 0.5,
      "rewards/chosen": -0.050232600420713425,
      "rewards/margins": -0.004280166234821081,
      "rewards/rejected": -0.04595243185758591,
      "step": 3
    },
    {
      "debug/policy_chosen_logits": -1.6345511674880981,
      "debug/policy_chosen_logps": -230.35598754882812,
      "debug/policy_rejected_logits": -1.594412088394165,
      "debug/policy_rejected_logps": -235.36544799804688,
      "debug/reference_chosen_logps": -227.8475799560547,
      "debug/reference_rejected_logps": -230.77169799804688,
      "epoch": 0.09302325581395349,
      "grad_norm": 12.562991726069878,
      "learning_rate": 1e-06,
      "logits/chosen": -1.6345511674880981,
      "logits/rejected": -1.594412088394165,
      "logps/chosen": -230.35598754882812,
      "logps/rejected": -235.36544799804688,
      "loss": 0.4907,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -0.025084247812628746,
      "rewards/margins": 0.02085309848189354,
      "rewards/rejected": -0.045937344431877136,
      "step": 4
    },
    {
      "debug/policy_chosen_logits": -1.5187644958496094,
      "debug/policy_chosen_logps": -209.38815307617188,
      "debug/policy_rejected_logits": -1.5565170049667358,
      "debug/policy_rejected_logps": -261.0048522949219,
      "debug/reference_chosen_logps": -204.9683837890625,
      "debug/reference_rejected_logps": -256.2153015136719,
      "epoch": 0.11627906976744186,
      "grad_norm": 42.7709320228073,
      "learning_rate": 1e-06,
      "logits/chosen": -1.5187644958496094,
      "logits/rejected": -1.5565170049667358,
      "logps/chosen": -209.38815307617188,
      "logps/rejected": -261.0048522949219,
      "loss": 0.5197,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.04419763758778572,
      "rewards/margins": 0.0036978721618652344,
      "rewards/rejected": -0.04789550602436066,
      "step": 5
    },
    {
      "debug/policy_chosen_logits": -1.654346227645874,
      "debug/policy_chosen_logps": -208.22152709960938,
      "debug/policy_rejected_logits": -1.472536325454712,
      "debug/policy_rejected_logps": -277.9122314453125,
      "debug/reference_chosen_logps": -208.6928253173828,
      "debug/reference_rejected_logps": -277.05023193359375,
      "epoch": 0.13953488372093023,
      "grad_norm": 18.148530267479675,
      "learning_rate": 1e-06,
      "logits/chosen": -1.654346227645874,
      "logits/rejected": -1.472536325454712,
      "logps/chosen": -208.22152709960938,
      "logps/rejected": -277.9122314453125,
      "loss": 0.507,
      "rewards/accuracies": 0.5,
      "rewards/chosen": 0.0047130584716796875,
      "rewards/margins": 0.013332920148968697,
      "rewards/rejected": -0.008619861677289009,
      "step": 6
    },
    {
      "debug/policy_chosen_logits": -1.619295597076416,
      "debug/policy_chosen_logps": -240.17440795898438,
      "debug/policy_rejected_logits": -1.5930582284927368,
      "debug/policy_rejected_logps": -303.7572326660156,
      "debug/reference_chosen_logps": -240.71119689941406,
      "debug/reference_rejected_logps": -304.2488708496094,
      "epoch": 0.16279069767441862,
      "grad_norm": 18.12592422181744,
      "learning_rate": 1e-06,
      "logits/chosen": -1.619295597076416,
      "logits/rejected": -1.5930582284927368,
      "logps/chosen": -240.17440795898438,
      "logps/rejected": -303.7572326660156,
      "loss": 0.5014,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.005367736332118511,
      "rewards/margins": 0.0004512788727879524,
      "rewards/rejected": 0.004916457924991846,
      "step": 7
    },
    {
      "debug/policy_chosen_logits": -1.5426918268203735,
      "debug/policy_chosen_logps": -242.49334716796875,
      "debug/policy_rejected_logits": -1.515419363975525,
      "debug/policy_rejected_logps": -246.33676147460938,
      "debug/reference_chosen_logps": -245.80419921875,
      "debug/reference_rejected_logps": -248.84983825683594,
      "epoch": 0.18604651162790697,
      "grad_norm": 37.16270378133235,
      "learning_rate": 1e-06,
      "logits/chosen": -1.5426918268203735,
      "logits/rejected": -1.515419363975525,
      "logps/chosen": -242.49334716796875,
      "logps/rejected": -246.33676147460938,
      "loss": 0.4963,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.03310825303196907,
      "rewards/margins": 0.007977409288287163,
      "rewards/rejected": 0.02513084188103676,
      "step": 8
    },
    {
      "debug/policy_chosen_logits": -1.5298963785171509,
      "debug/policy_chosen_logps": -225.92041015625,
      "debug/policy_rejected_logits": -1.4147241115570068,
      "debug/policy_rejected_logps": -270.5355224609375,
      "debug/reference_chosen_logps": -228.79443359375,
      "debug/reference_rejected_logps": -272.68603515625,
      "epoch": 0.20930232558139536,
      "grad_norm": 18.861065558487233,
      "learning_rate": 1e-06,
      "logits/chosen": -1.5298963785171509,
      "logits/rejected": -1.4147241115570068,
      "logps/chosen": -225.92041015625,
      "logps/rejected": -270.5355224609375,
      "loss": 0.5,
      "rewards/accuracies": 0.5,
      "rewards/chosen": 0.0287402905523777,
      "rewards/margins": 0.007235164754092693,
      "rewards/rejected": 0.021505124866962433,
      "step": 9
    },
    {
      "debug/policy_chosen_logits": -1.5066547393798828,
      "debug/policy_chosen_logps": -216.030517578125,
      "debug/policy_rejected_logits": -1.4625401496887207,
      "debug/policy_rejected_logps": -217.58367919921875,
      "debug/reference_chosen_logps": -219.08502197265625,
      "debug/reference_rejected_logps": -219.8885955810547,
      "epoch": 0.23255813953488372,
      "grad_norm": 12.691840821738246,
      "learning_rate": 1e-06,
      "logits/chosen": -1.5066547393798828,
      "logits/rejected": -1.4625401496887207,
      "logps/chosen": -216.030517578125,
      "logps/rejected": -217.58367919921875,
      "loss": 0.4982,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.030545100569725037,
      "rewards/margins": 0.007496070582419634,
      "rewards/rejected": 0.02304903045296669,
      "step": 10
    },
    {
      "debug/policy_chosen_logits": -1.6109825372695923,
      "debug/policy_chosen_logps": -194.70681762695312,
      "debug/policy_rejected_logits": -1.5127055644989014,
      "debug/policy_rejected_logps": -261.20880126953125,
      "debug/reference_chosen_logps": -200.0032958984375,
      "debug/reference_rejected_logps": -264.6978454589844,
      "epoch": 0.2558139534883721,
      "grad_norm": 34.88211840288691,
      "learning_rate": 1e-06,
      "logits/chosen": -1.6109825372695923,
      "logits/rejected": -1.5127055644989014,
      "logps/chosen": -194.70681762695312,
      "logps/rejected": -261.20880126953125,
      "loss": 0.5055,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.05296493321657181,
      "rewards/margins": 0.018074415624141693,
      "rewards/rejected": 0.034890517592430115,
      "step": 11
    },
    {
      "debug/policy_chosen_logits": -1.644713282585144,
      "debug/policy_chosen_logps": -242.20831298828125,
      "debug/policy_rejected_logits": -1.6428948640823364,
      "debug/policy_rejected_logps": -256.0648498535156,
      "debug/reference_chosen_logps": -245.20326232910156,
      "debug/reference_rejected_logps": -257.87481689453125,
      "epoch": 0.27906976744186046,
      "grad_norm": 24.62141741438646,
      "learning_rate": 1e-06,
      "logits/chosen": -1.644713282585144,
      "logits/rejected": -1.6428948640823364,
      "logps/chosen": -242.20831298828125,
      "logps/rejected": -256.0648498535156,
      "loss": 0.507,
      "rewards/accuracies": 0.5,
      "rewards/chosen": 0.029949625954031944,
      "rewards/margins": 0.0118501465767622,
      "rewards/rejected": 0.018099479377269745,
      "step": 12
    },
    {
      "debug/policy_chosen_logits": -1.6160894632339478,
      "debug/policy_chosen_logps": -227.63302612304688,
      "debug/policy_rejected_logits": -1.6384341716766357,
      "debug/policy_rejected_logps": -264.2388916015625,
      "debug/reference_chosen_logps": -230.62490844726562,
      "debug/reference_rejected_logps": -264.9801025390625,
      "epoch": 0.3023255813953488,
      "grad_norm": 10.776881537717472,
      "learning_rate": 1e-06,
      "logits/chosen": -1.6160894632339478,
      "logits/rejected": -1.6384341716766357,
      "logps/chosen": -227.63302612304688,
      "logps/rejected": -264.2388916015625,
      "loss": 0.4976,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.029918955639004707,
      "rewards/margins": 0.022506674751639366,
      "rewards/rejected": 0.007412281818687916,
      "step": 13
    },
    {
      "debug/policy_chosen_logits": -1.6279401779174805,
      "debug/policy_chosen_logps": -220.282958984375,
      "debug/policy_rejected_logits": -1.4893845319747925,
      "debug/policy_rejected_logps": -272.10931396484375,
      "debug/reference_chosen_logps": -222.31028747558594,
      "debug/reference_rejected_logps": -272.71044921875,
      "epoch": 0.32558139534883723,
      "grad_norm": 10.036756062227226,
      "learning_rate": 1e-06,
      "logits/chosen": -1.6279401779174805,
      "logits/rejected": -1.4893845319747925,
      "logps/chosen": -220.282958984375,
      "logps/rejected": -272.10931396484375,
      "loss": 0.4935,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.020273476839065552,
      "rewards/margins": 0.014262351207435131,
      "rewards/rejected": 0.006011123303323984,
      "step": 14
    },
    {
      "debug/policy_chosen_logits": -1.5787980556488037,
      "debug/policy_chosen_logps": -261.0044250488281,
      "debug/policy_rejected_logits": -1.3867720365524292,
      "debug/policy_rejected_logps": -301.5718994140625,
      "debug/reference_chosen_logps": -258.84735107421875,
      "debug/reference_rejected_logps": -297.58404541015625,
      "epoch": 0.3488372093023256,
      "grad_norm": 10.65558553278192,
      "learning_rate": 1e-06,
      "logits/chosen": -1.5787980556488037,
      "logits/rejected": -1.3867720365524292,
      "logps/chosen": -261.0044250488281,
      "logps/rejected": -301.5718994140625,
      "loss": 0.4873,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -0.021570798009634018,
      "rewards/margins": 0.018307799473404884,
      "rewards/rejected": -0.03987859562039375,
      "step": 15
    },
    {
      "debug/policy_chosen_logits": -1.5956577062606812,
      "debug/policy_chosen_logps": -222.5416259765625,
      "debug/policy_rejected_logits": -1.4434815645217896,
      "debug/policy_rejected_logps": -279.348388671875,
      "debug/reference_chosen_logps": -221.23260498046875,
      "debug/reference_rejected_logps": -273.97540283203125,
      "epoch": 0.37209302325581395,
      "grad_norm": 36.49853384207237,
      "learning_rate": 1e-06,
      "logits/chosen": -1.5956577062606812,
      "logits/rejected": -1.4434815645217896,
      "logps/chosen": -222.5416259765625,
      "logps/rejected": -279.348388671875,
      "loss": 0.5003,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.013090074062347412,
      "rewards/margins": 0.040639691054821014,
      "rewards/rejected": -0.053729765117168427,
      "step": 16
    },
    {
      "debug/policy_chosen_logits": -1.4420965909957886,
      "debug/policy_chosen_logps": -215.4423828125,
      "debug/policy_rejected_logits": -1.5232738256454468,
      "debug/policy_rejected_logps": -288.1341552734375,
      "debug/reference_chosen_logps": -213.68832397460938,
      "debug/reference_rejected_logps": -286.45086669921875,
      "epoch": 0.3953488372093023,
      "grad_norm": 24.203474268576745,
      "learning_rate": 1e-06,
      "logits/chosen": -1.4420965909957886,
      "logits/rejected": -1.5232738256454468,
      "logps/chosen": -215.4423828125,
      "logps/rejected": -288.1341552734375,
      "loss": 0.4918,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -0.01754041761159897,
      "rewards/margins": -0.0007077232003211975,
      "rewards/rejected": -0.01683269441127777,
      "step": 17
    },
    {
      "debug/policy_chosen_logits": -1.4279348850250244,
      "debug/policy_chosen_logps": -242.89749145507812,
      "debug/policy_rejected_logits": -1.3261935710906982,
      "debug/policy_rejected_logps": -230.28863525390625,
      "debug/reference_chosen_logps": -240.6783447265625,
      "debug/reference_rejected_logps": -226.51815795898438,
      "epoch": 0.4186046511627907,
      "grad_norm": 44.37824041962939,
      "learning_rate": 1e-06,
      "logits/chosen": -1.4279348850250244,
      "logits/rejected": -1.3261935710906982,
      "logps/chosen": -242.89749145507812,
      "logps/rejected": -230.28863525390625,
      "loss": 0.5044,
      "rewards/accuracies": 0.5,
      "rewards/chosen": -0.022191638126969337,
      "rewards/margins": 0.01551321055740118,
      "rewards/rejected": -0.03770485147833824,
      "step": 18
    },
    {
      "debug/policy_chosen_logits": -1.58405339717865,
      "debug/policy_chosen_logps": -236.5458984375,
      "debug/policy_rejected_logits": -1.5539088249206543,
      "debug/policy_rejected_logps": -233.43719482421875,
      "debug/reference_chosen_logps": -236.3321533203125,
      "debug/reference_rejected_logps": -231.97726440429688,
      "epoch": 0.4418604651162791,
      "grad_norm": 12.540633658003186,
      "learning_rate": 1e-06,
      "logits/chosen": -1.58405339717865,
      "logits/rejected": -1.5539088249206543,
      "logps/chosen": -236.5458984375,
      "logps/rejected": -233.43719482421875,
      "loss": 0.5059,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.002137584611773491,
      "rewards/margins": 0.012461718171834946,
      "rewards/rejected": -0.014599304646253586,
      "step": 19
    },
    {
      "debug/policy_chosen_logits": -1.466562032699585,
      "debug/policy_chosen_logps": -194.52447509765625,
      "debug/policy_rejected_logits": -1.4163392782211304,
      "debug/policy_rejected_logps": -237.53216552734375,
      "debug/reference_chosen_logps": -194.98049926757812,
      "debug/reference_rejected_logps": -237.75314331054688,
      "epoch": 0.46511627906976744,
      "grad_norm": 14.133924214011163,
      "learning_rate": 1e-06,
      "logits/chosen": -1.466562032699585,
      "logits/rejected": -1.4163392782211304,
      "logps/chosen": -194.52447509765625,
      "logps/rejected": -237.53216552734375,
      "loss": 0.4895,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.004560394212603569,
      "rewards/margins": 0.00235048308968544,
      "rewards/rejected": 0.0022099113557487726,
      "step": 20
    },
    {
      "debug/policy_chosen_logits": -1.5900827646255493,
      "debug/policy_chosen_logps": -212.4789276123047,
      "debug/policy_rejected_logits": -1.4683177471160889,
      "debug/policy_rejected_logps": -257.5311279296875,
      "debug/reference_chosen_logps": -211.9457550048828,
      "debug/reference_rejected_logps": -254.302490234375,
      "epoch": 0.4883720930232558,
      "grad_norm": 17.882111129846162,
      "learning_rate": 1e-06,
      "logits/chosen": -1.5900827646255493,
      "logits/rejected": -1.4683177471160889,
      "logps/chosen": -212.4789276123047,
      "logps/rejected": -257.5311279296875,
      "loss": 0.4799,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.00533168762922287,
      "rewards/margins": 0.026954688131809235,
      "rewards/rejected": -0.032286375761032104,
      "step": 21
    },
    {
      "debug/policy_chosen_logits": -1.4656310081481934,
      "debug/policy_chosen_logps": -263.0152282714844,
      "debug/policy_rejected_logits": -1.3645009994506836,
      "debug/policy_rejected_logps": -283.24566650390625,
      "debug/reference_chosen_logps": -262.25970458984375,
      "debug/reference_rejected_logps": -280.8420715332031,
      "epoch": 0.5116279069767442,
      "grad_norm": 17.255770475731207,
      "learning_rate": 1e-06,
      "logits/chosen": -1.4656310081481934,
      "logits/rejected": -1.3645009994506836,
      "logps/chosen": -263.0152282714844,
      "logps/rejected": -283.24566650390625,
      "loss": 0.479,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.007554950192570686,
      "rewards/margins": 0.01648113504052162,
      "rewards/rejected": -0.02403608150780201,
      "step": 22
    },
    {
      "debug/policy_chosen_logits": -1.4521846771240234,
      "debug/policy_chosen_logps": -216.39169311523438,
      "debug/policy_rejected_logits": -1.3643300533294678,
      "debug/policy_rejected_logps": -281.2818603515625,
      "debug/reference_chosen_logps": -223.86587524414062,
      "debug/reference_rejected_logps": -278.6108703613281,
      "epoch": 0.5348837209302325,
      "grad_norm": 22.42065485842657,
      "learning_rate": 1e-06,
      "logits/chosen": -1.4521846771240234,
      "logits/rejected": -1.3643300533294678,
      "logps/chosen": -216.39169311523438,
      "logps/rejected": -281.2818603515625,
      "loss": 0.4761,
      "rewards/accuracies": 0.875,
      "rewards/chosen": 0.07474187761545181,
      "rewards/margins": 0.10145200788974762,
      "rewards/rejected": -0.02671012654900551,
      "step": 23
    },
    {
      "debug/policy_chosen_logits": -1.596596121788025,
      "debug/policy_chosen_logps": -240.6717987060547,
      "debug/policy_rejected_logits": -1.5593181848526,
      "debug/policy_rejected_logps": -339.8119812011719,
      "debug/reference_chosen_logps": -242.0146484375,
      "debug/reference_rejected_logps": -335.9112548828125,
      "epoch": 0.5581395348837209,
      "grad_norm": 15.69048628226096,
      "learning_rate": 1e-06,
      "logits/chosen": -1.596596121788025,
      "logits/rejected": -1.5593181848526,
      "logps/chosen": -240.6717987060547,
      "logps/rejected": -339.8119812011719,
      "loss": 0.4765,
      "rewards/accuracies": 0.875,
      "rewards/chosen": 0.013428498059511185,
      "rewards/margins": 0.05243583396077156,
      "rewards/rejected": -0.039007339626550674,
      "step": 24
    },
    {
      "debug/policy_chosen_logits": -1.5627775192260742,
      "debug/policy_chosen_logps": -243.03045654296875,
      "debug/policy_rejected_logits": -1.5146582126617432,
      "debug/policy_rejected_logps": -339.4427490234375,
      "debug/reference_chosen_logps": -244.926513671875,
      "debug/reference_rejected_logps": -337.1531982421875,
      "epoch": 0.5813953488372093,
      "grad_norm": 23.599376538578916,
      "learning_rate": 1e-06,
      "logits/chosen": -1.5627775192260742,
      "logits/rejected": -1.5146582126617432,
      "logps/chosen": -243.03045654296875,
      "logps/rejected": -339.4427490234375,
      "loss": 0.4976,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.018960533663630486,
      "rewards/margins": 0.04185573384165764,
      "rewards/rejected": -0.02289520390331745,
      "step": 25
    },
    {
      "debug/policy_chosen_logits": -1.4482909440994263,
      "debug/policy_chosen_logps": -243.66656494140625,
      "debug/policy_rejected_logits": -1.3864490985870361,
      "debug/policy_rejected_logps": -269.7567138671875,
      "debug/reference_chosen_logps": -243.5550079345703,
      "debug/reference_rejected_logps": -265.46270751953125,
      "epoch": 0.6046511627906976,
      "grad_norm": 15.856946618319062,
      "learning_rate": 1e-06,
      "logits/chosen": -1.4482909440994263,
      "logits/rejected": -1.3864490985870361,
      "logps/chosen": -243.66656494140625,
      "logps/rejected": -269.7567138671875,
      "loss": 0.4718,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -0.001115493942052126,
      "rewards/margins": 0.04182462394237518,
      "rewards/rejected": -0.04294012114405632,
      "step": 26
    },
    {
      "debug/policy_chosen_logits": -1.6767849922180176,
      "debug/policy_chosen_logps": -235.87283325195312,
      "debug/policy_rejected_logits": -1.4402155876159668,
      "debug/policy_rejected_logps": -255.25155639648438,
      "debug/reference_chosen_logps": -234.12271118164062,
      "debug/reference_rejected_logps": -252.92681884765625,
      "epoch": 0.627906976744186,
      "grad_norm": 26.8171661009806,
      "learning_rate": 1e-06,
      "logits/chosen": -1.6767849922180176,
      "logits/rejected": -1.4402155876159668,
      "logps/chosen": -235.87283325195312,
      "logps/rejected": -255.25155639648438,
      "loss": 0.4911,
      "rewards/accuracies": 0.5,
      "rewards/chosen": -0.017501164227724075,
      "rewards/margins": 0.005746154114603996,
      "rewards/rejected": -0.023247316479682922,
      "step": 27
    },
    {
      "debug/policy_chosen_logits": -1.474959135055542,
      "debug/policy_chosen_logps": -250.03805541992188,
      "debug/policy_rejected_logits": -1.33174729347229,
      "debug/policy_rejected_logps": -275.7778015136719,
      "debug/reference_chosen_logps": -246.68450927734375,
      "debug/reference_rejected_logps": -271.7251892089844,
      "epoch": 0.6511627906976745,
      "grad_norm": 23.009106257244806,
      "learning_rate": 1e-06,
      "logits/chosen": -1.474959135055542,
      "logits/rejected": -1.33174729347229,
      "logps/chosen": -250.03805541992188,
      "logps/rejected": -275.7778015136719,
      "loss": 0.4741,
      "rewards/accuracies": 0.5,
      "rewards/chosen": -0.03353559225797653,
      "rewards/margins": 0.006990719586610794,
      "rewards/rejected": -0.040526311844587326,
      "step": 28
    },
    {
      "debug/policy_chosen_logits": -1.5180094242095947,
      "debug/policy_chosen_logps": -239.39962768554688,
      "debug/policy_rejected_logits": -1.3486112356185913,
      "debug/policy_rejected_logps": -280.152587890625,
      "debug/reference_chosen_logps": -235.7870635986328,
      "debug/reference_rejected_logps": -271.69512939453125,
      "epoch": 0.6744186046511628,
      "grad_norm": 29.559799359310976,
      "learning_rate": 1e-06,
      "logits/chosen": -1.5180094242095947,
      "logits/rejected": -1.3486112356185913,
      "logps/chosen": -239.39962768554688,
      "logps/rejected": -280.152587890625,
      "loss": 0.4648,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -0.03612573444843292,
      "rewards/margins": 0.04844905436038971,
      "rewards/rejected": -0.08457479625940323,
      "step": 29
    },
    {
      "debug/policy_chosen_logits": -1.5323574542999268,
      "debug/policy_chosen_logps": -230.34732055664062,
      "debug/policy_rejected_logits": -1.4196269512176514,
      "debug/policy_rejected_logps": -299.549072265625,
      "debug/reference_chosen_logps": -227.33663940429688,
      "debug/reference_rejected_logps": -290.41229248046875,
      "epoch": 0.6976744186046512,
      "grad_norm": 24.104606390659608,
      "learning_rate": 1e-06,
      "logits/chosen": -1.5323574542999268,
      "logits/rejected": -1.4196269512176514,
      "logps/chosen": -230.34732055664062,
      "logps/rejected": -299.549072265625,
      "loss": 0.4845,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.03010694310069084,
      "rewards/margins": 0.0612606406211853,
      "rewards/rejected": -0.09136758744716644,
      "step": 30
    },
    {
      "debug/policy_chosen_logits": -1.5471208095550537,
      "debug/policy_chosen_logps": -233.48435974121094,
      "debug/policy_rejected_logits": -1.507702350616455,
      "debug/policy_rejected_logps": -299.49298095703125,
      "debug/reference_chosen_logps": -230.37808227539062,
      "debug/reference_rejected_logps": -290.85491943359375,
      "epoch": 0.7209302325581395,
      "grad_norm": 11.501362477806966,
      "learning_rate": 1e-06,
      "logits/chosen": -1.5471208095550537,
      "logits/rejected": -1.507702350616455,
      "logps/chosen": -233.48435974121094,
      "logps/rejected": -299.49298095703125,
      "loss": 0.4777,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.031062887981534004,
      "rewards/margins": 0.05531751364469528,
      "rewards/rejected": -0.08638040721416473,
      "step": 31
    },
    {
      "debug/policy_chosen_logits": -1.3573694229125977,
      "debug/policy_chosen_logps": -276.0484619140625,
      "debug/policy_rejected_logits": -1.4295967817306519,
      "debug/policy_rejected_logps": -251.19253540039062,
      "debug/reference_chosen_logps": -269.07147216796875,
      "debug/reference_rejected_logps": -245.41119384765625,
      "epoch": 0.7441860465116279,
      "grad_norm": 44.933121351184646,
      "learning_rate": 1e-06,
      "logits/chosen": -1.3573694229125977,
      "logits/rejected": -1.4295967817306519,
      "logps/chosen": -276.0484619140625,
      "logps/rejected": -251.19253540039062,
      "loss": 0.4882,
      "rewards/accuracies": 0.375,
      "rewards/chosen": -0.06977000832557678,
      "rewards/margins": -0.011956671252846718,
      "rewards/rejected": -0.057813338935375214,
      "step": 32
    },
    {
      "debug/policy_chosen_logits": -1.532698392868042,
      "debug/policy_chosen_logps": -210.01528930664062,
      "debug/policy_rejected_logits": -1.5289320945739746,
      "debug/policy_rejected_logps": -266.588134765625,
      "debug/reference_chosen_logps": -212.3720245361328,
      "debug/reference_rejected_logps": -261.5830993652344,
      "epoch": 0.7674418604651163,
      "grad_norm": 16.92613442301389,
      "learning_rate": 1e-06,
      "logits/chosen": -1.532698392868042,
      "logits/rejected": -1.5289320945739746,
      "logps/chosen": -210.01528930664062,
      "logps/rejected": -266.588134765625,
      "loss": 0.4701,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.023567447438836098,
      "rewards/margins": 0.0736178606748581,
      "rewards/rejected": -0.050050411373376846,
      "step": 33
    },
    {
      "debug/policy_chosen_logits": -1.6075690984725952,
      "debug/policy_chosen_logps": -222.28057861328125,
      "debug/policy_rejected_logits": -1.5301072597503662,
      "debug/policy_rejected_logps": -231.0042724609375,
      "debug/reference_chosen_logps": -221.35081481933594,
      "debug/reference_rejected_logps": -232.4139404296875,
      "epoch": 0.7906976744186046,
      "grad_norm": 30.286832542440518,
      "learning_rate": 1e-06,
      "logits/chosen": -1.6075690984725952,
      "logits/rejected": -1.5301072597503662,
      "logps/chosen": -222.28057861328125,
      "logps/rejected": -231.0042724609375,
      "loss": 0.4957,
      "rewards/accuracies": 0.375,
      "rewards/chosen": -0.009297618642449379,
      "rewards/margins": -0.023394297808408737,
      "rewards/rejected": 0.014096679165959358,
      "step": 34
    },
    {
      "debug/policy_chosen_logits": -1.6365246772766113,
      "debug/policy_chosen_logps": -214.15689086914062,
      "debug/policy_rejected_logits": -1.3568267822265625,
      "debug/policy_rejected_logps": -274.84320068359375,
      "debug/reference_chosen_logps": -219.61041259765625,
      "debug/reference_rejected_logps": -271.06793212890625,
      "epoch": 0.813953488372093,
      "grad_norm": 10.413515346816709,
      "learning_rate": 1e-06,
      "logits/chosen": -1.6365246772766113,
      "logits/rejected": -1.3568267822265625,
      "logps/chosen": -214.15689086914062,
      "logps/rejected": -274.84320068359375,
      "loss": 0.4745,
      "rewards/accuracies": 0.875,
      "rewards/chosen": 0.05453508347272873,
      "rewards/margins": 0.09228822588920593,
      "rewards/rejected": -0.0377531424164772,
      "step": 35
    },
    {
      "debug/policy_chosen_logits": -1.4882985353469849,
      "debug/policy_chosen_logps": -224.943115234375,
      "debug/policy_rejected_logits": -1.5247392654418945,
      "debug/policy_rejected_logps": -291.1658020019531,
      "debug/reference_chosen_logps": -230.88302612304688,
      "debug/reference_rejected_logps": -292.3128967285156,
      "epoch": 0.8372093023255814,
      "grad_norm": 21.658575078370163,
      "learning_rate": 1e-06,
      "logits/chosen": -1.4882985353469849,
      "logits/rejected": -1.5247392654418945,
      "logps/chosen": -224.943115234375,
      "logps/rejected": -291.1658020019531,
      "loss": 0.4603,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.059399355202913284,
      "rewards/margins": 0.04792825132608414,
      "rewards/rejected": 0.011471100151538849,
      "step": 36
    },
    {
      "debug/policy_chosen_logits": -1.5648789405822754,
      "debug/policy_chosen_logps": -232.97958374023438,
      "debug/policy_rejected_logits": -1.4898722171783447,
      "debug/policy_rejected_logps": -264.453369140625,
      "debug/reference_chosen_logps": -236.86109924316406,
      "debug/reference_rejected_logps": -266.53448486328125,
      "epoch": 0.8604651162790697,
      "grad_norm": 13.183542989418173,
      "learning_rate": 1e-06,
      "logits/chosen": -1.5648789405822754,
      "logits/rejected": -1.4898722171783447,
      "logps/chosen": -232.97958374023438,
      "logps/rejected": -264.453369140625,
      "loss": 0.4871,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.03881513699889183,
      "rewards/margins": 0.018004285171628,
      "rewards/rejected": 0.020810849964618683,
      "step": 37
    },
    {
      "debug/policy_chosen_logits": -1.3791043758392334,
      "debug/policy_chosen_logps": -228.21205139160156,
      "debug/policy_rejected_logits": -1.3903659582138062,
      "debug/policy_rejected_logps": -227.752197265625,
      "debug/reference_chosen_logps": -230.1770477294922,
      "debug/reference_rejected_logps": -230.64239501953125,
      "epoch": 0.8837209302325582,
      "grad_norm": 17.81188100770416,
      "learning_rate": 1e-06,
      "logits/chosen": -1.3791043758392334,
      "logits/rejected": -1.3903659582138062,
      "logps/chosen": -228.21205139160156,
      "logps/rejected": -227.752197265625,
      "loss": 0.4778,
      "rewards/accuracies": 0.5,
      "rewards/chosen": 0.019649982452392578,
      "rewards/margins": -0.009251842275261879,
      "rewards/rejected": 0.028901822865009308,
      "step": 38
    },
    {
      "debug/policy_chosen_logits": -1.4482218027114868,
      "debug/policy_chosen_logps": -247.0265655517578,
      "debug/policy_rejected_logits": -1.3742115497589111,
      "debug/policy_rejected_logps": -305.1549072265625,
      "debug/reference_chosen_logps": -249.18740844726562,
      "debug/reference_rejected_logps": -301.026123046875,
      "epoch": 0.9069767441860465,
      "grad_norm": 18.246091231595155,
      "learning_rate": 1e-06,
      "logits/chosen": -1.4482218027114868,
      "logits/rejected": -1.3742115497589111,
      "logps/chosen": -247.0265655517578,
      "logps/rejected": -305.1549072265625,
      "loss": 0.4569,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.021608371287584305,
      "rewards/margins": 0.0628962367773056,
      "rewards/rejected": -0.0412878580391407,
      "step": 39
    },
    {
      "debug/policy_chosen_logits": -1.5543980598449707,
      "debug/policy_chosen_logps": -257.4435729980469,
      "debug/policy_rejected_logits": -1.5073050260543823,
      "debug/policy_rejected_logps": -296.2988586425781,
      "debug/reference_chosen_logps": -256.39544677734375,
      "debug/reference_rejected_logps": -288.50433349609375,
      "epoch": 0.9302325581395349,
      "grad_norm": 14.177163201466067,
      "learning_rate": 1e-06,
      "logits/chosen": -1.5543980598449707,
      "logits/rejected": -1.5073050260543823,
      "logps/chosen": -257.4435729980469,
      "logps/rejected": -296.2988586425781,
      "loss": 0.4851,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.010481302626430988,
      "rewards/margins": 0.0674639493227005,
      "rewards/rejected": -0.07794524729251862,
      "step": 40
    },
    {
      "debug/policy_chosen_logits": -1.5510001182556152,
      "debug/policy_chosen_logps": -262.91461181640625,
      "debug/policy_rejected_logits": -1.4993880987167358,
      "debug/policy_rejected_logps": -288.2521667480469,
      "debug/reference_chosen_logps": -253.84947204589844,
      "debug/reference_rejected_logps": -285.00738525390625,
      "epoch": 0.9534883720930233,
      "grad_norm": 64.06356256852192,
      "learning_rate": 1e-06,
      "logits/chosen": -1.5510001182556152,
      "logits/rejected": -1.4993880987167358,
      "logps/chosen": -262.91461181640625,
      "logps/rejected": -288.2521667480469,
      "loss": 0.4995,
      "rewards/accuracies": 0.125,
      "rewards/chosen": -0.09065132588148117,
      "rewards/margins": -0.05820371210575104,
      "rewards/rejected": -0.032447606325149536,
      "step": 41
    },
    {
      "debug/policy_chosen_logits": -1.6003302335739136,
      "debug/policy_chosen_logps": -224.11663818359375,
      "debug/policy_rejected_logits": -1.5286082029342651,
      "debug/policy_rejected_logps": -271.67974853515625,
      "debug/reference_chosen_logps": -221.91209411621094,
      "debug/reference_rejected_logps": -258.791015625,
      "epoch": 0.9767441860465116,
      "grad_norm": 61.90638727730458,
      "learning_rate": 1e-06,
      "logits/chosen": -1.6003302335739136,
      "logits/rejected": -1.5286082029342651,
      "logps/chosen": -224.11663818359375,
      "logps/rejected": -271.67974853515625,
      "loss": 0.4904,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.022045554593205452,
      "rewards/margins": 0.10684183239936829,
      "rewards/rejected": -0.1288873851299286,
      "step": 42
    },
    {
      "debug/policy_chosen_logits": -1.5732522010803223,
      "debug/policy_chosen_logps": -237.1086883544922,
      "debug/policy_rejected_logits": -1.405612826347351,
      "debug/policy_rejected_logps": -320.40643310546875,
      "debug/reference_chosen_logps": -234.65167236328125,
      "debug/reference_rejected_logps": -311.38165283203125,
      "epoch": 1.0,
      "grad_norm": 43.37698691621295,
      "learning_rate": 1e-06,
      "logits/chosen": -1.5732522010803223,
      "logits/rejected": -1.405612826347351,
      "logps/chosen": -237.1086883544922,
      "logps/rejected": -320.40643310546875,
      "loss": 0.4906,
      "rewards/accuracies": 0.5,
      "rewards/chosen": -0.024570178240537643,
      "rewards/margins": 0.065677709877491,
      "rewards/rejected": -0.09024789184331894,
      "step": 43
    },
    {
      "epoch": 1.0,
      "step": 43,
      "total_flos": 0.0,
      "train_loss": 0.489490317743878,
      "train_runtime": 149.7969,
      "train_samples_per_second": 18.318,
      "train_steps_per_second": 0.287
    }
  ],
  "logging_steps": 1,
  "max_steps": 43,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}