{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9997038791827065,
  "eval_steps": 500,
  "global_step": 1688,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.005922416345869114,
      "grad_norm": 26.875,
      "learning_rate": 2.9585798816568044e-08,
      "log_odds_chosen": -0.4994420111179352,
      "log_odds_ratio": -1.0620524883270264,
      "logits/chosen": -2.227687358856201,
      "logits/rejected": -2.213762044906616,
      "logps/chosen": -0.7160366773605347,
      "logps/rejected": -0.47193747758865356,
      "loss": 1.3693,
      "nll_loss": 1.2856990098953247,
      "rewards/accuracies": 0.30000001192092896,
      "rewards/chosen": -0.0716036707162857,
      "rewards/margins": -0.02440992370247841,
      "rewards/rejected": -0.047193750739097595,
      "step": 10
    },
    {
      "epoch": 0.011844832691738229,
      "grad_norm": 26.5,
      "learning_rate": 5.917159763313609e-08,
      "log_odds_chosen": -0.6077697277069092,
      "log_odds_ratio": -1.154677152633667,
      "logits/chosen": -2.1866495609283447,
      "logits/rejected": -2.1631338596343994,
      "logps/chosen": -0.8245598077774048,
      "logps/rejected": -0.4715619683265686,
      "loss": 1.3378,
      "nll_loss": 1.228305459022522,
      "rewards/accuracies": 0.30000001192092896,
      "rewards/chosen": -0.08245597779750824,
      "rewards/margins": -0.03529978543519974,
      "rewards/rejected": -0.0471561960875988,
      "step": 20
    },
    {
      "epoch": 0.017767249037607343,
      "grad_norm": 29.125,
      "learning_rate": 8.875739644970414e-08,
      "log_odds_chosen": -0.5950562357902527,
      "log_odds_ratio": -1.171638011932373,
      "logits/chosen": -2.152902126312256,
      "logits/rejected": -2.1443581581115723,
      "logps/chosen": -0.854525089263916,
      "logps/rejected": -0.49298763275146484,
      "loss": 1.3488,
      "nll_loss": 1.3134263753890991,
      "rewards/accuracies": 0.3062500059604645,
      "rewards/chosen": -0.08545249700546265,
      "rewards/margins": -0.03615374490618706,
      "rewards/rejected": -0.049298763275146484,
      "step": 30
    },
    {
      "epoch": 0.023689665383476458,
      "grad_norm": 31.25,
      "learning_rate": 1.1834319526627217e-07,
      "log_odds_chosen": -0.5344940423965454,
      "log_odds_ratio": -1.0923480987548828,
      "logits/chosen": -2.219038486480713,
      "logits/rejected": -2.2063724994659424,
      "logps/chosen": -0.7574710845947266,
      "logps/rejected": -0.4638025760650635,
      "loss": 1.3817,
      "nll_loss": 1.2359822988510132,
      "rewards/accuracies": 0.33125001192092896,
      "rewards/chosen": -0.07574710994958878,
      "rewards/margins": -0.02936685085296631,
      "rewards/rejected": -0.04638025909662247,
      "step": 40
    },
    {
      "epoch": 0.029612081729345572,
      "grad_norm": 28.0,
      "learning_rate": 1.4792899408284022e-07,
      "log_odds_chosen": -0.4542032778263092,
      "log_odds_ratio": -1.0256363153457642,
      "logits/chosen": -2.1617987155914307,
      "logits/rejected": -2.146223545074463,
      "logps/chosen": -0.7006078958511353,
      "logps/rejected": -0.47175368666648865,
      "loss": 1.3127,
      "nll_loss": 1.2409818172454834,
      "rewards/accuracies": 0.3499999940395355,
      "rewards/chosen": -0.07006079703569412,
      "rewards/margins": -0.022885426878929138,
      "rewards/rejected": -0.047175366431474686,
      "step": 50
    },
    {
      "epoch": 0.035534498075214686,
      "grad_norm": 23.125,
      "learning_rate": 1.7751479289940827e-07,
      "log_odds_chosen": -0.6588231921195984,
      "log_odds_ratio": -1.230991005897522,
      "logits/chosen": -2.2183756828308105,
      "logits/rejected": -2.187129259109497,
      "logps/chosen": -0.8897625207901001,
      "logps/rejected": -0.4612082540988922,
      "loss": 1.3568,
      "nll_loss": 1.2310936450958252,
      "rewards/accuracies": 0.36250001192092896,
      "rewards/chosen": -0.08897626399993896,
      "rewards/margins": -0.04285542666912079,
      "rewards/rejected": -0.04612082242965698,
      "step": 60
    },
    {
      "epoch": 0.041456914421083804,
      "grad_norm": 30.75,
      "learning_rate": 2.0710059171597633e-07,
      "log_odds_chosen": -0.5367478132247925,
      "log_odds_ratio": -1.1100060939788818,
      "logits/chosen": -2.232348918914795,
      "logits/rejected": -2.1998302936553955,
      "logps/chosen": -0.7972711324691772,
      "logps/rejected": -0.4634431302547455,
      "loss": 1.3614,
      "nll_loss": 1.2567493915557861,
      "rewards/accuracies": 0.375,
      "rewards/chosen": -0.07972709834575653,
      "rewards/margins": -0.03338279575109482,
      "rewards/rejected": -0.04634431377053261,
      "step": 70
    },
    {
      "epoch": 0.047379330766952915,
      "grad_norm": 28.875,
      "learning_rate": 2.3668639053254435e-07,
      "log_odds_chosen": -0.5755403637886047,
      "log_odds_ratio": -1.156178593635559,
      "logits/chosen": -2.197105884552002,
      "logits/rejected": -2.186234474182129,
      "logps/chosen": -0.7956789135932922,
      "logps/rejected": -0.4599471688270569,
      "loss": 1.3327,
      "nll_loss": 1.219543695449829,
      "rewards/accuracies": 0.3687500059604645,
      "rewards/chosen": -0.07956788688898087,
      "rewards/margins": -0.033573172986507416,
      "rewards/rejected": -0.04599471390247345,
      "step": 80
    },
    {
      "epoch": 0.05330174711282203,
      "grad_norm": 25.25,
      "learning_rate": 2.662721893491124e-07,
      "log_odds_chosen": -0.5014861226081848,
      "log_odds_ratio": -1.0729024410247803,
      "logits/chosen": -2.1807546615600586,
      "logits/rejected": -2.1571853160858154,
      "logps/chosen": -0.7198914289474487,
      "logps/rejected": -0.46573418378829956,
      "loss": 1.3113,
      "nll_loss": 1.224487066268921,
      "rewards/accuracies": 0.3125,
      "rewards/chosen": -0.07198914140462875,
      "rewards/margins": -0.025415724143385887,
      "rewards/rejected": -0.046573419123888016,
      "step": 90
    },
    {
      "epoch": 0.059224163458691144,
      "grad_norm": 25.125,
      "learning_rate": 2.9585798816568045e-07,
      "log_odds_chosen": -0.4174951910972595,
      "log_odds_ratio": -0.9966305494308472,
      "logits/chosen": -2.2450003623962402,
      "logits/rejected": -2.199430465698242,
      "logps/chosen": -0.6903594732284546,
      "logps/rejected": -0.4920008182525635,
      "loss": 1.2864,
      "nll_loss": 1.2207610607147217,
      "rewards/accuracies": 0.33125001192092896,
      "rewards/chosen": -0.06903595477342606,
      "rewards/margins": -0.01983586512506008,
      "rewards/rejected": -0.04920008033514023,
      "step": 100
    },
    {
      "epoch": 0.06514657980456026,
      "grad_norm": 19.375,
      "learning_rate": 3.254437869822485e-07,
      "log_odds_chosen": -0.4817837178707123,
      "log_odds_ratio": -1.0484408140182495,
      "logits/chosen": -2.195328950881958,
      "logits/rejected": -2.172029972076416,
      "logps/chosen": -0.7407166361808777,
      "logps/rejected": -0.4809334874153137,
      "loss": 1.2292,
      "nll_loss": 1.1185578107833862,
      "rewards/accuracies": 0.3125,
      "rewards/chosen": -0.07407166808843613,
      "rewards/margins": -0.025978317484259605,
      "rewards/rejected": -0.04809335619211197,
      "step": 110
    },
    {
      "epoch": 0.07106899615042937,
      "grad_norm": 26.25,
      "learning_rate": 3.5502958579881655e-07,
      "log_odds_chosen": -0.5086492300033569,
      "log_odds_ratio": -1.073943018913269,
      "logits/chosen": -2.2213022708892822,
      "logits/rejected": -2.210648536682129,
      "logps/chosen": -0.7544690370559692,
      "logps/rejected": -0.47401171922683716,
      "loss": 1.2703,
      "nll_loss": 1.1549344062805176,
      "rewards/accuracies": 0.3375000059604645,
      "rewards/chosen": -0.07544689625501633,
      "rewards/margins": -0.02804572507739067,
      "rewards/rejected": -0.04740116745233536,
      "step": 120
    },
    {
      "epoch": 0.07699141249629848,
      "grad_norm": 121.5,
      "learning_rate": 3.8461538461538463e-07,
      "log_odds_chosen": -0.6346783638000488,
      "log_odds_ratio": -1.208389401435852,
      "logits/chosen": -2.205939292907715,
      "logits/rejected": -2.1982388496398926,
      "logps/chosen": -0.8659466505050659,
      "logps/rejected": -0.4501543939113617,
      "loss": 1.3049,
      "nll_loss": 1.1621254682540894,
      "rewards/accuracies": 0.34375,
      "rewards/chosen": -0.08659467846155167,
      "rewards/margins": -0.0415792390704155,
      "rewards/rejected": -0.04501544311642647,
      "step": 130
    },
    {
      "epoch": 0.08291382884216761,
      "grad_norm": 18.625,
      "learning_rate": 4.1420118343195265e-07,
      "log_odds_chosen": -0.4532869756221771,
      "log_odds_ratio": -1.0120022296905518,
      "logits/chosen": -2.2359938621520996,
      "logits/rejected": -2.2115871906280518,
      "logps/chosen": -0.6659095287322998,
      "logps/rejected": -0.4467584490776062,
      "loss": 1.2027,
      "nll_loss": 1.0797432661056519,
      "rewards/accuracies": 0.33125001192092896,
      "rewards/chosen": -0.06659095734357834,
      "rewards/margins": -0.02191510982811451,
      "rewards/rejected": -0.04467584565281868,
      "step": 140
    },
    {
      "epoch": 0.08883624518803672,
      "grad_norm": 29.75,
      "learning_rate": 4.437869822485207e-07,
      "log_odds_chosen": -0.46737051010131836,
      "log_odds_ratio": -1.0146253108978271,
      "logits/chosen": -2.16318941116333,
      "logits/rejected": -2.1556496620178223,
      "logps/chosen": -0.7067540287971497,
      "logps/rejected": -0.47525158524513245,
      "loss": 1.217,
      "nll_loss": 1.1824976205825806,
      "rewards/accuracies": 0.29374998807907104,
      "rewards/chosen": -0.07067539542913437,
      "rewards/margins": -0.023150241002440453,
      "rewards/rejected": -0.047525160014629364,
      "step": 150
    },
    {
      "epoch": 0.09475866153390583,
      "grad_norm": 20.75,
      "learning_rate": 4.733727810650887e-07,
      "log_odds_chosen": -0.31778836250305176,
      "log_odds_ratio": -0.9325827360153198,
      "logits/chosen": -2.2458879947662354,
      "logits/rejected": -2.2277491092681885,
      "logps/chosen": -0.6050869822502136,
      "logps/rejected": -0.4580734372138977,
      "loss": 1.2157,
      "nll_loss": 1.0979220867156982,
      "rewards/accuracies": 0.4000000059604645,
      "rewards/chosen": -0.06050870940089226,
      "rewards/margins": -0.014701364561915398,
      "rewards/rejected": -0.04580734297633171,
      "step": 160
    },
    {
      "epoch": 0.10068107787977496,
      "grad_norm": 14.3125,
      "learning_rate": 4.999994653198566e-07,
      "log_odds_chosen": -0.44623684883117676,
      "log_odds_ratio": -1.0507714748382568,
      "logits/chosen": -2.273740530014038,
      "logits/rejected": -2.248004198074341,
      "logps/chosen": -0.744641900062561,
      "logps/rejected": -0.4939740300178528,
      "loss": 1.2442,
      "nll_loss": 1.0892422199249268,
      "rewards/accuracies": 0.3499999940395355,
      "rewards/chosen": -0.07446418702602386,
      "rewards/margins": -0.0250667966902256,
      "rewards/rejected": -0.04939739406108856,
      "step": 170
    },
    {
      "epoch": 0.10660349422564407,
      "grad_norm": 12.5625,
      "learning_rate": 4.999353064699471e-07,
      "log_odds_chosen": -0.5144436955451965,
      "log_odds_ratio": -1.1169707775115967,
      "logits/chosen": -2.2361178398132324,
      "logits/rejected": -2.2026758193969727,
      "logps/chosen": -0.8099610209465027,
      "logps/rejected": -0.49819788336753845,
      "loss": 1.1022,
      "nll_loss": 1.0261476039886475,
      "rewards/accuracies": 0.33125001192092896,
      "rewards/chosen": -0.08099609613418579,
      "rewards/margins": -0.031176313757896423,
      "rewards/rejected": -0.049819789826869965,
      "step": 180
    },
    {
      "epoch": 0.11252591057151318,
      "grad_norm": 12.875,
      "learning_rate": 4.99764243036258e-07,
      "log_odds_chosen": -0.4125841557979584,
      "log_odds_ratio": -0.991108775138855,
      "logits/chosen": -2.268022298812866,
      "logits/rejected": -2.240299701690674,
      "logps/chosen": -0.6463659405708313,
      "logps/rejected": -0.4517286717891693,
      "loss": 1.1318,
      "nll_loss": 1.0371661186218262,
      "rewards/accuracies": 0.35624998807907104,
      "rewards/chosen": -0.06463660299777985,
      "rewards/margins": -0.01946372725069523,
      "rewards/rejected": -0.04517286270856857,
      "step": 190
    },
    {
      "epoch": 0.11844832691738229,
      "grad_norm": 12.0,
      "learning_rate": 4.994863481875841e-07,
      "log_odds_chosen": -0.38528627157211304,
      "log_odds_ratio": -0.9595619440078735,
      "logits/chosen": -2.217349052429199,
      "logits/rejected": -2.1852166652679443,
      "logps/chosen": -0.6334083676338196,
      "logps/rejected": -0.4435149133205414,
      "loss": 1.1246,
      "nll_loss": 0.9835959672927856,
      "rewards/accuracies": 0.30000001192092896,
      "rewards/chosen": -0.06334083527326584,
      "rewards/margins": -0.01898934319615364,
      "rewards/rejected": -0.044351495802402496,
      "step": 200
    },
    {
      "epoch": 0.12437074326325141,
      "grad_norm": 11.5,
      "learning_rate": 4.991017407876165e-07,
      "log_odds_chosen": -0.429326593875885,
      "log_odds_ratio": -1.002436876296997,
      "logits/chosen": -2.224944591522217,
      "logits/rejected": -2.1807491779327393,
      "logps/chosen": -0.7087312936782837,
      "logps/rejected": -0.49742716550827026,
      "loss": 1.0953,
      "nll_loss": 1.0195242166519165,
      "rewards/accuracies": 0.3375000059604645,
      "rewards/chosen": -0.07087312638759613,
      "rewards/margins": -0.021130409091711044,
      "rewards/rejected": -0.049742721021175385,
      "step": 210
    },
    {
      "epoch": 0.13029315960912052,
      "grad_norm": 10.6875,
      "learning_rate": 4.98610585344102e-07,
      "log_odds_chosen": -0.2424849271774292,
      "log_odds_ratio": -0.9048135876655579,
      "logits/chosen": -2.2507550716400146,
      "logits/rejected": -2.217257499694824,
      "logps/chosen": -0.6068475246429443,
      "logps/rejected": -0.4904823899269104,
      "loss": 1.1278,
      "nll_loss": 1.0603684186935425,
      "rewards/accuracies": 0.34375,
      "rewards/chosen": -0.06068475916981697,
      "rewards/margins": -0.011636516079306602,
      "rewards/rejected": -0.04904823377728462,
      "step": 220
    },
    {
      "epoch": 0.13621557595498965,
      "grad_norm": 9.875,
      "learning_rate": 4.980130919384768e-07,
      "log_odds_chosen": -0.5562174916267395,
      "log_odds_ratio": -1.0973405838012695,
      "logits/chosen": -2.246185779571533,
      "logits/rejected": -2.2379026412963867,
      "logps/chosen": -0.7477759122848511,
      "logps/rejected": -0.4505345821380615,
      "loss": 1.1333,
      "nll_loss": 1.0181388854980469,
      "rewards/accuracies": 0.28125,
      "rewards/chosen": -0.07477758824825287,
      "rewards/margins": -0.029724130406975746,
      "rewards/rejected": -0.04505345970392227,
      "step": 230
    },
    {
      "epoch": 0.14213799230085875,
      "grad_norm": 11.5625,
      "learning_rate": 4.973095161360105e-07,
      "log_odds_chosen": -0.425253689289093,
      "log_odds_ratio": -1.0029823780059814,
      "logits/chosen": -2.242088794708252,
      "logits/rejected": -2.2122817039489746,
      "logps/chosen": -0.68077552318573,
      "logps/rejected": -0.48119717836380005,
      "loss": 1.1443,
      "nll_loss": 1.063909649848938,
      "rewards/accuracies": 0.29374998807907104,
      "rewards/chosen": -0.06807754933834076,
      "rewards/margins": -0.01995784044265747,
      "rewards/rejected": -0.048119716346263885,
      "step": 240
    },
    {
      "epoch": 0.14806040864672787,
      "grad_norm": 10.3125,
      "learning_rate": 4.965001588764913e-07,
      "log_odds_chosen": -0.4351120889186859,
      "log_odds_ratio": -1.013584852218628,
      "logits/chosen": -2.2702879905700684,
      "logits/rejected": -2.2400031089782715,
      "logps/chosen": -0.6880632638931274,
      "logps/rejected": -0.4528827667236328,
      "loss": 1.1299,
      "nll_loss": 1.0191699266433716,
      "rewards/accuracies": 0.34375,
      "rewards/chosen": -0.06880633533000946,
      "rewards/margins": -0.023518051952123642,
      "rewards/rejected": -0.04528827592730522,
      "step": 250
    },
    {
      "epoch": 0.15398282499259697,
      "grad_norm": 11.1875,
      "learning_rate": 4.955853663455072e-07,
      "log_odds_chosen": -0.30220693349838257,
      "log_odds_ratio": -0.9368545413017273,
      "logits/chosen": -2.257448673248291,
      "logits/rejected": -2.227647542953491,
      "logps/chosen": -0.6458665728569031,
      "logps/rejected": -0.4764745235443115,
      "loss": 1.0645,
      "nll_loss": 0.9644678235054016,
      "rewards/accuracies": 0.375,
      "rewards/chosen": -0.06458665430545807,
      "rewards/margins": -0.016939211636781693,
      "rewards/rejected": -0.04764745384454727,
      "step": 260
    },
    {
      "epoch": 0.1599052413384661,
      "grad_norm": 10.875,
      "learning_rate": 4.945655298263713e-07,
      "log_odds_chosen": -0.41390785574913025,
      "log_odds_ratio": -0.9837135076522827,
      "logits/chosen": -2.20629620552063,
      "logits/rejected": -2.1831986904144287,
      "logps/chosen": -0.6674059629440308,
      "logps/rejected": -0.46569353342056274,
      "loss": 1.1528,
      "nll_loss": 1.0888841152191162,
      "rewards/accuracies": 0.3062500059604645,
      "rewards/chosen": -0.06674060225486755,
      "rewards/margins": -0.02017124928534031,
      "rewards/rejected": -0.046569354832172394,
      "step": 270
    },
    {
      "epoch": 0.16582765768433522,
      "grad_norm": 9.5625,
      "learning_rate": 4.934410855327585e-07,
      "log_odds_chosen": -0.3461267352104187,
      "log_odds_ratio": -0.9425566792488098,
      "logits/chosen": -2.2884914875030518,
      "logits/rejected": -2.27152943611145,
      "logps/chosen": -0.6492639780044556,
      "logps/rejected": -0.46900925040245056,
      "loss": 1.0682,
      "nll_loss": 1.0291364192962646,
      "rewards/accuracies": 0.34375,
      "rewards/chosen": -0.0649264007806778,
      "rewards/margins": -0.018025478348135948,
      "rewards/rejected": -0.0469009205698967,
      "step": 280
    },
    {
      "epoch": 0.1717500740302043,
      "grad_norm": 11.0,
      "learning_rate": 4.922125144221252e-07,
      "log_odds_chosen": -0.38331133127212524,
      "log_odds_ratio": -0.9734469652175903,
      "logits/chosen": -2.2513084411621094,
      "logits/rejected": -2.199239492416382,
      "logps/chosen": -0.6518736481666565,
      "logps/rejected": -0.4689255356788635,
      "loss": 1.1269,
      "nll_loss": 1.0506547689437866,
      "rewards/accuracies": 0.35624998807907104,
      "rewards/chosen": -0.06518735736608505,
      "rewards/margins": -0.018294811248779297,
      "rewards/rejected": -0.04689255356788635,
      "step": 290
    },
    {
      "epoch": 0.17767249037607344,
      "grad_norm": 10.625,
      "learning_rate": 4.90880341989989e-07,
      "log_odds_chosen": -0.295235276222229,
      "log_odds_ratio": -0.9132793545722961,
      "logits/chosen": -2.255086660385132,
      "logits/rejected": -2.2318952083587646,
      "logps/chosen": -0.6402678489685059,
      "logps/rejected": -0.48136910796165466,
      "loss": 1.0909,
      "nll_loss": 1.0022283792495728,
      "rewards/accuracies": 0.34375,
      "rewards/chosen": -0.06402678042650223,
      "rewards/margins": -0.015889868140220642,
      "rewards/rejected": -0.048136912286281586,
      "step": 300
    },
    {
      "epoch": 0.18359490672194256,
      "grad_norm": 9.875,
      "learning_rate": 4.894451380451589e-07,
      "log_odds_chosen": -0.4930775761604309,
      "log_odds_ratio": -1.0459508895874023,
      "logits/chosen": -2.2340633869171143,
      "logits/rejected": -2.2229130268096924,
      "logps/chosen": -0.7189785242080688,
      "logps/rejected": -0.46092820167541504,
      "loss": 1.116,
      "nll_loss": 1.0077855587005615,
      "rewards/accuracies": 0.3187499940395355,
      "rewards/chosen": -0.07189784944057465,
      "rewards/margins": -0.02580503560602665,
      "rewards/rejected": -0.046092819422483444,
      "step": 310
    },
    {
      "epoch": 0.18951732306781166,
      "grad_norm": 11.5625,
      "learning_rate": 4.879075164660124e-07,
      "log_odds_chosen": -0.29097312688827515,
      "log_odds_ratio": -0.9061079025268555,
      "logits/chosen": -2.238163471221924,
      "logits/rejected": -2.2072105407714844,
      "logps/chosen": -0.6175664067268372,
      "logps/rejected": -0.47239384055137634,
      "loss": 1.0495,
      "nll_loss": 0.9289931058883667,
      "rewards/accuracies": 0.33125001192092896,
      "rewards/chosen": -0.06175662949681282,
      "rewards/margins": -0.014517253264784813,
      "rewards/rejected": -0.047239381819963455,
      "step": 320
    },
    {
      "epoch": 0.19543973941368079,
      "grad_norm": 12.25,
      "learning_rate": 4.862681349379212e-07,
      "log_odds_chosen": -0.33382827043533325,
      "log_odds_ratio": -0.939583420753479,
      "logits/chosen": -2.244995594024658,
      "logits/rejected": -2.1931443214416504,
      "logps/chosen": -0.6333972811698914,
      "logps/rejected": -0.4775928556919098,
      "loss": 1.1124,
      "nll_loss": 1.0409491062164307,
      "rewards/accuracies": 0.35624998807907104,
      "rewards/chosen": -0.0633397176861763,
      "rewards/margins": -0.01558043621480465,
      "rewards/rejected": -0.0477592833340168,
      "step": 330
    },
    {
      "epoch": 0.2013621557595499,
      "grad_norm": 9.6875,
      "learning_rate": 4.8452769467194e-07,
      "log_odds_chosen": -0.3502793610095978,
      "log_odds_ratio": -0.9458521604537964,
      "logits/chosen": -2.2533793449401855,
      "logits/rejected": -2.231985092163086,
      "logps/chosen": -0.6348416209220886,
      "logps/rejected": -0.46244215965270996,
      "loss": 1.0872,
      "nll_loss": 0.965823769569397,
      "rewards/accuracies": 0.35624998807907104,
      "rewards/chosen": -0.06348416954278946,
      "rewards/margins": -0.017239956185221672,
      "rewards/rejected": -0.04624421149492264,
      "step": 340
    },
    {
      "epoch": 0.207284572105419,
      "grad_norm": 9.625,
      "learning_rate": 4.82686940104879e-07,
      "log_odds_chosen": -0.37014713883399963,
      "log_odds_ratio": -0.9843534231185913,
      "logits/chosen": -2.296128511428833,
      "logits/rejected": -2.267141103744507,
      "logps/chosen": -0.6616524457931519,
      "logps/rejected": -0.4461567997932434,
      "loss": 1.0383,
      "nll_loss": 0.9294153451919556,
      "rewards/accuracies": 0.34375,
      "rewards/chosen": -0.0661652460694313,
      "rewards/margins": -0.02154957316815853,
      "rewards/rejected": -0.04461567848920822,
      "step": 350
    },
    {
      "epoch": 0.21320698845128813,
      "grad_norm": 9.6875,
      "learning_rate": 4.807466585808856e-07,
      "log_odds_chosen": -0.2995724380016327,
      "log_odds_ratio": -0.9168221354484558,
      "logits/chosen": -2.274096727371216,
      "logits/rejected": -2.2658305168151855,
      "logps/chosen": -0.5940972566604614,
      "logps/rejected": -0.46015462279319763,
      "loss": 1.0942,
      "nll_loss": 0.9911165237426758,
      "rewards/accuracies": 0.3687500059604645,
      "rewards/chosen": -0.0594097301363945,
      "rewards/margins": -0.013394266366958618,
      "rewards/rejected": -0.04601546376943588,
      "step": 360
    },
    {
      "epoch": 0.21912940479715723,
      "grad_norm": 13.5625,
      "learning_rate": 4.787076800146752e-07,
      "log_odds_chosen": -0.27963608503341675,
      "log_odds_ratio": -0.9352908134460449,
      "logits/chosen": -2.2542636394500732,
      "logits/rejected": -2.2058660984039307,
      "logps/chosen": -0.6458699107170105,
      "logps/rejected": -0.468344509601593,
      "loss": 1.0125,
      "nll_loss": 0.9038776159286499,
      "rewards/accuracies": 0.4375,
      "rewards/chosen": -0.06458699703216553,
      "rewards/margins": -0.017752548679709435,
      "rewards/rejected": -0.046834446489810944,
      "step": 370
    },
    {
      "epoch": 0.22505182114302635,
      "grad_norm": 10.0,
      "learning_rate": 4.765708765365526e-07,
      "log_odds_chosen": -0.2566812038421631,
      "log_odds_ratio": -0.9025079011917114,
      "logits/chosen": -2.2573628425598145,
      "logits/rejected": -2.2479588985443115,
      "logps/chosen": -0.5893818140029907,
      "logps/rejected": -0.4597233235836029,
      "loss": 1.1093,
      "nll_loss": 0.9725319147109985,
      "rewards/accuracies": 0.40625,
      "rewards/chosen": -0.05893818661570549,
      "rewards/margins": -0.012965850532054901,
      "rewards/rejected": -0.04597233235836029,
      "step": 380
    },
    {
      "epoch": 0.23097423748889548,
      "grad_norm": 12.25,
      "learning_rate": 4.7433716211937587e-07,
      "log_odds_chosen": -0.4499928057193756,
      "log_odds_ratio": -1.0134861469268799,
      "logits/chosen": -2.3190252780914307,
      "logits/rejected": -2.297466516494751,
      "logps/chosen": -0.655422568321228,
      "logps/rejected": -0.43357038497924805,
      "loss": 1.0471,
      "nll_loss": 1.008756399154663,
      "rewards/accuracies": 0.34375,
      "rewards/chosen": -0.06554224342107773,
      "rewards/margins": -0.02218521013855934,
      "rewards/rejected": -0.043357037007808685,
      "step": 390
    },
    {
      "epoch": 0.23689665383476458,
      "grad_norm": 9.3125,
      "learning_rate": 4.720074921876245e-07,
      "log_odds_chosen": -0.3851686120033264,
      "log_odds_ratio": -0.9778718948364258,
      "logits/chosen": -2.325918674468994,
      "logits/rejected": -2.2813212871551514,
      "logps/chosen": -0.6249781847000122,
      "logps/rejected": -0.45036381483078003,
      "loss": 1.0507,
      "nll_loss": 0.9533747434616089,
      "rewards/accuracies": 0.3812499940395355,
      "rewards/chosen": -0.0624978169798851,
      "rewards/margins": -0.01746143028140068,
      "rewards/rejected": -0.04503639414906502,
      "step": 400
    },
    {
      "epoch": 0.2428190701806337,
      "grad_norm": 10.5625,
      "learning_rate": 4.6958286320873593e-07,
      "log_odds_chosen": -0.38822251558303833,
      "log_odds_ratio": -0.9542675018310547,
      "logits/chosen": -2.2724270820617676,
      "logits/rejected": -2.27009916305542,
      "logps/chosen": -0.6122742891311646,
      "logps/rejected": -0.4287818372249603,
      "loss": 1.0679,
      "nll_loss": 1.0051120519638062,
      "rewards/accuracies": 0.3125,
      "rewards/chosen": -0.06122744083404541,
      "rewards/margins": -0.018349256366491318,
      "rewards/rejected": -0.04287818819284439,
      "step": 410
    },
    {
      "epoch": 0.24874148652650283,
      "grad_norm": 10.25,
      "learning_rate": 4.6706431226688804e-07,
      "log_odds_chosen": -0.30081695318222046,
      "log_odds_ratio": -0.921572208404541,
      "logits/chosen": -2.2560360431671143,
      "logits/rejected": -2.2262086868286133,
      "logps/chosen": -0.6127408742904663,
      "logps/rejected": -0.4595797061920166,
      "loss": 1.0784,
      "nll_loss": 0.9788911938667297,
      "rewards/accuracies": 0.375,
      "rewards/chosen": -0.06127409264445305,
      "rewards/margins": -0.015316121280193329,
      "rewards/rejected": -0.04595796763896942,
      "step": 420
    },
    {
      "epoch": 0.25466390287237195,
      "grad_norm": 9.375,
      "learning_rate": 4.6445291661940777e-07,
      "log_odds_chosen": -0.2526037096977234,
      "log_odds_ratio": -0.8853398561477661,
      "logits/chosen": -2.274932861328125,
      "logits/rejected": -2.2737860679626465,
      "logps/chosen": -0.5831697583198547,
      "logps/rejected": -0.4629867672920227,
      "loss": 1.0351,
      "nll_loss": 0.9002013206481934,
      "rewards/accuracies": 0.4000000059604645,
      "rewards/chosen": -0.05831696838140488,
      "rewards/margins": -0.012018295004963875,
      "rewards/rejected": -0.04629867523908615,
      "step": 430
    },
    {
      "epoch": 0.26058631921824105,
      "grad_norm": 13.0,
      "learning_rate": 4.6174979323599715e-07,
      "log_odds_chosen": -0.4437042772769928,
      "log_odds_ratio": -1.0250940322875977,
      "logits/chosen": -2.2592310905456543,
      "logits/rejected": -2.2114596366882324,
      "logps/chosen": -0.7022743821144104,
      "logps/rejected": -0.4603559374809265,
      "loss": 1.0967,
      "nll_loss": 1.0961658954620361,
      "rewards/accuracies": 0.3187499940395355,
      "rewards/chosen": -0.07022743672132492,
      "rewards/margins": -0.02419184148311615,
      "rewards/rejected": -0.04603559896349907,
      "step": 440
    },
    {
      "epoch": 0.26650873556411014,
      "grad_norm": 9.5,
      "learning_rate": 4.5895609832097277e-07,
      "log_odds_chosen": -0.3050179183483124,
      "log_odds_ratio": -0.9421980977058411,
      "logits/chosen": -2.2684884071350098,
      "logits/rejected": -2.2559661865234375,
      "logps/chosen": -0.6401418447494507,
      "logps/rejected": -0.46939319372177124,
      "loss": 1.0745,
      "nll_loss": 0.96502685546875,
      "rewards/accuracies": 0.38749998807907104,
      "rewards/chosen": -0.06401418894529343,
      "rewards/margins": -0.01707487180829048,
      "rewards/rejected": -0.04693932086229324,
      "step": 450
    },
    {
      "epoch": 0.2724311519099793,
      "grad_norm": 10.1875,
      "learning_rate": 4.560730268187236e-07,
      "log_odds_chosen": -0.26763516664505005,
      "log_odds_ratio": -0.8960734605789185,
      "logits/chosen": -2.266759157180786,
      "logits/rejected": -2.230344533920288,
      "logps/chosen": -0.57380610704422,
      "logps/rejected": -0.45090922713279724,
      "loss": 1.0544,
      "nll_loss": 0.9469722509384155,
      "rewards/accuracies": 0.4437499940395355,
      "rewards/chosen": -0.05738060921430588,
      "rewards/margins": -0.012289688922464848,
      "rewards/rejected": -0.0450909249484539,
      "step": 460
    },
    {
      "epoch": 0.2783535682558484,
      "grad_norm": 11.1875,
      "learning_rate": 4.531018119025989e-07,
      "log_odds_chosen": -0.19471798837184906,
      "log_odds_ratio": -0.8877772092819214,
      "logits/chosen": -2.325700283050537,
      "logits/rejected": -2.3014023303985596,
      "logps/chosen": -0.5948117971420288,
      "logps/rejected": -0.5260331630706787,
      "loss": 1.0872,
      "nll_loss": 1.042905569076538,
      "rewards/accuracies": 0.4000000059604645,
      "rewards/chosen": -0.059481192380189896,
      "rewards/margins": -0.006877871695905924,
      "rewards/rejected": -0.05260331556200981,
      "step": 470
    },
    {
      "epoch": 0.2842759846017175,
      "grad_norm": 10.1875,
      "learning_rate": 4.5004372444744376e-07,
      "log_odds_chosen": -0.20854365825653076,
      "log_odds_ratio": -0.8700854182243347,
      "logits/chosen": -2.267329454421997,
      "logits/rejected": -2.2475056648254395,
      "logps/chosen": -0.610100269317627,
      "logps/rejected": -0.49854737520217896,
      "loss": 1.0582,
      "nll_loss": 0.982585608959198,
      "rewards/accuracies": 0.4000000059604645,
      "rewards/chosen": -0.061010025441646576,
      "rewards/margins": -0.011155293323099613,
      "rewards/rejected": -0.04985473304986954,
      "step": 480
    },
    {
      "epoch": 0.2901984009475866,
      "grad_norm": 11.125,
      "learning_rate": 4.4690007248600967e-07,
      "log_odds_chosen": -0.30316418409347534,
      "log_odds_ratio": -0.9258543848991394,
      "logits/chosen": -2.260499954223633,
      "logits/rejected": -2.2460737228393555,
      "logps/chosen": -0.6183134913444519,
      "logps/rejected": -0.4603392481803894,
      "loss": 1.0569,
      "nll_loss": 0.9751143455505371,
      "rewards/accuracies": 0.38749998807907104,
      "rewards/chosen": -0.06183135509490967,
      "rewards/margins": -0.01579742692410946,
      "rewards/rejected": -0.04603392630815506,
      "step": 490
    },
    {
      "epoch": 0.29612081729345574,
      "grad_norm": 9.25,
      "learning_rate": 4.436722006494701e-07,
      "log_odds_chosen": -0.4622948169708252,
      "log_odds_ratio": -1.0724523067474365,
      "logits/chosen": -2.2528557777404785,
      "logits/rejected": -2.2317535877227783,
      "logps/chosen": -0.7585560083389282,
      "logps/rejected": -0.4601530134677887,
      "loss": 1.0779,
      "nll_loss": 1.0056917667388916,
      "rewards/accuracies": 0.39375001192092896,
      "rewards/chosen": -0.07585560530424118,
      "rewards/margins": -0.02984030917286873,
      "rewards/rejected": -0.04601530730724335,
      "step": 500
    },
    {
      "epoch": 0.30204323363932484,
      "grad_norm": 10.125,
      "learning_rate": 4.4036148959228356e-07,
      "log_odds_chosen": -0.37729692459106445,
      "log_odds_ratio": -0.9907791018486023,
      "logits/chosen": -2.285222291946411,
      "logits/rejected": -2.2465076446533203,
      "logps/chosen": -0.6608995199203491,
      "logps/rejected": -0.44408687949180603,
      "loss": 1.0854,
      "nll_loss": 0.9470478892326355,
      "rewards/accuracies": 0.375,
      "rewards/chosen": -0.0660899430513382,
      "rewards/margins": -0.02168126031756401,
      "rewards/rejected": -0.04440869390964508,
      "step": 510
    },
    {
      "epoch": 0.30796564998519393,
      "grad_norm": 12.9375,
      "learning_rate": 4.3696935540164705e-07,
      "log_odds_chosen": -0.3114868998527527,
      "log_odds_ratio": -0.9284585118293762,
      "logits/chosen": -2.2520318031311035,
      "logits/rejected": -2.2336666584014893,
      "logps/chosen": -0.6092923879623413,
      "logps/rejected": -0.4560086727142334,
      "loss": 1.0234,
      "nll_loss": 0.954501748085022,
      "rewards/accuracies": 0.4437499940395355,
      "rewards/chosen": -0.06092924624681473,
      "rewards/margins": -0.01532837562263012,
      "rewards/rejected": -0.04560086503624916,
      "step": 520
    },
    {
      "epoch": 0.3138880663310631,
      "grad_norm": 9.1875,
      "learning_rate": 4.334972489917947e-07,
      "log_odds_chosen": -0.22460684180259705,
      "log_odds_ratio": -0.88166743516922,
      "logits/chosen": -2.313957691192627,
      "logits/rejected": -2.2588186264038086,
      "logps/chosen": -0.6013073325157166,
      "logps/rejected": -0.47843700647354126,
      "loss": 1.0456,
      "nll_loss": 0.9358353614807129,
      "rewards/accuracies": 0.4375,
      "rewards/chosen": -0.060130733996629715,
      "rewards/margins": -0.012287032790482044,
      "rewards/rejected": -0.047843702137470245,
      "step": 530
    },
    {
      "epoch": 0.3198104826769322,
      "grad_norm": 11.25,
      "learning_rate": 4.299466554833997e-07,
      "log_odds_chosen": -0.33192509412765503,
      "log_odds_ratio": -0.94036465883255,
      "logits/chosen": -2.2912707328796387,
      "logits/rejected": -2.2435359954833984,
      "logps/chosen": -0.5902704000473022,
      "logps/rejected": -0.44104498624801636,
      "loss": 1.0515,
      "nll_loss": 0.9315252304077148,
      "rewards/accuracies": 0.3812499940395355,
      "rewards/chosen": -0.059027038514614105,
      "rewards/margins": -0.014922534115612507,
      "rewards/rejected": -0.044104501605033875,
      "step": 540
    },
    {
      "epoch": 0.3257328990228013,
      "grad_norm": 8.9375,
      "learning_rate": 4.263190935683449e-07,
      "log_odds_chosen": -0.25842440128326416,
      "log_odds_ratio": -0.893360435962677,
      "logits/chosen": -2.2691588401794434,
      "logits/rejected": -2.2356011867523193,
      "logps/chosen": -0.5605894327163696,
      "logps/rejected": -0.43656760454177856,
      "loss": 0.9862,
      "nll_loss": 0.8704695701599121,
      "rewards/accuracies": 0.4437499940395355,
      "rewards/chosen": -0.05605894327163696,
      "rewards/margins": -0.012402191758155823,
      "rewards/rejected": -0.04365675523877144,
      "step": 550
    },
    {
      "epoch": 0.33165531536867043,
      "grad_norm": 10.875,
      "learning_rate": 4.2261611486013437e-07,
      "log_odds_chosen": -0.3279554545879364,
      "log_odds_ratio": -0.9397815465927124,
      "logits/chosen": -2.3104796409606934,
      "logits/rejected": -2.275190830230713,
      "logps/chosen": -0.6270398497581482,
      "logps/rejected": -0.4670359194278717,
      "loss": 1.0697,
      "nll_loss": 0.977874755859375,
      "rewards/accuracies": 0.3812499940395355,
      "rewards/chosen": -0.06270398944616318,
      "rewards/margins": -0.01600039377808571,
      "rewards/rejected": -0.04670359194278717,
      "step": 560
    },
    {
      "epoch": 0.33757773171453953,
      "grad_norm": 11.125,
      "learning_rate": 4.188393032302233e-07,
      "log_odds_chosen": -0.14010918140411377,
      "log_odds_ratio": -0.8429776430130005,
      "logits/chosen": -2.2512803077697754,
      "logits/rejected": -2.1937472820281982,
      "logps/chosen": -0.5634902715682983,
      "logps/rejected": -0.5150736570358276,
      "loss": 1.0249,
      "nll_loss": 0.931064248085022,
      "rewards/accuracies": 0.41874998807907104,
      "rewards/chosen": -0.056349027901887894,
      "rewards/margins": -0.0048416657373309135,
      "rewards/rejected": -0.051507361233234406,
      "step": 570
    },
    {
      "epoch": 0.3435001480604086,
      "grad_norm": 12.75,
      "learning_rate": 4.1499027413055e-07,
      "log_odds_chosen": -0.33234935998916626,
      "log_odds_ratio": -0.9407118558883667,
      "logits/chosen": -2.258405923843384,
      "logits/rejected": -2.232956647872925,
      "logps/chosen": -0.6220130920410156,
      "logps/rejected": -0.4592718482017517,
      "loss": 1.0413,
      "nll_loss": 0.9290376901626587,
      "rewards/accuracies": 0.3687500059604645,
      "rewards/chosen": -0.06220130994915962,
      "rewards/margins": -0.016274118795990944,
      "rewards/rejected": -0.04592718556523323,
      "step": 580
    },
    {
      "epoch": 0.3494225644062778,
      "grad_norm": 13.875,
      "learning_rate": 4.1107067390256056e-07,
      "log_odds_chosen": -0.35427385568618774,
      "log_odds_ratio": -0.9841470718383789,
      "logits/chosen": -2.305126428604126,
      "logits/rejected": -2.280172824859619,
      "logps/chosen": -0.696389377117157,
      "logps/rejected": -0.4881146550178528,
      "loss": 1.0718,
      "nll_loss": 1.0334848165512085,
      "rewards/accuracies": 0.375,
      "rewards/chosen": -0.0696389377117157,
      "rewards/margins": -0.02082747593522072,
      "rewards/rejected": -0.04881146177649498,
      "step": 590
    },
    {
      "epoch": 0.3553449807521469,
      "grad_norm": 11.6875,
      "learning_rate": 4.0708217907302047e-07,
      "log_odds_chosen": -0.3386622369289398,
      "log_odds_ratio": -0.9444282650947571,
      "logits/chosen": -2.2589573860168457,
      "logits/rejected": -2.2278530597686768,
      "logps/chosen": -0.6211683750152588,
      "logps/rejected": -0.46438631415367126,
      "loss": 1.0621,
      "nll_loss": 0.9823211431503296,
      "rewards/accuracies": 0.35624998807907104,
      "rewards/chosen": -0.062116838991642,
      "rewards/margins": -0.01567821204662323,
      "rewards/rejected": -0.04643862694501877,
      "step": 600
    },
    {
      "epoch": 0.361267397098016,
      "grad_norm": 14.4375,
      "learning_rate": 4.030264956369157e-07,
      "log_odds_chosen": -0.32127273082733154,
      "log_odds_ratio": -0.929902195930481,
      "logits/chosen": -2.297096014022827,
      "logits/rejected": -2.259603977203369,
      "logps/chosen": -0.591595470905304,
      "logps/rejected": -0.4399223327636719,
      "loss": 1.0497,
      "nll_loss": 0.9886807203292847,
      "rewards/accuracies": 0.3375000059604645,
      "rewards/chosen": -0.0591595396399498,
      "rewards/margins": -0.01516731083393097,
      "rewards/rejected": -0.04399223253130913,
      "step": 610
    },
    {
      "epoch": 0.3671898134438851,
      "grad_norm": 11.1875,
      "learning_rate": 3.989053583277492e-07,
      "log_odds_chosen": -0.42405062913894653,
      "log_odds_ratio": -1.0016412734985352,
      "logits/chosen": -2.3095479011535645,
      "logits/rejected": -2.2935452461242676,
      "logps/chosen": -0.6750982403755188,
      "logps/rejected": -0.45489102602005005,
      "loss": 1.0537,
      "nll_loss": 0.9710051417350769,
      "rewards/accuracies": 0.3187499940395355,
      "rewards/chosen": -0.06750981509685516,
      "rewards/margins": -0.022020723670721054,
      "rewards/rejected": -0.04548909515142441,
      "step": 620
    },
    {
      "epoch": 0.3731122297897542,
      "grad_norm": 13.4375,
      "learning_rate": 3.947205298755447e-07,
      "log_odds_chosen": -0.25669050216674805,
      "log_odds_ratio": -0.9015368223190308,
      "logits/chosen": -2.2679405212402344,
      "logits/rejected": -2.2386162281036377,
      "logps/chosen": -0.6160240173339844,
      "logps/rejected": -0.48336100578308105,
      "loss": 1.0648,
      "nll_loss": 0.9532335996627808,
      "rewards/accuracies": 0.41874998807907104,
      "rewards/chosen": -0.061602406203746796,
      "rewards/margins": -0.013266305439174175,
      "rewards/rejected": -0.04833609610795975,
      "step": 630
    },
    {
      "epoch": 0.3790346461356233,
      "grad_norm": 10.4375,
      "learning_rate": 3.9047380025287634e-07,
      "log_odds_chosen": -0.24768850207328796,
      "log_odds_ratio": -0.891069769859314,
      "logits/chosen": -2.275651216506958,
      "logits/rejected": -2.247177839279175,
      "logps/chosen": -0.5877569913864136,
      "logps/rejected": -0.4681660532951355,
      "loss": 1.0549,
      "nll_loss": 0.9463118314743042,
      "rewards/accuracies": 0.4375,
      "rewards/chosen": -0.058775704354047775,
      "rewards/margins": -0.011959095485508442,
      "rewards/rejected": -0.04681660607457161,
      "step": 640
    },
    {
      "epoch": 0.3849570624814925,
      "grad_norm": 12.1875,
      "learning_rate": 3.8616698590924523e-07,
      "log_odds_chosen": -0.2891980707645416,
      "log_odds_ratio": -0.9127435684204102,
      "logits/chosen": -2.296032428741455,
      "logits/rejected": -2.2514827251434326,
      "logps/chosen": -0.6284441351890564,
      "logps/rejected": -0.4775362014770508,
      "loss": 1.0297,
      "nll_loss": 0.9506929516792297,
      "rewards/accuracies": 0.4124999940395355,
      "rewards/chosen": -0.062844417989254,
      "rewards/margins": -0.01509079895913601,
      "rewards/rejected": -0.04775362089276314,
      "step": 650
    },
    {
      "epoch": 0.39087947882736157,
      "grad_norm": 9.9375,
      "learning_rate": 3.8180192899413123e-07,
      "log_odds_chosen": -0.3009001314640045,
      "log_odds_ratio": -0.9173041582107544,
      "logits/chosen": -2.292931079864502,
      "logits/rejected": -2.2850821018218994,
      "logps/chosen": -0.5977297425270081,
      "logps/rejected": -0.4498085081577301,
      "loss": 1.066,
      "nll_loss": 0.9441615343093872,
      "rewards/accuracies": 0.375,
      "rewards/chosen": -0.059772975742816925,
      "rewards/margins": -0.014792119152843952,
      "rewards/rejected": -0.04498085752129555,
      "step": 660
    },
    {
      "epoch": 0.39680189517323067,
      "grad_norm": 9.6875,
      "learning_rate": 3.7738049656905225e-07,
      "log_odds_chosen": -0.2274588793516159,
      "log_odds_ratio": -0.871192455291748,
      "logits/chosen": -2.2281768321990967,
      "logits/rejected": -2.1852290630340576,
      "logps/chosen": -0.5783167481422424,
      "logps/rejected": -0.472917377948761,
      "loss": 1.0607,
      "nll_loss": 0.9557689428329468,
      "rewards/accuracies": 0.4375,
      "rewards/chosen": -0.05783168226480484,
      "rewards/margins": -0.010539938695728779,
      "rewards/rejected": -0.04729173332452774,
      "step": 670
    },
    {
      "epoch": 0.4027243115190998,
      "grad_norm": 10.375,
      "learning_rate": 3.7290457980896787e-07,
      "log_odds_chosen": -0.1645122915506363,
      "log_odds_ratio": -0.8458727598190308,
      "logits/chosen": -2.2992634773254395,
      "logits/rejected": -2.270430564880371,
      "logps/chosen": -0.5671563148498535,
      "logps/rejected": -0.4864569306373596,
      "loss": 1.0284,
      "nll_loss": 0.9164050817489624,
      "rewards/accuracies": 0.41874998807907104,
      "rewards/chosen": -0.05671562999486923,
      "rewards/margins": -0.00806993618607521,
      "rewards/rejected": -0.04864569753408432,
      "step": 680
    },
    {
      "epoch": 0.4086467278649689,
      "grad_norm": 10.125,
      "learning_rate": 3.68376093193369e-07,
      "log_odds_chosen": -0.2814542353153229,
      "log_odds_ratio": -0.9015814661979675,
      "logits/chosen": -2.3065972328186035,
      "logits/rejected": -2.2681093215942383,
      "logps/chosen": -0.5637949109077454,
      "logps/rejected": -0.4352457523345947,
      "loss": 1.0214,
      "nll_loss": 0.91374272108078,
      "rewards/accuracies": 0.39375001192092896,
      "rewards/chosen": -0.05637948960065842,
      "rewards/margins": -0.012854918837547302,
      "rewards/rejected": -0.043524570763111115,
      "step": 690
    },
    {
      "epoch": 0.414569144210838,
      "grad_norm": 58.5,
      "learning_rate": 3.637969736873992e-07,
      "log_odds_chosen": -0.21553269028663635,
      "log_odds_ratio": -0.8870409727096558,
      "logits/chosen": -2.2836763858795166,
      "logits/rejected": -2.252403736114502,
      "logps/chosen": -0.5681829452514648,
      "logps/rejected": -0.465969979763031,
      "loss": 1.0701,
      "nll_loss": 0.9871380925178528,
      "rewards/accuracies": 0.45625001192092896,
      "rewards/chosen": -0.056818295270204544,
      "rewards/margins": -0.010221302509307861,
      "rewards/rejected": -0.04659699648618698,
      "step": 700
    },
    {
      "epoch": 0.4204915605567071,
      "grad_norm": 10.5,
      "learning_rate": 3.591691799133587e-07,
      "log_odds_chosen": -0.19581297039985657,
      "log_odds_ratio": -0.8488709330558777,
      "logits/chosen": -2.3274245262145996,
      "logits/rejected": -2.2992606163024902,
      "logps/chosen": -0.5645796060562134,
      "logps/rejected": -0.4613499641418457,
      "loss": 1.0495,
      "nll_loss": 0.9565572738647461,
      "rewards/accuracies": 0.41874998807907104,
      "rewards/chosen": -0.05645795539021492,
      "rewards/margins": -0.010322963818907738,
      "rewards/rejected": -0.04613499343395233,
      "step": 710
    },
    {
      "epoch": 0.42641397690257626,
      "grad_norm": 9.75,
      "learning_rate": 3.5449469131294476e-07,
      "log_odds_chosen": -0.22600612044334412,
      "log_odds_ratio": -0.8781830668449402,
      "logits/chosen": -2.2927708625793457,
      "logits/rejected": -2.2485132217407227,
      "logps/chosen": -0.5577629804611206,
      "logps/rejected": -0.44653376936912537,
      "loss": 1.0248,
      "nll_loss": 0.9297264814376831,
      "rewards/accuracies": 0.4375,
      "rewards/chosen": -0.055776309221982956,
      "rewards/margins": -0.0111229307949543,
      "rewards/rejected": -0.044653378427028656,
      "step": 720
    },
    {
      "epoch": 0.43233639324844536,
      "grad_norm": 9.3125,
      "learning_rate": 3.497755073005868e-07,
      "log_odds_chosen": -0.09444288164377213,
      "log_odds_ratio": -0.8072474598884583,
      "logits/chosen": -2.290067672729492,
      "logits/rejected": -2.257514238357544,
      "logps/chosen": -0.5471974611282349,
      "logps/rejected": -0.47366800904273987,
      "loss": 1.0112,
      "nll_loss": 0.8891817927360535,
      "rewards/accuracies": 0.48750001192092896,
      "rewards/chosen": -0.054719746112823486,
      "rewards/margins": -0.007352945860475302,
      "rewards/rejected": -0.04736679792404175,
      "step": 730
    },
    {
      "epoch": 0.43825880959431446,
      "grad_norm": 16.75,
      "learning_rate": 3.4501364640823926e-07,
      "log_odds_chosen": -0.3251793384552002,
      "log_odds_ratio": -0.9317482709884644,
      "logits/chosen": -2.2995355129241943,
      "logits/rejected": -2.2732508182525635,
      "logps/chosen": -0.6547442674636841,
      "logps/rejected": -0.4866989254951477,
      "loss": 1.0482,
      "nll_loss": 0.9714682698249817,
      "rewards/accuracies": 0.38749998807907104,
      "rewards/chosen": -0.06547442078590393,
      "rewards/margins": -0.016804538667201996,
      "rewards/rejected": -0.04866989329457283,
      "step": 740
    },
    {
      "epoch": 0.4441812259401836,
      "grad_norm": 10.4375,
      "learning_rate": 3.402111454219966e-07,
      "log_odds_chosen": -0.17538635432720184,
      "log_odds_ratio": -0.8506783246994019,
      "logits/chosen": -2.3090875148773193,
      "logits/rejected": -2.26053786277771,
      "logps/chosen": -0.5713698863983154,
      "logps/rejected": -0.47184181213378906,
      "loss": 1.0275,
      "nll_loss": 0.954795241355896,
      "rewards/accuracies": 0.5,
      "rewards/chosen": -0.05713699012994766,
      "rewards/margins": -0.009952803142368793,
      "rewards/rejected": -0.047184187918901443,
      "step": 750
    },
    {
      "epoch": 0.4501036422860527,
      "grad_norm": 9.3125,
      "learning_rate": 3.353700585109005e-07,
      "log_odds_chosen": -0.19826039671897888,
      "log_odds_ratio": -0.8637887835502625,
      "logits/chosen": -2.302405834197998,
      "logits/rejected": -2.27463698387146,
      "logps/chosen": -0.5740953683853149,
      "logps/rejected": -0.4722967743873596,
      "loss": 1.0239,
      "nll_loss": 0.963403582572937,
      "rewards/accuracies": 0.42500001192092896,
      "rewards/chosen": -0.057409536093473434,
      "rewards/margins": -0.010179854929447174,
      "rewards/rejected": -0.04722967743873596,
      "step": 760
    },
    {
      "epoch": 0.4560260586319218,
      "grad_norm": 9.875,
      "learning_rate": 3.304924563483129e-07,
      "log_odds_chosen": -0.22836697101593018,
      "log_odds_ratio": -0.895135760307312,
      "logits/chosen": -2.315516948699951,
      "logits/rejected": -2.3024649620056152,
      "logps/chosen": -0.6285193562507629,
      "logps/rejected": -0.48862919211387634,
      "loss": 1.073,
      "nll_loss": 1.0095432996749878,
      "rewards/accuracies": 0.4937500059604645,
      "rewards/chosen": -0.0628519356250763,
      "rewards/margins": -0.013989018276333809,
      "rewards/rejected": -0.04886292293667793,
      "step": 770
    },
    {
      "epoch": 0.46194847497779096,
      "grad_norm": 11.125,
      "learning_rate": 3.255804252262283e-07,
      "log_odds_chosen": -0.19756431877613068,
      "log_odds_ratio": -0.856968104839325,
      "logits/chosen": -2.255115032196045,
      "logits/rejected": -2.226313352584839,
      "logps/chosen": -0.551701545715332,
      "logps/rejected": -0.45012766122817993,
      "loss": 1.0499,
      "nll_loss": 0.9961403608322144,
      "rewards/accuracies": 0.4437499940395355,
      "rewards/chosen": -0.05517015606164932,
      "rewards/margins": -0.010157393291592598,
      "rewards/rejected": -0.045012760907411575,
      "step": 780
    },
    {
      "epoch": 0.46787089132366005,
      "grad_norm": 8.375,
      "learning_rate": 3.2063606616290626e-07,
      "log_odds_chosen": -0.3132410943508148,
      "log_odds_ratio": -0.9298326373100281,
      "logits/chosen": -2.2360429763793945,
      "logits/rejected": -2.1973369121551514,
      "logps/chosen": -0.5941890478134155,
      "logps/rejected": -0.44506731629371643,
      "loss": 0.9654,
      "nll_loss": 0.8383496999740601,
      "rewards/accuracies": 0.4124999940395355,
      "rewards/chosen": -0.05941891670227051,
      "rewards/margins": -0.01491218339651823,
      "rewards/rejected": -0.044506728649139404,
      "step": 790
    },
    {
      "epoch": 0.47379330766952915,
      "grad_norm": 15.0625,
      "learning_rate": 3.1566149400420523e-07,
      "log_odds_chosen": -0.26251059770584106,
      "log_odds_ratio": -0.8918318748474121,
      "logits/chosen": -2.2902214527130127,
      "logits/rejected": -2.2795047760009766,
      "logps/chosen": -0.6117950081825256,
      "logps/rejected": -0.4801320433616638,
      "loss": 1.0567,
      "nll_loss": 0.9525865316390991,
      "rewards/accuracies": 0.4312500059604645,
      "rewards/chosen": -0.0611795075237751,
      "rewards/margins": -0.013166295364499092,
      "rewards/rejected": -0.04801321029663086,
      "step": 800
    },
    {
      "epoch": 0.4797157240153983,
      "grad_norm": 10.3125,
      "learning_rate": 3.1065883651900087e-07,
      "log_odds_chosen": -0.2203420102596283,
      "log_odds_ratio": -0.8829119801521301,
      "logits/chosen": -2.2788829803466797,
      "logits/rejected": -2.2381834983825684,
      "logps/chosen": -0.5892807841300964,
      "logps/rejected": -0.48378220200538635,
      "loss": 1.0678,
      "nll_loss": 0.9220091104507446,
      "rewards/accuracies": 0.41874998807907104,
      "rewards/chosen": -0.05892808362841606,
      "rewards/margins": -0.01054986473172903,
      "rewards/rejected": -0.048378217965364456,
      "step": 810
    },
    {
      "epoch": 0.4856381403612674,
      "grad_norm": 9.875,
      "learning_rate": 3.056302334890786e-07,
      "log_odds_chosen": -0.30824679136276245,
      "log_odds_ratio": -0.9259847402572632,
      "logits/chosen": -2.288405179977417,
      "logits/rejected": -2.2682487964630127,
      "logps/chosen": -0.6053352355957031,
      "logps/rejected": -0.4507838189601898,
      "loss": 1.0098,
      "nll_loss": 0.9126564860343933,
      "rewards/accuracies": 0.38749998807907104,
      "rewards/chosen": -0.06053352355957031,
      "rewards/margins": -0.01545514166355133,
      "rewards/rejected": -0.04507838934659958,
      "step": 820
    },
    {
      "epoch": 0.4915605567071365,
      "grad_norm": 12.6875,
      "learning_rate": 3.0057783579388586e-07,
      "log_odds_chosen": -0.15970291197299957,
      "log_odds_ratio": -0.8330586552619934,
      "logits/chosen": -2.2909493446350098,
      "logits/rejected": -2.2521986961364746,
      "logps/chosen": -0.5571908950805664,
      "logps/rejected": -0.4815686345100403,
      "loss": 1.0258,
      "nll_loss": 0.9384473562240601,
      "rewards/accuracies": 0.44999998807907104,
      "rewards/chosen": -0.05571908876299858,
      "rewards/margins": -0.007562229875475168,
      "rewards/rejected": -0.04815686494112015,
      "step": 830
    },
    {
      "epoch": 0.49748297305300565,
      "grad_norm": 11.75,
      "learning_rate": 2.9550380449053907e-07,
      "log_odds_chosen": -0.18619410693645477,
      "log_odds_ratio": -0.8525155782699585,
      "logits/chosen": -2.2423572540283203,
      "logits/rejected": -2.221928596496582,
      "logps/chosen": -0.5615742206573486,
      "logps/rejected": -0.4591636657714844,
      "loss": 1.0133,
      "nll_loss": 0.8223134279251099,
      "rewards/accuracies": 0.518750011920929,
      "rewards/chosen": -0.056157421320676804,
      "rewards/margins": -0.010241055861115456,
      "rewards/rejected": -0.0459163673222065,
      "step": 840
    },
    {
      "epoch": 0.5034053893988747,
      "grad_norm": 8.625,
      "learning_rate": 2.904103098894767e-07,
      "log_odds_chosen": -0.22144293785095215,
      "log_odds_ratio": -0.8922742009162903,
      "logits/chosen": -2.280796527862549,
      "logits/rejected": -2.2380261421203613,
      "logps/chosen": -0.5996569991111755,
      "logps/rejected": -0.4632148742675781,
      "loss": 1.0102,
      "nll_loss": 0.9282135963439941,
      "rewards/accuracies": 0.44999998807907104,
      "rewards/chosen": -0.059965699911117554,
      "rewards/margins": -0.013644215650856495,
      "rewards/rejected": -0.04632148891687393,
      "step": 850
    },
    {
      "epoch": 0.5093278057447439,
      "grad_norm": 12.625,
      "learning_rate": 2.852995306261545e-07,
      "log_odds_chosen": -0.1986076533794403,
      "log_odds_ratio": -0.8607484698295593,
      "logits/chosen": -2.306536912918091,
      "logits/rejected": -2.2707247734069824,
      "logps/chosen": -0.575395405292511,
      "logps/rejected": -0.4835848808288574,
      "loss": 1.074,
      "nll_loss": 1.0040955543518066,
      "rewards/accuracies": 0.4437499940395355,
      "rewards/chosen": -0.05753953382372856,
      "rewards/margins": -0.009181044064462185,
      "rewards/rejected": -0.0483584925532341,
      "step": 860
    },
    {
      "epoch": 0.515250222090613,
      "grad_norm": 10.6875,
      "learning_rate": 2.801736527291797e-07,
      "log_odds_chosen": -0.26449286937713623,
      "log_odds_ratio": -0.9028227925300598,
      "logits/chosen": -2.275608777999878,
      "logits/rejected": -2.233181953430176,
      "logps/chosen": -0.61722731590271,
      "logps/rejected": -0.4729304313659668,
      "loss": 1.042,
      "nll_loss": 0.908827006816864,
      "rewards/accuracies": 0.39375001192092896,
      "rewards/chosen": -0.061722736805677414,
      "rewards/margins": -0.014429694041609764,
      "rewards/rejected": -0.0472930371761322,
      "step": 870
    },
    {
      "epoch": 0.5211726384364821,
      "grad_norm": 10.875,
      "learning_rate": 2.750348686852836e-07,
      "log_odds_chosen": -0.31994161009788513,
      "log_odds_ratio": -0.9219182729721069,
      "logits/chosen": -2.329312324523926,
      "logits/rejected": -2.2651875019073486,
      "logps/chosen": -0.6155102252960205,
      "logps/rejected": -0.4632096290588379,
      "loss": 1.0724,
      "nll_loss": 1.0065295696258545,
      "rewards/accuracies": 0.375,
      "rewards/chosen": -0.06155102327466011,
      "rewards/margins": -0.015230064280331135,
      "rewards/rejected": -0.04632095992565155,
      "step": 880
    },
    {
      "epoch": 0.5270950547823512,
      "grad_norm": 11.875,
      "learning_rate": 2.69885376501531e-07,
      "log_odds_chosen": -0.23163005709648132,
      "log_odds_ratio": -0.8846963047981262,
      "logits/chosen": -2.261355400085449,
      "logits/rejected": -2.2470784187316895,
      "logps/chosen": -0.6110343933105469,
      "logps/rejected": -0.4852830767631531,
      "loss": 1.0546,
      "nll_loss": 0.9538838267326355,
      "rewards/accuracies": 0.4625000059604645,
      "rewards/chosen": -0.06110344082117081,
      "rewards/margins": -0.012575129978358746,
      "rewards/rejected": -0.04852830991148949,
      "step": 890
    },
    {
      "epoch": 0.5330174711282203,
      "grad_norm": 11.9375,
      "learning_rate": 2.647273787651687e-07,
      "log_odds_chosen": -0.18702737987041473,
      "log_odds_ratio": -0.8396440744400024,
      "logits/chosen": -2.2948384284973145,
      "logits/rejected": -2.2751121520996094,
      "logps/chosen": -0.5671176910400391,
      "logps/rejected": -0.47453179955482483,
      "loss": 1.0288,
      "nll_loss": 0.9608666300773621,
      "rewards/accuracies": 0.48124998807907104,
      "rewards/chosen": -0.056711774319410324,
      "rewards/margins": -0.009258597157895565,
      "rewards/rejected": -0.047453176230192184,
      "step": 900
    },
    {
      "epoch": 0.5389398874740894,
      "grad_norm": 16.75,
      "learning_rate": 2.5956308170151526e-07,
      "log_odds_chosen": -0.40357428789138794,
      "log_odds_ratio": -1.0180401802062988,
      "logits/chosen": -2.260730504989624,
      "logits/rejected": -2.2328133583068848,
      "logps/chosen": -0.7037028670310974,
      "logps/rejected": -0.4578544497489929,
      "loss": 1.1183,
      "nll_loss": 0.9839082956314087,
      "rewards/accuracies": 0.4124999940395355,
      "rewards/chosen": -0.07037027925252914,
      "rewards/margins": -0.02458484098315239,
      "rewards/rejected": -0.04578544571995735,
      "step": 910
    },
    {
      "epoch": 0.5448623038199586,
      "grad_norm": 10.3125,
      "learning_rate": 2.543946942302944e-07,
      "log_odds_chosen": -0.21979165077209473,
      "log_odds_ratio": -0.8726961016654968,
      "logits/chosen": -2.2551956176757812,
      "logits/rejected": -2.2191715240478516,
      "logps/chosen": -0.5772194862365723,
      "logps/rejected": -0.45551061630249023,
      "loss": 1.0123,
      "nll_loss": 0.9414900541305542,
      "rewards/accuracies": 0.48750001192092896,
      "rewards/chosen": -0.057721953839063644,
      "rewards/margins": -0.012170888483524323,
      "rewards/rejected": -0.04555106535553932,
      "step": 920
    },
    {
      "epoch": 0.5507847201658277,
      "grad_norm": 11.1875,
      "learning_rate": 2.492244270208158e-07,
      "log_odds_chosen": -0.1632816195487976,
      "log_odds_ratio": -0.8366379737854004,
      "logits/chosen": -2.2645580768585205,
      "logits/rejected": -2.2385404109954834,
      "logps/chosen": -0.5705746412277222,
      "logps/rejected": -0.48298463225364685,
      "loss": 0.9953,
      "nll_loss": 0.9456483721733093,
      "rewards/accuracies": 0.512499988079071,
      "rewards/chosen": -0.05705747753381729,
      "rewards/margins": -0.008759009651839733,
      "rewards/rejected": -0.048298463225364685,
      "step": 930
    },
    {
      "epoch": 0.5567071365116968,
      "grad_norm": 9.5,
      "learning_rate": 2.440544915464078e-07,
      "log_odds_chosen": -0.2142259180545807,
      "log_odds_ratio": -0.8674869537353516,
      "logits/chosen": -2.294877290725708,
      "logits/rejected": -2.2555816173553467,
      "logps/chosen": -0.5593573451042175,
      "logps/rejected": -0.45421138405799866,
      "loss": 1.0237,
      "nll_loss": 0.9162901043891907,
      "rewards/accuracies": 0.42500001192092896,
      "rewards/chosen": -0.055935733020305634,
      "rewards/margins": -0.01051459088921547,
      "rewards/rejected": -0.045421142131090164,
      "step": 940
    },
    {
      "epoch": 0.5626295528575659,
      "grad_norm": 10.0625,
      "learning_rate": 2.3888709913850593e-07,
      "log_odds_chosen": -0.21557164192199707,
      "log_odds_ratio": -0.8706417083740234,
      "logits/chosen": -2.3428778648376465,
      "logits/rejected": -2.3050456047058105,
      "logps/chosen": -0.5851597785949707,
      "logps/rejected": -0.4760478436946869,
      "loss": 1.0825,
      "nll_loss": 0.9482911825180054,
      "rewards/accuracies": 0.4000000059604645,
      "rewards/chosen": -0.05851597711443901,
      "rewards/margins": -0.010911193676292896,
      "rewards/rejected": -0.04760478436946869,
      "step": 950
    },
    {
      "epoch": 0.568551969203435,
      "grad_norm": 9.75,
      "learning_rate": 2.337244600408025e-07,
      "log_odds_chosen": -0.30868110060691833,
      "log_odds_ratio": -0.9379078149795532,
      "logits/chosen": -2.3101601600646973,
      "logits/rejected": -2.2805612087249756,
      "logps/chosen": -0.6376503109931946,
      "logps/rejected": -0.4714363217353821,
      "loss": 1.051,
      "nll_loss": 0.983268141746521,
      "rewards/accuracies": 0.38749998807907104,
      "rewards/chosen": -0.0637650191783905,
      "rewards/margins": -0.016621392220258713,
      "rewards/rejected": -0.04714363440871239,
      "step": 960
    },
    {
      "epoch": 0.5744743855493041,
      "grad_norm": 11.9375,
      "learning_rate": 2.2856878246386085e-07,
      "log_odds_chosen": -0.20517487823963165,
      "log_odds_ratio": -0.8652151226997375,
      "logits/chosen": -2.306201457977295,
      "logits/rejected": -2.283665180206299,
      "logps/chosen": -0.5846830606460571,
      "logps/rejected": -0.4740404486656189,
      "loss": 1.0953,
      "nll_loss": 1.0276809930801392,
      "rewards/accuracies": 0.40625,
      "rewards/chosen": -0.058468304574489594,
      "rewards/margins": -0.011064260266721249,
      "rewards/rejected": -0.04740404710173607,
      "step": 970
    },
    {
      "epoch": 0.5803968018951732,
      "grad_norm": 13.0,
      "learning_rate": 2.2342227164060035e-07,
      "log_odds_chosen": -0.2963787019252777,
      "log_odds_ratio": -0.9264262318611145,
      "logits/chosen": -2.2660953998565674,
      "logits/rejected": -2.211947441101074,
      "logps/chosen": -0.6310227513313293,
      "logps/rejected": -0.4772140085697174,
      "loss": 1.0355,
      "nll_loss": 0.916420578956604,
      "rewards/accuracies": 0.4000000059604645,
      "rewards/chosen": -0.06310227513313293,
      "rewards/margins": -0.015380874276161194,
      "rewards/rejected": -0.04772140458226204,
      "step": 980
    },
    {
      "epoch": 0.5863192182410424,
      "grad_norm": 9.5625,
      "learning_rate": 2.182871288830533e-07,
      "log_odds_chosen": -0.3251541554927826,
      "log_odds_ratio": -0.941790759563446,
      "logits/chosen": -2.293196439743042,
      "logits/rejected": -2.232034206390381,
      "logps/chosen": -0.6307833790779114,
      "logps/rejected": -0.4696255624294281,
      "loss": 1.0677,
      "nll_loss": 0.967657208442688,
      "rewards/accuracies": 0.35624998807907104,
      "rewards/chosen": -0.06307834386825562,
      "rewards/margins": -0.016115780919790268,
      "rewards/rejected": -0.04696255922317505,
      "step": 990
    },
    {
      "epoch": 0.5922416345869115,
      "grad_norm": 9.6875,
      "learning_rate": 2.131655506408007e-07,
      "log_odds_chosen": -0.22425034642219543,
      "log_odds_ratio": -0.8798470497131348,
      "logits/chosen": -2.2940893173217773,
      "logits/rejected": -2.254329204559326,
      "logps/chosen": -0.5970818400382996,
      "logps/rejected": -0.48467540740966797,
      "loss": 1.0208,
      "nll_loss": 0.9316588640213013,
      "rewards/accuracies": 0.4375,
      "rewards/chosen": -0.059708189219236374,
      "rewards/margins": -0.011240655556321144,
      "rewards/rejected": -0.04846753552556038,
      "step": 1000
    },
    {
      "epoch": 0.5981640509327806,
      "grad_norm": 9.5,
      "learning_rate": 2.0805972756148643e-07,
      "log_odds_chosen": -0.3093208074569702,
      "log_odds_ratio": -0.9420243501663208,
      "logits/chosen": -2.2883636951446533,
      "logits/rejected": -2.275327682495117,
      "logps/chosen": -0.6675941348075867,
      "logps/rejected": -0.47907954454421997,
      "loss": 1.0708,
      "nll_loss": 1.0012794733047485,
      "rewards/accuracies": 0.36250001192092896,
      "rewards/chosen": -0.06675940752029419,
      "rewards/margins": -0.01885146275162697,
      "rewards/rejected": -0.047907955944538116,
      "step": 1010
    },
    {
      "epoch": 0.6040864672786497,
      "grad_norm": 9.1875,
      "learning_rate": 2.0297184355381432e-07,
      "log_odds_chosen": -0.2639048993587494,
      "log_odds_ratio": -0.89494389295578,
      "logits/chosen": -2.304008722305298,
      "logits/rejected": -2.265723705291748,
      "logps/chosen": -0.5768560767173767,
      "logps/rejected": -0.4624248445034027,
      "loss": 1.0328,
      "nll_loss": 0.9577334523200989,
      "rewards/accuracies": 0.41874998807907104,
      "rewards/chosen": -0.05768561363220215,
      "rewards/margins": -0.011443129740655422,
      "rewards/rejected": -0.04624248296022415,
      "step": 1020
    },
    {
      "epoch": 0.6100088836245188,
      "grad_norm": 9.125,
      "learning_rate": 1.9790407485342638e-07,
      "log_odds_chosen": -0.3557616174221039,
      "log_odds_ratio": -0.9650157690048218,
      "logits/chosen": -2.327831268310547,
      "logits/rejected": -2.2884087562561035,
      "logps/chosen": -0.6429619193077087,
      "logps/rejected": -0.4408210217952728,
      "loss": 1.0091,
      "nll_loss": 0.9397379755973816,
      "rewards/accuracies": 0.42500001192092896,
      "rewards/chosen": -0.06429620087146759,
      "rewards/margins": -0.02021409198641777,
      "rewards/rejected": -0.04408210515975952,
      "step": 1030
    },
    {
      "epoch": 0.6159312999703879,
      "grad_norm": 10.75,
      "learning_rate": 1.928585890920641e-07,
      "log_odds_chosen": -0.1900234967470169,
      "log_odds_ratio": -0.8621436953544617,
      "logits/chosen": -2.2921512126922607,
      "logits/rejected": -2.2576987743377686,
      "logps/chosen": -0.5736020803451538,
      "logps/rejected": -0.46828731894493103,
      "loss": 1.0474,
      "nll_loss": 0.9162224531173706,
      "rewards/accuracies": 0.41874998807907104,
      "rewards/chosen": -0.0573602095246315,
      "rewards/margins": -0.010531473904848099,
      "rewards/rejected": -0.046828728169202805,
      "step": 1040
    },
    {
      "epoch": 0.6218537163162571,
      "grad_norm": 11.875,
      "learning_rate": 1.8783754437040902e-07,
      "log_odds_chosen": -0.26852238178253174,
      "log_odds_ratio": -0.9126049280166626,
      "logits/chosen": -2.275580883026123,
      "logits/rejected": -2.2431647777557373,
      "logps/chosen": -0.5689065456390381,
      "logps/rejected": -0.44645556807518005,
      "loss": 1.0095,
      "nll_loss": 0.9046837091445923,
      "rewards/accuracies": 0.39375001192092896,
      "rewards/chosen": -0.05689065903425217,
      "rewards/margins": -0.012245100922882557,
      "rewards/rejected": -0.044645555317401886,
      "step": 1050
    },
    {
      "epoch": 0.6277761326621262,
      "grad_norm": 9.25,
      "learning_rate": 1.8284308833500118e-07,
      "log_odds_chosen": -0.2125154435634613,
      "log_odds_ratio": -0.8751262426376343,
      "logits/chosen": -2.277667760848999,
      "logits/rejected": -2.253131866455078,
      "logps/chosen": -0.5812402963638306,
      "logps/rejected": -0.47419658303260803,
      "loss": 1.0476,
      "nll_loss": 0.93915194272995,
      "rewards/accuracies": 0.46875,
      "rewards/chosen": -0.05812402814626694,
      "rewards/margins": -0.010704366490244865,
      "rewards/rejected": -0.04741965979337692,
      "step": 1060
    },
    {
      "epoch": 0.6336985490079953,
      "grad_norm": 11.0625,
      "learning_rate": 1.7787735725962756e-07,
      "log_odds_chosen": -0.27183157205581665,
      "log_odds_ratio": -0.9005556106567383,
      "logits/chosen": -2.2851767539978027,
      "logits/rejected": -2.2494091987609863,
      "logps/chosen": -0.613685667514801,
      "logps/rejected": -0.47953805327415466,
      "loss": 1.0919,
      "nll_loss": 0.9954058527946472,
      "rewards/accuracies": 0.4000000059604645,
      "rewards/chosen": -0.06136856600642204,
      "rewards/margins": -0.013414761051535606,
      "rewards/rejected": -0.047953806817531586,
      "step": 1070
    },
    {
      "epoch": 0.6396209653538644,
      "grad_norm": 9.375,
      "learning_rate": 1.7294247513157616e-07,
      "log_odds_chosen": -0.22400331497192383,
      "log_odds_ratio": -0.8672366142272949,
      "logits/chosen": -2.3089351654052734,
      "logits/rejected": -2.2596447467803955,
      "logps/chosen": -0.5711158514022827,
      "logps/rejected": -0.46820420026779175,
      "loss": 1.0251,
      "nll_loss": 0.960826575756073,
      "rewards/accuracies": 0.4000000059604645,
      "rewards/chosen": -0.05711158365011215,
      "rewards/margins": -0.010291163809597492,
      "rewards/rejected": -0.046820417046546936,
      "step": 1080
    },
    {
      "epoch": 0.6455433816997335,
      "grad_norm": 10.0625,
      "learning_rate": 1.6804055274314494e-07,
      "log_odds_chosen": -0.19274529814720154,
      "log_odds_ratio": -0.8532935380935669,
      "logits/chosen": -2.270355224609375,
      "logits/rejected": -2.248356342315674,
      "logps/chosen": -0.5621662735939026,
      "logps/rejected": -0.47271862626075745,
      "loss": 1.0217,
      "nll_loss": 0.9073405265808105,
      "rewards/accuracies": 0.4124999940395355,
      "rewards/chosen": -0.056216634809970856,
      "rewards/margins": -0.008944764733314514,
      "rewards/rejected": -0.04727186635136604,
      "step": 1090
    },
    {
      "epoch": 0.6514657980456026,
      "grad_norm": 10.25,
      "learning_rate": 1.6317368678879496e-07,
      "log_odds_chosen": -0.20030847191810608,
      "log_odds_ratio": -0.8486258387565613,
      "logits/chosen": -2.3088138103485107,
      "logits/rejected": -2.27048659324646,
      "logps/chosen": -0.5797799825668335,
      "logps/rejected": -0.4854944348335266,
      "loss": 1.0725,
      "nll_loss": 0.9621385335922241,
      "rewards/accuracies": 0.40625,
      "rewards/chosen": -0.05797800421714783,
      "rewards/margins": -0.009428557008504868,
      "rewards/rejected": -0.04854945093393326,
      "step": 1100
    },
    {
      "epoch": 0.6573882143914718,
      "grad_norm": 12.125,
      "learning_rate": 1.5834395896833281e-07,
      "log_odds_chosen": -0.3109692335128784,
      "log_odds_ratio": -0.9263485670089722,
      "logits/chosen": -2.3202879428863525,
      "logits/rejected": -2.265725612640381,
      "logps/chosen": -0.6155823469161987,
      "logps/rejected": -0.4582076966762543,
      "loss": 1.0499,
      "nll_loss": 0.9659247398376465,
      "rewards/accuracies": 0.4124999940395355,
      "rewards/chosen": -0.06155823543667793,
      "rewards/margins": -0.015737462788820267,
      "rewards/rejected": -0.045820772647857666,
      "step": 1110
    },
    {
      "epoch": 0.6633106307373409,
      "grad_norm": 9.9375,
      "learning_rate": 1.535534350965075e-07,
      "log_odds_chosen": -0.25020501017570496,
      "log_odds_ratio": -0.8859984278678894,
      "logits/chosen": -2.3179831504821777,
      "logits/rejected": -2.3054070472717285,
      "logps/chosen": -0.5626355409622192,
      "logps/rejected": -0.434339702129364,
      "loss": 1.0081,
      "nll_loss": 0.9209376573562622,
      "rewards/accuracies": 0.41874998807907104,
      "rewards/chosen": -0.056263554841279984,
      "rewards/margins": -0.012829584069550037,
      "rewards/rejected": -0.04343396797776222,
      "step": 1120
    },
    {
      "epoch": 0.66923304708321,
      "grad_norm": 15.625,
      "learning_rate": 1.4880416421940154e-07,
      "log_odds_chosen": -0.23923833668231964,
      "log_odds_ratio": -0.8853415250778198,
      "logits/chosen": -2.26355242729187,
      "logits/rejected": -2.240990161895752,
      "logps/chosen": -0.6214331388473511,
      "logps/rejected": -0.4842914938926697,
      "loss": 1.1113,
      "nll_loss": 1.0326354503631592,
      "rewards/accuracies": 0.4124999940395355,
      "rewards/chosen": -0.062143318355083466,
      "rewards/margins": -0.01371416263282299,
      "rewards/rejected": -0.048429153859615326,
      "step": 1130
    },
    {
      "epoch": 0.6751554634290791,
      "grad_norm": 12.75,
      "learning_rate": 1.4409817773799459e-07,
      "log_odds_chosen": -0.23250596225261688,
      "log_odds_ratio": -0.8853020668029785,
      "logits/chosen": -2.288491725921631,
      "logits/rejected": -2.24708890914917,
      "logps/chosen": -0.6100078225135803,
      "logps/rejected": -0.4815722405910492,
      "loss": 1.0552,
      "nll_loss": 0.9337055087089539,
      "rewards/accuracies": 0.4124999940395355,
      "rewards/chosen": -0.061000775545835495,
      "rewards/margins": -0.01284355204552412,
      "rewards/rejected": -0.0481572225689888,
      "step": 1140
    },
    {
      "epoch": 0.6810778797749482,
      "grad_norm": 10.4375,
      "learning_rate": 1.3943748853927385e-07,
      "log_odds_chosen": -0.3103570342063904,
      "log_odds_ratio": -0.9324914216995239,
      "logits/chosen": -2.28434419631958,
      "logits/rejected": -2.277893543243408,
      "logps/chosen": -0.64482182264328,
      "logps/rejected": -0.46989989280700684,
      "loss": 1.035,
      "nll_loss": 0.934810996055603,
      "rewards/accuracies": 0.3687500059604645,
      "rewards/chosen": -0.064482182264328,
      "rewards/margins": -0.017492195591330528,
      "rewards/rejected": -0.046989988535642624,
      "step": 1150
    },
    {
      "epoch": 0.6870002961208173,
      "grad_norm": 11.375,
      "learning_rate": 1.3482409013526436e-07,
      "log_odds_chosen": -0.3323788642883301,
      "log_odds_ratio": -0.9415693283081055,
      "logits/chosen": -2.272247791290283,
      "logits/rejected": -2.2672269344329834,
      "logps/chosen": -0.6134747862815857,
      "logps/rejected": -0.4571937918663025,
      "loss": 1.0638,
      "nll_loss": 0.9829813241958618,
      "rewards/accuracies": 0.3812499940395355,
      "rewards/chosen": -0.06134747713804245,
      "rewards/margins": -0.01562810130417347,
      "rewards/rejected": -0.04571938142180443,
      "step": 1160
    },
    {
      "epoch": 0.6929227124666865,
      "grad_norm": 9.4375,
      "learning_rate": 1.302599558103456e-07,
      "log_odds_chosen": -0.23517660796642303,
      "log_odds_ratio": -0.8992069363594055,
      "logits/chosen": -2.3287193775177,
      "logits/rejected": -2.293454885482788,
      "logps/chosen": -0.6200941801071167,
      "logps/rejected": -0.4878036081790924,
      "loss": 1.0413,
      "nll_loss": 0.9660770297050476,
      "rewards/accuracies": 0.4312500059604645,
      "rewards/chosen": -0.06200941652059555,
      "rewards/margins": -0.013229051604866982,
      "rewards/rejected": -0.04878035932779312,
      "step": 1170
    },
    {
      "epoch": 0.6988451288125556,
      "grad_norm": 13.0625,
      "learning_rate": 1.257470377772214e-07,
      "log_odds_chosen": -0.27837398648262024,
      "log_odds_ratio": -0.9113019704818726,
      "logits/chosen": -2.3072619438171387,
      "logits/rejected": -2.282047748565674,
      "logps/chosen": -0.5952633023262024,
      "logps/rejected": -0.4496152400970459,
      "loss": 1.0661,
      "nll_loss": 0.9518778920173645,
      "rewards/accuracies": 0.39375001192092896,
      "rewards/chosen": -0.05952633172273636,
      "rewards/margins": -0.014564801938831806,
      "rewards/rejected": -0.04496152698993683,
      "step": 1180
    },
    {
      "epoch": 0.7047675451584247,
      "grad_norm": 13.5,
      "learning_rate": 1.2128726634190046e-07,
      "log_odds_chosen": -0.26337355375289917,
      "log_odds_ratio": -0.8862990140914917,
      "logits/chosen": -2.3180294036865234,
      "logits/rejected": -2.274146556854248,
      "logps/chosen": -0.5859608054161072,
      "logps/rejected": -0.44980812072753906,
      "loss": 1.0204,
      "nll_loss": 0.91375333070755,
      "rewards/accuracies": 0.375,
      "rewards/chosen": -0.05859608203172684,
      "rewards/margins": -0.01361527293920517,
      "rewards/rejected": -0.044980812817811966,
      "step": 1190
    },
    {
      "epoch": 0.7106899615042938,
      "grad_norm": 13.3125,
      "learning_rate": 1.1688254907804992e-07,
      "log_odds_chosen": -0.2645830512046814,
      "log_odds_ratio": -0.9049927592277527,
      "logits/chosen": -2.2710115909576416,
      "logits/rejected": -2.2327637672424316,
      "logps/chosen": -0.6210035085678101,
      "logps/rejected": -0.48435431718826294,
      "loss": 1.0683,
      "nll_loss": 0.9852622747421265,
      "rewards/accuracies": 0.38749998807907104,
      "rewards/chosen": -0.06210034340620041,
      "rewards/margins": -0.01366492174565792,
      "rewards/rejected": -0.048435427248477936,
      "step": 1200
    },
    {
      "epoch": 0.7166123778501629,
      "grad_norm": 9.1875,
      "learning_rate": 1.1253477001106956e-07,
      "log_odds_chosen": -0.18010739982128143,
      "log_odds_ratio": -0.848807156085968,
      "logits/chosen": -2.2503340244293213,
      "logits/rejected": -2.214433431625366,
      "logps/chosen": -0.5777139663696289,
      "logps/rejected": -0.48649734258651733,
      "loss": 1.0408,
      "nll_loss": 0.9145431518554688,
      "rewards/accuracies": 0.48124998807907104,
      "rewards/chosen": -0.05777139216661453,
      "rewards/margins": -0.009121658280491829,
      "rewards/rejected": -0.04864973947405815,
      "step": 1210
    },
    {
      "epoch": 0.722534794196032,
      "grad_norm": 14.1875,
      "learning_rate": 1.0824578881224065e-07,
      "log_odds_chosen": -0.14203877747058868,
      "log_odds_ratio": -0.8198834657669067,
      "logits/chosen": -2.323948621749878,
      "logits/rejected": -2.3119778633117676,
      "logps/chosen": -0.5389841794967651,
      "logps/rejected": -0.4636968672275543,
      "loss": 0.9852,
      "nll_loss": 0.871512770652771,
      "rewards/accuracies": 0.42500001192092896,
      "rewards/chosen": -0.053898416459560394,
      "rewards/margins": -0.007528733462095261,
      "rewards/rejected": -0.046369682997465134,
      "step": 1220
    },
    {
      "epoch": 0.728457210541901,
      "grad_norm": 10.25,
      "learning_rate": 1.0401744000328918e-07,
      "log_odds_chosen": -0.19983641803264618,
      "log_odds_ratio": -0.8725547790527344,
      "logits/chosen": -2.268932342529297,
      "logits/rejected": -2.2664635181427,
      "logps/chosen": -0.5955653786659241,
      "logps/rejected": -0.4910568296909332,
      "loss": 1.0167,
      "nll_loss": 0.9245740175247192,
      "rewards/accuracies": 0.4124999940395355,
      "rewards/chosen": -0.059556543827056885,
      "rewards/margins": -0.010450851172208786,
      "rewards/rejected": -0.0491056926548481,
      "step": 1230
    },
    {
      "epoch": 0.7343796268877703,
      "grad_norm": 11.25,
      "learning_rate": 9.985153217170902e-08,
      "log_odds_chosen": -0.27591392397880554,
      "log_odds_ratio": -0.9048240780830383,
      "logits/chosen": -2.3324825763702393,
      "logits/rejected": -2.3199105262756348,
      "logps/chosen": -0.613168478012085,
      "logps/rejected": -0.47140389680862427,
      "loss": 1.1081,
      "nll_loss": 1.0194193124771118,
      "rewards/accuracies": 0.40625,
      "rewards/chosen": -0.061316847801208496,
      "rewards/margins": -0.01417645812034607,
      "rewards/rejected": -0.047140393406152725,
      "step": 1240
    },
    {
      "epoch": 0.7403020432336394,
      "grad_norm": 12.25,
      "learning_rate": 9.574984719717553e-08,
      "log_odds_chosen": -0.24321213364601135,
      "log_odds_ratio": -0.89483243227005,
      "logits/chosen": -2.3112952709198,
      "logits/rejected": -2.2951555252075195,
      "logps/chosen": -0.5895348191261292,
      "logps/rejected": -0.4669637680053711,
      "loss": 1.0306,
      "nll_loss": 0.9830119013786316,
      "rewards/accuracies": 0.42500001192092896,
      "rewards/chosen": -0.05895348638296127,
      "rewards/margins": -0.012257112190127373,
      "rewards/rejected": -0.04669637233018875,
      "step": 1250
    },
    {
      "epoch": 0.7462244595795084,
      "grad_norm": 9.9375,
      "learning_rate": 9.171413948938459e-08,
      "log_odds_chosen": -0.2236686646938324,
      "log_odds_ratio": -0.879412829875946,
      "logits/chosen": -2.3061726093292236,
      "logits/rejected": -2.254133701324463,
      "logps/chosen": -0.6122428178787231,
      "logps/rejected": -0.49692878127098083,
      "loss": 1.0596,
      "nll_loss": 0.9902396202087402,
      "rewards/accuracies": 0.4375,
      "rewards/chosen": -0.061224281787872314,
      "rewards/margins": -0.011531401425600052,
      "rewards/rejected": -0.04969288408756256,
      "step": 1260
    },
    {
      "epoch": 0.7521468759253775,
      "grad_norm": 9.4375,
      "learning_rate": 8.774613523764049e-08,
      "log_odds_chosen": -0.26704955101013184,
      "log_odds_ratio": -0.8915314674377441,
      "logits/chosen": -2.2866809368133545,
      "logits/rejected": -2.239720582962036,
      "logps/chosen": -0.5904482007026672,
      "logps/rejected": -0.4593755304813385,
      "loss": 1.0287,
      "nll_loss": 0.9099699854850769,
      "rewards/accuracies": 0.39375001192092896,
      "rewards/chosen": -0.059044819325208664,
      "rewards/margins": -0.013107270002365112,
      "rewards/rejected": -0.04593754559755325,
      "step": 1270
    },
    {
      "epoch": 0.7580692922712466,
      "grad_norm": 11.125,
      "learning_rate": 8.384753167251412e-08,
      "log_odds_chosen": -0.2359321415424347,
      "log_odds_ratio": -0.8834274411201477,
      "logits/chosen": -2.241650104522705,
      "logits/rejected": -2.2175180912017822,
      "logps/chosen": -0.5696910619735718,
      "logps/rejected": -0.4511106610298157,
      "loss": 0.9877,
      "nll_loss": 0.8763992190361023,
      "rewards/accuracies": 0.4000000059604645,
      "rewards/chosen": -0.05696910619735718,
      "rewards/margins": -0.01185804232954979,
      "rewards/rejected": -0.045111071318387985,
      "step": 1280
    },
    {
      "epoch": 0.7639917086171157,
      "grad_norm": 10.1875,
      "learning_rate": 8.001999633988942e-08,
      "log_odds_chosen": -0.26344627141952515,
      "log_odds_ratio": -0.8965330123901367,
      "logits/chosen": -2.317347764968872,
      "logits/rejected": -2.2693257331848145,
      "logps/chosen": -0.5864616632461548,
      "logps/rejected": -0.45855003595352173,
      "loss": 0.9993,
      "nll_loss": 0.9034452438354492,
      "rewards/accuracies": 0.40625,
      "rewards/chosen": -0.058646153658628464,
      "rewards/margins": -0.012791156768798828,
      "rewards/rejected": -0.04585500434041023,
      "step": 1290
    },
    {
      "epoch": 0.769914124962985,
      "grad_norm": 10.4375,
      "learning_rate": 7.62651663877042e-08,
      "log_odds_chosen": -0.17867620289325714,
      "log_odds_ratio": -0.8561042547225952,
      "logits/chosen": -2.2582385540008545,
      "logits/rejected": -2.232391357421875,
      "logps/chosen": -0.5790480971336365,
      "logps/rejected": -0.4850679337978363,
      "loss": 1.0993,
      "nll_loss": 0.9781789779663086,
      "rewards/accuracies": 0.4625000059604645,
      "rewards/chosen": -0.057904817163944244,
      "rewards/margins": -0.009398018009960651,
      "rewards/rejected": -0.04850679263472557,
      "step": 1300
    },
    {
      "epoch": 0.775836541308854,
      "grad_norm": 9.0,
      "learning_rate": 7.258464786569549e-08,
      "log_odds_chosen": -0.2144562005996704,
      "log_odds_ratio": -0.8685463070869446,
      "logits/chosen": -2.322035551071167,
      "logits/rejected": -2.2717068195343018,
      "logps/chosen": -0.5770824551582336,
      "logps/rejected": -0.47164034843444824,
      "loss": 1.0633,
      "nll_loss": 0.9638098478317261,
      "rewards/accuracies": 0.4437499940395355,
      "rewards/chosen": -0.057708241045475006,
      "rewards/margins": -0.010544205084443092,
      "rewards/rejected": -0.04716403782367706,
      "step": 1310
    },
    {
      "epoch": 0.7817589576547231,
      "grad_norm": 12.375,
      "learning_rate": 6.898001503844483e-08,
      "log_odds_chosen": -0.3992167115211487,
      "log_odds_ratio": -1.0115876197814941,
      "logits/chosen": -2.3506951332092285,
      "logits/rejected": -2.3084568977355957,
      "logps/chosen": -0.7245315313339233,
      "logps/rejected": -0.4761766493320465,
      "loss": 1.0509,
      "nll_loss": 1.0009998083114624,
      "rewards/accuracies": 0.40625,
      "rewards/chosen": -0.07245315611362457,
      "rewards/margins": -0.0248354934155941,
      "rewards/rejected": -0.04761766642332077,
      "step": 1320
    },
    {
      "epoch": 0.7876813740005922,
      "grad_norm": 11.3125,
      "learning_rate": 6.545280971202014e-08,
      "log_odds_chosen": -0.17274455726146698,
      "log_odds_ratio": -0.8463727831840515,
      "logits/chosen": -2.310338020324707,
      "logits/rejected": -2.2806801795959473,
      "logps/chosen": -0.5623282194137573,
      "logps/rejected": -0.46932634711265564,
      "loss": 1.0128,
      "nll_loss": 0.9555832147598267,
      "rewards/accuracies": 0.4437499940395355,
      "rewards/chosen": -0.05623283237218857,
      "rewards/margins": -0.009300192818045616,
      "rewards/rejected": -0.046932633966207504,
      "step": 1330
    },
    {
      "epoch": 0.7936037903464613,
      "grad_norm": 11.0625,
      "learning_rate": 6.200454057450022e-08,
      "log_odds_chosen": -0.2566189169883728,
      "log_odds_ratio": -0.8830870389938354,
      "logits/chosen": -2.2640976905822754,
      "logits/rejected": -2.2190680503845215,
      "logps/chosen": -0.6031737327575684,
      "logps/rejected": -0.4697316586971283,
      "loss": 1.0756,
      "nll_loss": 0.9159650802612305,
      "rewards/accuracies": 0.42500001192092896,
      "rewards/chosen": -0.060317374765872955,
      "rewards/margins": -0.01334420870989561,
      "rewards/rejected": -0.04697316139936447,
      "step": 1340
    },
    {
      "epoch": 0.7995262066923304,
      "grad_norm": 12.0,
      "learning_rate": 5.863668255066492e-08,
      "log_odds_chosen": -0.2177290916442871,
      "log_odds_ratio": -0.8585535287857056,
      "logits/chosen": -2.262441396713257,
      "logits/rejected": -2.231968402862549,
      "logps/chosen": -0.5860260128974915,
      "logps/rejected": -0.47981762886047363,
      "loss": 1.0081,
      "nll_loss": 0.9461213946342468,
      "rewards/accuracies": 0.3687500059604645,
      "rewards/chosen": -0.05860259383916855,
      "rewards/margins": -0.010620838031172752,
      "rewards/rejected": -0.047981761395931244,
      "step": 1350
    },
    {
      "epoch": 0.8054486230381996,
      "grad_norm": 9.625,
      "learning_rate": 5.53506761711274e-08,
      "log_odds_chosen": -0.21258850395679474,
      "log_odds_ratio": -0.8654868006706238,
      "logits/chosen": -2.2940022945404053,
      "logits/rejected": -2.264361619949341,
      "logps/chosen": -0.5948741436004639,
      "logps/rejected": -0.48127132654190063,
      "loss": 1.0435,
      "nll_loss": 1.0004308223724365,
      "rewards/accuracies": 0.44999998807907104,
      "rewards/chosen": -0.059487421065568924,
      "rewards/margins": -0.0113602876663208,
      "rewards/rejected": -0.04812713339924812,
      "step": 1360
    },
    {
      "epoch": 0.8113710393840687,
      "grad_norm": 14.375,
      "learning_rate": 5.2147926956177174e-08,
      "log_odds_chosen": -0.3361436724662781,
      "log_odds_ratio": -0.9543386697769165,
      "logits/chosen": -2.2842912673950195,
      "logits/rejected": -2.2753098011016846,
      "logps/chosen": -0.6304486989974976,
      "logps/rejected": -0.4559609293937683,
      "loss": 1.0422,
      "nll_loss": 0.9697739481925964,
      "rewards/accuracies": 0.35624998807907104,
      "rewards/chosen": -0.06304488331079483,
      "rewards/margins": -0.0174487866461277,
      "rewards/rejected": -0.04559609293937683,
      "step": 1370
    },
    {
      "epoch": 0.8172934557299378,
      "grad_norm": 22.625,
      "learning_rate": 4.902980481459834e-08,
      "log_odds_chosen": -0.18400034308433533,
      "log_odds_ratio": -0.8533352017402649,
      "logits/chosen": -2.267984390258789,
      "logits/rejected": -2.240002155303955,
      "logps/chosen": -0.5833351016044617,
      "logps/rejected": -0.4882822632789612,
      "loss": 1.0013,
      "nll_loss": 0.9279516935348511,
      "rewards/accuracies": 0.40625,
      "rewards/chosen": -0.058333516120910645,
      "rewards/margins": -0.009505288675427437,
      "rewards/rejected": -0.04882822558283806,
      "step": 1380
    },
    {
      "epoch": 0.8232158720758069,
      "grad_norm": 11.8125,
      "learning_rate": 4.5997643457719646e-08,
      "log_odds_chosen": -0.2714422643184662,
      "log_odds_ratio": -0.8982048034667969,
      "logits/chosen": -2.2855401039123535,
      "logits/rejected": -2.2796995639801025,
      "logps/chosen": -0.5933629274368286,
      "logps/rejected": -0.45899391174316406,
      "loss": 0.9938,
      "nll_loss": 0.9157652854919434,
      "rewards/accuracies": 0.4124999940395355,
      "rewards/chosen": -0.05933629721403122,
      "rewards/margins": -0.01343690324574709,
      "rewards/rejected": -0.045899391174316406,
      "step": 1390
    },
    {
      "epoch": 0.829138288421676,
      "grad_norm": 11.125,
      "learning_rate": 4.305273982894772e-08,
      "log_odds_chosen": -0.24461349844932556,
      "log_odds_ratio": -0.8896273374557495,
      "logits/chosen": -2.3211405277252197,
      "logits/rejected": -2.279554843902588,
      "logps/chosen": -0.6189180612564087,
      "logps/rejected": -0.4841720461845398,
      "loss": 1.041,
      "nll_loss": 0.9456349611282349,
      "rewards/accuracies": 0.4375,
      "rewards/chosen": -0.06189180538058281,
      "rewards/margins": -0.013474604114890099,
      "rewards/rejected": -0.04841720312833786,
      "step": 1400
    },
    {
      "epoch": 0.8350607047675451,
      "grad_norm": 11.8125,
      "learning_rate": 4.0196353549026786e-08,
      "log_odds_chosen": -0.1991504579782486,
      "log_odds_ratio": -0.8548718690872192,
      "logits/chosen": -2.288534641265869,
      "logits/rejected": -2.2532122135162354,
      "logps/chosen": -0.5849851965904236,
      "logps/rejected": -0.48299694061279297,
      "loss": 1.0681,
      "nll_loss": 1.0149555206298828,
      "rewards/accuracies": 0.4375,
      "rewards/chosen": -0.05849852040410042,
      "rewards/margins": -0.010198831558227539,
      "rewards/rejected": -0.04829969257116318,
      "step": 1410
    },
    {
      "epoch": 0.8409831211134142,
      "grad_norm": 9.625,
      "learning_rate": 3.742970637726181e-08,
      "log_odds_chosen": -0.09389691054821014,
      "log_odds_ratio": -0.8085994720458984,
      "logits/chosen": -2.3118512630462646,
      "logits/rejected": -2.2662172317504883,
      "logps/chosen": -0.5374116897583008,
      "logps/rejected": -0.4831947386264801,
      "loss": 1.0166,
      "nll_loss": 0.9142959713935852,
      "rewards/accuracies": 0.46875,
      "rewards/chosen": -0.05374116823077202,
      "rewards/margins": -0.005421696230769157,
      "rewards/rejected": -0.04831947013735771,
      "step": 1420
    },
    {
      "epoch": 0.8469055374592834,
      "grad_norm": 13.0,
      "learning_rate": 3.4753981688937284e-08,
      "log_odds_chosen": -0.23033122718334198,
      "log_odds_ratio": -0.8797691464424133,
      "logits/chosen": -2.2840065956115723,
      "logits/rejected": -2.2577414512634277,
      "logps/chosen": -0.5791336297988892,
      "logps/rejected": -0.46595969796180725,
      "loss": 1.0562,
      "nll_loss": 0.9663812518119812,
      "rewards/accuracies": 0.40625,
      "rewards/chosen": -0.05791335552930832,
      "rewards/margins": -0.011317392811179161,
      "rewards/rejected": -0.046595968306064606,
      "step": 1430
    },
    {
      "epoch": 0.8528279538051525,
      "grad_norm": 16.5,
      "learning_rate": 3.217032396915265e-08,
      "log_odds_chosen": -0.28934675455093384,
      "log_odds_ratio": -0.925268292427063,
      "logits/chosen": -2.294243335723877,
      "logits/rejected": -2.26255464553833,
      "logps/chosen": -0.6588538885116577,
      "logps/rejected": -0.4810880720615387,
      "loss": 1.0625,
      "nll_loss": 0.9974772334098816,
      "rewards/accuracies": 0.4312500059604645,
      "rewards/chosen": -0.06588538736104965,
      "rewards/margins": -0.01777658611536026,
      "rewards/rejected": -0.04810880497097969,
      "step": 1440
    },
    {
      "epoch": 0.8587503701510216,
      "grad_norm": 13.5625,
      "learning_rate": 2.9679838323293404e-08,
      "log_odds_chosen": -0.30326423048973083,
      "log_odds_ratio": -0.9402921795845032,
      "logits/chosen": -2.285403251647949,
      "logits/rejected": -2.2570960521698,
      "logps/chosen": -0.6499019265174866,
      "logps/rejected": -0.485442578792572,
      "loss": 1.0074,
      "nll_loss": 0.9335571527481079,
      "rewards/accuracies": 0.39375001192092896,
      "rewards/chosen": -0.06499020010232925,
      "rewards/margins": -0.016445934772491455,
      "rewards/rejected": -0.0485442578792572,
      "step": 1450
    },
    {
      "epoch": 0.8646727864968907,
      "grad_norm": 11.875,
      "learning_rate": 2.728359000434488e-08,
      "log_odds_chosen": -0.25829392671585083,
      "log_odds_ratio": -0.8930153846740723,
      "logits/chosen": -2.316516399383545,
      "logits/rejected": -2.283731460571289,
      "logps/chosen": -0.5545108318328857,
      "logps/rejected": -0.4498627185821533,
      "loss": 1.048,
      "nll_loss": 0.9053192138671875,
      "rewards/accuracies": 0.4000000059604645,
      "rewards/chosen": -0.055451083928346634,
      "rewards/margins": -0.010464807972311974,
      "rewards/rejected": -0.04498627781867981,
      "step": 1460
    },
    {
      "epoch": 0.8705952028427598,
      "grad_norm": 10.75,
      "learning_rate": 2.498260395725302e-08,
      "log_odds_chosen": -0.25851163268089294,
      "log_odds_ratio": -0.8944876790046692,
      "logits/chosen": -2.281040906906128,
      "logits/rejected": -2.26870059967041,
      "logps/chosen": -0.6054626703262329,
      "logps/rejected": -0.48731446266174316,
      "loss": 1.0483,
      "nll_loss": 0.9450349807739258,
      "rewards/accuracies": 0.4000000059604645,
      "rewards/chosen": -0.060546260327100754,
      "rewards/margins": -0.011814813129603863,
      "rewards/rejected": -0.048731446266174316,
      "step": 1470
    },
    {
      "epoch": 0.8765176191886289,
      "grad_norm": 10.3125,
      "learning_rate": 2.2777864380525426e-08,
      "log_odds_chosen": -0.20190663635730743,
      "log_odds_ratio": -0.8694218397140503,
      "logits/chosen": -2.288378953933716,
      "logits/rejected": -2.2683846950531006,
      "logps/chosen": -0.5955201387405396,
      "logps/rejected": -0.4755355417728424,
      "loss": 1.0093,
      "nll_loss": 0.8863022923469543,
      "rewards/accuracies": 0.4625000059604645,
      "rewards/chosen": -0.059552013874053955,
      "rewards/margins": -0.01199845876544714,
      "rewards/rejected": -0.04755355045199394,
      "step": 1480
    },
    {
      "epoch": 0.8824400355344981,
      "grad_norm": 11.125,
      "learning_rate": 2.0670314305261423e-08,
      "log_odds_chosen": -0.21881277859210968,
      "log_odds_ratio": -0.8681440353393555,
      "logits/chosen": -2.3011648654937744,
      "logits/rejected": -2.2739992141723633,
      "logps/chosen": -0.5647403597831726,
      "logps/rejected": -0.46096763014793396,
      "loss": 0.9903,
      "nll_loss": 0.9155017733573914,
      "rewards/accuracies": 0.4437499940395355,
      "rewards/chosen": -0.05647404119372368,
      "rewards/margins": -0.010377271100878716,
      "rewards/rejected": -0.046096768230199814,
      "step": 1490
    },
    {
      "epoch": 0.8883624518803672,
      "grad_norm": 15.4375,
      "learning_rate": 1.866085519178995e-08,
      "log_odds_chosen": -0.21367135643959045,
      "log_odds_ratio": -0.8818863034248352,
      "logits/chosen": -2.283823013305664,
      "logits/rejected": -2.262935161590576,
      "logps/chosen": -0.6190184354782104,
      "logps/rejected": -0.518616259098053,
      "loss": 1.0823,
      "nll_loss": 1.0067201852798462,
      "rewards/accuracies": 0.42500001192092896,
      "rewards/chosen": -0.06190184876322746,
      "rewards/margins": -0.010040223598480225,
      "rewards/rejected": -0.05186162516474724,
      "step": 1500
    },
    {
      "epoch": 0.8942848682262363,
      "grad_norm": 10.0625,
      "learning_rate": 1.675034654408894e-08,
      "log_odds_chosen": -0.2969823479652405,
      "log_odds_ratio": -0.9049533605575562,
      "logits/chosen": -2.3211445808410645,
      "logits/rejected": -2.293593168258667,
      "logps/chosen": -0.5710967779159546,
      "logps/rejected": -0.44247856736183167,
      "loss": 1.0186,
      "nll_loss": 0.9544011354446411,
      "rewards/accuracies": 0.4000000059604645,
      "rewards/chosen": -0.057109683752059937,
      "rewards/margins": -0.012861823663115501,
      "rewards/rejected": -0.044247858226299286,
      "step": 1510
    },
    {
      "epoch": 0.9002072845721054,
      "grad_norm": 11.8125,
      "learning_rate": 1.4939605542150595e-08,
      "log_odds_chosen": -0.20066659152507782,
      "log_odds_ratio": -0.880477249622345,
      "logits/chosen": -2.306097984313965,
      "logits/rejected": -2.2691056728363037,
      "logps/chosen": -0.630598247051239,
      "logps/rejected": -0.5075589418411255,
      "loss": 1.0954,
      "nll_loss": 0.9971143007278442,
      "rewards/accuracies": 0.48124998807907104,
      "rewards/chosen": -0.06305982172489166,
      "rewards/margins": -0.01230393536388874,
      "rewards/rejected": -0.05075589567422867,
      "step": 1520
    },
    {
      "epoch": 0.9061297009179745,
      "grad_norm": 11.0,
      "learning_rate": 1.3229406692449791e-08,
      "log_odds_chosen": -0.14233054220676422,
      "log_odds_ratio": -0.8427847623825073,
      "logits/chosen": -2.2426674365997314,
      "logits/rejected": -2.2174274921417236,
      "logps/chosen": -0.5756295919418335,
      "logps/rejected": -0.4939804971218109,
      "loss": 1.0628,
      "nll_loss": 0.9542373418807983,
      "rewards/accuracies": 0.48750001192092896,
      "rewards/chosen": -0.05756296589970589,
      "rewards/margins": -0.008164914324879646,
      "rewards/rejected": -0.04939804598689079,
      "step": 1530
    },
    {
      "epoch": 0.9120521172638436,
      "grad_norm": 10.6875,
      "learning_rate": 1.162048149666503e-08,
      "log_odds_chosen": -0.209940105676651,
      "log_odds_ratio": -0.8944632411003113,
      "logits/chosen": -2.2973880767822266,
      "logits/rejected": -2.255645990371704,
      "logps/chosen": -0.6111503839492798,
      "logps/rejected": -0.49909108877182007,
      "loss": 1.0425,
      "nll_loss": 0.9487366676330566,
      "rewards/accuracies": 0.42500001192092896,
      "rewards/chosen": -0.061115045100450516,
      "rewards/margins": -0.011205929331481457,
      "rewards/rejected": -0.049909114837646484,
      "step": 1540
    },
    {
      "epoch": 0.9179745336097128,
      "grad_norm": 9.8125,
      "learning_rate": 1.0113518138794047e-08,
      "log_odds_chosen": -0.25878992676734924,
      "log_odds_ratio": -0.899122416973114,
      "logits/chosen": -2.2492969036102295,
      "logits/rejected": -2.2273764610290527,
      "logps/chosen": -0.5986303091049194,
      "logps/rejected": -0.47187572717666626,
      "loss": 1.0612,
      "nll_loss": 0.9412651062011719,
      "rewards/accuracies": 0.40625,
      "rewards/chosen": -0.059863023459911346,
      "rewards/margins": -0.012675456702709198,
      "rewards/rejected": -0.04718757048249245,
      "step": 1550
    },
    {
      "epoch": 0.9238969499555819,
      "grad_norm": 10.375,
      "learning_rate": 8.709161190797565e-09,
      "log_odds_chosen": -0.14045746624469757,
      "log_odds_ratio": -0.8357732892036438,
      "logits/chosen": -2.3169333934783936,
      "logits/rejected": -2.2879374027252197,
      "logps/chosen": -0.5618830919265747,
      "logps/rejected": -0.4810701012611389,
      "loss": 1.031,
      "nll_loss": 0.9191296696662903,
      "rewards/accuracies": 0.4625000059604645,
      "rewards/chosen": -0.05618830770254135,
      "rewards/margins": -0.008081300184130669,
      "rewards/rejected": -0.04810700938105583,
      "step": 1560
    },
    {
      "epoch": 0.929819366301451,
      "grad_norm": 15.3125,
      "learning_rate": 7.408011336897141e-09,
      "log_odds_chosen": -0.323073148727417,
      "log_odds_ratio": -0.9851021766662598,
      "logits/chosen": -2.3374483585357666,
      "logits/rejected": -2.3257203102111816,
      "logps/chosen": -0.7131141424179077,
      "logps/rejected": -0.4996616244316101,
      "loss": 1.0776,
      "nll_loss": 1.01613450050354,
      "rewards/accuracies": 0.4375,
      "rewards/chosen": -0.07131141424179077,
      "rewards/margins": -0.02134525403380394,
      "rewards/rejected": -0.04996616020798683,
      "step": 1570
    },
    {
      "epoch": 0.9357417826473201,
      "grad_norm": 9.5625,
      "learning_rate": 6.210625116645135e-09,
      "log_odds_chosen": -0.32444125413894653,
      "log_odds_ratio": -0.9329547882080078,
      "logits/chosen": -2.342031955718994,
      "logits/rejected": -2.3026318550109863,
      "logps/chosen": -0.6195459365844727,
      "logps/rejected": -0.45777615904808044,
      "loss": 1.0033,
      "nll_loss": 0.8760407567024231,
      "rewards/accuracies": 0.38749998807907104,
      "rewards/chosen": -0.061954595148563385,
      "rewards/margins": -0.0161769799888134,
      "rewards/rejected": -0.04577761888504028,
      "step": 1580
    },
    {
      "epoch": 0.9416641989931892,
      "grad_norm": 10.625,
      "learning_rate": 5.117514686876378e-09,
      "log_odds_chosen": -0.20949645340442657,
      "log_odds_ratio": -0.8756229281425476,
      "logits/chosen": -2.30104398727417,
      "logits/rejected": -2.2671799659729004,
      "logps/chosen": -0.5797516703605652,
      "logps/rejected": -0.4763546586036682,
      "loss": 1.0455,
      "nll_loss": 0.9568120837211609,
      "rewards/accuracies": 0.4312500059604645,
      "rewards/chosen": -0.057975172996520996,
      "rewards/margins": -0.010339704342186451,
      "rewards/rejected": -0.04763546586036682,
      "step": 1590
    },
    {
      "epoch": 0.9475866153390583,
      "grad_norm": 10.0,
      "learning_rate": 4.1291476026441565e-09,
      "log_odds_chosen": -0.14046767354011536,
      "log_odds_ratio": -0.8268812894821167,
      "logits/chosen": -2.2659006118774414,
      "logits/rejected": -2.245576858520508,
      "logps/chosen": -0.5697029829025269,
      "logps/rejected": -0.4846652150154114,
      "loss": 0.9915,
      "nll_loss": 0.8766274452209473,
      "rewards/accuracies": 0.5,
      "rewards/chosen": -0.056970298290252686,
      "rewards/margins": -0.00850378442555666,
      "rewards/rejected": -0.0484665185213089,
      "step": 1600
    },
    {
      "epoch": 0.9535090316849274,
      "grad_norm": 9.8125,
      "learning_rate": 3.2459466172331253e-09,
      "log_odds_chosen": -0.25180304050445557,
      "log_odds_ratio": -0.9306501150131226,
      "logits/chosen": -2.274780035018921,
      "logits/rejected": -2.255272626876831,
      "logps/chosen": -0.6529628038406372,
      "logps/rejected": -0.48409169912338257,
      "loss": 1.0873,
      "nll_loss": 0.9862693548202515,
      "rewards/accuracies": 0.40625,
      "rewards/chosen": -0.06529629230499268,
      "rewards/margins": -0.016887117177248,
      "rewards/rejected": -0.048409171402454376,
      "step": 1610
    },
    {
      "epoch": 0.9594314480307966,
      "grad_norm": 13.125,
      "learning_rate": 2.4682895013354854e-09,
      "log_odds_chosen": -0.230398491024971,
      "log_odds_ratio": -0.8930587768554688,
      "logits/chosen": -2.2783544063568115,
      "logits/rejected": -2.2587246894836426,
      "logps/chosen": -0.6128379702568054,
      "logps/rejected": -0.46944743394851685,
      "loss": 1.0177,
      "nll_loss": 0.9610903859138489,
      "rewards/accuracies": 0.4749999940395355,
      "rewards/chosen": -0.06128380447626114,
      "rewards/margins": -0.014339059591293335,
      "rewards/rejected": -0.0469447486102581,
      "step": 1620
    },
    {
      "epoch": 0.9653538643766657,
      "grad_norm": 25.0,
      "learning_rate": 1.7965088814675677e-09,
      "log_odds_chosen": -0.3568347692489624,
      "log_odds_ratio": -0.9671844244003296,
      "logits/chosen": -2.2762491703033447,
      "logits/rejected": -2.2589855194091797,
      "logps/chosen": -0.6517866253852844,
      "logps/rejected": -0.4649588167667389,
      "loss": 1.037,
      "nll_loss": 0.9754410982131958,
      "rewards/accuracies": 0.34375,
      "rewards/chosen": -0.06517866253852844,
      "rewards/margins": -0.018682777881622314,
      "rewards/rejected": -0.04649588465690613,
      "step": 1630
    },
    {
      "epoch": 0.9712762807225348,
      "grad_norm": 10.8125,
      "learning_rate": 1.2308920976958348e-09,
      "log_odds_chosen": -0.1785418540239334,
      "log_odds_ratio": -0.8583124876022339,
      "logits/chosen": -2.2591869831085205,
      "logits/rejected": -2.2376914024353027,
      "logps/chosen": -0.5955510139465332,
      "logps/rejected": -0.4926881790161133,
      "loss": 1.0026,
      "nll_loss": 0.9147430658340454,
      "rewards/accuracies": 0.48750001192092896,
      "rewards/chosen": -0.05955510213971138,
      "rewards/margins": -0.010286283679306507,
      "rewards/rejected": -0.04926881566643715,
      "step": 1640
    },
    {
      "epoch": 0.9771986970684039,
      "grad_norm": 11.9375,
      "learning_rate": 7.716810807330276e-10,
      "log_odds_chosen": -0.30667099356651306,
      "log_odds_ratio": -0.9143903851509094,
      "logits/chosen": -2.2759385108947754,
      "logits/rejected": -2.2378878593444824,
      "logps/chosen": -0.6037041544914246,
      "logps/rejected": -0.45009493827819824,
      "loss": 1.0344,
      "nll_loss": 0.93921959400177,
      "rewards/accuracies": 0.35624998807907104,
      "rewards/chosen": -0.06037042289972305,
      "rewards/margins": -0.015360923483967781,
      "rewards/rejected": -0.045009493827819824,
      "step": 1650
    },
    {
      "epoch": 0.983121113414273,
      "grad_norm": 17.25,
      "learning_rate": 4.190722484575804e-10,
      "log_odds_chosen": -0.24070534110069275,
      "log_odds_ratio": -0.9141713976860046,
      "logits/chosen": -2.285658597946167,
      "logits/rejected": -2.2573189735412598,
      "logps/chosen": -0.6545957326889038,
      "logps/rejected": -0.4952670931816101,
      "loss": 1.0545,
      "nll_loss": 0.9895190000534058,
      "rewards/accuracies": 0.4437499940395355,
      "rewards/chosen": -0.06545957177877426,
      "rewards/margins": -0.01593286357820034,
      "rewards/rejected": -0.04952671006321907,
      "step": 1660
    },
    {
      "epoch": 0.9890435297601421,
      "grad_norm": 9.1875,
      "learning_rate": 1.732164218998522e-10,
      "log_odds_chosen": -0.2650103271007538,
      "log_odds_ratio": -0.8960719108581543,
      "logits/chosen": -2.2581698894500732,
      "logits/rejected": -2.2162814140319824,
      "logps/chosen": -0.6056646704673767,
      "logps/rejected": -0.4769059717655182,
      "loss": 1.0107,
      "nll_loss": 0.9156764149665833,
      "rewards/accuracies": 0.39375001192092896,
      "rewards/chosen": -0.06056647375226021,
      "rewards/margins": -0.0128758754581213,
      "rewards/rejected": -0.04769059270620346,
      "step": 1670
    },
    {
      "epoch": 0.9949659461060113,
      "grad_norm": 12.0,
      "learning_rate": 3.4218760731730136e-11,
      "log_odds_chosen": -0.21042411029338837,
      "log_odds_ratio": -0.8711256980895996,
      "logits/chosen": -2.333160638809204,
      "logits/rejected": -2.2931103706359863,
      "logps/chosen": -0.5873175859451294,
      "logps/rejected": -0.47885292768478394,
      "loss": 1.066,
      "nll_loss": 0.9840106964111328,
      "rewards/accuracies": 0.40625,
      "rewards/chosen": -0.05873175337910652,
      "rewards/margins": -0.010846461169421673,
      "rewards/rejected": -0.047885291278362274,
      "step": 1680
    },
    {
      "epoch": 0.9997038791827065,
      "step": 1688,
      "total_flos": 0.0,
      "train_loss": 1.076995034918401,
      "train_runtime": 25716.0251,
      "train_samples_per_second": 2.101,
      "train_steps_per_second": 0.066
    }
  ],
  "logging_steps": 10,
  "max_steps": 1688,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}