{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 515,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.001941747572815534,
      "grad_norm": 3.609375,
      "learning_rate": 9.615384615384616e-06,
      "loss": 2.3729,
      "step": 1
    },
    {
      "epoch": 0.009708737864077669,
      "grad_norm": 2.46875,
      "learning_rate": 4.8076923076923084e-05,
      "loss": 2.3171,
      "step": 5
    },
    {
      "epoch": 0.019417475728155338,
      "grad_norm": 0.78515625,
      "learning_rate": 9.615384615384617e-05,
      "loss": 2.2711,
      "step": 10
    },
    {
      "epoch": 0.02912621359223301,
      "grad_norm": 0.275390625,
      "learning_rate": 0.00014423076923076922,
      "loss": 2.2366,
      "step": 15
    },
    {
      "epoch": 0.038834951456310676,
      "grad_norm": 0.197265625,
      "learning_rate": 0.00019230769230769233,
      "loss": 2.2146,
      "step": 20
    },
    {
      "epoch": 0.04854368932038835,
      "grad_norm": 0.1416015625,
      "learning_rate": 0.0002403846153846154,
      "loss": 2.1994,
      "step": 25
    },
    {
      "epoch": 0.05825242718446602,
      "grad_norm": 0.1328125,
      "learning_rate": 0.00028846153846153843,
      "loss": 2.2018,
      "step": 30
    },
    {
      "epoch": 0.06796116504854369,
      "grad_norm": 0.1494140625,
      "learning_rate": 0.0003365384615384616,
      "loss": 2.1943,
      "step": 35
    },
    {
      "epoch": 0.07766990291262135,
      "grad_norm": 0.169921875,
      "learning_rate": 0.00038461538461538467,
      "loss": 2.1902,
      "step": 40
    },
    {
      "epoch": 0.08737864077669903,
      "grad_norm": 0.15234375,
      "learning_rate": 0.0004326923076923077,
      "loss": 2.2088,
      "step": 45
    },
    {
      "epoch": 0.0970873786407767,
      "grad_norm": 0.1552734375,
      "learning_rate": 0.0004807692307692308,
      "loss": 2.1983,
      "step": 50
    },
    {
      "epoch": 0.10679611650485436,
      "grad_norm": 0.1484375,
      "learning_rate": 0.0004999482064964746,
      "loss": 2.2076,
      "step": 55
    },
    {
      "epoch": 0.11650485436893204,
      "grad_norm": 0.185546875,
      "learning_rate": 0.0004996317683554251,
      "loss": 2.2053,
      "step": 60
    },
    {
      "epoch": 0.1262135922330097,
      "grad_norm": 0.150390625,
      "learning_rate": 0.000499028029987775,
      "loss": 2.2016,
      "step": 65
    },
    {
      "epoch": 0.13592233009708737,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0004981376862336517,
      "loss": 2.2158,
      "step": 70
    },
    {
      "epoch": 0.14563106796116504,
      "grad_norm": 0.119140625,
      "learning_rate": 0.0004969617617862023,
      "loss": 2.2016,
      "step": 75
    },
    {
      "epoch": 0.1553398058252427,
      "grad_norm": 0.13671875,
      "learning_rate": 0.0004955016100122779,
      "loss": 2.2067,
      "step": 80
    },
    {
      "epoch": 0.1650485436893204,
      "grad_norm": 0.142578125,
      "learning_rate": 0.0004937589113948485,
      "loss": 2.2008,
      "step": 85
    },
    {
      "epoch": 0.17475728155339806,
      "grad_norm": 0.11767578125,
      "learning_rate": 0.0004917356715989421,
      "loss": 2.1852,
      "step": 90
    },
    {
      "epoch": 0.18446601941747573,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0004894342191633327,
      "loss": 2.2005,
      "step": 95
    },
    {
      "epoch": 0.1941747572815534,
      "grad_norm": 0.1279296875,
      "learning_rate": 0.0004868572028206342,
      "loss": 2.2165,
      "step": 100
    },
    {
      "epoch": 0.20388349514563106,
      "grad_norm": 0.1220703125,
      "learning_rate": 0.0004840075884488837,
      "loss": 2.1886,
      "step": 105
    },
    {
      "epoch": 0.21359223300970873,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.00048088865565812524,
      "loss": 2.1966,
      "step": 110
    },
    {
      "epoch": 0.22330097087378642,
      "grad_norm": 0.158203125,
      "learning_rate": 0.00047750399401591813,
      "loss": 2.2147,
      "step": 115
    },
    {
      "epoch": 0.23300970873786409,
      "grad_norm": 0.12109375,
      "learning_rate": 0.00047385749891611887,
      "loss": 2.1936,
      "step": 120
    },
    {
      "epoch": 0.24271844660194175,
      "grad_norm": 0.11865234375,
      "learning_rate": 0.0004699533670956866,
      "loss": 2.1909,
      "step": 125
    },
    {
      "epoch": 0.2524271844660194,
      "grad_norm": 0.1142578125,
      "learning_rate": 0.0004657960918046755,
      "loss": 2.2093,
      "step": 130
    },
    {
      "epoch": 0.2621359223300971,
      "grad_norm": 0.1103515625,
      "learning_rate": 0.0004613904576349709,
      "loss": 2.197,
      "step": 135
    },
    {
      "epoch": 0.27184466019417475,
      "grad_norm": 0.10791015625,
      "learning_rate": 0.0004567415350137206,
      "loss": 2.1915,
      "step": 140
    },
    {
      "epoch": 0.2815533980582524,
      "grad_norm": 0.11328125,
      "learning_rate": 0.0004518546743678008,
      "loss": 2.1935,
      "step": 145
    },
    {
      "epoch": 0.2912621359223301,
      "grad_norm": 0.09716796875,
      "learning_rate": 0.00044673549996603024,
      "loss": 2.19,
      "step": 150
    },
    {
      "epoch": 0.30097087378640774,
      "grad_norm": 0.11181640625,
      "learning_rate": 0.0004413899034462214,
      "loss": 2.1942,
      "step": 155
    },
    {
      "epoch": 0.3106796116504854,
      "grad_norm": 0.1181640625,
      "learning_rate": 0.00043582403703451767,
      "loss": 2.2023,
      "step": 160
    },
    {
      "epoch": 0.32038834951456313,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.00043004430646481975,
      "loss": 2.204,
      "step": 165
    },
    {
      "epoch": 0.3300970873786408,
      "grad_norm": 0.09765625,
      "learning_rate": 0.00042405736360645244,
      "loss": 2.1893,
      "step": 170
    },
    {
      "epoch": 0.33980582524271846,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0004178700988085534,
      "loss": 2.1911,
      "step": 175
    },
    {
      "epoch": 0.34951456310679613,
      "grad_norm": 0.10595703125,
      "learning_rate": 0.00041148963296999783,
      "loss": 2.2023,
      "step": 180
    },
    {
      "epoch": 0.3592233009708738,
      "grad_norm": 0.12109375,
      "learning_rate": 0.00040492330934398344,
      "loss": 2.2006,
      "step": 185
    },
    {
      "epoch": 0.36893203883495146,
      "grad_norm": 0.115234375,
      "learning_rate": 0.0003981786850867092,
      "loss": 2.2002,
      "step": 190
    },
    {
      "epoch": 0.3786407766990291,
      "grad_norm": 0.1083984375,
      "learning_rate": 0.00039126352255987383,
      "loss": 2.1838,
      "step": 195
    },
    {
      "epoch": 0.3883495145631068,
      "grad_norm": 0.1025390625,
      "learning_rate": 0.0003841857803970039,
      "loss": 2.1909,
      "step": 200
    },
    {
      "epoch": 0.39805825242718446,
      "grad_norm": 0.09375,
      "learning_rate": 0.0003769536043438938,
      "loss": 2.1966,
      "step": 205
    },
    {
      "epoch": 0.4077669902912621,
      "grad_norm": 0.0966796875,
      "learning_rate": 0.00036957531788369856,
      "loss": 2.1933,
      "step": 210
    },
    {
      "epoch": 0.4174757281553398,
      "grad_norm": 0.09228515625,
      "learning_rate": 0.00036205941265746974,
      "loss": 2.196,
      "step": 215
    },
    {
      "epoch": 0.42718446601941745,
      "grad_norm": 0.1162109375,
      "learning_rate": 0.0003544145386911588,
      "loss": 2.1847,
      "step": 220
    },
    {
      "epoch": 0.4368932038834951,
      "grad_norm": 0.10205078125,
      "learning_rate": 0.0003466494944403364,
      "loss": 2.1818,
      "step": 225
    },
    {
      "epoch": 0.44660194174757284,
      "grad_norm": 0.08935546875,
      "learning_rate": 0.00033877321666408365,
      "loss": 2.2008,
      "step": 230
    },
    {
      "epoch": 0.4563106796116505,
      "grad_norm": 0.0888671875,
      "learning_rate": 0.0003307947701397117,
      "loss": 2.2001,
      "step": 235
    },
    {
      "epoch": 0.46601941747572817,
      "grad_norm": 0.08154296875,
      "learning_rate": 0.00032272333723014433,
      "loss": 2.2048,
      "step": 240
    },
    {
      "epoch": 0.47572815533980584,
      "grad_norm": 0.09521484375,
      "learning_rate": 0.0003145682073159728,
      "loss": 2.1806,
      "step": 245
    },
    {
      "epoch": 0.4854368932038835,
      "grad_norm": 0.08349609375,
      "learning_rate": 0.00030633876610434383,
      "loss": 2.1876,
      "step": 250
    },
    {
      "epoch": 0.49514563106796117,
      "grad_norm": 0.095703125,
      "learning_rate": 0.0002980444848269859,
      "loss": 2.1802,
      "step": 255
    },
    {
      "epoch": 0.5048543689320388,
      "grad_norm": 0.09375,
      "learning_rate": 0.00028969490933980594,
      "loss": 2.1799,
      "step": 260
    },
    {
      "epoch": 0.5145631067961165,
      "grad_norm": 0.0869140625,
      "learning_rate": 0.00028129964913660053,
      "loss": 2.1817,
      "step": 265
    },
    {
      "epoch": 0.5242718446601942,
      "grad_norm": 0.08984375,
      "learning_rate": 0.00027286836628952774,
      "loss": 2.1861,
      "step": 270
    },
    {
      "epoch": 0.5339805825242718,
      "grad_norm": 0.08740234375,
      "learning_rate": 0.0002644107643290653,
      "loss": 2.1931,
      "step": 275
    },
    {
      "epoch": 0.5436893203883495,
      "grad_norm": 0.0888671875,
      "learning_rate": 0.0002559365770762561,
      "loss": 2.1811,
      "step": 280
    },
    {
      "epoch": 0.5533980582524272,
      "grad_norm": 0.08154296875,
      "learning_rate": 0.00024745555744009094,
      "loss": 2.1831,
      "step": 285
    },
    {
      "epoch": 0.5631067961165048,
      "grad_norm": 0.0830078125,
      "learning_rate": 0.00023897746619292378,
      "loss": 2.1868,
      "step": 290
    },
    {
      "epoch": 0.5728155339805825,
      "grad_norm": 0.078125,
      "learning_rate": 0.00023051206073683756,
      "loss": 2.1955,
      "step": 295
    },
    {
      "epoch": 0.5825242718446602,
      "grad_norm": 0.078125,
      "learning_rate": 0.00022206908387388736,
      "loss": 2.1679,
      "step": 300
    },
    {
      "epoch": 0.5922330097087378,
      "grad_norm": 0.078125,
      "learning_rate": 0.00021365825259314842,
      "loss": 2.1897,
      "step": 305
    },
    {
      "epoch": 0.6019417475728155,
      "grad_norm": 0.080078125,
      "learning_rate": 0.0002052892468874709,
      "loss": 2.1895,
      "step": 310
    },
    {
      "epoch": 0.6116504854368932,
      "grad_norm": 0.07958984375,
      "learning_rate": 0.00019697169861281402,
      "loss": 2.1814,
      "step": 315
    },
    {
      "epoch": 0.6213592233009708,
      "grad_norm": 0.08056640625,
      "learning_rate": 0.0001887151804029809,
      "loss": 2.1862,
      "step": 320
    },
    {
      "epoch": 0.6310679611650486,
      "grad_norm": 0.08056640625,
      "learning_rate": 0.00018052919465251144,
      "loss": 2.1847,
      "step": 325
    },
    {
      "epoch": 0.6407766990291263,
      "grad_norm": 0.0810546875,
      "learning_rate": 0.0001724231625804139,
      "loss": 2.1774,
      "step": 330
    },
    {
      "epoch": 0.6504854368932039,
      "grad_norm": 0.0771484375,
      "learning_rate": 0.00016440641338732014,
      "loss": 2.186,
      "step": 335
    },
    {
      "epoch": 0.6601941747572816,
      "grad_norm": 0.072265625,
      "learning_rate": 0.0001564881735185462,
      "loss": 2.1823,
      "step": 340
    },
    {
      "epoch": 0.6699029126213593,
      "grad_norm": 0.07568359375,
      "learning_rate": 0.00014867755604541105,
      "loss": 2.1839,
      "step": 345
    },
    {
      "epoch": 0.6796116504854369,
      "grad_norm": 0.078125,
      "learning_rate": 0.00014098355017703952,
      "loss": 2.18,
      "step": 350
    },
    {
      "epoch": 0.6893203883495146,
      "grad_norm": 0.0712890625,
      "learning_rate": 0.00013341501091471608,
      "loss": 2.1822,
      "step": 355
    },
    {
      "epoch": 0.6990291262135923,
      "grad_norm": 0.0703125,
      "learning_rate": 0.00012598064886069882,
      "loss": 2.1836,
      "step": 360
    },
    {
      "epoch": 0.7087378640776699,
      "grad_norm": 0.072265625,
      "learning_rate": 0.00011868902019322117,
      "loss": 2.177,
      "step": 365
    },
    {
      "epoch": 0.7184466019417476,
      "grad_norm": 0.080078125,
      "learning_rate": 0.00011154851681921946,
      "loss": 2.1935,
      "step": 370
    },
    {
      "epoch": 0.7281553398058253,
      "grad_norm": 0.07177734375,
      "learning_rate": 0.00010456735671612092,
      "loss": 2.1803,
      "step": 375
    },
    {
      "epoch": 0.7378640776699029,
      "grad_norm": 0.07080078125,
      "learning_rate": 9.775357447380456e-05,
      "loss": 2.1934,
      "step": 380
    },
    {
      "epoch": 0.7475728155339806,
      "grad_norm": 0.0703125,
      "learning_rate": 9.111501204762368e-05,
      "loss": 2.1648,
      "step": 385
    },
    {
      "epoch": 0.7572815533980582,
      "grad_norm": 0.0703125,
      "learning_rate": 8.465930973313033e-05,
      "loss": 2.179,
      "step": 390
    },
    {
      "epoch": 0.7669902912621359,
      "grad_norm": 0.06884765625,
      "learning_rate": 7.839389737288816e-05,
      "loss": 2.1814,
      "step": 395
    },
    {
      "epoch": 0.7766990291262136,
      "grad_norm": 0.0712890625,
      "learning_rate": 7.232598580549652e-05,
      "loss": 2.1952,
      "step": 400
    },
    {
      "epoch": 0.7864077669902912,
      "grad_norm": 0.0751953125,
      "learning_rate": 6.646255856666383e-05,
      "loss": 2.1915,
      "step": 405
    },
    {
      "epoch": 0.7961165048543689,
      "grad_norm": 0.06787109375,
      "learning_rate": 6.081036385188424e-05,
      "loss": 2.1684,
      "step": 410
    },
    {
      "epoch": 0.8058252427184466,
      "grad_norm": 0.0693359375,
      "learning_rate": 5.5375906749965204e-05,
      "loss": 2.1859,
      "step": 415
    },
    {
      "epoch": 0.8155339805825242,
      "grad_norm": 0.0693359375,
      "learning_rate": 5.0165441756346684e-05,
      "loss": 2.1794,
      "step": 420
    },
    {
      "epoch": 0.8252427184466019,
      "grad_norm": 0.06884765625,
      "learning_rate": 4.51849655748266e-05,
      "loss": 2.1736,
      "step": 425
    },
    {
      "epoch": 0.8349514563106796,
      "grad_norm": 0.0693359375,
      "learning_rate": 4.044021021597769e-05,
      "loss": 2.1814,
      "step": 430
    },
    {
      "epoch": 0.8446601941747572,
      "grad_norm": 0.068359375,
      "learning_rate": 3.593663640019931e-05,
      "loss": 2.1784,
      "step": 435
    },
    {
      "epoch": 0.8543689320388349,
      "grad_norm": 0.06787109375,
      "learning_rate": 3.1679427272995304e-05,
      "loss": 2.1799,
      "step": 440
    },
    {
      "epoch": 0.8640776699029126,
      "grad_norm": 0.0732421875,
      "learning_rate": 2.767348243971235e-05,
      "loss": 2.1816,
      "step": 445
    },
    {
      "epoch": 0.8737864077669902,
      "grad_norm": 0.06787109375,
      "learning_rate": 2.3923412326603306e-05,
      "loss": 2.1771,
      "step": 450
    },
    {
      "epoch": 0.883495145631068,
      "grad_norm": 0.06689453125,
      "learning_rate": 2.043353287470537e-05,
      "loss": 2.1891,
      "step": 455
    },
    {
      "epoch": 0.8932038834951457,
      "grad_norm": 0.06982421875,
      "learning_rate": 1.720786057264087e-05,
      "loss": 2.1902,
      "step": 460
    },
    {
      "epoch": 0.9029126213592233,
      "grad_norm": 0.06884765625,
      "learning_rate": 1.4250107834055725e-05,
      "loss": 2.1847,
      "step": 465
    },
    {
      "epoch": 0.912621359223301,
      "grad_norm": 0.0712890625,
      "learning_rate": 1.1563678725017513e-05,
      "loss": 2.1908,
      "step": 470
    },
    {
      "epoch": 0.9223300970873787,
      "grad_norm": 0.0693359375,
      "learning_rate": 9.151665046288726e-06,
      "loss": 2.1749,
      "step": 475
    },
    {
      "epoch": 0.9320388349514563,
      "grad_norm": 0.06787109375,
      "learning_rate": 7.016842774985821e-06,
      "loss": 2.1803,
      "step": 480
    },
    {
      "epoch": 0.941747572815534,
      "grad_norm": 0.06689453125,
      "learning_rate": 5.161668869717584e-06,
      "loss": 2.1768,
      "step": 485
    },
    {
      "epoch": 0.9514563106796117,
      "grad_norm": 0.06689453125,
      "learning_rate": 3.588278442881232e-06,
      "loss": 2.1837,
      "step": 490
    },
    {
      "epoch": 0.9611650485436893,
      "grad_norm": 0.06982421875,
      "learning_rate": 2.298482303370014e-06,
      "loss": 2.191,
      "step": 495
    },
    {
      "epoch": 0.970873786407767,
      "grad_norm": 0.0673828125,
      "learning_rate": 1.2937648725201422e-06,
      "loss": 2.1863,
      "step": 500
    },
    {
      "epoch": 0.9805825242718447,
      "grad_norm": 0.07177734375,
      "learning_rate": 5.752824756961872e-07,
      "loss": 2.1778,
      "step": 505
    },
    {
      "epoch": 0.9902912621359223,
      "grad_norm": 0.06982421875,
      "learning_rate": 1.4386201148072763e-07,
      "loss": 2.1616,
      "step": 510
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.0703125,
      "learning_rate": 0.0,
      "loss": 2.1791,
      "step": 515
    },
    {
      "epoch": 1.0,
      "eval_loss": 2.1921744346618652,
      "eval_runtime": 61.9863,
      "eval_samples_per_second": 349.868,
      "eval_steps_per_second": 1.371,
      "step": 515
    },
    {
      "epoch": 1.0,
      "step": 515,
      "total_flos": 1.0437742437429412e+19,
      "train_loss": 2.1922937638551288,
      "train_runtime": 5615.6435,
      "train_samples_per_second": 93.871,
      "train_steps_per_second": 0.092
    }
  ],
  "logging_steps": 5,
  "max_steps": 515,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.0437742437429412e+19,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}