{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.3115264797507788,
  "eval_steps": 9,
  "global_step": 100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.003115264797507788,
      "grad_norm": 4.00083065032959,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 5.5026,
      "step": 1
    },
    {
      "epoch": 0.003115264797507788,
      "eval_loss": 5.677282810211182,
      "eval_runtime": 45.9153,
      "eval_samples_per_second": 5.88,
      "eval_steps_per_second": 0.74,
      "step": 1
    },
    {
      "epoch": 0.006230529595015576,
      "grad_norm": 4.140980243682861,
      "learning_rate": 4.000000000000001e-06,
      "loss": 5.747,
      "step": 2
    },
    {
      "epoch": 0.009345794392523364,
      "grad_norm": 4.0652031898498535,
      "learning_rate": 6e-06,
      "loss": 5.5192,
      "step": 3
    },
    {
      "epoch": 0.012461059190031152,
      "grad_norm": 3.7280261516571045,
      "learning_rate": 8.000000000000001e-06,
      "loss": 5.3334,
      "step": 4
    },
    {
      "epoch": 0.01557632398753894,
      "grad_norm": 3.834411382675171,
      "learning_rate": 1e-05,
      "loss": 5.8034,
      "step": 5
    },
    {
      "epoch": 0.018691588785046728,
      "grad_norm": 3.5842792987823486,
      "learning_rate": 1.2e-05,
      "loss": 5.2716,
      "step": 6
    },
    {
      "epoch": 0.021806853582554516,
      "grad_norm": 3.702803134918213,
      "learning_rate": 1.4e-05,
      "loss": 5.7297,
      "step": 7
    },
    {
      "epoch": 0.024922118380062305,
      "grad_norm": 3.7036352157592773,
      "learning_rate": 1.6000000000000003e-05,
      "loss": 5.3565,
      "step": 8
    },
    {
      "epoch": 0.028037383177570093,
      "grad_norm": 3.4603376388549805,
      "learning_rate": 1.8e-05,
      "loss": 5.9518,
      "step": 9
    },
    {
      "epoch": 0.028037383177570093,
      "eval_loss": 5.417270660400391,
      "eval_runtime": 45.9139,
      "eval_samples_per_second": 5.881,
      "eval_steps_per_second": 0.741,
      "step": 9
    },
    {
      "epoch": 0.03115264797507788,
      "grad_norm": 3.1059446334838867,
      "learning_rate": 2e-05,
      "loss": 4.8883,
      "step": 10
    },
    {
      "epoch": 0.03426791277258567,
      "grad_norm": 3.3242380619049072,
      "learning_rate": 1.999390827019096e-05,
      "loss": 4.9714,
      "step": 11
    },
    {
      "epoch": 0.037383177570093455,
      "grad_norm": 3.6370017528533936,
      "learning_rate": 1.9975640502598243e-05,
      "loss": 5.1127,
      "step": 12
    },
    {
      "epoch": 0.040498442367601244,
      "grad_norm": 3.3802871704101562,
      "learning_rate": 1.9945218953682736e-05,
      "loss": 4.814,
      "step": 13
    },
    {
      "epoch": 0.04361370716510903,
      "grad_norm": 4.240739822387695,
      "learning_rate": 1.9902680687415704e-05,
      "loss": 5.7632,
      "step": 14
    },
    {
      "epoch": 0.04672897196261682,
      "grad_norm": 2.7655322551727295,
      "learning_rate": 1.9848077530122083e-05,
      "loss": 5.0099,
      "step": 15
    },
    {
      "epoch": 0.04984423676012461,
      "grad_norm": 2.4833970069885254,
      "learning_rate": 1.9781476007338058e-05,
      "loss": 5.2014,
      "step": 16
    },
    {
      "epoch": 0.0529595015576324,
      "grad_norm": 2.1367554664611816,
      "learning_rate": 1.9702957262759964e-05,
      "loss": 4.6566,
      "step": 17
    },
    {
      "epoch": 0.056074766355140186,
      "grad_norm": 2.058732509613037,
      "learning_rate": 1.961261695938319e-05,
      "loss": 4.4737,
      "step": 18
    },
    {
      "epoch": 0.056074766355140186,
      "eval_loss": 4.714500904083252,
      "eval_runtime": 45.9441,
      "eval_samples_per_second": 5.877,
      "eval_steps_per_second": 0.74,
      "step": 18
    },
    {
      "epoch": 0.059190031152647975,
      "grad_norm": 1.9548317193984985,
      "learning_rate": 1.9510565162951538e-05,
      "loss": 4.371,
      "step": 19
    },
    {
      "epoch": 0.06230529595015576,
      "grad_norm": 2.108226776123047,
      "learning_rate": 1.9396926207859085e-05,
      "loss": 4.6301,
      "step": 20
    },
    {
      "epoch": 0.06542056074766354,
      "grad_norm": 2.118396759033203,
      "learning_rate": 1.9271838545667876e-05,
      "loss": 4.4124,
      "step": 21
    },
    {
      "epoch": 0.06853582554517133,
      "grad_norm": 2.110290288925171,
      "learning_rate": 1.913545457642601e-05,
      "loss": 4.3271,
      "step": 22
    },
    {
      "epoch": 0.07165109034267912,
      "grad_norm": 2.0336649417877197,
      "learning_rate": 1.8987940462991673e-05,
      "loss": 4.1092,
      "step": 23
    },
    {
      "epoch": 0.07476635514018691,
      "grad_norm": 2.007972478866577,
      "learning_rate": 1.8829475928589272e-05,
      "loss": 4.2596,
      "step": 24
    },
    {
      "epoch": 0.0778816199376947,
      "grad_norm": 2.276721954345703,
      "learning_rate": 1.866025403784439e-05,
      "loss": 4.5244,
      "step": 25
    },
    {
      "epoch": 0.08099688473520249,
      "grad_norm": 2.4044179916381836,
      "learning_rate": 1.848048096156426e-05,
      "loss": 4.0367,
      "step": 26
    },
    {
      "epoch": 0.08411214953271028,
      "grad_norm": 2.1747782230377197,
      "learning_rate": 1.8290375725550417e-05,
      "loss": 4.5905,
      "step": 27
    },
    {
      "epoch": 0.08411214953271028,
      "eval_loss": 4.369462490081787,
      "eval_runtime": 45.9466,
      "eval_samples_per_second": 5.876,
      "eval_steps_per_second": 0.74,
      "step": 27
    },
    {
      "epoch": 0.08722741433021806,
      "grad_norm": 2.0604915618896484,
      "learning_rate": 1.8090169943749477e-05,
      "loss": 4.4159,
      "step": 28
    },
    {
      "epoch": 0.09034267912772585,
      "grad_norm": 2.1325149536132812,
      "learning_rate": 1.788010753606722e-05,
      "loss": 4.6286,
      "step": 29
    },
    {
      "epoch": 0.09345794392523364,
      "grad_norm": 2.133589267730713,
      "learning_rate": 1.766044443118978e-05,
      "loss": 4.5138,
      "step": 30
    },
    {
      "epoch": 0.09657320872274143,
      "grad_norm": 2.371980667114258,
      "learning_rate": 1.7431448254773943e-05,
      "loss": 4.069,
      "step": 31
    },
    {
      "epoch": 0.09968847352024922,
      "grad_norm": 2.5183374881744385,
      "learning_rate": 1.7193398003386514e-05,
      "loss": 4.1952,
      "step": 32
    },
    {
      "epoch": 0.102803738317757,
      "grad_norm": 2.222153425216675,
      "learning_rate": 1.6946583704589973e-05,
      "loss": 4.1544,
      "step": 33
    },
    {
      "epoch": 0.1059190031152648,
      "grad_norm": 1.8872462511062622,
      "learning_rate": 1.6691306063588583e-05,
      "loss": 4.2508,
      "step": 34
    },
    {
      "epoch": 0.10903426791277258,
      "grad_norm": 2.1433706283569336,
      "learning_rate": 1.6427876096865394e-05,
      "loss": 3.9943,
      "step": 35
    },
    {
      "epoch": 0.11214953271028037,
      "grad_norm": 2.214696168899536,
      "learning_rate": 1.6156614753256583e-05,
      "loss": 3.8766,
      "step": 36
    },
    {
      "epoch": 0.11214953271028037,
      "eval_loss": 4.1238555908203125,
      "eval_runtime": 45.9332,
      "eval_samples_per_second": 5.878,
      "eval_steps_per_second": 0.74,
      "step": 36
    },
    {
      "epoch": 0.11526479750778816,
      "grad_norm": 2.08701753616333,
      "learning_rate": 1.5877852522924733e-05,
      "loss": 3.6848,
      "step": 37
    },
    {
      "epoch": 0.11838006230529595,
      "grad_norm": 2.1612913608551025,
      "learning_rate": 1.5591929034707468e-05,
      "loss": 3.9874,
      "step": 38
    },
    {
      "epoch": 0.12149532710280374,
      "grad_norm": 1.969313383102417,
      "learning_rate": 1.529919264233205e-05,
      "loss": 3.7933,
      "step": 39
    },
    {
      "epoch": 0.12461059190031153,
      "grad_norm": 2.265026330947876,
      "learning_rate": 1.5000000000000002e-05,
      "loss": 3.8809,
      "step": 40
    },
    {
      "epoch": 0.1277258566978193,
      "grad_norm": 1.998947024345398,
      "learning_rate": 1.469471562785891e-05,
      "loss": 4.3715,
      "step": 41
    },
    {
      "epoch": 0.1308411214953271,
      "grad_norm": 2.075737237930298,
      "learning_rate": 1.4383711467890776e-05,
      "loss": 4.0733,
      "step": 42
    },
    {
      "epoch": 0.13395638629283488,
      "grad_norm": 2.1529550552368164,
      "learning_rate": 1.4067366430758004e-05,
      "loss": 3.9267,
      "step": 43
    },
    {
      "epoch": 0.13707165109034267,
      "grad_norm": 2.610626697540283,
      "learning_rate": 1.3746065934159123e-05,
      "loss": 3.9149,
      "step": 44
    },
    {
      "epoch": 0.14018691588785046,
      "grad_norm": 1.7171099185943604,
      "learning_rate": 1.342020143325669e-05,
      "loss": 3.4413,
      "step": 45
    },
    {
      "epoch": 0.14018691588785046,
      "eval_loss": 3.9922096729278564,
      "eval_runtime": 45.9157,
      "eval_samples_per_second": 5.88,
      "eval_steps_per_second": 0.74,
      "step": 45
    },
    {
      "epoch": 0.14330218068535824,
      "grad_norm": 2.0961945056915283,
      "learning_rate": 1.3090169943749475e-05,
      "loss": 3.8928,
      "step": 46
    },
    {
      "epoch": 0.14641744548286603,
      "grad_norm": 2.0197858810424805,
      "learning_rate": 1.2756373558169992e-05,
      "loss": 4.0384,
      "step": 47
    },
    {
      "epoch": 0.14953271028037382,
      "grad_norm": 1.8417226076126099,
      "learning_rate": 1.2419218955996677e-05,
      "loss": 3.7854,
      "step": 48
    },
    {
      "epoch": 0.1526479750778816,
      "grad_norm": 2.5141849517822266,
      "learning_rate": 1.2079116908177592e-05,
      "loss": 4.3456,
      "step": 49
    },
    {
      "epoch": 0.1557632398753894,
      "grad_norm": 1.8639802932739258,
      "learning_rate": 1.1736481776669307e-05,
      "loss": 4.0546,
      "step": 50
    },
    {
      "epoch": 0.1588785046728972,
      "grad_norm": 1.8827894926071167,
      "learning_rate": 1.1391731009600655e-05,
      "loss": 3.8232,
      "step": 51
    },
    {
      "epoch": 0.16199376947040497,
      "grad_norm": 1.9022295475006104,
      "learning_rate": 1.1045284632676535e-05,
      "loss": 3.7219,
      "step": 52
    },
    {
      "epoch": 0.16510903426791276,
      "grad_norm": 2.113699197769165,
      "learning_rate": 1.0697564737441254e-05,
      "loss": 4.1462,
      "step": 53
    },
    {
      "epoch": 0.16822429906542055,
      "grad_norm": 2.1133320331573486,
      "learning_rate": 1.0348994967025012e-05,
      "loss": 3.9298,
      "step": 54
    },
    {
      "epoch": 0.16822429906542055,
      "eval_loss": 3.9213767051696777,
      "eval_runtime": 45.9338,
      "eval_samples_per_second": 5.878,
      "eval_steps_per_second": 0.74,
      "step": 54
    },
    {
      "epoch": 0.17133956386292834,
      "grad_norm": 2.0766053199768066,
      "learning_rate": 1e-05,
      "loss": 4.0986,
      "step": 55
    },
    {
      "epoch": 0.17445482866043613,
      "grad_norm": 2.0184402465820312,
      "learning_rate": 9.651005032974994e-06,
      "loss": 3.708,
      "step": 56
    },
    {
      "epoch": 0.17757009345794392,
      "grad_norm": 1.831142544746399,
      "learning_rate": 9.302435262558748e-06,
      "loss": 3.7649,
      "step": 57
    },
    {
      "epoch": 0.1806853582554517,
      "grad_norm": 1.9231399297714233,
      "learning_rate": 8.954715367323468e-06,
      "loss": 3.9289,
      "step": 58
    },
    {
      "epoch": 0.1838006230529595,
      "grad_norm": 2.5253939628601074,
      "learning_rate": 8.60826899039935e-06,
      "loss": 3.7854,
      "step": 59
    },
    {
      "epoch": 0.18691588785046728,
      "grad_norm": 1.798954725265503,
      "learning_rate": 8.263518223330698e-06,
      "loss": 3.7117,
      "step": 60
    },
    {
      "epoch": 0.19003115264797507,
      "grad_norm": 2.167482376098633,
      "learning_rate": 7.92088309182241e-06,
      "loss": 3.5013,
      "step": 61
    },
    {
      "epoch": 0.19314641744548286,
      "grad_norm": 2.2360665798187256,
      "learning_rate": 7.580781044003324e-06,
      "loss": 4.0561,
      "step": 62
    },
    {
      "epoch": 0.19626168224299065,
      "grad_norm": 2.088277578353882,
      "learning_rate": 7.243626441830009e-06,
      "loss": 3.8424,
      "step": 63
    },
    {
      "epoch": 0.19626168224299065,
      "eval_loss": 3.8768184185028076,
      "eval_runtime": 45.9404,
      "eval_samples_per_second": 5.877,
      "eval_steps_per_second": 0.74,
      "step": 63
    },
    {
      "epoch": 0.19937694704049844,
      "grad_norm": 2.0298848152160645,
      "learning_rate": 6.909830056250527e-06,
      "loss": 4.0134,
      "step": 64
    },
    {
      "epoch": 0.20249221183800623,
      "grad_norm": 2.096494197845459,
      "learning_rate": 6.579798566743314e-06,
      "loss": 3.707,
      "step": 65
    },
    {
      "epoch": 0.205607476635514,
      "grad_norm": 2.1242690086364746,
      "learning_rate": 6.25393406584088e-06,
      "loss": 4.0045,
      "step": 66
    },
    {
      "epoch": 0.2087227414330218,
      "grad_norm": 2.137618064880371,
      "learning_rate": 5.932633569242e-06,
      "loss": 3.6332,
      "step": 67
    },
    {
      "epoch": 0.2118380062305296,
      "grad_norm": 2.9958248138427734,
      "learning_rate": 5.616288532109225e-06,
      "loss": 3.9235,
      "step": 68
    },
    {
      "epoch": 0.21495327102803738,
      "grad_norm": 2.5758209228515625,
      "learning_rate": 5.305284372141095e-06,
      "loss": 3.6186,
      "step": 69
    },
    {
      "epoch": 0.21806853582554517,
      "grad_norm": 2.161961078643799,
      "learning_rate": 5.000000000000003e-06,
      "loss": 3.5133,
      "step": 70
    },
    {
      "epoch": 0.22118380062305296,
      "grad_norm": 2.051959991455078,
      "learning_rate": 4.700807357667953e-06,
      "loss": 3.3144,
      "step": 71
    },
    {
      "epoch": 0.22429906542056074,
      "grad_norm": 2.1950931549072266,
      "learning_rate": 4.408070965292534e-06,
      "loss": 3.8283,
      "step": 72
    },
    {
      "epoch": 0.22429906542056074,
      "eval_loss": 3.8490822315216064,
      "eval_runtime": 45.9366,
      "eval_samples_per_second": 5.878,
      "eval_steps_per_second": 0.74,
      "step": 72
    },
    {
      "epoch": 0.22741433021806853,
      "grad_norm": 2.4982614517211914,
      "learning_rate": 4.12214747707527e-06,
      "loss": 3.8381,
      "step": 73
    },
    {
      "epoch": 0.23052959501557632,
      "grad_norm": 2.576868772506714,
      "learning_rate": 3.8433852467434175e-06,
      "loss": 3.8345,
      "step": 74
    },
    {
      "epoch": 0.2336448598130841,
      "grad_norm": 2.1777570247650146,
      "learning_rate": 3.5721239031346067e-06,
      "loss": 3.9235,
      "step": 75
    },
    {
      "epoch": 0.2367601246105919,
      "grad_norm": 2.258725881576538,
      "learning_rate": 3.308693936411421e-06,
      "loss": 3.6753,
      "step": 76
    },
    {
      "epoch": 0.2398753894080997,
      "grad_norm": 2.241974115371704,
      "learning_rate": 3.0534162954100264e-06,
      "loss": 4.0015,
      "step": 77
    },
    {
      "epoch": 0.24299065420560748,
      "grad_norm": 2.302107334136963,
      "learning_rate": 2.8066019966134907e-06,
      "loss": 4.2,
      "step": 78
    },
    {
      "epoch": 0.24610591900311526,
      "grad_norm": 2.2129664421081543,
      "learning_rate": 2.5685517452260566e-06,
      "loss": 3.6274,
      "step": 79
    },
    {
      "epoch": 0.24922118380062305,
      "grad_norm": 2.5848774909973145,
      "learning_rate": 2.339555568810221e-06,
      "loss": 3.7978,
      "step": 80
    },
    {
      "epoch": 0.2523364485981308,
      "grad_norm": 1.9426614046096802,
      "learning_rate": 2.119892463932781e-06,
      "loss": 3.7625,
      "step": 81
    },
    {
      "epoch": 0.2523364485981308,
      "eval_loss": 3.8329532146453857,
      "eval_runtime": 45.9606,
      "eval_samples_per_second": 5.875,
      "eval_steps_per_second": 0.74,
      "step": 81
    },
    {
      "epoch": 0.2554517133956386,
      "grad_norm": 2.2936878204345703,
      "learning_rate": 1.9098300562505266e-06,
      "loss": 3.6689,
      "step": 82
    },
    {
      "epoch": 0.2585669781931464,
      "grad_norm": 2.0766758918762207,
      "learning_rate": 1.709624274449584e-06,
      "loss": 3.7895,
      "step": 83
    },
    {
      "epoch": 0.2616822429906542,
      "grad_norm": 2.2929537296295166,
      "learning_rate": 1.5195190384357405e-06,
      "loss": 4.0578,
      "step": 84
    },
    {
      "epoch": 0.26479750778816197,
      "grad_norm": 2.3588943481445312,
      "learning_rate": 1.339745962155613e-06,
      "loss": 3.9087,
      "step": 85
    },
    {
      "epoch": 0.26791277258566976,
      "grad_norm": 2.206916332244873,
      "learning_rate": 1.1705240714107301e-06,
      "loss": 3.4905,
      "step": 86
    },
    {
      "epoch": 0.27102803738317754,
      "grad_norm": 2.3212130069732666,
      "learning_rate": 1.012059537008332e-06,
      "loss": 3.9781,
      "step": 87
    },
    {
      "epoch": 0.27414330218068533,
      "grad_norm": 2.2561655044555664,
      "learning_rate": 8.645454235739903e-07,
      "loss": 4.2637,
      "step": 88
    },
    {
      "epoch": 0.2772585669781931,
      "grad_norm": 1.8130618333816528,
      "learning_rate": 7.281614543321269e-07,
      "loss": 3.9229,
      "step": 89
    },
    {
      "epoch": 0.2803738317757009,
      "grad_norm": 2.447219133377075,
      "learning_rate": 6.030737921409169e-07,
      "loss": 3.7588,
      "step": 90
    },
    {
      "epoch": 0.2803738317757009,
      "eval_loss": 3.8269753456115723,
      "eval_runtime": 45.9526,
      "eval_samples_per_second": 5.876,
      "eval_steps_per_second": 0.74,
      "step": 90
    },
    {
      "epoch": 0.2834890965732087,
      "grad_norm": 2.592892646789551,
      "learning_rate": 4.894348370484648e-07,
      "loss": 3.6204,
      "step": 91
    },
    {
      "epoch": 0.2866043613707165,
      "grad_norm": 2.100886583328247,
      "learning_rate": 3.8738304061681107e-07,
      "loss": 3.7326,
      "step": 92
    },
    {
      "epoch": 0.2897196261682243,
      "grad_norm": 2.104876756668091,
      "learning_rate": 2.970427372400353e-07,
      "loss": 3.8676,
      "step": 93
    },
    {
      "epoch": 0.29283489096573206,
      "grad_norm": 2.2233452796936035,
      "learning_rate": 2.1852399266194312e-07,
      "loss": 3.9545,
      "step": 94
    },
    {
      "epoch": 0.29595015576323985,
      "grad_norm": 2.0933141708374023,
      "learning_rate": 1.519224698779198e-07,
      "loss": 3.9269,
      "step": 95
    },
    {
      "epoch": 0.29906542056074764,
      "grad_norm": 2.0308425426483154,
      "learning_rate": 9.731931258429638e-08,
      "loss": 3.385,
      "step": 96
    },
    {
      "epoch": 0.30218068535825543,
      "grad_norm": 2.177314519882202,
      "learning_rate": 5.4781046317267103e-08,
      "loss": 3.4789,
      "step": 97
    },
    {
      "epoch": 0.3052959501557632,
      "grad_norm": 2.3775551319122314,
      "learning_rate": 2.4359497401758026e-08,
      "loss": 3.9702,
      "step": 98
    },
    {
      "epoch": 0.308411214953271,
      "grad_norm": 2.284379720687866,
      "learning_rate": 6.091729809042379e-09,
      "loss": 3.7161,
      "step": 99
    },
    {
      "epoch": 0.308411214953271,
      "eval_loss": 3.825807809829712,
      "eval_runtime": 45.9358,
      "eval_samples_per_second": 5.878,
      "eval_steps_per_second": 0.74,
      "step": 99
    },
    {
      "epoch": 0.3115264797507788,
      "grad_norm": 2.239882230758667,
      "learning_rate": 0.0,
      "loss": 3.9464,
      "step": 100
    }
  ],
  "logging_steps": 1,
  "max_steps": 100,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 25,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 8.23612542025728e+16,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}