{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.0,
  "eval_steps": 8,
  "global_step": 64,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.03,
      "grad_norm": 0.5859375,
      "learning_rate": 2e-05,
      "loss": 3.9295,
      "step": 1
    },
    {
      "epoch": 0.03,
      "eval_loss": 3.907318115234375,
      "eval_runtime": 1.2713,
      "eval_samples_per_second": 11.012,
      "eval_steps_per_second": 5.506,
      "step": 1
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5078125,
      "learning_rate": 4e-05,
      "loss": 3.805,
      "step": 2
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.63671875,
      "learning_rate": 6e-05,
      "loss": 3.8521,
      "step": 3
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.609375,
      "learning_rate": 8e-05,
      "loss": 3.8947,
      "step": 4
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.546875,
      "learning_rate": 0.0001,
      "loss": 3.6494,
      "step": 5
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.50390625,
      "learning_rate": 0.00012,
      "loss": 3.6457,
      "step": 6
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.640625,
      "learning_rate": 0.00014,
      "loss": 3.967,
      "step": 7
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.494140625,
      "learning_rate": 0.00016,
      "loss": 3.5364,
      "step": 8
    },
    {
      "epoch": 0.25,
      "eval_loss": 3.6198840141296387,
      "eval_runtime": 1.2681,
      "eval_samples_per_second": 11.04,
      "eval_steps_per_second": 5.52,
      "step": 8
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.51171875,
      "learning_rate": 0.00018,
      "loss": 3.5216,
      "step": 9
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6171875,
      "learning_rate": 0.0002,
      "loss": 3.677,
      "step": 10
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.734375,
      "learning_rate": 0.00019996456111234527,
      "loss": 3.058,
      "step": 11
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.66796875,
      "learning_rate": 0.0001998582695676762,
      "loss": 3.1333,
      "step": 12
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.8359375,
      "learning_rate": 0.000199681200703075,
      "loss": 3.38,
      "step": 13
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00019943348002101371,
      "loss": 3.1371,
      "step": 14
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.65625,
      "learning_rate": 0.00019911528310040074,
      "loss": 3.1479,
      "step": 15
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.6484375,
      "learning_rate": 0.00019872683547213446,
      "loss": 3.263,
      "step": 16
    },
    {
      "epoch": 0.5,
      "eval_loss": 3.1820719242095947,
      "eval_runtime": 1.2692,
      "eval_samples_per_second": 11.031,
      "eval_steps_per_second": 5.515,
      "step": 16
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.53125,
      "learning_rate": 0.00019826841245925212,
      "loss": 2.9833,
      "step": 17
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5703125,
      "learning_rate": 0.00019774033898178667,
      "loss": 3.0787,
      "step": 18
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.71484375,
      "learning_rate": 0.00019714298932647098,
      "loss": 3.4132,
      "step": 19
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.73046875,
      "learning_rate": 0.0001964767868814516,
      "loss": 2.7304,
      "step": 20
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.55078125,
      "learning_rate": 0.00019574220383620055,
      "loss": 3.0116,
      "step": 21
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6171875,
      "learning_rate": 0.00019493976084683813,
      "loss": 2.9474,
      "step": 22
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.61328125,
      "learning_rate": 0.00019407002666710336,
      "loss": 2.9415,
      "step": 23
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.6328125,
      "learning_rate": 0.00019313361774523385,
      "loss": 2.798,
      "step": 24
    },
    {
      "epoch": 0.75,
      "eval_loss": 2.896176815032959,
      "eval_runtime": 1.2765,
      "eval_samples_per_second": 10.967,
      "eval_steps_per_second": 5.484,
      "step": 24
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.8046875,
      "learning_rate": 0.00019213119778704128,
      "loss": 3.2157,
      "step": 25
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.7109375,
      "learning_rate": 0.00019106347728549135,
      "loss": 3.0666,
      "step": 26
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.59765625,
      "learning_rate": 0.00018993121301712193,
      "loss": 2.8219,
      "step": 27
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.75390625,
      "learning_rate": 0.00018873520750565718,
      "loss": 3.1164,
      "step": 28
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.67578125,
      "learning_rate": 0.00018747630845319612,
      "loss": 2.7154,
      "step": 29
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.625,
      "learning_rate": 0.0001861554081393806,
      "loss": 2.7395,
      "step": 30
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.8125,
      "learning_rate": 0.0001847734427889671,
      "loss": 2.8282,
      "step": 31
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.86328125,
      "learning_rate": 0.0001833313919082515,
      "loss": 2.7787,
      "step": 32
    },
    {
      "epoch": 1.0,
      "eval_loss": 2.67726731300354,
      "eval_runtime": 1.2769,
      "eval_samples_per_second": 10.964,
      "eval_steps_per_second": 5.482,
      "step": 32
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.703125,
      "learning_rate": 0.0001818302775908169,
      "loss": 2.5957,
      "step": 33
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.76953125,
      "learning_rate": 0.00018027116379309638,
      "loss": 2.7011,
      "step": 34
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.84765625,
      "learning_rate": 0.00017865515558026428,
      "loss": 2.6043,
      "step": 35
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.984375,
      "learning_rate": 0.00017698339834299061,
      "loss": 2.8607,
      "step": 36
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.7578125,
      "learning_rate": 0.00017525707698561385,
      "loss": 2.5949,
      "step": 37
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.94921875,
      "learning_rate": 0.00017347741508630672,
      "loss": 2.7476,
      "step": 38
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.88671875,
      "learning_rate": 0.00017164567402983152,
      "loss": 2.7991,
      "step": 39
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.8671875,
      "learning_rate": 0.0001697631521134985,
      "loss": 2.5959,
      "step": 40
    },
    {
      "epoch": 1.25,
      "eval_loss": 2.5505764484405518,
      "eval_runtime": 1.2761,
      "eval_samples_per_second": 10.971,
      "eval_steps_per_second": 5.486,
      "step": 40
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.984375,
      "learning_rate": 0.00016783118362696163,
      "loss": 2.5342,
      "step": 41
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.921875,
      "learning_rate": 0.00016585113790650388,
      "loss": 2.4969,
      "step": 42
    },
    {
      "epoch": 1.34,
      "grad_norm": 1.125,
      "learning_rate": 0.00016382441836448202,
      "loss": 2.5723,
      "step": 43
    },
    {
      "epoch": 1.38,
      "grad_norm": 1.015625,
      "learning_rate": 0.0001617524614946192,
      "loss": 2.6166,
      "step": 44
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.98828125,
      "learning_rate": 0.00015963673585385016,
      "loss": 2.4574,
      "step": 45
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.94921875,
      "learning_rate": 0.0001574787410214407,
      "loss": 2.5074,
      "step": 46
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.953125,
      "learning_rate": 0.00015528000653611935,
      "loss": 2.5394,
      "step": 47
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.828125,
      "learning_rate": 0.00015304209081197425,
      "loss": 2.4793,
      "step": 48
    },
    {
      "epoch": 1.5,
      "eval_loss": 2.495466470718384,
      "eval_runtime": 1.2814,
      "eval_samples_per_second": 10.926,
      "eval_steps_per_second": 5.463,
      "step": 48
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.921875,
      "learning_rate": 0.000150766580033884,
      "loss": 2.2909,
      "step": 49
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.74609375,
      "learning_rate": 0.00014845508703326504,
      "loss": 2.3424,
      "step": 50
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.87890625,
      "learning_rate": 0.0001461092501449326,
      "loss": 2.506,
      "step": 51
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.7890625,
      "learning_rate": 0.00014373073204588556,
      "loss": 2.4829,
      "step": 52
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.984375,
      "learning_rate": 0.00014132121857683783,
      "loss": 2.481,
      "step": 53
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.9296875,
      "learning_rate": 0.00013888241754733208,
      "loss": 2.5512,
      "step": 54
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.7890625,
      "learning_rate": 0.00013641605752528224,
      "loss": 2.5405,
      "step": 55
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.95703125,
      "learning_rate": 0.00013392388661180303,
      "loss": 2.5221,
      "step": 56
    },
    {
      "epoch": 1.75,
      "eval_loss": 2.461298704147339,
      "eval_runtime": 1.28,
      "eval_samples_per_second": 10.937,
      "eval_steps_per_second": 5.469,
      "step": 56
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.98046875,
      "learning_rate": 0.0001314076712021949,
      "loss": 2.5646,
      "step": 57
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.8125,
      "learning_rate": 0.0001288691947339621,
      "loss": 2.5079,
      "step": 58
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.8125,
      "learning_rate": 0.00012631025642275212,
      "loss": 2.4743,
      "step": 59
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.60546875,
      "learning_rate": 0.0001237326699871115,
      "loss": 2.3103,
      "step": 60
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.80859375,
      "learning_rate": 0.00012113826236296244,
      "loss": 2.4229,
      "step": 61
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.671875,
      "learning_rate": 0.00011852887240871145,
      "loss": 2.2709,
      "step": 62
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.8203125,
      "learning_rate": 0.00011590634960190721,
      "loss": 2.4868,
      "step": 63
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.62109375,
      "learning_rate": 0.00011327255272837221,
      "loss": 2.4384,
      "step": 64
    },
    {
      "epoch": 2.0,
      "eval_loss": 2.4055111408233643,
      "eval_runtime": 1.2798,
      "eval_samples_per_second": 10.94,
      "eval_steps_per_second": 5.47,
      "step": 64
    }
  ],
  "logging_steps": 1,
  "max_steps": 128,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 4,
  "save_steps": 32,
  "total_flos": 1.3334662273302528e+16,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}