{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.8089887640449438,
  "eval_steps": 5,
  "global_step": 45,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.017977528089887642,
      "eval_loss": 11.93013858795166,
      "eval_runtime": 0.9844,
      "eval_samples_per_second": 95.493,
      "eval_steps_per_second": 24.381,
      "step": 1
    },
    {
      "epoch": 0.05393258426966292,
      "grad_norm": 0.15690268576145172,
      "learning_rate": 3e-05,
      "loss": 11.9306,
      "step": 3
    },
    {
      "epoch": 0.0898876404494382,
      "eval_loss": 11.929566383361816,
      "eval_runtime": 0.9816,
      "eval_samples_per_second": 95.766,
      "eval_steps_per_second": 24.451,
      "step": 5
    },
    {
      "epoch": 0.10786516853932585,
      "grad_norm": 0.1660546213388443,
      "learning_rate": 6e-05,
      "loss": 11.9306,
      "step": 6
    },
    {
      "epoch": 0.16179775280898875,
      "grad_norm": 0.18455131351947784,
      "learning_rate": 9e-05,
      "loss": 11.9286,
      "step": 9
    },
    {
      "epoch": 0.1797752808988764,
      "eval_loss": 11.927314758300781,
      "eval_runtime": 0.9797,
      "eval_samples_per_second": 95.952,
      "eval_steps_per_second": 24.498,
      "step": 10
    },
    {
      "epoch": 0.2157303370786517,
      "grad_norm": 0.22720609605312347,
      "learning_rate": 9.938441702975689e-05,
      "loss": 11.9266,
      "step": 12
    },
    {
      "epoch": 0.2696629213483146,
      "grad_norm": 0.28416040539741516,
      "learning_rate": 9.619397662556435e-05,
      "loss": 11.9244,
      "step": 15
    },
    {
      "epoch": 0.2696629213483146,
      "eval_loss": 11.922819137573242,
      "eval_runtime": 0.9826,
      "eval_samples_per_second": 95.669,
      "eval_steps_per_second": 24.426,
      "step": 15
    },
    {
      "epoch": 0.3235955056179775,
      "grad_norm": 0.3423050045967102,
      "learning_rate": 9.045084971874738e-05,
      "loss": 11.9214,
      "step": 18
    },
    {
      "epoch": 0.3595505617977528,
      "eval_loss": 11.91664981842041,
      "eval_runtime": 0.9795,
      "eval_samples_per_second": 95.969,
      "eval_steps_per_second": 24.503,
      "step": 20
    },
    {
      "epoch": 0.3775280898876405,
      "grad_norm": 0.42053401470184326,
      "learning_rate": 8.247240241650918e-05,
      "loss": 11.9182,
      "step": 21
    },
    {
      "epoch": 0.4314606741573034,
      "grad_norm": 0.44844770431518555,
      "learning_rate": 7.269952498697734e-05,
      "loss": 11.9144,
      "step": 24
    },
    {
      "epoch": 0.449438202247191,
      "eval_loss": 11.909857749938965,
      "eval_runtime": 0.9776,
      "eval_samples_per_second": 96.152,
      "eval_steps_per_second": 24.55,
      "step": 25
    },
    {
      "epoch": 0.4853932584269663,
      "grad_norm": 0.4792076349258423,
      "learning_rate": 6.167226819279528e-05,
      "loss": 11.9108,
      "step": 27
    },
    {
      "epoch": 0.5393258426966292,
      "grad_norm": 0.4625144898891449,
      "learning_rate": 5e-05,
      "loss": 11.9055,
      "step": 30
    },
    {
      "epoch": 0.5393258426966292,
      "eval_loss": 11.904311180114746,
      "eval_runtime": 0.9844,
      "eval_samples_per_second": 95.493,
      "eval_steps_per_second": 24.381,
      "step": 30
    },
    {
      "epoch": 0.5932584269662922,
      "grad_norm": 0.44238442182540894,
      "learning_rate": 3.832773180720475e-05,
      "loss": 11.904,
      "step": 33
    },
    {
      "epoch": 0.6292134831460674,
      "eval_loss": 11.900728225708008,
      "eval_runtime": 0.9786,
      "eval_samples_per_second": 96.054,
      "eval_steps_per_second": 24.524,
      "step": 35
    },
    {
      "epoch": 0.647191011235955,
      "grad_norm": 0.4191032648086548,
      "learning_rate": 2.7300475013022663e-05,
      "loss": 11.9021,
      "step": 36
    },
    {
      "epoch": 0.701123595505618,
      "grad_norm": 0.4025208055973053,
      "learning_rate": 1.7527597583490822e-05,
      "loss": 11.8995,
      "step": 39
    },
    {
      "epoch": 0.7191011235955056,
      "eval_loss": 11.898837089538574,
      "eval_runtime": 0.976,
      "eval_samples_per_second": 96.312,
      "eval_steps_per_second": 24.59,
      "step": 40
    },
    {
      "epoch": 0.755056179775281,
      "grad_norm": 0.3940165936946869,
      "learning_rate": 9.549150281252633e-06,
      "loss": 11.8986,
      "step": 42
    },
    {
      "epoch": 0.8089887640449438,
      "grad_norm": 0.35280826687812805,
      "learning_rate": 3.8060233744356633e-06,
      "loss": 11.899,
      "step": 45
    },
    {
      "epoch": 0.8089887640449438,
      "eval_loss": 11.898167610168457,
      "eval_runtime": 0.9809,
      "eval_samples_per_second": 95.827,
      "eval_steps_per_second": 24.466,
      "step": 45
    }
  ],
  "logging_steps": 3,
  "max_steps": 50,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 5,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 425438085120.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}