{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 9.393108848864527,
  "eval_steps": 500,
  "global_step": 10000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.16,
      "learning_rate": 4.47427293064877e-05,
      "loss": 0.9707,
      "step": 200
    },
    {
      "epoch": 0.31,
      "learning_rate": 8.94854586129754e-05,
      "loss": 0.8675,
      "step": 400
    },
    {
      "epoch": 0.39,
      "eval_loss": 0.8843975067138672,
      "eval_runtime": 442.5039,
      "eval_samples_per_second": 2.26,
      "eval_steps_per_second": 0.282,
      "step": 500
    },
    {
      "epoch": 0.47,
      "learning_rate": 9.81983042863872e-05,
      "loss": 0.869,
      "step": 600
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.584314649081489e-05,
      "loss": 0.8435,
      "step": 800
    },
    {
      "epoch": 1.1,
      "learning_rate": 9.348798869524259e-05,
      "loss": 0.8391,
      "step": 1000
    },
    {
      "epoch": 1.1,
      "eval_loss": 0.8687868118286133,
      "eval_runtime": 442.7965,
      "eval_samples_per_second": 2.258,
      "eval_steps_per_second": 0.282,
      "step": 1000
    },
    {
      "epoch": 1.25,
      "learning_rate": 9.113283089967028e-05,
      "loss": 0.8371,
      "step": 1200
    },
    {
      "epoch": 1.41,
      "learning_rate": 8.877767310409798e-05,
      "loss": 0.8392,
      "step": 1400
    },
    {
      "epoch": 1.49,
      "eval_loss": 0.8612309098243713,
      "eval_runtime": 442.6374,
      "eval_samples_per_second": 2.259,
      "eval_steps_per_second": 0.282,
      "step": 1500
    },
    {
      "epoch": 1.57,
      "learning_rate": 8.642251530852568e-05,
      "loss": 0.8183,
      "step": 1600
    },
    {
      "epoch": 2.03,
      "learning_rate": 8.406735751295337e-05,
      "loss": 0.8213,
      "step": 1800
    },
    {
      "epoch": 2.19,
      "learning_rate": 8.171219971738107e-05,
      "loss": 0.8163,
      "step": 2000
    },
    {
      "epoch": 2.19,
      "eval_loss": 0.8562428951263428,
      "eval_runtime": 442.5846,
      "eval_samples_per_second": 2.259,
      "eval_steps_per_second": 0.282,
      "step": 2000
    },
    {
      "epoch": 2.35,
      "learning_rate": 7.935704192180876e-05,
      "loss": 0.819,
      "step": 2200
    },
    {
      "epoch": 2.5,
      "learning_rate": 7.700188412623646e-05,
      "loss": 0.8174,
      "step": 2400
    },
    {
      "epoch": 2.58,
      "eval_loss": 0.8525461554527283,
      "eval_runtime": 442.6136,
      "eval_samples_per_second": 2.259,
      "eval_steps_per_second": 0.282,
      "step": 2500
    },
    {
      "epoch": 2.66,
      "learning_rate": 7.464672633066417e-05,
      "loss": 0.8,
      "step": 2600
    },
    {
      "epoch": 3.13,
      "learning_rate": 7.229156853509186e-05,
      "loss": 0.8046,
      "step": 2800
    },
    {
      "epoch": 3.29,
      "learning_rate": 6.993641073951955e-05,
      "loss": 0.8017,
      "step": 3000
    },
    {
      "epoch": 3.29,
      "eval_loss": 0.8500803112983704,
      "eval_runtime": 441.7181,
      "eval_samples_per_second": 2.264,
      "eval_steps_per_second": 0.283,
      "step": 3000
    },
    {
      "epoch": 3.44,
      "learning_rate": 6.758125294394724e-05,
      "loss": 0.8012,
      "step": 3200
    },
    {
      "epoch": 3.6,
      "learning_rate": 6.522609514837494e-05,
      "loss": 0.7871,
      "step": 3400
    },
    {
      "epoch": 3.68,
      "eval_loss": 0.8471158742904663,
      "eval_runtime": 442.6212,
      "eval_samples_per_second": 2.259,
      "eval_steps_per_second": 0.282,
      "step": 3500
    },
    {
      "epoch": 4.07,
      "learning_rate": 6.287093735280264e-05,
      "loss": 0.7904,
      "step": 3600
    },
    {
      "epoch": 4.23,
      "learning_rate": 6.051577955723033e-05,
      "loss": 0.7905,
      "step": 3800
    },
    {
      "epoch": 4.38,
      "learning_rate": 5.816062176165803e-05,
      "loss": 0.7922,
      "step": 4000
    },
    {
      "epoch": 4.38,
      "eval_loss": 0.8460286259651184,
      "eval_runtime": 442.9433,
      "eval_samples_per_second": 2.258,
      "eval_steps_per_second": 0.282,
      "step": 4000
    },
    {
      "epoch": 4.54,
      "learning_rate": 5.580546396608574e-05,
      "loss": 0.7803,
      "step": 4200
    },
    {
      "epoch": 5.01,
      "learning_rate": 5.345030617051343e-05,
      "loss": 0.7768,
      "step": 4400
    },
    {
      "epoch": 5.09,
      "eval_loss": 0.8444392085075378,
      "eval_runtime": 442.6584,
      "eval_samples_per_second": 2.259,
      "eval_steps_per_second": 0.282,
      "step": 4500
    },
    {
      "epoch": 5.16,
      "learning_rate": 5.109514837494113e-05,
      "loss": 0.7749,
      "step": 4600
    },
    {
      "epoch": 5.32,
      "learning_rate": 4.873999057936882e-05,
      "loss": 0.7816,
      "step": 4800
    },
    {
      "epoch": 5.48,
      "learning_rate": 4.6384832783796514e-05,
      "loss": 0.7783,
      "step": 5000
    },
    {
      "epoch": 5.48,
      "eval_loss": 0.8443465828895569,
      "eval_runtime": 442.6282,
      "eval_samples_per_second": 2.259,
      "eval_steps_per_second": 0.282,
      "step": 5000
    },
    {
      "epoch": 5.63,
      "learning_rate": 4.402967498822421e-05,
      "loss": 0.7628,
      "step": 5200
    },
    {
      "epoch": 6.1,
      "learning_rate": 4.1674517192651906e-05,
      "loss": 0.7704,
      "step": 5400
    },
    {
      "epoch": 6.18,
      "eval_loss": 0.8435388803482056,
      "eval_runtime": 441.9862,
      "eval_samples_per_second": 2.263,
      "eval_steps_per_second": 0.283,
      "step": 5500
    },
    {
      "epoch": 4.39,
      "learning_rate": 5.9104772895886576e-05,
      "loss": 0.7683,
      "step": 5600
    },
    {
      "epoch": 4.54,
      "learning_rate": 5.7456104195861845e-05,
      "loss": 0.7639,
      "step": 5800
    },
    {
      "epoch": 5.01,
      "learning_rate": 5.5807435495837115e-05,
      "loss": 0.7563,
      "step": 6000
    },
    {
      "epoch": 5.01,
      "eval_loss": 0.8438097238540649,
      "eval_runtime": 443.5275,
      "eval_samples_per_second": 2.255,
      "eval_steps_per_second": 0.282,
      "step": 6000
    },
    {
      "epoch": 5.17,
      "learning_rate": 5.4158766795812385e-05,
      "loss": 0.7678,
      "step": 6200
    },
    {
      "epoch": 5.32,
      "learning_rate": 5.2510098095787654e-05,
      "loss": 0.7622,
      "step": 6400
    },
    {
      "epoch": 5.4,
      "eval_loss": 0.8434909582138062,
      "eval_runtime": 442.3289,
      "eval_samples_per_second": 2.261,
      "eval_steps_per_second": 0.283,
      "step": 6500
    },
    {
      "epoch": 5.48,
      "learning_rate": 5.0861429395762924e-05,
      "loss": 0.7614,
      "step": 6600
    },
    {
      "epoch": 5.64,
      "learning_rate": 4.9212760695738194e-05,
      "loss": 0.7523,
      "step": 6800
    },
    {
      "epoch": 6.11,
      "learning_rate": 4.756409199571346e-05,
      "loss": 0.7543,
      "step": 7000
    },
    {
      "epoch": 6.11,
      "eval_loss": 0.8428276777267456,
      "eval_runtime": 441.0423,
      "eval_samples_per_second": 2.267,
      "eval_steps_per_second": 0.283,
      "step": 7000
    },
    {
      "epoch": 6.26,
      "learning_rate": 4.591542329568873e-05,
      "loss": 0.75,
      "step": 7200
    },
    {
      "epoch": 6.42,
      "learning_rate": 4.426675459566401e-05,
      "loss": 0.7558,
      "step": 7400
    },
    {
      "epoch": 6.5,
      "eval_loss": 0.8445137739181519,
      "eval_runtime": 443.1939,
      "eval_samples_per_second": 2.256,
      "eval_steps_per_second": 0.282,
      "step": 7500
    },
    {
      "epoch": 6.58,
      "learning_rate": 4.261808589563928e-05,
      "loss": 0.7397,
      "step": 7600
    },
    {
      "epoch": 7.05,
      "learning_rate": 4.096941719561455e-05,
      "loss": 0.7481,
      "step": 7800
    },
    {
      "epoch": 7.2,
      "learning_rate": 3.932074849558982e-05,
      "loss": 0.7489,
      "step": 8000
    },
    {
      "epoch": 7.2,
      "eval_loss": 0.8432251811027527,
      "eval_runtime": 443.2253,
      "eval_samples_per_second": 2.256,
      "eval_steps_per_second": 0.282,
      "step": 8000
    },
    {
      "epoch": 7.36,
      "learning_rate": 3.767207979556509e-05,
      "loss": 0.7443,
      "step": 8200
    },
    {
      "epoch": 7.52,
      "learning_rate": 3.602341109554036e-05,
      "loss": 0.7401,
      "step": 8400
    },
    {
      "epoch": 7.59,
      "eval_loss": 0.8452141284942627,
      "eval_runtime": 442.3668,
      "eval_samples_per_second": 2.261,
      "eval_steps_per_second": 0.283,
      "step": 8500
    },
    {
      "epoch": 7.67,
      "learning_rate": 3.437474239551563e-05,
      "loss": 0.7293,
      "step": 8600
    },
    {
      "epoch": 8.14,
      "learning_rate": 3.27260736954909e-05,
      "loss": 0.7377,
      "step": 8800
    },
    {
      "epoch": 8.3,
      "learning_rate": 3.107740499546617e-05,
      "loss": 0.7423,
      "step": 9000
    },
    {
      "epoch": 8.3,
      "eval_loss": 0.8452991843223572,
      "eval_runtime": 441.364,
      "eval_samples_per_second": 2.266,
      "eval_steps_per_second": 0.283,
      "step": 9000
    },
    {
      "epoch": 8.45,
      "learning_rate": 2.9428736295441433e-05,
      "loss": 0.7355,
      "step": 9200
    },
    {
      "epoch": 8.61,
      "learning_rate": 2.7780067595416703e-05,
      "loss": 0.7278,
      "step": 9400
    },
    {
      "epoch": 9.0,
      "eval_loss": 0.8456013798713684,
      "eval_runtime": 442.0654,
      "eval_samples_per_second": 2.262,
      "eval_steps_per_second": 0.283,
      "step": 9500
    },
    {
      "epoch": 9.08,
      "learning_rate": 2.6131398895391972e-05,
      "loss": 0.7284,
      "step": 9600
    },
    {
      "epoch": 9.24,
      "learning_rate": 2.4482730195367242e-05,
      "loss": 0.7292,
      "step": 9800
    },
    {
      "epoch": 9.39,
      "learning_rate": 2.283406149534251e-05,
      "loss": 0.733,
      "step": 10000
    },
    {
      "epoch": 9.39,
      "eval_loss": 0.8464317321777344,
      "eval_runtime": 440.6145,
      "eval_samples_per_second": 2.27,
      "eval_steps_per_second": 0.284,
      "step": 10000
    }
  ],
  "logging_steps": 200,
  "max_steps": 12770,
  "num_train_epochs": 10,
  "save_steps": 500,
  "total_flos": 1.2680360787726828e+19,
  "trial_name": null,
  "trial_params": null
}