{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.06521030322791001,
  "eval_steps": 9,
  "global_step": 100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0006521030322791001,
      "eval_loss": 1.4430840015411377,
      "eval_runtime": 35.4265,
      "eval_samples_per_second": 72.911,
      "eval_steps_per_second": 9.117,
      "step": 1
    },
    {
      "epoch": 0.0019563090968373,
      "grad_norm": 0.13245901465415955,
      "learning_rate": 1.5e-05,
      "loss": 1.3922,
      "step": 3
    },
    {
      "epoch": 0.0039126181936746,
      "grad_norm": 0.13980551064014435,
      "learning_rate": 3e-05,
      "loss": 1.35,
      "step": 6
    },
    {
      "epoch": 0.0058689272905119005,
      "grad_norm": 0.21757693588733673,
      "learning_rate": 4.5e-05,
      "loss": 1.4342,
      "step": 9
    },
    {
      "epoch": 0.0058689272905119005,
      "eval_loss": 1.4398877620697021,
      "eval_runtime": 35.4144,
      "eval_samples_per_second": 72.936,
      "eval_steps_per_second": 9.121,
      "step": 9
    },
    {
      "epoch": 0.0078252363873492,
      "grad_norm": 0.16242149472236633,
      "learning_rate": 4.993910125649561e-05,
      "loss": 1.3931,
      "step": 12
    },
    {
      "epoch": 0.0097815454841865,
      "grad_norm": 0.15830300748348236,
      "learning_rate": 4.962019382530521e-05,
      "loss": 1.367,
      "step": 15
    },
    {
      "epoch": 0.011737854581023801,
      "grad_norm": 0.16229018568992615,
      "learning_rate": 4.9031542398457974e-05,
      "loss": 1.4666,
      "step": 18
    },
    {
      "epoch": 0.011737854581023801,
      "eval_loss": 1.4245867729187012,
      "eval_runtime": 35.2817,
      "eval_samples_per_second": 73.211,
      "eval_steps_per_second": 9.155,
      "step": 18
    },
    {
      "epoch": 0.013694163677861103,
      "grad_norm": 0.14549140632152557,
      "learning_rate": 4.817959636416969e-05,
      "loss": 1.4435,
      "step": 21
    },
    {
      "epoch": 0.0156504727746984,
      "grad_norm": 0.12280628830194473,
      "learning_rate": 4.707368982147318e-05,
      "loss": 1.4289,
      "step": 24
    },
    {
      "epoch": 0.017606781871535703,
      "grad_norm": 0.1361985057592392,
      "learning_rate": 4.572593931387604e-05,
      "loss": 1.4174,
      "step": 27
    },
    {
      "epoch": 0.017606781871535703,
      "eval_loss": 1.4081462621688843,
      "eval_runtime": 35.2327,
      "eval_samples_per_second": 73.313,
      "eval_steps_per_second": 9.168,
      "step": 27
    },
    {
      "epoch": 0.019563090968373,
      "grad_norm": 0.1305856853723526,
      "learning_rate": 4.415111107797445e-05,
      "loss": 1.3956,
      "step": 30
    },
    {
      "epoch": 0.021519400065210303,
      "grad_norm": 0.13506704568862915,
      "learning_rate": 4.2366459261474933e-05,
      "loss": 1.4642,
      "step": 33
    },
    {
      "epoch": 0.023475709162047602,
      "grad_norm": 0.1571059674024582,
      "learning_rate": 4.039153688314145e-05,
      "loss": 1.4487,
      "step": 36
    },
    {
      "epoch": 0.023475709162047602,
      "eval_loss": 1.3942054510116577,
      "eval_runtime": 35.4024,
      "eval_samples_per_second": 72.961,
      "eval_steps_per_second": 9.124,
      "step": 36
    },
    {
      "epoch": 0.025432018258884904,
      "grad_norm": 0.12497388571500778,
      "learning_rate": 3.824798160583012e-05,
      "loss": 1.345,
      "step": 39
    },
    {
      "epoch": 0.027388327355722206,
      "grad_norm": 0.1353573054075241,
      "learning_rate": 3.5959278669726935e-05,
      "loss": 1.3613,
      "step": 42
    },
    {
      "epoch": 0.029344636452559504,
      "grad_norm": 0.11737760901451111,
      "learning_rate": 3.355050358314172e-05,
      "loss": 1.3878,
      "step": 45
    },
    {
      "epoch": 0.029344636452559504,
      "eval_loss": 1.383650302886963,
      "eval_runtime": 35.4483,
      "eval_samples_per_second": 72.867,
      "eval_steps_per_second": 9.112,
      "step": 45
    },
    {
      "epoch": 0.0313009455493968,
      "grad_norm": 0.11926010251045227,
      "learning_rate": 3.104804738999169e-05,
      "loss": 1.4205,
      "step": 48
    },
    {
      "epoch": 0.03325725464623411,
      "grad_norm": 0.1115192323923111,
      "learning_rate": 2.8479327524001636e-05,
      "loss": 1.3493,
      "step": 51
    },
    {
      "epoch": 0.035213563743071406,
      "grad_norm": 0.11480339616537094,
      "learning_rate": 2.587248741756253e-05,
      "loss": 1.3904,
      "step": 54
    },
    {
      "epoch": 0.035213563743071406,
      "eval_loss": 1.376178503036499,
      "eval_runtime": 35.4933,
      "eval_samples_per_second": 72.774,
      "eval_steps_per_second": 9.1,
      "step": 54
    },
    {
      "epoch": 0.037169872839908705,
      "grad_norm": 0.11822472512722015,
      "learning_rate": 2.3256088156396868e-05,
      "loss": 1.3313,
      "step": 57
    },
    {
      "epoch": 0.039126181936746,
      "grad_norm": 0.1461370587348938,
      "learning_rate": 2.0658795558326743e-05,
      "loss": 1.3558,
      "step": 60
    },
    {
      "epoch": 0.04108249103358331,
      "grad_norm": 0.13045533001422882,
      "learning_rate": 1.8109066104575023e-05,
      "loss": 1.2992,
      "step": 63
    },
    {
      "epoch": 0.04108249103358331,
      "eval_loss": 1.3712804317474365,
      "eval_runtime": 35.3891,
      "eval_samples_per_second": 72.989,
      "eval_steps_per_second": 9.127,
      "step": 63
    },
    {
      "epoch": 0.04303880013042061,
      "grad_norm": 0.13522818684577942,
      "learning_rate": 1.56348351646022e-05,
      "loss": 1.244,
      "step": 66
    },
    {
      "epoch": 0.044995109227257905,
      "grad_norm": 0.1401805877685547,
      "learning_rate": 1.3263210930352737e-05,
      "loss": 1.3158,
      "step": 69
    },
    {
      "epoch": 0.046951418324095204,
      "grad_norm": 0.16507139801979065,
      "learning_rate": 1.1020177413231334e-05,
      "loss": 1.3923,
      "step": 72
    },
    {
      "epoch": 0.046951418324095204,
      "eval_loss": 1.368349313735962,
      "eval_runtime": 35.4333,
      "eval_samples_per_second": 72.898,
      "eval_steps_per_second": 9.116,
      "step": 72
    },
    {
      "epoch": 0.04890772742093251,
      "grad_norm": 0.1617535650730133,
      "learning_rate": 8.930309757836517e-06,
      "loss": 1.4659,
      "step": 75
    },
    {
      "epoch": 0.05086403651776981,
      "grad_norm": 0.15123188495635986,
      "learning_rate": 7.016504991533726e-06,
      "loss": 1.4194,
      "step": 78
    },
    {
      "epoch": 0.052820345614607106,
      "grad_norm": 0.1255597174167633,
      "learning_rate": 5.299731159831953e-06,
      "loss": 1.3503,
      "step": 81
    },
    {
      "epoch": 0.052820345614607106,
      "eval_loss": 1.3665692806243896,
      "eval_runtime": 35.4134,
      "eval_samples_per_second": 72.938,
      "eval_steps_per_second": 9.121,
      "step": 81
    },
    {
      "epoch": 0.05477665471144441,
      "grad_norm": 0.1431252807378769,
      "learning_rate": 3.798797596089351e-06,
      "loss": 1.3153,
      "step": 84
    },
    {
      "epoch": 0.05673296380828171,
      "grad_norm": 0.1532163769006729,
      "learning_rate": 2.5301488425208296e-06,
      "loss": 1.3877,
      "step": 87
    },
    {
      "epoch": 0.05868927290511901,
      "grad_norm": 0.15569448471069336,
      "learning_rate": 1.5076844803522922e-06,
      "loss": 1.4249,
      "step": 90
    },
    {
      "epoch": 0.05868927290511901,
      "eval_loss": 1.3660001754760742,
      "eval_runtime": 35.493,
      "eval_samples_per_second": 72.775,
      "eval_steps_per_second": 9.1,
      "step": 90
    },
    {
      "epoch": 0.06064558200195631,
      "grad_norm": 0.1278517246246338,
      "learning_rate": 7.426068431000882e-07,
      "loss": 1.4409,
      "step": 93
    },
    {
      "epoch": 0.0626018910987936,
      "grad_norm": 0.10912717878818512,
      "learning_rate": 2.4329828146074095e-07,
      "loss": 1.331,
      "step": 96
    },
    {
      "epoch": 0.06455820019563091,
      "grad_norm": 0.143110990524292,
      "learning_rate": 1.522932452260595e-08,
      "loss": 1.3777,
      "step": 99
    },
    {
      "epoch": 0.06455820019563091,
      "eval_loss": 1.3658305406570435,
      "eval_runtime": 35.5981,
      "eval_samples_per_second": 72.56,
      "eval_steps_per_second": 9.074,
      "step": 99
    }
  ],
  "logging_steps": 3,
  "max_steps": 100,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 9,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 3352559257387008.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}