File size: 3,057 Bytes

cd1ce5e
 
 
92dc59b
cd1ce5e
92dc59b
cd1ce5e
 
 
 
 
 
92dc59b
cd1ce5e
 
 
 
 
 
 
92dc59b
 
 
cd1ce5e
 
 
 
92dc59b
cd1ce5e
 
 
 
 
 
92dc59b
cd1ce5e
92dc59b
cd1ce5e
 
 
 
92dc59b
 
 
 
cd1ce5e
ceafa83
 
 
92dc59b
ceafa83
92dc59b
ceafa83
 
 
 
92dc59b
ceafa83
92dc59b
ceafa83
 
 
 
92dc59b
ceafa83
92dc59b
ceafa83
 
 
 
92dc59b
 
 
 
ceafa83
92dc59b
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
cd1ce5e
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
92dc59b
cd1ce5e

{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.0001334930305513633,
  "eval_steps": 3,
  "global_step": 9,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.4832558950151478e-05,
      "grad_norm": 1106.373779296875,
      "learning_rate": 2e-05,
      "loss": 95.6979,
      "step": 1
    },
    {
      "epoch": 1.4832558950151478e-05,
      "eval_loss": 23.534069061279297,
      "eval_runtime": 1949.8674,
      "eval_samples_per_second": 14.558,
      "eval_steps_per_second": 7.279,
      "step": 1
    },
    {
      "epoch": 2.9665117900302956e-05,
      "grad_norm": 1290.805908203125,
      "learning_rate": 4e-05,
      "loss": 96.301,
      "step": 2
    },
    {
      "epoch": 4.449767685045443e-05,
      "grad_norm": 1336.470458984375,
      "learning_rate": 6e-05,
      "loss": 94.7096,
      "step": 3
    },
    {
      "epoch": 4.449767685045443e-05,
      "eval_loss": 23.524295806884766,
      "eval_runtime": 1952.0732,
      "eval_samples_per_second": 14.542,
      "eval_steps_per_second": 7.271,
      "step": 3
    },
    {
      "epoch": 5.933023580060591e-05,
      "grad_norm": 1352.6219482421875,
      "learning_rate": 8e-05,
      "loss": 93.8438,
      "step": 4
    },
    {
      "epoch": 7.416279475075739e-05,
      "grad_norm": 1339.363037109375,
      "learning_rate": 0.0001,
      "loss": 95.0979,
      "step": 5
    },
    {
      "epoch": 8.899535370090886e-05,
      "grad_norm": 1209.0018310546875,
      "learning_rate": 0.00012,
      "loss": 94.5627,
      "step": 6
    },
    {
      "epoch": 8.899535370090886e-05,
      "eval_loss": 23.490365982055664,
      "eval_runtime": 1965.3434,
      "eval_samples_per_second": 14.444,
      "eval_steps_per_second": 7.222,
      "step": 6
    },
    {
      "epoch": 0.00010382791265106034,
      "grad_norm": 1945.038330078125,
      "learning_rate": 0.00014,
      "loss": 92.7226,
      "step": 7
    },
    {
      "epoch": 0.00011866047160121182,
      "grad_norm": 976.50830078125,
      "learning_rate": 0.00016,
      "loss": 92.8456,
      "step": 8
    },
    {
      "epoch": 0.0001334930305513633,
      "grad_norm": 1855.9024658203125,
      "learning_rate": 0.00018,
      "loss": 94.9168,
      "step": 9
    },
    {
      "epoch": 0.0001334930305513633,
      "eval_loss": 23.42270278930664,
      "eval_runtime": 1955.5745,
      "eval_samples_per_second": 14.516,
      "eval_steps_per_second": 7.258,
      "step": 9
    }
  ],
  "logging_steps": 1,
  "max_steps": 10,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 3,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 80435610648576.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}