File size: 3,219 Bytes

cd1ce5e
 
 
2d9e93d
cd1ce5e
2d9e93d
cd1ce5e
 
 
 
 
 
92dc59b
cd1ce5e
 
 
 
 
 
 
92dc59b
 
 
cd1ce5e
 
 
 
92dc59b
cd1ce5e
 
 
 
 
 
92dc59b
cd1ce5e
92dc59b
cd1ce5e
 
 
 
92dc59b
 
 
 
cd1ce5e
ceafa83
 
 
92dc59b
ceafa83
92dc59b
ceafa83
 
 
 
92dc59b
ceafa83
92dc59b
ceafa83
 
 
 
92dc59b
ceafa83
92dc59b
ceafa83
 
 
 
92dc59b
 
 
 
ceafa83
92dc59b
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2d9e93d
 
 
 
 
 
 
cd1ce5e
 
 
 
 
 
 
 
 
 
 
 
 
 
2d9e93d
cd1ce5e
 
 
 
2d9e93d
cd1ce5e

{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.00014832558950151478,
  "eval_steps": 3,
  "global_step": 10,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.4832558950151478e-05,
      "grad_norm": 1106.373779296875,
      "learning_rate": 2e-05,
      "loss": 95.6979,
      "step": 1
    },
    {
      "epoch": 1.4832558950151478e-05,
      "eval_loss": 23.534069061279297,
      "eval_runtime": 1949.8674,
      "eval_samples_per_second": 14.558,
      "eval_steps_per_second": 7.279,
      "step": 1
    },
    {
      "epoch": 2.9665117900302956e-05,
      "grad_norm": 1290.805908203125,
      "learning_rate": 4e-05,
      "loss": 96.301,
      "step": 2
    },
    {
      "epoch": 4.449767685045443e-05,
      "grad_norm": 1336.470458984375,
      "learning_rate": 6e-05,
      "loss": 94.7096,
      "step": 3
    },
    {
      "epoch": 4.449767685045443e-05,
      "eval_loss": 23.524295806884766,
      "eval_runtime": 1952.0732,
      "eval_samples_per_second": 14.542,
      "eval_steps_per_second": 7.271,
      "step": 3
    },
    {
      "epoch": 5.933023580060591e-05,
      "grad_norm": 1352.6219482421875,
      "learning_rate": 8e-05,
      "loss": 93.8438,
      "step": 4
    },
    {
      "epoch": 7.416279475075739e-05,
      "grad_norm": 1339.363037109375,
      "learning_rate": 0.0001,
      "loss": 95.0979,
      "step": 5
    },
    {
      "epoch": 8.899535370090886e-05,
      "grad_norm": 1209.0018310546875,
      "learning_rate": 0.00012,
      "loss": 94.5627,
      "step": 6
    },
    {
      "epoch": 8.899535370090886e-05,
      "eval_loss": 23.490365982055664,
      "eval_runtime": 1965.3434,
      "eval_samples_per_second": 14.444,
      "eval_steps_per_second": 7.222,
      "step": 6
    },
    {
      "epoch": 0.00010382791265106034,
      "grad_norm": 1945.038330078125,
      "learning_rate": 0.00014,
      "loss": 92.7226,
      "step": 7
    },
    {
      "epoch": 0.00011866047160121182,
      "grad_norm": 976.50830078125,
      "learning_rate": 0.00016,
      "loss": 92.8456,
      "step": 8
    },
    {
      "epoch": 0.0001334930305513633,
      "grad_norm": 1855.9024658203125,
      "learning_rate": 0.00018,
      "loss": 94.9168,
      "step": 9
    },
    {
      "epoch": 0.0001334930305513633,
      "eval_loss": 23.42270278930664,
      "eval_runtime": 1955.5745,
      "eval_samples_per_second": 14.516,
      "eval_steps_per_second": 7.258,
      "step": 9
    },
    {
      "epoch": 0.00014832558950151478,
      "grad_norm": 1729.698974609375,
      "learning_rate": 0.0002,
      "loss": 94.6717,
      "step": 10
    }
  ],
  "logging_steps": 1,
  "max_steps": 10,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 3,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 89372900720640.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}