{ "best_metric": 1.4239133596420288, "best_model_checkpoint": "outputs/checkpoint-8", "epoch": 1.0, "eval_steps": 4, "global_step": 15, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.06666666666666667, "grad_norm": 1.1227505207061768, "learning_rate": 0.001, "loss": 3.6812, "step": 1 }, { "epoch": 0.13333333333333333, "grad_norm": 1.2501635551452637, "learning_rate": 0.001, "loss": 3.0809, "step": 2 }, { "epoch": 0.2, "grad_norm": 0.9228873252868652, "learning_rate": 0.001, "loss": 2.5032, "step": 3 }, { "epoch": 0.26666666666666666, "grad_norm": 1.0409141778945923, "learning_rate": 0.001, "loss": 2.1041, "step": 4 }, { "epoch": 0.26666666666666666, "eval_loss": 1.842176079750061, "eval_runtime": 3.2305, "eval_samples_per_second": 58.196, "eval_steps_per_second": 7.429, "step": 4 }, { "epoch": 0.3333333333333333, "grad_norm": 1.7889751195907593, "learning_rate": 0.001, "loss": 1.8189, "step": 5 }, { "epoch": 0.4, "grad_norm": 2.0816104412078857, "learning_rate": 0.001, "loss": 1.6582, "step": 6 }, { "epoch": 0.4666666666666667, "grad_norm": 0.7416048049926758, "learning_rate": 0.001, "loss": 1.554, "step": 7 }, { "epoch": 0.5333333333333333, "grad_norm": 0.5706599950790405, "learning_rate": 0.001, "loss": 1.4917, "step": 8 }, { "epoch": 0.5333333333333333, "eval_loss": 1.4239133596420288, "eval_runtime": 3.1127, "eval_samples_per_second": 60.398, "eval_steps_per_second": 7.71, "step": 8 }, { "epoch": 0.6, "grad_norm": 0.6470444798469543, "learning_rate": 0.001, "loss": 1.4349, "step": 9 }, { "epoch": 0.6666666666666666, "grad_norm": 2.1185781955718994, "learning_rate": 0.001, "loss": 1.4163, "step": 10 }, { "epoch": 0.7333333333333333, "grad_norm": 1.650919795036316, "learning_rate": 0.001, "loss": 1.4249, "step": 11 }, { "epoch": 0.8, "grad_norm": 44.28889846801758, "learning_rate": 0.001, "loss": 1.8339, "step": 12 }, { "epoch": 0.8, "eval_loss": 1.7882739305496216, "eval_runtime": 3.1477, "eval_samples_per_second": 59.726, "eval_steps_per_second": 7.625, "step": 12 }, { "epoch": 0.8666666666666667, "grad_norm": 35.822235107421875, "learning_rate": 0.001, "loss": 1.8034, "step": 13 }, { "epoch": 0.9333333333333333, "grad_norm": 2.1521713733673096, "learning_rate": 0.001, "loss": 1.4882, "step": 14 }, { "epoch": 1.0, "grad_norm": 0.3639942407608032, "learning_rate": 0.001, "loss": 1.4138, "step": 15 }, { "epoch": 1.0, "step": 15, "total_flos": 9175200243892224.0, "train_loss": 1.9138439575831094, "train_runtime": 134.7336, "train_samples_per_second": 13.909, "train_steps_per_second": 0.111 } ], "logging_steps": 1, "max_steps": 15, "num_input_tokens_seen": 0, "num_train_epochs": 1, "save_steps": 4, "stateful_callbacks": { "EarlyStoppingCallback": { "args": { "early_stopping_patience": 5, "early_stopping_threshold": 0.0 }, "attributes": { "early_stopping_patience_counter": 0 } }, "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 9175200243892224.0, "train_batch_size": 128, "trial_name": null, "trial_params": null }