{ "best_metric": 2.229457378387451, "best_model_checkpoint": "miner_id_24/checkpoint-50", "epoch": 0.01681944327642755, "eval_steps": 50, "global_step": 50, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.00033638886552855103, "grad_norm": 0.07795742154121399, "learning_rate": 3.3333333333333333e-06, "loss": 2.7769, "step": 1 }, { "epoch": 0.00033638886552855103, "eval_loss": 2.455552101135254, "eval_runtime": 133.5909, "eval_samples_per_second": 37.48, "eval_steps_per_second": 18.744, "step": 1 }, { "epoch": 0.0006727777310571021, "grad_norm": 0.091961570084095, "learning_rate": 6.666666666666667e-06, "loss": 2.615, "step": 2 }, { "epoch": 0.001009166596585653, "grad_norm": 0.09707869589328766, "learning_rate": 1e-05, "loss": 2.4234, "step": 3 }, { "epoch": 0.0013455554621142041, "grad_norm": 0.09777762740850449, "learning_rate": 1.3333333333333333e-05, "loss": 2.4821, "step": 4 }, { "epoch": 0.001681944327642755, "grad_norm": 0.16171760857105255, "learning_rate": 1.6666666666666667e-05, "loss": 2.4558, "step": 5 }, { "epoch": 0.002018333193171306, "grad_norm": 0.10559370368719101, "learning_rate": 2e-05, "loss": 2.4765, "step": 6 }, { "epoch": 0.002354722058699857, "grad_norm": 0.11369410157203674, "learning_rate": 2.3333333333333336e-05, "loss": 2.585, "step": 7 }, { "epoch": 0.0026911109242284082, "grad_norm": 0.1158774346113205, "learning_rate": 2.6666666666666667e-05, "loss": 2.4602, "step": 8 }, { "epoch": 0.003027499789756959, "grad_norm": 0.12309759110212326, "learning_rate": 3e-05, "loss": 2.4651, "step": 9 }, { "epoch": 0.00336388865528551, "grad_norm": 0.13319513201713562, "learning_rate": 3.3333333333333335e-05, "loss": 2.309, "step": 10 }, { "epoch": 0.0037002775208140612, "grad_norm": 0.12856201827526093, "learning_rate": 3.6666666666666666e-05, "loss": 2.4663, "step": 11 }, { "epoch": 0.004036666386342612, "grad_norm": 0.12185679376125336, "learning_rate": 4e-05, "loss": 2.4488, "step": 12 }, { "epoch": 0.004373055251871163, "grad_norm": 0.12302099913358688, "learning_rate": 4.3333333333333334e-05, "loss": 2.3317, "step": 13 }, { "epoch": 0.004709444117399714, "grad_norm": 0.1280185580253601, "learning_rate": 4.666666666666667e-05, "loss": 2.3823, "step": 14 }, { "epoch": 0.005045832982928265, "grad_norm": 0.13406257331371307, "learning_rate": 5e-05, "loss": 2.3536, "step": 15 }, { "epoch": 0.0053822218484568165, "grad_norm": 0.1333453357219696, "learning_rate": 5.333333333333333e-05, "loss": 2.4247, "step": 16 }, { "epoch": 0.005718610713985367, "grad_norm": 0.12794539332389832, "learning_rate": 5.666666666666667e-05, "loss": 2.4933, "step": 17 }, { "epoch": 0.006054999579513918, "grad_norm": 0.12640050053596497, "learning_rate": 6e-05, "loss": 2.4592, "step": 18 }, { "epoch": 0.0063913884450424695, "grad_norm": 0.1311822533607483, "learning_rate": 6.333333333333333e-05, "loss": 2.2846, "step": 19 }, { "epoch": 0.00672777731057102, "grad_norm": 0.13246804475784302, "learning_rate": 6.666666666666667e-05, "loss": 2.4061, "step": 20 }, { "epoch": 0.007064166176099571, "grad_norm": 0.15557919442653656, "learning_rate": 7e-05, "loss": 2.2899, "step": 21 }, { "epoch": 0.0074005550416281225, "grad_norm": 0.13837924599647522, "learning_rate": 7.333333333333333e-05, "loss": 2.5681, "step": 22 }, { "epoch": 0.007736943907156673, "grad_norm": 0.1440717875957489, "learning_rate": 7.666666666666667e-05, "loss": 2.3665, "step": 23 }, { "epoch": 0.008073332772685224, "grad_norm": 0.15145528316497803, "learning_rate": 8e-05, "loss": 2.2948, "step": 24 }, { "epoch": 0.008409721638213775, "grad_norm": 0.1539720594882965, "learning_rate": 8.333333333333334e-05, "loss": 2.3214, "step": 25 }, { "epoch": 0.008746110503742325, "grad_norm": 0.14122752845287323, "learning_rate": 8.666666666666667e-05, "loss": 2.2708, "step": 26 }, { "epoch": 0.009082499369270877, "grad_norm": 0.15089313685894012, "learning_rate": 9e-05, "loss": 2.3226, "step": 27 }, { "epoch": 0.009418888234799428, "grad_norm": 0.200881689786911, "learning_rate": 9.333333333333334e-05, "loss": 2.3429, "step": 28 }, { "epoch": 0.00975527710032798, "grad_norm": 0.1588452160358429, "learning_rate": 9.666666666666667e-05, "loss": 2.2316, "step": 29 }, { "epoch": 0.01009166596585653, "grad_norm": 0.18878738582134247, "learning_rate": 0.0001, "loss": 2.249, "step": 30 }, { "epoch": 0.010428054831385081, "grad_norm": 0.19466233253479004, "learning_rate": 9.999146252290264e-05, "loss": 2.2815, "step": 31 }, { "epoch": 0.010764443696913633, "grad_norm": 0.23344077169895172, "learning_rate": 9.996585300715116e-05, "loss": 2.2785, "step": 32 }, { "epoch": 0.011100832562442183, "grad_norm": 0.23798418045043945, "learning_rate": 9.99231801983717e-05, "loss": 2.0524, "step": 33 }, { "epoch": 0.011437221427970734, "grad_norm": 0.19358737766742706, "learning_rate": 9.986345866928941e-05, "loss": 2.0744, "step": 34 }, { "epoch": 0.011773610293499286, "grad_norm": 0.19671595096588135, "learning_rate": 9.978670881475172e-05, "loss": 2.1176, "step": 35 }, { "epoch": 0.012109999159027836, "grad_norm": 0.20317138731479645, "learning_rate": 9.96929568447637e-05, "loss": 2.2187, "step": 36 }, { "epoch": 0.012446388024556387, "grad_norm": 0.19243532419204712, "learning_rate": 9.958223477553714e-05, "loss": 1.9553, "step": 37 }, { "epoch": 0.012782776890084939, "grad_norm": 0.17963586747646332, "learning_rate": 9.94545804185573e-05, "loss": 2.0921, "step": 38 }, { "epoch": 0.013119165755613489, "grad_norm": 0.20728521049022675, "learning_rate": 9.931003736767013e-05, "loss": 2.3093, "step": 39 }, { "epoch": 0.01345555462114204, "grad_norm": 0.2048047035932541, "learning_rate": 9.91486549841951e-05, "loss": 2.2137, "step": 40 }, { "epoch": 0.013791943486670592, "grad_norm": 0.199965700507164, "learning_rate": 9.89704883800683e-05, "loss": 2.1698, "step": 41 }, { "epoch": 0.014128332352199142, "grad_norm": 0.2382458597421646, "learning_rate": 9.877559839902184e-05, "loss": 2.1951, "step": 42 }, { "epoch": 0.014464721217727693, "grad_norm": 0.19734260439872742, "learning_rate": 9.85640515958057e-05, "loss": 2.118, "step": 43 }, { "epoch": 0.014801110083256245, "grad_norm": 0.23887623846530914, "learning_rate": 9.833592021345937e-05, "loss": 2.133, "step": 44 }, { "epoch": 0.015137498948784795, "grad_norm": 0.21855773031711578, "learning_rate": 9.809128215864097e-05, "loss": 2.182, "step": 45 }, { "epoch": 0.015473887814313346, "grad_norm": 0.24946734309196472, "learning_rate": 9.783022097502204e-05, "loss": 2.2907, "step": 46 }, { "epoch": 0.015810276679841896, "grad_norm": 0.23966045677661896, "learning_rate": 9.755282581475769e-05, "loss": 2.1424, "step": 47 }, { "epoch": 0.016146665545370448, "grad_norm": 0.29373985528945923, "learning_rate": 9.725919140804099e-05, "loss": 2.2907, "step": 48 }, { "epoch": 0.016483054410899, "grad_norm": 0.2858251631259918, "learning_rate": 9.694941803075283e-05, "loss": 1.9196, "step": 49 }, { "epoch": 0.01681944327642755, "grad_norm": 0.44232481718063354, "learning_rate": 9.662361147021779e-05, "loss": 2.2586, "step": 50 }, { "epoch": 0.01681944327642755, "eval_loss": 2.229457378387451, "eval_runtime": 133.8125, "eval_samples_per_second": 37.418, "eval_steps_per_second": 18.713, "step": 50 } ], "logging_steps": 1, "max_steps": 200, "num_input_tokens_seen": 0, "num_train_epochs": 1, "save_steps": 50, "stateful_callbacks": { "EarlyStoppingCallback": { "args": { "early_stopping_patience": 5, "early_stopping_threshold": 0.0 }, "attributes": { "early_stopping_patience_counter": 0 } }, "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 3451611968962560.0, "train_batch_size": 8, "trial_name": null, "trial_params": null }